Einzelnen Beitrag anzeigen

frieder2008

Registriert seit: 28. Feb 2009
78 Beiträge
 
#1

IndexOf case sensitive / Performance verbessern

  Alt 7. Mär 2009, 13:20
Hallo Leute,

folgende zwei 'Probleme' habe ich, wo ich gerade hänge bzw. wo mein Delphi am Ende ist:

1) Ich vergleiche zwei Stringlisten (mit Tokens) miteinander und zähle die verschiedenen Tokens darin. Das mache ich bisher so (und klappt wunderbar):

Delphi-Quellcode:
      for iii:=0 to tokenlist.Count -1 do
        begin
          occurindex:= tokenlistges.indexof(tokenlist[iii]);
          if occurindex >=0 then
            tokenlistges.Objects[occurindex]:= TObject(Succ(Integer(tokenlistges.Objects[OccurIndex])))
            else tokenlistges.AddObject(tokenlist[iii],TObject(1));
        end;
Aber: Leider zählt mein Code so case insensitive, sprich "Das" und "das" werden zusammengenommen. Gibt es eine Möglichkeit, IndexOf case sensitive zu stellen (D5!)? - Oder hat jemand eine Idee, wie ich das alternativ umsetzen könnte? (Ich habe es mit einer verschachtelten Routine und CompareAnsiStr probiert, aber dann zählt er "Das" korrekt und "das" wird für jeden Fund in die Liste (tokenlistges) eingetragen, anstatt einen entsprechenden Eintrag zu hochzuzählen..)

2) Zweite Sache: Ich bastle gerade an einem Textanalyseprogramm mit verschiedenen Routinen. Funktionieren tut alles soweit, aber die Performance lässt vor allem bei großen Textmengen (>1 Mio Wortformen/Tokens) sehr zu wünschen übrig. Gibt es eine Möglichkeit, mit der ich die Performance verbessern kann, an einer der folgenden Stellen:

- Textfiles laden
- jedes Textfile für sich in eine Token-String-List konvertieren (Extractstrings..)
- Tokens des Textfile mit den Tokens weiterer Textfiles in einer Liste zählen
- Frequenzliste in Listview ausgeben

* Ich arbeite derzeit v.a. mit Stringslists; gibts da evtl. eine schnellere Lösung o.ä.?
* Oder ließen sich die Textfiles irgendwie vorverarbeiten/vorspeichern, so dass sie schneller gelesen werden können?
* Ein anderes Programm, das das schon kann, was ich gerade baue, arbeitet anscheinend viel mehr mit der Festplatte (zumindest zeigt das die Leuchte); bei mir tut sich im Vergleich dazu gar nix, aber es dauer gerade bei großen Textmengen ewig.. Ist es etwa schneller, mit der Platte anstatt mit dem Arbeitsspeicher zu schaffen?!? - Wenn ja, wie?

Danke für Eure Mühe und viele Grüße zum WE,
frieder
  Mit Zitat antworten Zitat