Delphi-PRAXiS - Delphi Meine Explode-Funktion optimieren

Delphi-PRAXiS

Delphi-PRAXiS (https://www.delphipraxis.net/forum.php)

- Object-Pascal / Delphi-Language (https://www.delphipraxis.net/32-object-pascal-delphi-language/)

- - Delphi Meine Explode-Funktion optimieren (https://www.delphipraxis.net/81789-meine-explode-funktion-optimieren.html)

TheMiller

3. Dez 2006 22:24

Meine Explode-Funktion optimieren

Hallo,

ich habe selbst eine Explode-Funktion geschrieben, bei der der Separator beliebig lang sein darf.
Nur ich weiß nicht, ob die so das non-plus-ultra ist, ob man sie so lassen kann, oder unbedingt überarbeiten muss.

Die aus der CodeLib kenne ich, aber ich brauche (wollte) meine eigene haben. Bitte um Tipps / Kritik. Danke!

Delphi-Quellcode:

			function TForm1.Explode(p, Separator: PChar): String;

var

  i, j, seplen, strlen: Integer;

  sl,sl2:TStringList;

begin

  sl:=TStringList.Create;

  sl2:=TStringList.Create;

  strlen:=Length(Edit1.Text)-1;

  SepLen:=Length(Separator)-1;

  sl2.Add(IntToStr(0));

  for i:=0 to strlen do

  begin

    if (p[i] = separator[0]) and (p[i+seplen] = separator[seplen]) then

    begin

      sl.add(IntToStr(i));

      sl2.add(IntToStr(i+seplen+1));

    end;

  end;

  for i:=0 to sl.Count-1 do

  begin

    for j:=StrToInt(sl2.Strings[i]) to StrToInt(sl.Strings[i])-1 do

    begin

      result:=result+p[j];

    end;

    result:=result+' ';

  end;

  for i:=strtoint(sl2.Strings[sl2.Count-1]) to strlen do

  begin

    result:=result+p[i];

  end;

  sl.Free;

  sl2.Free;

  result:=result;

end;

Danke nochmals!

MStoll

3. Dez 2006 22:41

Re: Meine Explode-Funktion optimieren

Hallo,

ich fasse mal grad ein paar Punkte zusammen, die mir aufgefallen sind:

1.

Delphi-Quellcode:

if (p[i] = separator[0]) and (p[i+seplen] = separator[seplen]) then

Du scheinst hier nur den Anfang und das Ende des Separators zu überprüfen.
Was passiert denn, wenn man "das wandern ist des müllers lust" an Hand von "des" "explodet"?
Du solltest deine PChars vll besser in Strings verwandeln und dann mittels Copy auf das Vorkommen des ganzen Separators prüfen.

2. Result := Result sollte überflüssig sein

3. Ist das überhaupt ne explode-Fkt? Normalerweise gibt die doch ein Array zurück, oder verwechsel ich da was?

Gruß
Michael

TheMiller

3. Dez 2006 22:45

Re: Meine Explode-Funktion optimieren

Ja, eigentlich ich das schon eine Explode-Funktion. Hatte nur Probleme damit, den ganzen Separator zu prüfen. Und da diese für mich ist und meine Separatoren immer so aussehen [...irgendwassinnvolles...], habe ich nur Anfang und Ende geprüft. Das Array bae ich zum Schluss ein.

Achso, wenn der Code so ok ist, dann kann ich ihn ja so lassen. Wenn er allerdings speicherfressend etc ist, überarbeite ich ihn gerne.

Ich würde aber gerne wissen, wie ich einen ganzen Separator prüfen kann.

alzaimar

4. Dez 2006 07:05

Re: Meine Explode-Funktion optimieren

Ich musste mal eine 20MB XNL-Datei schnell parsen, und da ist es ja ähnlich. Nach einigen Versuchen bin ich hier gelandet:

Delphi-Quellcode:

			Procedure Explode (Const aMessage, aSeparator : String; aItems : TStringList);

Var

  i,n,i0,k : Integer;

Begin

  k := Length (aSeparator);

  n := Length (aMessage);

  i0 := 1;

  i := 1;

  While i<= n do Begin

    If aMessage[i] = aSeparator[1] Then    // Das ist trifft nicht sehr oft zu und wenn, ist es zu 99% ein Treffer

      If Copy (aMessage,i,k) = aSeparator Then Begin                           // Separator ist an der Position #i

        aItems.Add (Copy (aMessage,i0, i-i0);                    // String zwischen i0 und i in die Items kopieren

        inc (i,n);                                                             // i hinter den Separator plazieren

        i0 := i;                                                            // Hier fängt auch das nächste Wort an

        Continue; 

      End;

    inc(i); 

  End

End;

Ungetestet, sollte aber in etwa funktionieren. Das Laufzeitverhalten ist grauenvoll, nämlich O(n*k), aber in Deinem Anwendungsfall ist es fast O(n), weil eben das erste Zeichen des Separators fast nie im Text vorkommt. Ich habe bei meinem Frickel-XML-Parser ja ähnliche Voraussetzungen und da war diese Variante schnell genug.

Wenn man es richtig anstellen möchte, würde ich einen schnellen String-Pos-Algorithmus verwenden. Der bricht ja ab, sobald ein Suchstring (der Separator) gefunden wurde. Hier greift man ein, speichert das Wort in den Items und sucht weiter.

Ich würde das mit einem DEA versuchen. Der Knuth-Morris-Pratt(KMP)-Algorithmus verwendet einen solchen DEA und ist recht einfach. Den könnte man etwas aufbohren, und als Explode umfunktionieren. Aber auch Boyer-Moore wäre ein guter Ausgangspunkt, BM verwendet Lookuplisten anstelle eines DEA. BM lohnt sich aber erst, wenn dein Separator immer gleich und verhältnismäßig lang ist (>ein paar Zeichen).

Beide Algorithmen dürfte es zuhauf auch in Delphi irgendwo geben, vielleicht bei FastCode.

SubData

4. Dez 2006 07:46

Re: Meine Explode-Funktion optimieren

Wäre es nicht sinnvoll die StringListe durch ein DynArray zu ersetzen?

Edit:

Delphi-Quellcode:

			function Explode(const Separator, Str: String; const Limit: Integer = 0): TStringDynArray;

var 

  SepLen: Integer; 

  F, P: PChar; 

  ALen, Index: Integer; 

begin 

  SetLength(Result, 0); 

  if (Str = '') or (Limit < 0) then Exit; 

  if Separator = '' then 

  begin 

    SetLength(Result, 1); 

    Result[0] := Str; 

    Exit; 

  end; 

  SepLen := Length(Separator); 

  ALen := Limit; 

  SetLength(Result, ALen); 

  Index := 0; 

  P := PChar(Str); 

  while P^ <> #0 do 

  begin 

    F := P; 

    P := AnsiStrPos(P, PChar(Separator)); 

    if (P = nil) or ((Limit > 0) and (Index = Limit - 1)) then P := StrEnd(F); 

    if Index >= ALen then 

    begin 

      Inc(ALen, 5); 

      SetLength(Result, ALen); 

    end; 

    SetString(Result[Index], F, P - F); 

    Inc(Index); 

    if P^ <> #0 then Inc(P, SepLen); 

  end; 

  if Index < ALen then SetLength(Result, Index);

end;

alzaimar

4. Dez 2006 07:50

Re: Meine Explode-Funktion optimieren

@SubData: Natürlich ist es marginal performanter, und Ich bezweifle, das das irgendetwas Messbares bringt.

[edit]Wie ich sehe, arbeitest Du einfach mit Pos. Das ist wesentlich langsamer als mein Ansatz.[/edit]

SubData

4. Dez 2006 07:53

Re: Meine Explode-Funktion optimieren

Die Funktion is nich von mir...
Und ja, da magst du gut recht haben...

marabu

4. Dez 2006 08:20

Re: Meine Explode-Funktion optimieren

Hi folks,

für Minimalisten reicht manchmal schon das hier:

Delphi-Quellcode:

			procedure Explode(const s, delimiter: String; items: TStrings);

begin

  items.CommaText := StringReplace(AnsiQuotedStr(s, '"'), delimiter, '","', [rfReplaceAll]);

end;

Freundliche Grüße vom marabu

TheMiller

4. Dez 2006 15:30

Re: Meine Explode-Funktion optimieren

Hallo,

@SubData: Die Funktion ist wohl aus der CodeLib. Wie ich im ersten Post gesagt habe, kenne ich sie, brauche aber meine eigene.

Kann ich also davon ausgehen, dass es auch eine recht gebräuchliche Funktion ist (von der Performance etc). Ein Nachteil ist leider, dass ich bis jetzt nur Anfang und Ende des Separators prüfe. Nur weiß ich nicht, wie ich den ganzen Separator prüfen kann. Daran bin ich immer und immer wieder gescheitert.

MStoll

4. Dez 2006 22:39

Re: Meine Explode-Funktion optimieren

@DJ-SPM: Deine explode-Fkt ist angenehm schnell (< 1 Sek für die angehängte Datei), hab ich grad mal getestet, im Gegensatz zu der aus der CodeLib (siehe unten)

[Off]
@SubData: Die Funktion aus der CodeLib braucht bei mir (2 Gigahertz) >4 Min um die angehängte Datei an Hand von #10 zu splitten. Ist das normal?
[/Off]

bernau

4. Dez 2006 22:46

Re: Meine Explode-Funktion optimieren

Zitat:

Zitat von marabu

für Minimalisten reicht manchmal schon das hier:

Hi Marabu,

der Ansatz ist ja klasse. Den merke ich mir. Manchmal kann das Leben so einfach sein;-)

Aber! Vorher sollte geprüft werden, ob nicht zufällig das Komma im Text vorhanden ist. Da hätte man ja sonst eine falsche Teilung.

Gerd

marabu

5. Dez 2006 06:08

Re: Meine Explode-Funktion optimieren

Hallo Gerd,

hat denn meine Funktion bei dir einen Fehler produziert, wenn Kommata Textbestandteil sind?

Freundliche Grüße

alzaimar

5. Dez 2006 06:39

Re: Meine Explode-Funktion optimieren

Zitat:

Zitat von DJ-SPM

... Ein Nachteil ist leider, dass ich bis jetzt nur Anfang und Ende des Separators prüfe. Nur weiß ich nicht, wie ich den ganzen Separator prüfen kann. Daran bin ich immer und immer wieder gescheitert.

Gefällt Dir mein Ansatz nicht? :gruebel: Vergleiche ihn doch mal von der Performance her mit Deinem.

bernau

5. Dez 2006 09:55

Re: Meine Explode-Funktion optimieren

Zitat:

Zitat von marabu

hat denn meine Funktion bei dir einen Fehler produziert, wenn Kommata Textbestandteil sind?

Oh Mann, wird Zeit für'n Urlaub. Habe den Code schnell überflogen und natürlich nicht getestet. Beim Überfliegen habe ich den Elementaren Befehl "AnsiQuotedStr" übesehen. (Und anscheinend noch ein paar Kleinigkeiten) :-)

Dein Code bringt tatsächlich in keiner Situation einen Fehler. Perfekt.

Gerd

SirThornberry

5. Dez 2006 10:32

Re: Meine Explode-Funktion optimieren

mir fällt auf dass, das Ergebnis mit
String = String + Irgendwas
in einer Schleife zusammengesetzt wird. Es ist bedeutend schneller die größe des benötigten Speichers einmal zu setzen und den Speicher in einem rutsch zu kopieren als in vielen kleinen happen.

alzaimar

5. Dez 2006 14:21

Re: Meine Explode-Funktion optimieren

Hier mal eine Version (eben schnell geschrieben), die auf einem stark vereinfachten String-Matching-Algorithmus von Boyer-Moore basiert. Anstatt die gefundene Position zurückzuliefern, wird der Text extrahiert und in eine TStringlist geschrieben

Delphi-Quellcode:

			Procedure AlzExplode(Const aText, aPattern: String; aItems: TStrings);

(*-----------------------------------------------------------------------------

 * Spaltet Textteile in aText, die durch aPattern getrennt sind auf, und 

 * füllt die einzelnen Texte in aItems.

 * <del>abc<del>xyz => ('abc','xyz')

 * Basiert auf der QuickSearch-Implementierung von 

 * Christian Charras und Thierry Lecroq, Université de Rouen, 

 * 76821 Mont-Saint-Aignan Cedex

 * Frankreich

 *)

Var

  i0, i, k, n, m: Cardinal;

  c: Char;

  Skip: Array[Char] Of Integer;

Begin

  aitems.clear;

  m := Length(aPattern);

  If m = 0 Then Exit;

// Sprungtabelle für nicht übereinstimmende Zeichen erstellen

  For c := Low(Char) To High(Char) Do

    Skip[c] := m + 1;

  For i := 1 To m Do

    Skip[aPattern[i]] := m - i + 1;

  i := 1;

  i0 := 1;

  n := Length(aText);

  k := n - m + 1;

  While i <= k Do Begin

    If (aPattern[1] = aText[i]) And (aPattern[m] = aText[i + m - 1]) Then // <<--- von DJ-SPM 

      If CompareMem(@aText[i], @aPattern[1], m) Then Begin

        aItems.Add(Copy(aText, i0, i - i0));

        inc(i, m);

        i0 := i;

        Continue;

      End;

    inc(i, Skip[aText[i + m]]);

  End;

  If i0 <= n Then

    aItems.Add(Copy(aText, i0, n - i0 + 1));

End;

Interessant ist, das hier nicht jedes Zeichen des Textes geprüft wird. Wenn man z.B. nach 'ABC' sucht, und der 3.Buchstabe ist kein 'C', kann man ja gleich um 3 Zeichen nach vorne gehen. Je länger der Suchtext ist, desto besser die Performance. Natürlich kann man ihn reinlegen (aPattern = 'aaaaaaaa').

Sicherlich gibt es noch bessere Algorithmen (Boyer-Moore, Raita, etc.) aber der o.g. ist schön kompakt und wirklich flott.

Die Abfrage nach dem ersten und letzten Buchstaben des Patterns, vor dem eigentlichen CompareMem, ist von DJ-SPM übernommen. Das scheint enorm viel zu bringen.

Diese Version ist nochmal 50% schneller als die von DJ-SPM. Allerdings hatte ich nicht seine Original-Version genommen (die ja nicht ganz korrekt ist), sondern noch ein 'CompareMem' eingebaut.

Wer hat Lust, hier weiter zu optimieren? Derzeit ist es ja schon eine echte Gemeinschaftsarbeit von DJ-SPM und den Franzosen (ok, ein wenig auch von mir). Das wäre dann die ultimative Explode-Funktion...

Kleiner Nachtrag: Die Version schlägt die CodeLib-Version um den Faktor 1,5-16. Die CodeLib-Version degeneriert zudem bei kurzen SuchStrings (Delimiter bzw. Pattern).

Alle Zeitangaben in WEZ +1. Es ist jetzt 06:05 Uhr.

Powered by vBulletin® Copyright ©2000 - 2025, Jelsoft Enterprises Ltd.
LinkBacks Enabled by vBSEO © 2011, Crawlability, Inc.
Delphi-PRAXiS (c) 2002 - 2023 by Daniel R. Wolf, 2024-2025 by Thomas Breitkreuz