Delphi-PRAXiS - Einzelnen Beitrag anzeigen

Oh, da war ein Schreibfehler drinne, muss latürnich

Delphi-Quellcode:

			 // Tags brauchen wir nicht, ebensowenig wie Leerzeilen.

      for i := sl.Count - 1 downto 0 do begin

        if (Copy(sl[i],1,1) = '<')

        or (sl[i] = '') then sl.Delete(i);

      end;

heißen.

Alle Zeilen, die mit 'nem < beginnen, fliegen raus, ebenso alle Leerzeilen.

Endetags mussen hier nicht separat berücksichtigt werden, weil sie im XML, um das es hier geht, nicht vorkommen.

Wir haben hier immer mehr oder weniger viele öffnende Tags.
Dann den Inhalt.
Dann die entsprechende Anzahl schließender Tags.

Wenn nun vor die < und hinter die > jeweils ein Zeilenumbruch eingefügt wird, dann sind alle Tags separiert.

Sie und die ggfls. entstehenden Leerzeilen fliegen raus und übrig bleibt der Inhalt.

Natürlich ist das nicht auf beliebige XML-Dateien anwendbar, aber danach war auch nicht gefragt.

Das "Schöne" an dieser Vorgehensweise:

Sie funktioniert auch noch dann, wenn man fehlerhaftes XML bekommt, bei dem "richtige" Parser zu Recht streiken.

Mit dieser Vorgehensweise funktioniert seit Jahren meine Suchmaschine für HTML-Seiten. Es ist wurscht, ob die Seiten gültiges HTML enthalten und von Browsern/Parsern richtig oder näherungsweise interpretiert werden können.

Als Ergbenis erhalte ich immer ausschließlich den Text der Seiten und kann ihn, nach entsprechender Weiterverarbeitung, in den Suchindex eintragen.

Einzelnen Beitrag anzeigen

AW: XML parsen, aber wie