Einzelnen Beitrag anzeigen

Opa Knack

Registriert seit: 28. Dez 2004
Ort: Köln
166 Beiträge
 
#1

Metadaten aus Webdokument filtern

  Alt 26. Nov 2008, 16:01
Hallo,

weder Forum noch Google konnten mir bei dem Problem helfen:

Ich erstelle aktuell einen Webeditor. Hierbei sollen die Metadaten herausgefiltert werden. Soweit kein Problem, mit einem einfachen, selbstprogrammierten Parser ist das schnell erledigt, wobei sich das Problem ergibt, dass die Notation nicht immer gleich ist:

Delphi-Quellcode:
<meta name="x" content="x">

oder auch

<meta content="x" name="x">
Diese Daten sollen extrahiert und nach gesondert Bearbeitung wieder eingebunden werden können.

Wenn ich die Seite einlese, werden die Daten extrahiert und bis zum Schließen der Seite in eigenen Edits "aufbewahrt". Wenn nun in der Zwischenzeit direkt im Quelltext Änderungen vorgenommen wurden, stellt sich das Problem, dass der Originaltext, der ersetzt werden sollte, nicht mehr aufzufinden ist. Zwar ist es möglich, dazu ein Workaround zu schreiben, aber die Performance dürfte dabei ziemlich in den Keller gehen, da ja alle Variationen der Notation durchgegangen werden müßten.

Meine Hoffnung war, dass ich einen Parser finde, der direkt auf die Meta-Objekte zugreifen kann, wobei ich bei DOM bisher nicht weitergekommen bin. Kennt jemand einen solchen Parser bzw. hat hierzu schon einmal eine Lösung gefunden/erstellt?

Danke schonmal vorab
Opa
  Mit Zitat antworten Zitat