Delphi-PRAXiS - Links verarbeiten

Seite 1 von 2

Delphi-PRAXiS (https://www.delphipraxis.net/forum.php)

- Netzwerke (https://www.delphipraxis.net/14-netzwerke/)

- - Links verarbeiten (https://www.delphipraxis.net/175089-links-verarbeiten.html)

Links verarbeiten

Hi Leute,

ich habe einen Downloader geschreiben, der Meta-Daten und Links aus einer HTMl zieht.
Nun habe ich ein paar Probleme mit meiner Link Verarbeitung. Diese erzeugt bei manchen Websites Fehler. Das Problem ist, dass ich auch die Links von dieser Website haben möchte. Das funktioniert eigentlich auch, nur es giebt spezielle Fälle.

Zum Beispiel:
<a href="http://www.test.de">Hier</a>
<a href="/index.html">Hier</a>
<a href="index.html">Hier</a>
<a href="mailto:bla@bla.bla">Hier</a>

Hat jemand eine Idee oder eine Prozedur, die möglichst alle potenziellen Fehler ausschließen und die Links mit den ,,Basedomain" erweitern kann, sodass ich die Datei mit der idhttp-Komponenten downloaden kann?

AW: Links verarbeiten

Mit einem Wort: Regex.
Es gibt auf einschlägigen Websites hunderte Expressions, die alle (vorhandenen) Infos aus Links extrahieren können.
Natürlich musst du die nicht vorhandenen Sachen, wie relative Pfade selbst auflösen. Ich glaube nicht, dass es da was fertiges gibt.
EDIT: Eventuell könntest du das Ergebnis ja für andere zur Verfügung stellen, wenn es fertig ist.

AW: Links verarbeiten

Schon mal ein wenig geluschert in fertigen Programmen?

http://4coder.org/delphi-source-code/924/

AW: Links verarbeiten

Zitat:

Zitat von WM_CLOSE (Beitrag 1216914)

Mit einem Wort: Regex.

Böse böse. :arrow:

http://www.codinghorror.com/blog/200...hulhu-way.html

HTML ist ausreichend komplex, dass es durch reguläre Ausdrücke nicht vollständig erfasst werden kann. Bei Delphi ist leider kein HTML-Parser dabei, aber es gibt sicher einige Klassen dafür.

AW: Links verarbeiten

Gut zugegeben, ich bin davon ausgegangen, dass die a Tags schon mittels eines XML-Parsers (oder anderem) extrahiert wurden und es nur noch um die URLs geht.
Interressant wird es sowieso erst, wenn man auf fehlerhaften HTML-Code trifft.

AW: Links verarbeiten

Zitat:

Zitat von WM_CLOSE (Beitrag 1216931)

Gut zugegeben, ich bin davon ausgegangen, dass [...] es nur noch um die URLs geht.

Würde ich auch fast vermuten.

Wenn man es richtig machen möchte, könnte man auch in die

HTML5-Dokumentation gucken. Oder in

das hier (was immer das auch ist) :mrgreen:

AW: Links verarbeiten

Zitat:

Zitat von mb1996 (Beitrag 1216909)

Hat jemand eine Idee oder eine Prozedur, die möglichst alle potenziellen Fehler ausschließen und die Links mit den ,,Basedomain" erweitern kann, sodass ich die Datei mit der idhttp-Komponenten downloaden kann?

Such den ersten : in der URL, sofern vorhanden, und guck ob der Text davor was anderes als http ist. Wenn ja, abbrechen.
Wenn kein http:// vorkommt und die URL mit einem / beginnt: Setze "http://domainname" vor die URL.
Wenn kein http:// vorkommt und die URL nicht mit einem / beginnt: Setze "http://domainname/verzeichnis der quellseite" vor die URL.

Ja, das sollte es eigentlich soweit sein. Es gibt aber noch (selten) das <base>-Tag. Dann müsstest du im zweiten Fall stattdessen die URL aus dem Base-Tag nehmen und im ersten Fall die Domain von der URL des Base-Tags.

AW: Links verarbeiten

Zitat:

Zitat von NamenLozer (Beitrag 1216937)

Zitat:

Zitat von mb1996 (Beitrag 1216909)

Ist nicht so einfach, da es in HTML auch die möglichkeit gibt, in vorigen Ordnerstrukturen zu suchen, also sowas wie:

"../../../"...

Und das ist selten leicht im Code zu filtern ;)

AW: Links verarbeiten

Zitat:

Zitat von lbccaleb (Beitrag 1217128)

Ist nicht so einfach, da es in HTML auch die möglichkeit gibt, in vorigen Ordnerstrukturen zu suchen, also sowas wie:

"../../../"...

Und das ist selten leicht im Code zu filtern ;)

Sollte eigentlich nichts machen:

http://www.delphipraxis.net/members/..

Wobei der Browser das anscheinend schon direkt auflöst...

Aber so einen Pfad clientseitig zu normalisieren ist auch nicht besonders schwierig. Hier mal auf die Schnelle gecodet:

Delphi-Quellcode:

			function NormalizePath(Path: string): string;

const

  PATH_DELIMITER = '/';

  PARENT_REFERENCE = PATH_DELIMITER + '..';

var

  ReferencePos: integer;

  ParentDirPos: integer;

  function FindParentReference: Boolean;

  begin

    ReferencePos := Pos(PARENT_REFERENCE, Path);

    Result := ReferencePos > 0;

  end;

  procedure FindParentDirStart;

  begin

    ParentDirPos := ReferencePos - 1;

    while (ParentDirPos > 0) and (Path[ParentDirPos] <> PATH_DELIMITER) do

      dec(ParentDirPos);

  end;

begin

  while FindParentReference do

  begin

    FindParentDirStart;

    Delete(Path,

      ParentDirPos + length(PATH_DELIMITER),

      ReferencePos - ParentDirPos + length(PARENT_REFERENCE)

    );

  end;

  Result := Path;

end;

Delphi-Quellcode:

			  writeln(NormalizePath('A/B/../C')); // -> A/C

  writeln(NormalizePath('A/../C')); // -> C

  writeln(NormalizePath('A/B/..')); // -> A/

  writeln(NormalizePath('A/B/../D/E/F/../../G')); // -> A/D/G

Was nicht behandelt wird, ist, wenn schon am Anfang des Pfads ".." steht bzw. auf eine höhere Ebene als die Wurzelebene verwiesen wird (z.B. "a/../.."), aber das sollte hier eigentlich eh nicht vorkommen, bzw. wenn dann ist es sowieso ein Fehler.

AW: Links verarbeiten

Wieso ein Fehler?
In HTML sind solche Pfad-Angaben "../../../irgendwas.png", Standard!

Seite 1 von 2