Delphi-PRAXiS
Seite 1 von 2  1 2      

Delphi-PRAXiS (https://www.delphipraxis.net/forum.php)
-   Netzwerke (https://www.delphipraxis.net/14-netzwerke/)
-   -   Links verarbeiten (https://www.delphipraxis.net/175089-links-verarbeiten.html)

mb1996 29. Mai 2013 19:46

Links verarbeiten
 
Hi Leute,

ich habe einen Downloader geschreiben, der Meta-Daten und Links aus einer HTMl zieht.
Nun habe ich ein paar Probleme mit meiner Link Verarbeitung. Diese erzeugt bei manchen Websites Fehler. Das Problem ist, dass ich auch die Links von dieser Website haben möchte. Das funktioniert eigentlich auch, nur es giebt spezielle Fälle.

Zum Beispiel:
<a href="http://www.test.de">Hier</a>
<a href="/index.html">Hier</a>
<a href="index.html">Hier</a>
<a href="mailto:bla@bla.bla">Hier</a>

Hat jemand eine Idee oder eine Prozedur, die möglichst alle potenziellen Fehler ausschließen und die Links mit den ,,Basedomain" erweitern kann, sodass ich die Datei mit der idhttp-Komponenten downloaden kann?

WM_CLOSE 29. Mai 2013 20:24

AW: Links verarbeiten
 
Mit einem Wort: Regex.
Es gibt auf einschlägigen Websites hunderte Expressions, die alle (vorhandenen) Infos aus Links extrahieren können.
Natürlich musst du die nicht vorhandenen Sachen, wie relative Pfade selbst auflösen. Ich glaube nicht, dass es da was fertiges gibt.
EDIT: Eventuell könntest du das Ergebnis ja für andere zur Verfügung stellen, wenn es fertig ist.

lbccaleb 29. Mai 2013 20:28

AW: Links verarbeiten
 
Schon mal ein wenig geluschert in fertigen Programmen?

http://4coder.org/delphi-source-code/924/

jfheins 29. Mai 2013 20:57

AW: Links verarbeiten
 
Zitat:

Zitat von WM_CLOSE (Beitrag 1216914)
Mit einem Wort: Regex.

Böse böse. :arrow: http://www.codinghorror.com/blog/200...hulhu-way.html

HTML ist ausreichend komplex, dass es durch reguläre Ausdrücke nicht vollständig erfasst werden kann. Bei Delphi ist leider kein HTML-Parser dabei, aber es gibt sicher einige Klassen dafür.

WM_CLOSE 29. Mai 2013 22:33

AW: Links verarbeiten
 
Gut zugegeben, ich bin davon ausgegangen, dass die a Tags schon mittels eines XML-Parsers (oder anderem) extrahiert wurden und es nur noch um die URLs geht.
Interressant wird es sowieso erst, wenn man auf fehlerhaften HTML-Code trifft.

BUG 29. Mai 2013 23:18

AW: Links verarbeiten
 
Zitat:

Zitat von WM_CLOSE (Beitrag 1216931)
Gut zugegeben, ich bin davon ausgegangen, dass [...] es nur noch um die URLs geht.

Würde ich auch fast vermuten.

Wenn man es richtig machen möchte, könnte man auch in die HTML5-Dokumentation gucken. Oder in das hier (was immer das auch ist) :mrgreen:

Namenloser 30. Mai 2013 02:39

AW: Links verarbeiten
 
Zitat:

Zitat von mb1996 (Beitrag 1216909)
Hat jemand eine Idee oder eine Prozedur, die möglichst alle potenziellen Fehler ausschließen und die Links mit den ,,Basedomain" erweitern kann, sodass ich die Datei mit der idhttp-Komponenten downloaden kann?

Such den ersten : in der URL, sofern vorhanden, und guck ob der Text davor was anderes als http ist. Wenn ja, abbrechen.
Wenn kein http:// vorkommt und die URL mit einem / beginnt: Setze "http://domainname" vor die URL.
Wenn kein http:// vorkommt und die URL nicht mit einem / beginnt: Setze "http://domainname/verzeichnis der quellseite" vor die URL.

Ja, das sollte es eigentlich soweit sein. Es gibt aber noch (selten) das <base>-Tag. Dann müsstest du im zweiten Fall stattdessen die URL aus dem Base-Tag nehmen und im ersten Fall die Domain von der URL des Base-Tags.

lbccaleb 31. Mai 2013 19:01

AW: Links verarbeiten
 
Zitat:

Zitat von NamenLozer (Beitrag 1216937)
Zitat:

Zitat von mb1996 (Beitrag 1216909)
Hat jemand eine Idee oder eine Prozedur, die möglichst alle potenziellen Fehler ausschließen und die Links mit den ,,Basedomain" erweitern kann, sodass ich die Datei mit der idhttp-Komponenten downloaden kann?

Such den ersten : in der URL, sofern vorhanden, und guck ob der Text davor was anderes als http ist. Wenn ja, abbrechen.
Wenn kein http:// vorkommt und die URL mit einem / beginnt: Setze "http://domainname" vor die URL.
Wenn kein http:// vorkommt und die URL nicht mit einem / beginnt: Setze "http://domainname/verzeichnis der quellseite" vor die URL.

Ja, das sollte es eigentlich soweit sein. Es gibt aber noch (selten) das <base>-Tag. Dann müsstest du im zweiten Fall stattdessen die URL aus dem Base-Tag nehmen und im ersten Fall die Domain von der URL des Base-Tags.

Ist nicht so einfach, da es in HTML auch die möglichkeit gibt, in vorigen Ordnerstrukturen zu suchen, also sowas wie:

"../../../"...

Und das ist selten leicht im Code zu filtern ;)

Namenloser 31. Mai 2013 23:18

AW: Links verarbeiten
 
Zitat:

Zitat von lbccaleb (Beitrag 1217128)
Ist nicht so einfach, da es in HTML auch die möglichkeit gibt, in vorigen Ordnerstrukturen zu suchen, also sowas wie:

"../../../"...

Und das ist selten leicht im Code zu filtern ;)

Sollte eigentlich nichts machen:

http://www.delphipraxis.net/members/..

Wobei der Browser das anscheinend schon direkt auflöst...

Aber so einen Pfad clientseitig zu normalisieren ist auch nicht besonders schwierig. Hier mal auf die Schnelle gecodet:
Delphi-Quellcode:
function NormalizePath(Path: string): string;
const
  PATH_DELIMITER = '/';
  PARENT_REFERENCE = PATH_DELIMITER + '..';
var
  ReferencePos: integer;
  ParentDirPos: integer;
  function FindParentReference: Boolean;
  begin
    ReferencePos := Pos(PARENT_REFERENCE, Path);
    Result := ReferencePos > 0;
  end;
  procedure FindParentDirStart;
  begin
    ParentDirPos := ReferencePos - 1;
    while (ParentDirPos > 0) and (Path[ParentDirPos] <> PATH_DELIMITER) do
      dec(ParentDirPos);
  end;
begin
  while FindParentReference do
  begin
    FindParentDirStart;
    Delete(Path,
      ParentDirPos + length(PATH_DELIMITER),
      ReferencePos - ParentDirPos + length(PARENT_REFERENCE)
    );
  end;
  Result := Path;
end;
Delphi-Quellcode:
  writeln(NormalizePath('A/B/../C')); // -> A/C
  writeln(NormalizePath('A/../C')); // -> C
  writeln(NormalizePath('A/B/..')); // -> A/
  writeln(NormalizePath('A/B/../D/E/F/../../G')); // -> A/D/G
Was nicht behandelt wird, ist, wenn schon am Anfang des Pfads ".." steht bzw. auf eine höhere Ebene als die Wurzelebene verwiesen wird (z.B. "a/../.."), aber das sollte hier eigentlich eh nicht vorkommen, bzw. wenn dann ist es sowieso ein Fehler.

lbccaleb 1. Jun 2013 00:13

AW: Links verarbeiten
 
Wieso ein Fehler?
In HTML sind solche Pfad-Angaben "../../../irgendwas.png", Standard!


Alle Zeitangaben in WEZ +1. Es ist jetzt 02:19 Uhr.
Seite 1 von 2  1 2      

Powered by vBulletin® Copyright ©2000 - 2024, Jelsoft Enterprises Ltd.
LinkBacks Enabled by vBSEO © 2011, Crawlability, Inc.
Delphi-PRAXiS (c) 2002 - 2023 by Daniel R. Wolf, 2024 by Thomas Breitkreuz