Delphi-PRAXiS

Delphi-PRAXiS (https://www.delphipraxis.net/forum.php)
-   Programmieren allgemein (https://www.delphipraxis.net/40-programmieren-allgemein/)
-   -   Regular Expression (https://www.delphipraxis.net/58897-regular-expression.html)

Rapthor 14. Dez 2005 12:20


Regular Expression
 
Hallo,

ich hoffe das passt hier irgendwie ....

Ich habe einen String, der den Quelltext einer HTML enthält und lasse eine Regular Expression darüber laufen, um mir alle Links herauszufiltern. Ich nutze folgende RegEx:

Delphi-Quellcode:
(?i)(?<=<a href=\")(?P<protokoll>(https?://|ftp://)?)(?<!javascript:;)(?P<adresse>.+?)(?=\")
Der erste Ausdruck in Klammern schaltet auf CASE-INSENSITIVE, so dass es egal ist, ob groß oder Kleinschreibung. Dann folgt eine LOOK BEHIND-Assertion, so dass nur Sachen gefunden werden, vor denen '<a href="' steht. Dann bastle ich eine Gruppe namens 'protokoll', die halt entweder 'http://' oder 'https://' oder 'ftp://' oder nichts enthält (bei relativen Pfaden, die ja kein Protokoll vorangestellt haben).

Das nun folgende Teil klappt nicht, so wie ich will:

Delphi-Quellcode:
(?<!javascript:;)
... das Ding soll '<a href="javascript:;">...' Links rausfiltern. Ich dachte ich benutze diese NEGATIVE LOOK BEHIND-Assertion. Aber es funzt nicht! javascript wird trotzdem aufgenommen.

Der Teil danach ((?P<adresse>.+?)(?=\")) bastelt wieder eine Gruppe namens 'adresse' und füllt sie mit dem Teil nach 'http://' usw. usf.! Aber zur Zeit sind eben noch diese javascript-Blöcke enthalten.

Weiß jemand von euch, wie ich die javascript-Geschichten rausfiltern kann?

DGL-luke 14. Dez 2005 15:05

Re: Regular Expression
 
sollte das evtl.

Delphi-Quellcode:
(?<!javascript:)
ohne den strichpunkt heissen? der kommt ja erst nach dem befehl :gruebel:

Rapthor 14. Dez 2005 17:36

Re: Regular Expression
 
Nein, daran lag's nicht.

faux 14. Dez 2005 17:42

Re: Regular Expression
 
Hallo!

Eine Frage mal am Rande: Um wleche Sprache gehts? PHP? JavaScript?!
btw: Sollte das ganze nicht in einen String gepackt werden?!

Grüße
Faux

Rapthor 14. Dez 2005 17:50

Re: Regular Expression
 
Also es geht bei mir speziell um die Sprache PYTHON, aber Regular Expressions funktionieren überall gleich (sollten sie zumindest). Um mal den PYTHON-Befehl zu zeigen:

re.finditer(r"(?i)(?<=<a href=\")(?P<protokoll>(https?://|ftp://)?)(?<!javascript:;)(?P<adresse>.+?)(?=\")",docume nt)

finditer ist halt eine Funktion, die einen RAW-String erhält und ein Dokument, das mit der im String definierten RegEx durchsucht werden soll.

Der RegEx enthält auch keinen Syntaxfehler. Den hätte mir das re-Modul schon gemeldet.


Alle Zeitangaben in WEZ +1. Es ist jetzt 00:10 Uhr.

Powered by vBulletin® Copyright ©2000 - 2024, Jelsoft Enterprises Ltd.
LinkBacks Enabled by vBSEO © 2011, Crawlability, Inc.
Delphi-PRAXiS (c) 2002 - 2023 by Daniel R. Wolf, 2024 by Thomas Breitkreuz