Delphi-PRAXiS

Delphi-PRAXiS (https://www.delphipraxis.net/forum.php)
-   Programmieren allgemein (https://www.delphipraxis.net/40-programmieren-allgemein/)
-   -   [PHP] Regulärer Ausdruck zum Filtern eines Hyperlinks (https://www.delphipraxis.net/84307-%5Bphp%5D-regulaerer-ausdruck-zum-filtern-eines-hyperlinks.html)

MathiasSimmack 15. Jan 2007 08:36


[PHP] Regulärer Ausdruck zum Filtern eines Hyperlinks
 
Hallo. Folgende Situation: ich habe einen Text mit Autoren- und URL-Infos, der wie folgt aussieht
Zitat:

Das aktuelle Thema ist %style% %version% von %author%
Ja, ist von K2, dem WordPress-Thema. Es gibt eine Funktion, die daraus den passenden Text macht, der dann im Footer angezeigt wird. Jetzt möchte ich aber den Hyperlink zum Stylesheet entfernen, wenn als URL "NA" (not available) angegeben wird. Da man den Text auch beliebig umstellen könnte, sind die einzigen Konstanten also das <a>-Tag samt Inhalt, und das "href"-Attribut.

Wie müsste der reguläre Ausdruck zum Filtern aussehen? :gruebel: Sicher irgendwie
Code:
/\<a ??? href=\"NA\" ???\>(.*?)\<\/a\>/
Den Inhalt des <a>-Tags habe ich als (.*?) angegeben, damit ich ihn später für die Konvertierung nutzen kann (aus dem Link soll ein simples <span>Inhalt</span> werden). Bessere Ideen sind gern willkommen.

Und die Fragezeichen sind mein eigentliches Problem. Sie stehen für die Leerzeichen oder anderen Attribute, die sich vor und/oder hinter dem "href"-Attribut befinden könnten. Hat da jemand eine Idee?

Meflin 15. Jan 2007 13:54

Re: [PHP] Regulärer Ausdruck zum Filtern eines Hyperlinks
 
Moin,

ich würde es so machen:
Code:
/<a [^>]*?href=["\'].*?["\'][^>]*?>(.*?)<\/a>/
edit: mit dem fixen NA dann so:
Code:
/<a [^>]*?href=["\']NA["\'][^>]*?>(.*?)<\/a>/

annonyme 15. Jan 2007 13:58

Re: [PHP] Regulärer Ausdruck zum Filtern eines Hyperlinks
 
Zitat:

Zitat von MathiasSimmack

Wie müsste der reguläre Ausdruck zum Filtern aussehen? :gruebel: Sicher irgendwie
Code:
/\<a ??? href=\"NA\" ???\>(.*?)\<\/a\>/
Den Inhalt des <a>-Tags habe ich als (.*?) angegeben, damit ich ihn später für die Konvertierung nutzen kann (aus dem Link soll ein simples <span>Inhalt</span> werden). Bessere Ideen sind gern willkommen.

Und die Fragezeichen sind mein eigentliches Problem. Sie stehen für die Leerzeichen oder anderen Attribute, die sich vor und/oder hinter dem "href"-Attribut befinden könnten. Hat da jemand eine Idee?

Code:
/\<a.+href=\"NA\".*\>(.*)\<\/a\>/Ui
wäre meine idee dazu.....

MathiasSimmack 16. Jan 2007 00:12

Re: [PHP] Regulärer Ausdruck zum Filtern eines Hyperlinks
 
Ich bin etwas verwirrt. Die Ausdrücke scheinen zu stimmen. Wenn ich einen Hyperlink als String fake, dann klappt es. Aber meine Vorgabe klappt irgendwie nicht? Was könnte die Ursache sein? Zeichensatz? Andere Probleme? Wenn ich mit "htmlspecialchars" den String im Browser anzeigen lasse, sehe ich nichts ungewöhnliches. :gruebel:

annonyme 16. Jan 2007 12:12

Re: [PHP] Regulärer Ausdruck zum Filtern eines Hyperlinks
 
Zitat:

Zitat von MathiasSimmack
Ich bin etwas verwirrt. Die Ausdrücke scheinen zu stimmen. Wenn ich einen Hyperlink als String fake, dann klappt es. Aber meine Vorgabe klappt irgendwie nicht? Was könnte die Ursache sein? Zeichensatz? Andere Probleme? Wenn ich mit "htmlspecialchars" den String im Browser anzeigen lasse, sehe ich nichts ungewöhnliches. :gruebel:

wie sieht der String, den du reintust, genau aus?

DP-Maintenance 16. Jan 2007 17:55

DP-Maintenance
 
Dieses Thema wurde von "r_kerber" von "Klatsch und Tratsch" nach "Internet / LAN / ASP.NET" verschoben.
Ich denke das ist dort besser aufgehoben.

DP-Maintenance 16. Jan 2007 18:05

DP-Maintenance
 
Dieses Thema wurde von "Christian Seehase" von "Internet / LAN / ASP.NET" nach "Programmieren allgemein" verschoben.
Kein Delphi-Thema

MathiasSimmack 17. Jan 2007 18:36

Re: [PHP] Regulärer Ausdruck zum Filtern eines Hyperlinks
 
Wie in der o.g. Vorlage. Die Platzhalter, etwa %author%, werden durch K2 durch die entsprechenden Angaben ersetzt. So wird bspw. ein
Zitat:

Das aktuelle Thema ist Mein Thema 1.0 von Mathias Simmack.
draus. Oder im HTML-Code wie erwartet:
Zitat:

Das aktuelle Thema ist Mein Thema 1.0 von Mathias Simmack.
Wie gesagt, nichts ungewöhnliches.

Meflin 17. Jan 2007 20:10

Re: [PHP] Regulärer Ausdruck zum Filtern eines Hyperlinks
 
Also wenn ich das teste funktioniert es mit meiner o.g. Expression. Ich tippe eher auf einen Fehler im System. Vielleicht sind die Links zu dem Zeitpunkt, zu dem du matchen willst noch garnicht generiert?
Oder ein Fehler im PHP-Code? Dass es an der Ausgabe an sich liegt kann ich mir kaum vorstellen...


MathiasSimmack 17. Jan 2007 20:38

Re: [PHP] Regulärer Ausdruck zum Filtern eines Hyperlinks
 
Da liegst du nicht falsch. Wie gesagt, mit einem Fake-String funktionierte es ja auch. Ich bin der Ursache auf die Spur gekommen. Ich hatte angenommen, K2 würde den String dynamisch erzeugen. Aber Nein, er wird in der Datenbank gespeichert und sieht im Dump so aus
Zitat:

'Das aktuelle Thema ist <a href=\\"NA\\" title=\\"Blablabla von Mathias Simmack\\">Blablabla 1.0</a> von <a href=\\"Homepage-URL\\">Mathias Simmack</a>.
'
War mein (Denk)Fehler, denn die Originalfunktion lautet einfach nur:
Code:
$style_info = get_option('k2styleinfo');
echo stripslashes($style_info);
Ich habe jetzt erst das "stripslashes" drüber gejagt und dann erfolgreich per "preg_replace" den, in dem Fall unerwünschten Hyperlink entfernt:
Code:
$style_info = get_option('k2styleinfo');
$style_info = stripslashes($style_info);

$pattern = '/<a [^>]*?href=["\']NA["\'][^>]*?>(.*?)<\/a>/';
$afterPattern = "<span style=\"font-weight:bold\">\\1</span>";
$style_info = preg_replace($pattern, $afterPattern, $style_info);

echo "$style_info";
Voilà, Problem gelöst.

Danke.

MathiasSimmack 28. Jan 2007 17:33

Re: [PHP] Regulärer Ausdruck zum Filtern eines Hyperlinks
 
Ähnliche Frage, darum möchte ich ungern einen neuen Beitrag schreiben. Wenn ich jetzt mehrere Links oder andere HTML-Elemente filtern möchte, dann klappt das wunderbar, solange sich die Elemente nicht wiederholen. Dieses Beispiel:
Code:
[url="bla"]Huhu[/url] <div>Was auch immer</div>
könnte ich quasi "zerlegen", wenn ich nach "a" und "div" filtere. Kommt am Schluss aber noch ein "a" dazu
Code:
[url="bla"]Huhu[/url] <div>Was auch immer</div> <a>ding</a>
dazu, dann findet mein Ausdruck leider nur noch den kompletten String vom ersten <a bis zum letzten a>. Kann ich das irgendwie vermeiden, so dass nur die einzelnen Elemente gefunden werden?

Ich habe vergessen zu erwähnen, dass die Elemente nach bestimmten Namen gefiltert werden. Eine allgemeine Anfrage, die nur nach der HTML-Syntax geht, reicht hier nicht.

Meflin 28. Jan 2007 17:41

Re: [PHP] Regulärer Ausdruck zum Filtern eines Hyperlinks
 
klar...
Code:
<[^>]*?>(.*?)<\/[^>].*?>
sollte alle elemente einzeln filtern... bei nested tags wird das ganze allerdings nicht mehr hinhauen, also sowas wie
Code:
<div><div></div></div>
aber das war ja nicht das problem oder?
alle links bekommst du mit
Code:
<a[^>]*?>(.*?)<\/a>
edit: ich verstehe dein edit nicht ganz :gruebel:


MathiasSimmack 28. Jan 2007 18:27

Re: [PHP] Regulärer Ausdruck zum Filtern eines Hyperlinks
 
Mein Edit bedeutet, dass ich eben nicht pauschal nach allen HTML-Tags suchen kann/will, sondern es werden nur bestimmte gebraucht. Der erste reguläre Ausdruck ist also nicht das, was ich suche.

Und ich habe im Moment das Problem mit "nested tags", auch wenn es nicht mal die selben sind. Wie gesagt:
Code:
<a>ding</a> <h1>dong</h1> <a>blupp</a>
findet bei mir momentan noch den kompletten String, weil er ja mit einem <a>-Tag anfängt und auch aufhört. Der reguläre Ausdruck soll also die drei einzelnen Elemente erkennen. Das ist mein Problem.

omata 28. Jan 2007 18:29

Re: [PHP] Regulärer Ausdruck zum Filtern eines Hyperlinks
 
Schalte mal über den Parameter U auf nicht gierig um.

Gruss
Thorsten

MathiasSimmack 28. Jan 2007 18:33

Re: [PHP] Regulärer Ausdruck zum Filtern eines Hyperlinks
 
Habe ich schon. Es spielt doch keine Rolle, dass es sich um "konvertierte" HTML-Tags handelt? Also die spitze Klammer < ist im Code &lt;. Ich meine, ob ich nun die spitze Klammer angebe oder den konvertierten String sollte doch unerheblich sein.

Meflin 28. Jan 2007 18:37

Re: [PHP] Regulärer Ausdruck zum Filtern eines Hyperlinks
 
Zitat:

Zitat von MathiasSimmack
Habe ich schon. Es spielt doch keine Rolle, dass es sich um "konvertierte" HTML-Tags handelt? Also die spitze Klammer < ist im Code &lt;. Ich meine, ob ich nun die spitze Klammer angebe oder den konvertierten String sollte doch unerheblich sein.

Also das was du immer so als Beispiel postest sind KEINE nested tags! damit sollte die RegEx die ich mit a als Beipsiel gepostet habe funktionieren, du musst dann nur eben das a mit h1, h2 h3 oder was für Tags du eben matchen willst, ersetzen!


MathiasSimmack 28. Jan 2007 18:37

Re: [PHP] Regulärer Ausdruck zum Filtern eines Hyperlinks
 
Mache ich es so, würde es gehen:
Code:
<a[^>]*?>(.[color=red][^<][/color]*[color=red][^<][/color]?)<\/a>
Ich möchte ja nicht, dass zwischen den Tags noch mal eine spitze Klammer aufgeht. Von daher dachte ich an obige Lösung. Gut so? Bessere Ideen?

omata 28. Jan 2007 18:41

Re: [PHP] Regulärer Ausdruck zum Filtern eines Hyperlinks
 
Hallo,

Code:
preg_match_all(
  '/<(.*)>(.*)<\/(.*)>/U',
  '<a>ding</a> <h1>dong</h1> <a>blupp</a>',
  $match
);
liefert bei mir folgendes...
Code:
Array
(
    [0] => Array
        (
            [0] => <a>ding</a>
            [1] => <h1>dong</h1>
            [2] => <a>blupp</a>
        )

    [1] => Array
        (
            [0] => a
            [1] => h1
            [2] => a
        )

    [2] => Array
        (
            [0] => ding
            [1] => dong
            [2] => blupp
        )

    [3] => Array
        (
            [0] => a
            [1] => h1
            [2] => a
        )

)

Gruss
Thorsten

MathiasSimmack 28. Jan 2007 20:01

Re: [PHP] Regulärer Ausdruck zum Filtern eines Hyperlinks
 
Hm, ich will nicht ausschließen, dass ich irgendwo einen Fehler gemacht habe. Ich stehe mit den regulären Ausdrücken ein wenig auf Kriegsfuß. :cry: Egal. Zurzeit ist mein WordPress-Plugin fertig. Ich denke zwar, dass es so was schon geben wird, aber ich wollte es mal selbst programmieren: eine Suchfunktion für fremde Seiten. :stupid: Ähnlich wie das [dp]-Suchtag, sozusagen. Bisher laufen <google>, <heise> und <wikipedia>. Die werden direkt im Texteditor eingegeben und müssen dann natürlich als &lt;google&gt; usw. geparst.

Ich werde morgen lokal (auf meinem Ubuntu) mal einen ausgedehnten Bug-Versuch starten und diverse Suchtags nacheinander auflisten und gucken, ob es irgendwann in irgendeiner Kombination ein Problem gibt. :lol:

MathiasSimmack 29. Jan 2007 19:23

Re: [PHP] Regulärer Ausdruck zum Filtern eines Hyperlinks
 
:lol: Ich hab's gewusst. In meiner Anfrage
Code:
"#&lt;".$searchEngines[$i]["name"]."(=(.*?))?&gt;(.*[^&lt;*]?)&lt;\/".$searchEngines[$i]["name"]."&gt;#Usi"
war noch ein Fehler. So klappten zwar die Einzelaufrufe à la
Code:
<heise>Vista</heise> <google>Delphi</google> <heise>Counterstrike</heise>
ohne Probleme, aber sobald ich die erweiterte Syntax nutzen wollte
Code:
<heise=MacOS>Vista</heise> <google>Test</google> <heise>WordPress</heise>
hat er die zwei <heise>-Tags zusammengefasst. Jetzt habe ich in der Anfrage das Fragezeichen weggelassen:
Code:
"#&lt;".$searchEngines[$i]["name"]."(=(.*[color=red][b][s]?[/s][/b][/color]))?&gt;(.*[^&lt;*]?)&lt;\/".$searchEngines[$i]["name"]."&gt;#Usi"
und siehe da, jetzt klappt es. :stupid: Augenscheinlich.

MathiasSimmack 26. Okt 2007 21:39

Re: [PHP] Regulärer Ausdruck zum Filtern eines Hyperlinks
 
Vorgeschichte: ich nutze ein kleines CSharp-Programm und erstelle damit aus der SQL-Datei meiner Datenbank eine angepasste Version (Umlaute werden konvertiert, Kommentare können ggf weggelassen werden, usw.). Jetzt stecken in der SQL-Textdatei noch meine Suchanfragen à la
Code:
&lt;google&gt;irgendwas&lt;/google&gt;
Wenn ich schon mal dabei bin, will ich die gleich mit umwandeln und die HTML-Zeichen &lt; und &gt; durch eckige Klammern ersetzen. Ich habe das Anfragemuster quasi 1:1 aus der PHP-Version übernommen:
Code:
string pattern = string.Format
  (@"&lt;((?<tag>{0})(=(.*))?)&gt;(.*[^&lt;*]?)&lt;\/(\k<tag>)&gt;", searchEngines);
searchEngines ist ein String "google|heise|heisenews|...|thumb". ?<tag> ist eine Gruppierung, die sicherstellen soll, das am Anfang der selbe Tag, etwa "google", steht wie am Schluss. Jetzt tritt das gleiche Problem wieder auf. Diese Tags
Code:
<google>bla</google> <heise>text</heise>
werden anstandslos gefunden. Kommt am Schluss aber noch ein Google dazu:
Code:
<google>bla</google> <heise>text</heise> <google>foo</google>
findet der String nur das erste und letzte "google" und nimmt alles dazwischen als Text. Wieso? :gruebel:


Bevor das Missverständnis kommt: ich habe der Einfachheit halber die spitzen Klammern genommen! In den beiden Beispielen am Schluss meine ich damit die HTML-Zeichen &lt; und &gt;, so wie in der Suchanfrage gezeigt.

Khabarakh 26. Okt 2007 22:51

Re: [PHP] Regulärer Ausdruck zum Filtern eines Hyperlinks
 
Hab mir nicht die ganzen Beiträge davor durchgelesen, eine vereinfachte Version deines Regexes läuft bei mir jedenfalls durch:
Code:
&lt;(?<tag>google)(=(.*))?&gt;(.*?)&lt;/(\k<tag>)&gt;
Das Problem war der greedy *-Operator zwischen den Tags ("(.*[^&lt;*]?").

MathiasSimmack 27. Okt 2007 07:45

Re: [PHP] Regulärer Ausdruck zum Filtern eines Hyperlinks
 
Das Ergebnis ändert sich bei mir nicht. Meine Suchtags im Blog arbeiten nach der Syntax
Code:
<suchmaschine>Suchbegriff(e)</suchmaschine>
<suchmaschine=Suchbegriff(e)>Text für Beitrag</suchmaschine>
Also im Prinzip wie das Suchtag in der DP. Hier mal einen kurzen Textauszug aus einem Beitrag. Damit es nicht so blöd aussieht, nehme ich wieder die spitzen Klammern:
Zitat:

<heisenews=90069>Google</heisenews> will mehr über seine Benutzer erfahren, <heisenews=90142>Microsoft</heisenews> ebenfalls ...
usw. Und das wird draus:
Zitat:

[heisenews=90069>Google</heisenews> will mehr über seine Benutzer erfahren, <heisenews=90142]Microsoft[/heisenews] ebenfalls ...
Die PHP-Version erkennt, dass es sich um zwei Suchtags handelt, die CSharp-Version nicht. :gruebel:




Edit: So geht es (?)
Code:
@"&lt;((?<tag>{0})(=(.*?))?)&gt;(.*?)&lt;\/(\k<tag>)&gt;"
Wieso auch immer. Ich bin gerade im Linux und klicke mich durch meine Beiträge durch. Aber der oben zitierte wird völlig korrekt angezeigt. Hm...

Khabarakh 27. Okt 2007 13:32

Re: [PHP] Regulärer Ausdruck zum Filtern eines Hyperlinks
 
Huppsala, hab es nur mit deinem Beispielproblem ohne Attribute getestet. Im Attributsteil ist ja noch einmal ein greedy Stern, der dann alles bis zum allerletzten ">blablabl</tag>" frisst. Also zwei *?:
Code:
&lt;(?<tag>suchmaschine)(=.*?)?&gt;(.*?)&lt;/(\k<tag>)&gt;
Matcht
Code:
&lt;suchmaschine&gt;Suchbegriff(e)&lt;/suchmaschine&gt;
&lt;suchmaschine=Suchbegriff(e)&gt;Text für Beitrag&lt;/suchmaschine&gt;
&lt;suchmaschine&gt;Suchbegriff(e)&lt;/suchmaschine&gt;
jedenfalls anstandslos. Und entspricht ja dann auch fast deiner Version ;) .


Alle Zeitangaben in WEZ +1. Es ist jetzt 05:31 Uhr.

Powered by vBulletin® Copyright ©2000 - 2025, Jelsoft Enterprises Ltd.
LinkBacks Enabled by vBSEO © 2011, Crawlability, Inc.
Delphi-PRAXiS (c) 2002 - 2023 by Daniel R. Wolf, 2024-2025 by Thomas Breitkreuz