Delphi-PRAXiS

Delphi-PRAXiS (https://www.delphipraxis.net/forum.php)
-   Sonstige Fragen zu Delphi (https://www.delphipraxis.net/19-sonstige-fragen-zu-delphi/)
-   -   Delphi Regex: Alle nicht übereinstimmenden Zeichen entfernen (https://www.delphipraxis.net/179585-regex-alle-nicht-uebereinstimmenden-zeichen-entfernen.html)

Codehunter 18. Mär 2014 11:32

Regex: Alle nicht übereinstimmenden Zeichen entfernen
 
Hallo!

Ich möchte aus einem Fließtext mit Satzbauzeichen etc. nur die reinen Worte, Zahlen und Leerzeichen extrahieren. Sämtliche Zeichen die da nicht reinfallen, sollen entfernt werden. Jetzt hab ich mir ein Regex gebastelt das zwar prinzipiell funktioniert, aber nur den String bis zum Auftauchen des ersten nicht-passenden Zeichens liefert. Also danach macht er nicht mehr weiter.
Delphi-Quellcode:
  Rx:= TPerlRegEx.Create;
  try
    Rx.Subject:= S;
    Rx.RegEx:= '([a-zA-Z0-9äöüÄÖÜß ]+)?';
    Rx.Match;
    S:= Rx.MatchedText;
  finally
    FreeAndNil(Rx);
  end;
Grüße
Cody

Der schöne Günther 18. Mär 2014 12:22

AW: Regex: Alle nicht übereinstimmenden Zeichen entfernen
 
MatchAgain?

Delphi-Quellcode:
procedure TForm25.FormCreate(Sender: TObject);
const
   myStr: String = 'Hallo Welt. Ich denke, das Wetter ist heute 100 mal dööfer als gestern. So meine Meinung.';
var
   regEx: TPerlRegEx;
begin

   regEx := TPerlRegEx.Create();
   try

      regEx.Subject := myStr;
      regEx.RegEx := '([a-zA-Z0-9äöüÄÖÜß ]+)?';
      regEx.Start := 0;

      while regex.MatchAgain() do edit1.text := edit1.text + regex.MatchedText;

      // Ergibt "Edit1Hallo Welt Ich denke das Wetter ist heute 100 mal dööfer als gestern So meine Meinung"

   finally
      regEx.Destroy();
   end;

end;

himitsu 18. Mär 2014 12:27

AW: Regex: Alle nicht übereinstimmenden Zeichen entfernen
 
Ein RegReplace auf
Delphi-Quellcode:
'[^a-zA-Z0-9äöüÄÖÜß ]+'
und ersetzen durch
Delphi-Quellcode:
''
.

Delphi-Quellcode:
[^...]

^ = NICHT



[edit] Bzw. auf
Delphi-Quellcode:
'([^a-zA-Z0-9äöüÄÖÜß ]+)?'
, falls die Klammer als Expression-Begrenzung dient und das ? ein Steuerbefehl ist.
Aber als Begrenzung würde ich keine Klammer verwenden, welche auch als Steuerzeichen im Regex vorkommen kann, da ich das sonst immer verwechlse.
(persönloch hab ich mich an die # gewöhnt, also
Delphi-Quellcode:
'#[^a-zA-Z0-9äöüÄÖÜß ]+#?'
)

Codehunter 18. Mär 2014 12:56

AW: Regex: Alle nicht übereinstimmenden Zeichen entfernen
 
Funktioniert beides! Insofern schon mal vielen Dank!

Da ergibt sich nur grad die nächste Frage: Kann man aus so einem Resultat (Wörter durch Leerzeichen getrennt) auch alle "Wörter" entfernen, die kürzer sind als n Zeichen?

Der schöne Günther 18. Mär 2014 13:00

AW: Regex: Alle nicht übereinstimmenden Zeichen entfernen
 
http://de.wikipedia.org/wiki/Regul%C...ruck#Quantoren

Ich fände es aber übersichtlicher, das im Nachhinein mit Programmcode zu filtern. Also bsp. die einzelnen Wörter in ein
Delphi-Quellcode:
TStrings
zu packen und da noch einmal drüberzuwandern.

Wer weiß was Furtbichler da wieder mit LINQ drauß zaubern würde :stupid:

Sir Rufo 18. Mär 2014 13:45

AW: Regex: Alle nicht übereinstimmenden Zeichen entfernen
 
Zitat:

Zitat von Der schöne Günther (Beitrag 1252383)
Wer weiß was Furtbichler da wieder mit LINQ drauß zaubern würde :stupid:

Wofür LINQ, wir haben Delphi-Referenz durchsuchenSystem.SysUtils.TPredicate

Furtbichler 18. Mär 2014 13:59

AW: Regex: Alle nicht übereinstimmenden Zeichen entfernen
 
Zitat:

Zitat von Sir Rufo (Beitrag 1252386)
Zitat:

Zitat von Der schöne Günther (Beitrag 1252383)
Wer weiß was Furtbichler da wieder mit LINQ drauß zaubern würde :stupid:

Wofür LINQ, wir haben Delphi-Referenz durchsuchenSystem.SysUtils.TPredicate

Hat da wer meinen Namen gerufen? :mrgreen: Nö, Linq ist hier nicht passend, RegEx passt schon.
Leider ist dieses TPredicate-Zeugs imho nicht sonderlich lesbar, schon bei kurzen Passagen wird einem schwindelig (Falls das wirklich dieses TPredicate-Zeugs ist. Soll ja neuerdings in Colorado ganz legal sein).
Delphi-Quellcode:
  Result := List.Where(function(const aString: string): Boolean
                     begin
                       Result := Pos('z', aString) > 0;
                     end);
vs.
Code:
Result = list.where (s=>s.Contains('z'));
Delphi=Prosa. Hat auch was. ;-)

himitsu 18. Mär 2014 15:38

AW: Regex: Alle nicht übereinstimmenden Zeichen entfernen
 
Zitat:

Zitat von Codehunter (Beitrag 1252382)
Da ergibt sich nur grad die nächste Frage: Kann man aus so einem Resultat (Wörter durch Leerzeichen getrennt) auch alle "Wörter" entfernen, die kürzer sind als n Zeichen?

Look-Around (Look-Behind und Look-Ahead)
http://www.regular-expressions.info/lookaround.html


Delphi-Quellcode:
'[a-zA-Z]{1,3}'
sucht nach "Wörtern" mit 1 bis 3 Buchstaben. (allerdings kann direkt davor oder dahinter dennoch ein Buchstabe liegen)
Und wenn man in diesen RegEx noch davor via Look-Ahead nach einem Leerzeichen oder dem Textanfang sucht und nach dem RegExt via Look-Behind nach einem Leerzeichen oder Textende, dann findet man alles, was maximal 3 Buchstaben lang ist, exklisive der Leerzeichen.
(ohne die Look-Around würde man das inkl. der Leerzeichen finden)

[edit]
Nicht nach Leerzeichen suchen, sondern nach NICHT-Buchstaben, denn Statzzeichen un Co. gibt es ja auch noch.


Alle Zeitangaben in WEZ +1. Es ist jetzt 01:36 Uhr.

Powered by vBulletin® Copyright ©2000 - 2024, Jelsoft Enterprises Ltd.
LinkBacks Enabled by vBSEO © 2011, Crawlability, Inc.
Delphi-PRAXiS (c) 2002 - 2023 by Daniel R. Wolf, 2024 by Thomas Breitkreuz