![]() |
Regex: Alle nicht übereinstimmenden Zeichen entfernen
Hallo!
Ich möchte aus einem Fließtext mit Satzbauzeichen etc. nur die reinen Worte, Zahlen und Leerzeichen extrahieren. Sämtliche Zeichen die da nicht reinfallen, sollen entfernt werden. Jetzt hab ich mir ein Regex gebastelt das zwar prinzipiell funktioniert, aber nur den String bis zum Auftauchen des ersten nicht-passenden Zeichens liefert. Also danach macht er nicht mehr weiter.
Delphi-Quellcode:
Grüße
Rx:= TPerlRegEx.Create;
try Rx.Subject:= S; Rx.RegEx:= '([a-zA-Z0-9äöüÄÖÜß ]+)?'; Rx.Match; S:= Rx.MatchedText; finally FreeAndNil(Rx); end; Cody |
AW: Regex: Alle nicht übereinstimmenden Zeichen entfernen
MatchAgain?
Delphi-Quellcode:
procedure TForm25.FormCreate(Sender: TObject);
const myStr: String = 'Hallo Welt. Ich denke, das Wetter ist heute 100 mal dööfer als gestern. So meine Meinung.'; var regEx: TPerlRegEx; begin regEx := TPerlRegEx.Create(); try regEx.Subject := myStr; regEx.RegEx := '([a-zA-Z0-9äöüÄÖÜß ]+)?'; regEx.Start := 0; while regex.MatchAgain() do edit1.text := edit1.text + regex.MatchedText; // Ergibt "Edit1Hallo Welt Ich denke das Wetter ist heute 100 mal dööfer als gestern So meine Meinung" finally regEx.Destroy(); end; end; |
AW: Regex: Alle nicht übereinstimmenden Zeichen entfernen
Ein RegReplace auf
Delphi-Quellcode:
und ersetzen durch
'[^a-zA-Z0-9äöüÄÖÜß ]+'
Delphi-Quellcode:
.
''
Delphi-Quellcode:
[^...]
^ = NICHT [edit] Bzw. auf
Delphi-Quellcode:
, falls die Klammer als Expression-Begrenzung dient und das ? ein Steuerbefehl ist.
'([^a-zA-Z0-9äöüÄÖÜß ]+)?'
Aber als Begrenzung würde ich keine Klammer verwenden, welche auch als Steuerzeichen im Regex vorkommen kann, da ich das sonst immer verwechlse. (persönloch hab ich mich an die # gewöhnt, also
Delphi-Quellcode:
)
'#[^a-zA-Z0-9äöüÄÖÜß ]+#?'
|
AW: Regex: Alle nicht übereinstimmenden Zeichen entfernen
Funktioniert beides! Insofern schon mal vielen Dank!
Da ergibt sich nur grad die nächste Frage: Kann man aus so einem Resultat (Wörter durch Leerzeichen getrennt) auch alle "Wörter" entfernen, die kürzer sind als n Zeichen? |
AW: Regex: Alle nicht übereinstimmenden Zeichen entfernen
![]() Ich fände es aber übersichtlicher, das im Nachhinein mit Programmcode zu filtern. Also bsp. die einzelnen Wörter in ein
Delphi-Quellcode:
zu packen und da noch einmal drüberzuwandern.
TStrings
Wer weiß was Furtbichler da wieder mit LINQ drauß zaubern würde :stupid: |
AW: Regex: Alle nicht übereinstimmenden Zeichen entfernen
Zitat:
![]() |
AW: Regex: Alle nicht übereinstimmenden Zeichen entfernen
Zitat:
Leider ist dieses TPredicate-Zeugs imho nicht sonderlich lesbar, schon bei kurzen Passagen wird einem schwindelig (Falls das wirklich dieses TPredicate-Zeugs ist. Soll ja neuerdings in Colorado ganz legal sein).
Delphi-Quellcode:
vs.
Result := List.Where(function(const aString: string): Boolean
begin Result := Pos('z', aString) > 0; end);
Code:
Delphi=Prosa. Hat auch was. ;-)
Result = list.where (s=>s.Contains('z'));
|
AW: Regex: Alle nicht übereinstimmenden Zeichen entfernen
Zitat:
![]()
Delphi-Quellcode:
sucht nach "Wörtern" mit 1 bis 3 Buchstaben. (allerdings kann direkt davor oder dahinter dennoch ein Buchstabe liegen)
'[a-zA-Z]{1,3}'
Und wenn man in diesen RegEx noch davor via Look-Ahead nach einem Leerzeichen oder dem Textanfang sucht und nach dem RegExt via Look-Behind nach einem Leerzeichen oder Textende, dann findet man alles, was maximal 3 Buchstaben lang ist, exklisive der Leerzeichen. (ohne die Look-Around würde man das inkl. der Leerzeichen finden) [edit] Nicht nach Leerzeichen suchen, sondern nach NICHT-Buchstaben, denn Statzzeichen un Co. gibt es ja auch noch. |
Alle Zeitangaben in WEZ +1. Es ist jetzt 04:37 Uhr. |
Powered by vBulletin® Copyright ©2000 - 2025, Jelsoft Enterprises Ltd.
LinkBacks Enabled by vBSEO © 2011, Crawlability, Inc.
Delphi-PRAXiS (c) 2002 - 2023 by Daniel R. Wolf, 2024-2025 by Thomas Breitkreuz