Delphi-PRAXiS

Delphi-PRAXiS (https://www.delphipraxis.net/forum.php)
-   Programmieren allgemein (https://www.delphipraxis.net/40-programmieren-allgemein/)
-   -   Delphi equivalente Zeichen finden? (https://www.delphipraxis.net/154753-equivalente-zeichen-finden.html)

himitsu 23. Sep 2010 14:18

equivalente Zeichen finden?
 
Mahlzeit,

gibt es eigentlich irgendeine API, welche mir alle "ähnliche" Zeichen liefert?

Wenn ich z.B. ein "e" hab, dann möchte ich eine Liste von Zeichen bekommen, welche z.B. é, è und ê enthalten.


Ich werde auch gleich mal ausprobieren, ob man z.B. sowas wie MSDN-Library durchsuchenCompareString dazu bringen kann, solche Zeichen als "gleich" zu erkennen, allerdings müßte ich dann ja quasi alle 65-tausend Zeichen durchprobieren.

mkinzler 23. Sep 2010 14:21

AW: equivalente Zeichen finden?
 
Bei Strings wäre der Levensthein-Algo passend

himitsu 23. Sep 2010 16:33

AW: equivalente Zeichen finden?
 
Levenstein passt garnicht
Zitat:

minimale Anzahl von Einfüge-, Lösch- und Ersetz-Operationen
Beim "e" wäre der Levenstein-Wert für "é" genauso groß, wie beim "x".
Und zwar immer genau eine Ersetzung., außer beim "e" selber.

Wenn, dann wohl eher SoundEx, wobei das leider auch keine passenden Ergebnisse liefert, da dieses mein "D" wäre gleich "T". :cry:

Medium 23. Sep 2010 16:45

AW: equivalente Zeichen finden?
 
Phonetisch, oder optisch ähnlich? Es ginge sogar noch quasi semantisch ähnlich...

himitsu 23. Sep 2010 17:04

AW: equivalente Zeichen finden?
 
Ich hab erstmal einen Q&D-Weg über WideCharToMultiByte+MultiByteToWideChar gefunden. :oops:

Also es geht um die sogenannte "equivalence class" [=...=] der POSIX-RegEx.

Delphi-Quellcode:
'#[[=e=]]#i'
würde eEéÉèÈ... uws. finden.
Eine genaue Beschreibung was hierbei "gleich" ist, hab ich noch nicht entdeckt.
Aber ich vermute mal sehr stark, es geht um Zeichen, welche den selben "Stamm" besitzen.
"é" = "e" + "´"

Über WideCharToMultiByte würde ich jetzt erstmal die Basis bestimmen (durch Übersetzen nach ASCII) und dann alle Zeichen mit der selben Basis suchen.

shmia 23. Sep 2010 17:13

AW: equivalente Zeichen finden?
 
Zitat:

Zitat von himitsu (Beitrag 1051553)
Wenn, dann wohl eher SoundEx

SoundEx ist ein völlig kranker Algorithmus der ausserdem nur für die englische Sprache zugeschnitten ist.
SoundEx vergleicht nicht zwei Strings auf Ähnlichkeit, sondern erstellt für jedes Wort einen Hashwert mit 4 Zeichen.
Das führt dann zu gleichen Hashwerten für völlig unterschiedliche Wörter.
Die Amis hatten damit grosse Probleme bei der Suche nach Terroristen :wink:

p80286 23. Sep 2010 17:24

AW: equivalente Zeichen finden?
 
Was verstehst Du unter ähnlich?
bei eêé usw. liegt man mit ähnlich wohl ganz gut, da es sich hierbei "nur" um ein frisiertes e handelt. Aber wie sieht es z.B. mit Ungarisch aus?
Oder im Türkischen sind das i und das i ohne Punkt optisch zwar ähnlich aber genauso ähnlich wie D und T.
Und wenn wir uns schon auf das Glatteis der Umlaute und Sonderzeichen begeben, was ist mit Eszett und Beta? Oder ist oe das gleiche wie ö ? (Für Rheinländer und Niederländer auf keinen Fall)
Ohne einen sprachlichen und kulturellen Hintergrund können diese Annahmen gewaltig in die Irre führen.

Gruß
K-H


Alle Zeitangaben in WEZ +1. Es ist jetzt 02:53 Uhr.

Powered by vBulletin® Copyright ©2000 - 2024, Jelsoft Enterprises Ltd.
LinkBacks Enabled by vBSEO © 2011, Crawlability, Inc.
Delphi-PRAXiS (c) 2002 - 2023 by Daniel R. Wolf, 2024 by Thomas Breitkreuz