![]() |
Datenbank: firebird • Version: 2.0 • Zugriff über: ibx, ibexpert
fuzzy matches via sql
hallo
ich habe eine frage, stellt euch folgende sql-abfrage vor:
SQL-Code:
angenommen, die ergebnismenge ist leer; kann ich meine select-abfrage irgendwie abändern, so dass ich trotzdem noch wenigsten denjenigen datensatz zurückbekomme, dessen feld-wert von allen am nächsten an x dran ist?
select * from tabelle where feld = x
danke, martin |
Re: fuzzy matches via sql
Zitat:
SQL-Code:
select * from tabelle where feld LIKE x
|
Re: fuzzy matches via sql
klingt naheliegend nur leider bekomm ich da die gleiche ergebnismenge zurück wie bei '='; also leer wenn es keinen datensatz mit GENAU dem wert gibt :-(
|
Re: fuzzy matches via sql
wenn es sich um einen Strinwert handelt kannst Du auch mit Wildcards arbeiten.
select * from tabelle where feld LIKE %x% Grüße Klaus |
Re: fuzzy matches via sql
Hallo Martin,
das ist ein Standardproblem und es wird so gelöst:
SQL-Code:
Grüße vom marabu
/* predecessor when missing */
select * from tabelle where feld <= :x order by feld desc rows 1 /* successor when missing */ select * from tabelle where feld >= :x order by feld rows 1 |
Re: fuzzy matches via sql
Hmmm,
das is aber nicht ganz das Gleiche, weil ich da vorher wissen muss, ob ich den Vorgänger oder den Nachfolger will. Ich will aber genau denjenigen Eintrag, der am geringsten von Beiden von meinem gewünschten String entfernt ist. Wenn es irgendwie 'ne Möglichkeit gäbe, in SQL nach der Differenz zwischen zwei Strings zu fragen, dann müsstes irgendwie gehen... |
Re: fuzzy matches via sql
Dein Problem kannst du möglicherweise in einer SP in Verbindung mit einer SoundEx-Funktion lösen. In der SP interierst du über alle Datensätze und vergleichst den Suchstring mit dem Werten und merkst dir den Datensatz mit der höchsten Ähnlichkeit. Diesen gibst du dann zurück.
|
Re: fuzzy matches via sql
hier ist mal ein Lin, wo über soundex diskutiert wurde
-> ![]() Ist nicht sehr erbaulich was dabei herauskam. Grüße Klaus |
Re: fuzzy matches via sql
Zitat:
Wär's nicht besser einfach nur zu schauen, OB der Datensatz da ist und wenn er NICHT da ist einfach mit Vorgänger und Nachfolger zu vergleichen und dann den mit der geringsten Differenz zurückzugeben? Das Problem ist nur, dass ich nicht genau weiß wie ich das ausdrücken muss ich meine wie ich so eine Stored Procedure definiere, krieg ich ja vielleicht noch raus, aber wie berechne ich die Differenz zwischen zwei Strings? Oder besser: wie bestimme ich, welcher von Zwei Strings x und y dem String z am ähnlichsten ist?? Zitat:
|
Re: fuzzy matches via sql
Hallo Martin,
Zitat:
![]() marabu |
Re: fuzzy matches via sql
Beispiel einer einfachen Levenstein-Funktion:
Delphi-Quellcode:
Wenn du diese Funktion in eine UDF verpackst, kannst du diese in einer SP verwenden.
function LevenshteinDistance( s: string; t: string): Integer;
var i, j, cost, h: Integer; d: array[0..255, 0..255] of integer; n,m: integer; begin n := Length(s); m := Length(t); for i := 0 to n do d[i,0] := i; for j := 0 to m do d[0,j] := j; for i := 1 to n do for j := 1 to m do begin if s[i] = t[j] then cost := 0 else cost := 1; h := min(d[i-1,j ] + 1, // Einfügen d[i, j-1] + 1); // Löschen d[i,j] := min( h, d[i-1,j-1] + cost); // Ersetzen end; result := d[n,m]; end; |
Re: fuzzy matches via sql
SQL-Code:
Bye
Select Top 1 Abs( feld - x ) As Sort, * From tabelle
Order By Sort Edit funzt zumindest solange x eine Zahl ist :wink: |
Re: fuzzy matches via sql
Zitat:
Am elegantesten wärs natürlich wenn ich das Ganze jetz als stored procedure implementiere geht das? keine angst, versuch das dann selbst irgendwie zu bauen; nur mal so ne frage ob's möglich ist, (feld-)variablen in einer sp zu deklarieren... Zitat:
|
Re: fuzzy matches via sql
Liste der Anhänge anzeigen (Anzahl: 1)
Ich habe hier mal zum Test, die UDF und eine SP erzeugt. Ich hoffe es hilft dir.
|
Re: fuzzy matches via sql
cool danke,
voll nett versuch das abend gleich mal zu installieren evtl muss ich nochmal nerven :stupid: |
Re: fuzzy matches via sql
Ich habe die UDF um einen Parameter erweitert und die SP angepasst.
Die UDF hat unterschiedliche Längen der beiden Strings berücksichtigt. Das in diesem Fall zu falschen Ergebnissen führen kann. z.B. Daten Tabelle: ID TEXT ... 10 Gemüse 11 Z Suchtext: gem Es wird der Datensatz 11 zurückgeliefert da zur Umformung hier weniger Schritte notig sind als beim Datensatz 10. Es gibt nun einen weiteren Parameter in dem den Umgang der Längen steuern kann 0: Wie bisher 1: Länge erster String ( 2. String wird ggf mit Leerzeichen aufgefüllt) 2: Länge zweiter String ( 1. String wird ggf mit Leerzeichen aufgefüllt) 3: es wird die Länge des kürzesten Strings verwendet. Ich habe das Originalarchiv ersetzt. |
Re: fuzzy matches via sql
Naja, das ist halt Levenshtein :wink:
Für das Problem kann man verschiedene Kosten implementieren, wass schlußendlich noch Levenshtein ist im gegensatz zu dem was du da mit dem Auffüllen machst :roll: ![]() Zudem is deine Levenshtein Funktion ein wenig naja, wenn die Zeichenketten mit mehr als 255 Zeichen bekommt, knallts... Besser wer sicher ein dynamisches Array... :) Bye Keda |
Re: fuzzy matches via sql
Das ganze war auch nicht als Universal-Lösung gedacht, sondern als Beispiel wie man das lösen könnte.
|
Re: fuzzy matches via sql
In Anlehnung an die Bemerkung von [user="Kedariodakon"] habe ich meine unvollständige, fehlerhaftes Test-UDF/SP nochmal überarbeitet. Auch dieses ist gewiss unvollständig und zerstörrt möglicherweise euren Rechner und ... ;-)
Die Kosten sind nun als 4. Parameter implementiert. Ich habe wieder das Original ersetzt. |
Re: fuzzy matches via sql
Hi Leute,
hab mir die Geschichte mit dem Levenshtein mal zu Gemüte geführt. Dazu 2 Fragen: 1. Zitat:
2. Hab mir auch mal durchgelesen wie der Algorithmus funktioniert. Interessant, dass es funktioniert; aber kapiert einer von euch wie man auf sowas kommt? Gibt's irgendwo nen Beweis, dass der Algorithmus immer das richtige Ergebnis liefert? Gruß, Martin |
Re: fuzzy matches via sql
zu 2.) Es wird berechnet in wie vielen Schritten durch Hinzufügen, Entferen oder Ersetzen ein String zu einem anderen umgeformt werden kann.
z.B. Von Hans -> Dampf Hans Dans 1 Ersetzen Damp 2 Ersetzen Dampf 3 Hinzufügen 1.) Zurückgeliefert wird die Anzahl der Schritte, Kosten sind ein Gewichtsfaktor um verschiedene Umwandlungsformen verschieden zu bewerten. |
Re: fuzzy matches via sql
So ist es :wink:
Hier habt ihr eine Funktion, bei welcher man die verschiedenen Kosten angeben kann, oder man benutzt sie ohne Angaben wie eine normale.
Delphi-Quellcode:
Bye
Function WeightedLevenshteinDistance( Const FromStr, ToStr: String; Const CostCase: Integer = 0;
Const CostSubst: Integer = 1; Const CostIns: Integer = 1; Const CostDel: Integer = 1 ): Integer; Var Costs: Array Of Array Of Integer; Len1: Integer; Len2: Integer; i1: Integer; i2: Integer; Cost: Integer; Begin Len1 := Length( FromStr ); Len2 := Length( ToStr ); Try SetLength( Costs, Len2 + 1, Len1 + 1 ); For i2 := 0 To Len1 Do Costs[ 0, i2 ] := i2 * CostDel; For i1 := 1 To Len2 Do Begin Costs[ i1, 0 ] := i1 * CostIns; For i2 := 1 To Len1 Do Begin If ToStr[ i1 ] = FromStr[ i2 ] Then Cost := 0 Else If UpperCase( ToStr[ i1 ] ) = UpperCase( FromStr[ i2 ] ) Then Cost := CostCase Else Cost := CostSubst; Costs[ i1, i2 ] := Min( Min( Costs[ i1 - 1, i2 ] + CostIns, Costs[ i1 , i2 - 1 ] + CostDel ), Costs[ i1 - 1, i2 - 1 ] + Cost ); End; End; Result := Costs[ Len2, Len1 ]; Finally Finalize( Costs ); End; End; |
Alle Zeitangaben in WEZ +1. Es ist jetzt 02:07 Uhr. |
Powered by vBulletin® Copyright ©2000 - 2025, Jelsoft Enterprises Ltd.
LinkBacks Enabled by vBSEO © 2011, Crawlability, Inc.
Delphi-PRAXiS (c) 2002 - 2023 by Daniel R. Wolf, 2024-2025 by Thomas Breitkreuz