Was ist die beste Lösung für eine Keywort-Filterung per SQL ?

**Delphi.Narium**

Vor Jahren hab' ich mir mal 'ne Suchmaschine für alle meine Quelltexte geschrieben. Die Dateien liegen halt auf diversen Festplatten rum.

Dazu gibt es nun eine Tabelle Quelltexte: Sie enthält eine eindeutige ID je Quelltext und den vollständigen Pfad zu dem Quelltext.

Dann gibt es eine Tabelle Wörter: Sie enthält alle gefundenen Wörter und eine eindeutige ID für das Wort. (Jedes Wort kommt in dieser Tabelle natürlich nur einmal vor.)

Dann gibt es noch eine Tabelle WortQuelltext: Sie stellt die Verbindung zwischen Quelltexte und Wörter her: Spalten sind WortID und QuelltextID.

Die Tabelle Wörter wird banal und einfach aufgebaut: Alles, was kein Buchstabe ist, wird durch einen Zeilenumbruch ersetzt. Das Ergebnis wird eindeutig sortiert. Groß-/Kleinschreibung wird dabei ignoriert. Jede Zeile enthält nun ein Wort.

Die Wörter werden (soweit nicht schon vorhanden) in die Tabelle Wörter eingefügt. Die Tabelle WortQuelltext wird mit den IDs der Wörter und der ID des Quelltextes befüllt.

Per SQL geht die Abfrage in etwa so:

markieren

SQL-Code:

			select Wörter.Wort, Quelletxte.* from Quelletxte, WortQuelltext, Wörter

where Quelltexte.id = WortQuelltext.QuelltextID

and WortQuelltext.WortID = Wörter.id

and Wörter.Wort in ('eins',zwei'drei','ganz','viele',Wörter']

Index auf jede ID und auf die Wörter.

Ist verblüffend schnell und war in 'nem Tag implementiert, kann man analog natürlich auch auf Blob-Spalten, ... anwenden.

Prinzipiell entspricht die Struktur Deinem Vorschlag aus dem Eingangspost.

Soll das Ganze dann noch etwas fehlertoleranter werden, kann man neben den Wörtern auch noch diverse Spalten für SoundEx, phonetische Suchen (wie z. B. Kölner Phonetik), ... in der Tabelle Wörter anlegen. Da kommt es halt dann ein bisserl auf die konkreten Anforderungen an.

Achso: Da das so gut geklappt hat, gibt es das inzwischen auch für alle HTML-Seiten (wie z. B. ct-Archive von CDs), diverse Tutorials von anno schlagmichtot, Rezepte, ... (egal ob die zu durchsuchenden Texte nun irgendwo auf Datenträgern rumschwirren oder in Datenbanken gesammelt sind). Das Prinzip ist immer das Gleiche und das Schöne daran ist: Die Datenbank ist völlig egal.

**jobo**

Zitat von Rollo62:

..
Das Problem ist aber das es möglichst auch auf kleinen, virtuellen Servern laufen soll.

Mit der Integer Filterung sollte doch eigentlich jede DB klarkommen,
Ich hoffe auch effizient genug.
..
StoredProcedures wären auch eine Option, z.B.

Spricht denn generell etwas gegen eine eigene, kleine Filtersuche, wie unten ?
Selbst wenn TabZiel im GB Bereich liegt sollte das flott rüberkommen,
..
In erster Linie wollte ich checken wie man SQL und Parameter dafür optimieren könnte.

Klein? RAM, Platte, CPU? Eine Postgres Installation hat ca. 90MB glaub ich, weit weg von GB Datenfiles, trotzdem natürlich viel mehr als SQLite. Postgres läuft problemlos auf einem Raspberry. Es gibt fertige Dockerimages dafür (und andere DB natürlich). Kommt vom Nutzeffekt (Plattenverbrauch) stark auf die Konstellation an. Eine Virtualisierung über ein VM Image in VBOX oder VMware benötigt selbst mit Linux ohne X Oberfläche >1-2Gb plus Nutzdaten. Ein winziges Dockerimage (nur DB) ist natürlich toll, wenn es denn zum Host passt. Unter Windows ist es sehr wahrscheinlich nicht besser. Eine SQLite Lib ist natürlich winzig, aber kein Performance Brüller.

Das Prinzip nach vorbestimmten ID zu suchen ist eben das simple Prinzip solch einer Volltextsuche, da sehe ich kein Problem.

StoredProc werden häufig missverstanden als pauschale Beschleunigung, die alles schneller machen. Das ist nicht richtig, SP sind schnell, weil sie per Definition auf Server-lokale Daten zugreifen. Lässt man funktional identischen Code auf einem Client laufen, muss er viele Daten herunterladen. Das ist das, was Du vermeiden willst. Sehr häufig sind normale SQL Statements genauso schnell, so lange sie auch nur ein auf dem Server ausgewertetes (kleines) Ergebnis runterladen. SP bieten allerdings meist viel mehr Möglichkeiten, als reines SQL.

SQL Optimierung ist m.E. sehr Hersteller spezifisch. Zumindest wenn man ordentlich normalisiert hat und keine logischen Fehler im Modell stecken. Performance Optimierung bedeutet u.U. dann ab da auch, eine ordentliche Normalisierung gezielt zurückzunehmen. Der Preis für mehr Geschwindigkeit ist häufig redundante Datenhaltung. Die muss halt trotzdem wasserdicht sein, damit keine Artefakte entstehen. Parameternutzung empfiehlt sich immer, ein SQL, das im Client gemäß Suchanfrage dynamisch Kriterien eingepflanzt bekommt, muss auch dynamisch mit Parametern versorgt werden. Wenn Du Dir dagegen ein Fulltext Search Beispiel mit ts_vektor in PG anschaust, stellst Du fest, hier kann bereits ein Parameter mehrere Suchbegriffe enthalten.

Was ist die beste Lösung für eine Keywort-Filterung per SQL ?

AW: Was ist die beste Lösung für eine Keywort-Filterung per SQL ?

AW: Was ist die beste Lösung für eine Keywort-Filterung per SQL ?

Forumregeln