![]() |
Liste mit "unwichtigen" Wörtern
Hey,
ich suche eine Liste mit allen Artikeln, Pronomen, Konjunktionen etc. der deutschen Sprache. Diese benötige ich für ein Programm, dass Benutzereingaben mit Datenbankeinträgen vergleicht. Dabei sollen unwichtige Wörter nicht relevant sein. Deßhalb will ich aus der Datenbank beim Aufruf eben diese Wörter herausfiltern. Eine andere Möglichkeit sehe ich nicht, außer von jedem Eintrag einen gefilterten und einen nicht gefilterten zu erstellen, was aber zu aufwändig wäre. Wenn sich keine Liste findet, werde ich dise wohl selbst erstellen müßen. Allerdings fürchte ich dabei Wörter zu vergessen, was bei der so komplexen deutschen Sprache leicht passiert. (im Englischen z.B. schon weniger) Wäre echt dankbar, wenn jemand so eine Liste kennte. |
Re: Liste mit "unwichtigen" Wörtern
Sag mal genau, wozu das gut sein soll.
Ich hatte sowas neulich auch und habe das mit einem Levenshtein Vergleich gemacht. |
Re: Liste mit "unwichtigen" Wörtern
Zitat:
ich behaupte jetzt einfach mal: Deine Mühe ist vergebens. Selbst wenn Du eine Tabelle mit allen deutschen Wörtern finden solltest (welche es ja nicht gibt) hast Du noch immer das Problem zu entscheiden welche Wörter nach deiner Meinung "unwichtig" sein sollten. Da es allgemein keine Regelung gibt wirst Du da nicht weiter kommen. |
Re: Liste mit "unwichtigen" Wörtern
Du kannst Dir doch einfach diverse Texte nehmen und erstmal alle 2- und 3-buchstabigen Wörter auflisten. Dannn gehst Du die durch und hast schon mal einen guten Anfang. So auf die Schnelle wüsste ich auch nicht, wo man sowas her bekommt. Vielleicht beim Duden-Verlag mal anfragen.
@Sharky: Seine Vorgehensweise ist der klassische Start bei einer Volltextindizierung mit 4-Grammen. Er will ja nicht alle deutschen Wörter, sondern die Füllwörter, die für den Inhalt eines Artikels irrelevant sind. |
Re: Liste mit "unwichtigen" Wörtern
Am Besten such mal bei google noch "stop words" bzw. "Stop(p)worte" in Kombination mit Worten wie Liste,Index etc. Da duerftest Du irgendwo fuendig werden. Ist genau das was Du suchst und findet man haeufig bei irgendwelchen Projekten, die sich um Suchdienste drehen.
Gruss, Lizzy |
Re: Liste mit "unwichtigen" Wörtern
Hallo,
ein Anfang:
Code:
ab aber ähnlich alle allein allem aller alles allg allgemein als also am an and andere anderes auch auf aus außer been bei beim besonders bevor bietet bis bzw da dabei dadurch dafür daher dann daran darauf daraus das daß davon davor dazu dem den denen denn dennoch der derem deren des deshalb die dies diese diesem diesen dieser dieses doch dort durch eben ein eine einem einen einer eines einfach er es etc etwa etwas for für ganz ganze ganzem ganzen ganzer ganzes gar gleich gute hat hinter ihm ihr ihre ihrem ihren ihrer ihres im in ist ja je jede jedem jeden jeder jedes jene jenem jenen jener jenes jetzt kann kein keine keinem keinen keiner keines kommen kommt können leicht machen man mehr mehrere meist mit muß nach neu neue neuem neuen neuer neues nicht noch nur ob oder of ohne per schwierig sehr sein seinem seinen seiner seines seit selbst sich sie sind so sodaß solch solche solchem solchen solcher solches sollte sollten soviel sowohl statt über um und uns unser unsere unseren unseres unter viel viele vom von vor wann war was wenig wenige weniger wenn wer wie wieder wieviel wird wirklich wo wurde wurden zu zum zur zwischen
|
Re: Liste mit "unwichtigen" Wörtern
Zitat:
solche "Stoppwortlisten" werden häufig in der linguistischen Textanalyse (z.B. beim extrahieren von spezifischen Terminologien aus Fliesstexten) benutzt. Als Anfang kannst du beispielsweise mal auf ![]() Ciao, Ralf |
Re: Liste mit "unwichtigen" Wörtern
Vielen Dank! :D
Über die Begriffe "Stopwortliste" und "stop words" findet man ja echt vieles im Internet. Werde dann wohl einige Listen zusammenpacken! @Nicolai1605: Den Levenstein verwende ich schon um Tippfehler rauszubügeln. @Lannes: Danke, wirklich gut für den Anfang. @Sharky: Wie alzaimar schon sagte sollen nur all diese üblichen Füllworte rausfallen. Eine Sprache ohne diese Worte wäre interessant. Ich denke man würde mindestenz 50% allein über Redundanz verstehen können. |
Re: Liste mit "unwichtigen" Wörtern
Im kostenlos erhältlichen Woltlab Burning Board Lite (
![]() |
Re: Liste mit "unwichtigen" Wörtern
Zitat:
Deine Liste finde ich etwas zu grobmaschig: Ein Text über die "Einfachheit des Seins" wird somit vermutlich auf NULL gekürzt. Hmm.. Auch eine Aussage über die Relevanz des Inhalts. :mrgreen: Wieso ist 'Neu' ein Stoppwort, aber 'Alt' nicht?` Wieso 'kommen', aber 'gehen' nicht? Sollte man Verben nicht rausnehmen? |
Re: Liste mit "unwichtigen" Wörtern
In China wird auch nicht zwischen weiblich, männlich und sächlich unterschieden, weil die entsprechenden Wörter nicht existieren :wink:
Einfacher wird es aber nicht unbedingt. Um genau zu wissen, um was es geht, nehmen die Chinesen nämlich oft zwei Worte mit der selben Bedeutung zusammen (z. B. Auge), damit auch wirklich klar ist, worum es geht. Ohne Kontext geht im Chinesischen nämlich kaum was. (Meine Erfahrung...) |
Re: Liste mit "unwichtigen" Wörtern
Ich habe mal ein Volltextretrieval geschrieben und bin zu dem Schluss gekommen das man Stoppwoerter nicht braucht.
Der einzig akzeptable Grund ist das der Index zu gross wird. Das ist im Zeitalter der Gigabytes aber irrelevant (ausser vielleicht bei Google). Indiziert man die Stoppwoerter nicht, so verliert man Information. |
Alle Zeitangaben in WEZ +1. Es ist jetzt 16:18 Uhr. |
Powered by vBulletin® Copyright ©2000 - 2025, Jelsoft Enterprises Ltd.
LinkBacks Enabled by vBSEO © 2011, Crawlability, Inc.
Delphi-PRAXiS (c) 2002 - 2023 by Daniel R. Wolf, 2024-2025 by Thomas Breitkreuz