Delphi-PRAXiS
Seite 1 von 2  1 2      

Delphi-PRAXiS (https://www.delphipraxis.net/forum.php)
-   Programmieren allgemein (https://www.delphipraxis.net/40-programmieren-allgemein/)
-   -   Liste mit "unwichtigen" Wörtern (https://www.delphipraxis.net/60360-liste-mit-unwichtigen-woertern.html)

TheAn00bis 5. Jan 2006 19:14


Liste mit "unwichtigen" Wörtern
 
Hey,

ich suche eine Liste mit allen Artikeln, Pronomen, Konjunktionen etc. der deutschen Sprache.

Diese benötige ich für ein Programm, dass Benutzereingaben mit Datenbankeinträgen vergleicht.
Dabei sollen unwichtige Wörter nicht relevant sein. Deßhalb will ich aus der Datenbank
beim Aufruf eben diese Wörter herausfiltern.

Eine andere Möglichkeit sehe ich nicht,
außer von jedem Eintrag einen gefilterten und einen nicht gefilterten zu erstellen,
was aber zu aufwändig wäre.

Wenn sich keine Liste findet, werde ich dise wohl selbst erstellen müßen.
Allerdings fürchte ich dabei Wörter zu vergessen, was bei der so komplexen deutschen Sprache leicht passiert.
(im Englischen z.B. schon weniger)

Wäre echt dankbar, wenn jemand so eine Liste kennte.

Nicolai1234 5. Jan 2006 19:24

Re: Liste mit "unwichtigen" Wörtern
 
Sag mal genau, wozu das gut sein soll.

Ich hatte sowas neulich auch und habe das mit einem Levenshtein Vergleich gemacht.

Sharky 5. Jan 2006 19:25

Re: Liste mit "unwichtigen" Wörtern
 
Zitat:

Zitat von TheAn00bis
... Dabei sollen unwichtige Wörter nicht relevant sein. ...

Hai Du,

ich behaupte jetzt einfach mal: Deine Mühe ist vergebens.
Selbst wenn Du eine Tabelle mit allen deutschen Wörtern finden solltest (welche es ja nicht gibt) hast Du noch immer das Problem zu entscheiden welche Wörter nach deiner Meinung "unwichtig" sein sollten.

Da es allgemein keine Regelung gibt wirst Du da nicht weiter kommen.

alzaimar 5. Jan 2006 19:28

Re: Liste mit "unwichtigen" Wörtern
 
Du kannst Dir doch einfach diverse Texte nehmen und erstmal alle 2- und 3-buchstabigen Wörter auflisten. Dannn gehst Du die durch und hast schon mal einen guten Anfang. So auf die Schnelle wüsste ich auch nicht, wo man sowas her bekommt. Vielleicht beim Duden-Verlag mal anfragen.

@Sharky: Seine Vorgehensweise ist der klassische Start bei einer Volltextindizierung mit 4-Grammen. Er will ja nicht alle deutschen Wörter, sondern die Füllwörter, die für den Inhalt eines Artikels irrelevant sind.

lizardking 5. Jan 2006 19:43

Re: Liste mit "unwichtigen" Wörtern
 
Am Besten such mal bei google noch "stop words" bzw. "Stop(p)worte" in Kombination mit Worten wie Liste,Index etc. Da duerftest Du irgendwo fuendig werden. Ist genau das was Du suchst und findet man haeufig bei irgendwelchen Projekten, die sich um Suchdienste drehen.

Gruss,

Lizzy

Lannes 5. Jan 2006 19:49

Re: Liste mit "unwichtigen" Wörtern
 
Hallo,

ein Anfang:
Code:
ab aber ähnlich alle allein allem aller alles allg allgemein als also am an and andere anderes auch auf aus außer been bei beim besonders bevor bietet bis bzw da dabei dadurch dafür daher dann daran darauf daraus das daß davon davor dazu dem den denen denn dennoch der derem deren des deshalb die dies diese diesem diesen dieser dieses doch dort durch eben ein eine einem einen einer eines einfach er es etc etwa etwas for für ganz ganze ganzem ganzen ganzer ganzes gar gleich gute hat hinter ihm ihr ihre ihrem ihren ihrer ihres im in ist ja je jede jedem jeden jeder jedes jene jenem jenen jener jenes jetzt kann kein keine keinem keinen keiner keines kommen kommt können leicht machen man mehr mehrere meist mit muß nach neu neue neuem neuen neuer neues nicht noch nur ob oder of ohne per schwierig sehr sein seinem seinen seiner seines seit selbst sich sie sind so sodaß solch solche solchem solchen solcher solches sollte sollten soviel sowohl statt über um und uns unser unsere unseren unseres unter viel viele vom von vor wann war was wenig wenige weniger wenn wer wie wieder wieviel wird wirklich wo wurde wurden zu zum zur zwischen

Ralf Kaiser 5. Jan 2006 20:00

Re: Liste mit "unwichtigen" Wörtern
 
Zitat:

Zitat von TheAn00bis
Hey,

Wäre echt dankbar, wenn jemand so eine Liste kennte.

Halli Hallo,

solche "Stoppwortlisten" werden häufig in der linguistischen Textanalyse (z.B. beim extrahieren von spezifischen Terminologien aus Fliesstexten) benutzt.

Als Anfang kannst du beispielsweise mal auf http://www.ranks.nl/stopwords nachsehen (diesen Link hatte ich gerade noch greifbar). Dort gibt es Stoppwortlisten für 17 Sprachen, darunter auch Deutsch. Gute Fundstellen für Stoppwortlisten sind auch die Seiten der linguistischen Institute verschiedener Unis.

Ciao,
Ralf

TheAn00bis 5. Jan 2006 21:18

Re: Liste mit "unwichtigen" Wörtern
 
Vielen Dank! :D

Über die Begriffe "Stopwortliste" und "stop words" findet man ja echt vieles im Internet. Werde dann wohl einige Listen zusammenpacken!

@Nicolai1605: Den Levenstein verwende ich schon um Tippfehler rauszubügeln.

@Lannes: Danke, wirklich gut für den Anfang.

@Sharky: Wie alzaimar schon sagte sollen nur all diese üblichen Füllworte rausfallen.


Eine Sprache ohne diese Worte wäre interessant. Ich denke man würde mindestenz 50% allein über Redundanz verstehen können.

King555 10. Jan 2006 14:23

Re: Liste mit "unwichtigen" Wörtern
 
Im kostenlos erhältlichen Woltlab Burning Board Lite (www.woltlab.de) gibt es auch so eine Liste. Die ist dazu da, dass "unwichtige" Wörter nicht in den Suchindex aufgenommen werden. Da kommst du sicher auch leicht an eine Liste.

alzaimar 11. Jan 2006 06:54

Re: Liste mit "unwichtigen" Wörtern
 
Zitat:

Zitat von TheAn00bis
Eine Sprache ohne diese Worte wäre interessant. Ich denke man würde mindestenz 50% allein über Redundanz verstehen können.

Chinesisch hat sich, bedingt durch das hohe Alter der Sprache, mittlerweile soweit selbst optimiert. Ich weiss jetzt nicht, ob sie ganz ohne Füllwörter (Stopwörter) auskommen, aber zumindest den Ballast der Verbformen, Zeiten, Deklinationen hat die Sprache abgeschüttelt.

Deine Liste finde ich etwas zu grobmaschig: Ein Text über die "Einfachheit des Seins" wird somit vermutlich auf NULL gekürzt. Hmm.. Auch eine Aussage über die Relevanz des Inhalts. :mrgreen:

Wieso ist 'Neu' ein Stoppwort, aber 'Alt' nicht?` Wieso 'kommen', aber 'gehen' nicht? Sollte man Verben nicht rausnehmen?


Alle Zeitangaben in WEZ +1. Es ist jetzt 19:11 Uhr.
Seite 1 von 2  1 2      

Powered by vBulletin® Copyright ©2000 - 2024, Jelsoft Enterprises Ltd.
LinkBacks Enabled by vBSEO © 2011, Crawlability, Inc.
Delphi-PRAXiS (c) 2002 - 2023 by Daniel R. Wolf, 2024 by Thomas Breitkreuz