Einzelnen Beitrag anzeigen

Benutzerbild von erich.wanker
erich.wanker

Registriert seit: 31. Jan 2008
Ort: im schönen Salzburger Land
454 Beiträge
 
Delphi XE4 Professional
 
#9

AW: Text bereinigen: kurze Wörter löschen

  Alt 17. Mai 2017, 09:13
Hallo Leute - vielen Dank für die Hinweise

@p80286

Rohdaten sind aus "Tesseract OCR"

- ich verwende ghostscript, um PDF´s (bestehend meist aus gescannte A4 Seiten) in TIFF umzuwandeln...
- und ich verwende tesseract OCR, um TIFF´s in TXT umzuwandeln
- dann lade ich mir die TXT rein ... lösche "Füllwörter" (und, wie mit bei zu..) - da habe ich eine freie Liste online gefunen
und dann speichere ich mir den Rest in eine DB

@HolgerX

JA - die Rohdaten haben weitere Steuerzeichen (Returns und Co) - die ich durch Copy/past (als auch händisch) nicht im Posting habe


@SneakyBagels.
"..Problem "ooorer" hat 6 Zeichen und alles ab 4 interessiert dich doch"

Ja ... Ein Wörterbuch drüberlaufen lassen wäre natürlich perfekt - aber das überschreitet meine Fähigkeiten
Wie soll ich z.b: Aus "Autm0bll" ein "Automobil" machen ...

Und: Es sind viele Familiennamen und Regions-namen in den Texten - die findet man nicht in einer Wörterbuchliste - und die sind eigentlich meine wichtigsten Indikatoren
Erich Wanker - for life:=1971 to lebensende do begin ..
O
/H\
/ \
  Mit Zitat antworten Zitat