Delphi-PRAXiS

Delphi-PRAXiS (https://www.delphipraxis.net/forum.php)
-   Programmieren allgemein (https://www.delphipraxis.net/40-programmieren-allgemein/)
-   -   Wort aus PDF auslesen (https://www.delphipraxis.net/206925-wort-aus-pdf-auslesen.html)

oakley 9. Feb 2021 14:57

Wort aus PDF auslesen
 
Hallo zusammen,

ich müsste aus einem PDF ein Wort, das sich immer an der selben Stelle befindet, auslesen.
Im ersten Schritt beinhalten die PDFs lesbaren Text, der von einer anderen Software erzeugt wurde, und sind nicht gescannt worden.
Später möchte ich Dokumente einscannen und ein gescanntes Wort an einer bestimmten Position per OCR auslesen.

Kann auch ruhig eine fertige kommerzielle Komponente sein.

Ich habe mir Winsoft PDF Suite mal angeschaut aber da ist mir nicht ganz klar, wie ich die Scanbereiche definieren kann.
Gescannt wird hier glaube ich immer das komplette Dokument.

LG

Mirko

Erwin Mouthaan 9. Feb 2021 16:18

AW: Wort aus PDF auslesen
 
Ich habe gute Erfahrungen mit Debenu

oakley 9. Feb 2021 16:33

AW: Wort aus PDF auslesen
 
Ja das kenne ich vom Namen her.
Ich stelle mir das so vor, dass man eine gewisse Region definiert, in der das gesuchte Wort zu finden ist.
Ich habe allerdings keine Ahnung wie man da vorgeht.

LG

Mirko

Bernhard Geyer 9. Feb 2021 16:57

AW: Wort aus PDF auslesen
 
Was bedeutet "an einer bestimmten Position"?
x/y-Wert (mm) von Links oben?
Oder kann das nach definierten Text / vor definierten/festen Text sein

Im Zweiten fall z.B. mit PDF-Box Text extrahieren und dann definierten/festen Text suchen und dann Wort/Wörter davor/danach bestimmen.

oakley 9. Feb 2021 22:25

AW: Wort aus PDF auslesen
 
Hallo Bernhard,

ich denke es müsste eventuell schon ein x/y Wert in mm oder ähnlich sein. Möglicherweise ist das auch eine Zahlenkombination wenn an der Stelle kein Text steht.

LG

Mirko

Erwin Mouthaan 10. Feb 2021 15:47

AW: Wort aus PDF auslesen
 
Debenu Quick PDF Library bietet viele Optionen zum Extrahieren von Text. Mit der SetTextExtractionArea Methode zum beispiel kann eine Region angegeben werden.

Hier ein Beispiel zum Extrahieren von Text aus einem definierten rechteckigen Bereich auf einer Seite.

oakley 11. Feb 2021 08:01

AW: Wort aus PDF auslesen
 
Danke das ist genau das was ich suche.

LG

Mirko

Bernhard Geyer 11. Feb 2021 08:35

AW: Wort aus PDF auslesen
 
Zitat:

Zitat von oakley (Beitrag 1482631)
Hallo Bernhard,
ich denke es müsste eventuell schon ein x/y Wert in mm oder ähnlich sein.

Mit x/y-Position ist dann PDFBox außen vor.
Wüsste nicht das diese (einfach) damit möglich wäre.

oakley 11. Feb 2021 15:55

AW: Wort aus PDF auslesen
 
Mit PDFIum vom Winsoft geht es.

PDF1.TextInRectangle(127.0,539.0,173.0,523.0) erzeugt ein Rechteck, in dem Text ausgelesen wird.
Bei Scans Muss ich nochmal schauen aber bei auslesbarem Text funktioniert es.

LG

Mirko

Delbor 12. Feb 2021 01:14

AW: Wort aus PDF auslesen
 
Hi oakley

Zitat:

Mit PDFIum vom Winsoft geht es.
Um zu scannen, benötigst du die Twain-Komponente(1) von kluug.net und die OCR-Komponente (2) von Winsoft.

(1) Zum Einscannen in ein Rasterbild (Bmp, Jpeg...)
(2) Zum Umwandeln des Grafiktextes in lesbares Textformat

Weitere Scanfähige Komponenten sind mir nicht bekannt.

Gruss
Delbor

PS:
Zitat:

Ich habe mir Winsoft PDF Suite mal angeschaut aber da ist mir nicht ganz klar, wie ich die Scanbereiche definieren kann.
Gescannt wird hier glaube ich immer das komplette Dokument.
Die PDF-Suite kann nicht scannen. Ausserdem: Es liegt in der Natur der Scanner-HardWare, dass immer nur eine Seite (oft A4) entweder Ein- odr Doppelseitig gescannt wird. Ein Dokument hingegen kann mehrere/viele Seiten enthalten - von einer bis (fast) beliebig vielen.




Die TWain


Alle Zeitangaben in WEZ +1. Es ist jetzt 05:28 Uhr.

Powered by vBulletin® Copyright ©2000 - 2024, Jelsoft Enterprises Ltd.
LinkBacks Enabled by vBSEO © 2011, Crawlability, Inc.
Delphi-PRAXiS (c) 2002 - 2023 by Daniel R. Wolf, 2024 by Thomas Breitkreuz