Delphi-PRAXiS

Delphi-PRAXiS (https://www.delphipraxis.net/forum.php)
-   Sonstige Fragen zu Delphi (https://www.delphipraxis.net/19-sonstige-fragen-zu-delphi/)
-   -   Delphi Brainstorm: Text aus PDF Dokument lesen (https://www.delphipraxis.net/136159-brainstorm-text-aus-pdf-dokument-lesen.html)

BackOrifice 24. Jun 2009 19:33


Brainstorm: Text aus PDF Dokument lesen
 
Liste der Anhänge anzeigen (Anzahl: 1)
Hallo,

ich habe massenhaft PDFs, die alle gleich aufgebaut sind. Ich will diese zum Teil auslesen und weiterverabeiten. Mich interessiert dabei nur der Text von ein paar Seiten. Das Problem ist (wie auf dem Bild im Anhang einsehbar), dass einige Informationen in Spalten festgelegt sind - und die sind nicht statisch. Hier versagen leider alle externe Programme pdf2txt, die ich bis jetzt getestet habe. Ich weiss ab einer gewissen Zeile nicht mehr, welche Information zu welcher Zeile gehört.

Wie komme ich an die rechte Spalte und weiß gleichzeitig, welche linke Spailte dazugehört?


Vielen Dank für jegliche Art von Hilfe

Bernhard Geyer 24. Jun 2009 20:17

Re: Brainstorm: Text aus PDF Dokument lesen
 
Die PDF können so schrottig intern aufgebaut sein das es zwar optisch nach gleicher Zeile aussieht, aber intern keinerlei Zuordung vorhanden ist.

Gebhard 24. Jun 2009 22:16

Re: Brainstorm: Text aus PDF Dokument lesen
 
Hallo,

im Anhang befindeet sich eine ZIP-Datei mit Beispielen in unterschiedlichen Sprachen. Die Datei habe ich aus irgendweiner Internetseite. Die Adresse weiß ich nicht mehr.

Ich hoffe Dir mit meiner Antwort helfen zu können.

Tschüss

Gebhard

[edit=Sharky]Anhang wegen Virenmeldung gelöscht. Mfg, Sharky[/edit]

omata 24. Jun 2009 23:04

Re: Brainstorm: Text aus PDF Dokument lesen
 
Versuch mal die Inhalte unter Linux, mit XPDF herauszukopieren. Da habe ich mit Tabellenstrukturen ganz gute Erfahrungen gemacht. Alternativ ist im XPDF auch das Tool pdftops enthalten, vielleicht kannst du die Postscript-Struktur (ist ja auch nur eine Textdatei) besser verarbeiten.

BackOrifice 25. Jun 2009 22:04

Re: Brainstorm: Text aus PDF Dokument lesen
 
Danke für die Kommentare und Hilfe.

Zitat:

Zitat von Gebhard
Hallo,
im Anhang befindeet sich eine ZIP-Datei mit Beispielen in unterschiedlichen Sprachen. Die Datei habe ich aus irgendweiner Internetseite. Die Adresse weiß ich nicht mehr.

AntiVir meldet Trojanisches Pferd?

Satty67 25. Jun 2009 22:22

Re: Brainstorm: Text aus PDF Dokument lesen
 
Zitat:

Zitat von BackOrifice
AntiVir meldet Trojanisches Pferd?

AVG auch...

BackOrifice 27. Jun 2009 17:58

Re: Brainstorm: Text aus PDF Dokument lesen
 
Ich habe eine wirklich sehr (!) gute Lösung gefunden (Danke Omata).

xpdf ist Freeware und unterstützt die Textausgabe in verschiedenen Layouts u.a. auch die "Ansicht", also so wie ma es sieht. Perfekt zum Weiterverarbeiten!

Danke für eure Hilfe :thumb:

Gebhard 29. Jun 2009 20:21

Re: Brainstorm: Text aus PDF Dokument lesen
 
Hallo,

mit Schrecken habe ich im Forum von der Virenmeldung gelesen. Ich habe die ZIP-Datei mit dem Hintergedanken "vielleicht kannst du das mal gebrauchen" aus dem Netz geladen. Weil mein Virenscanner nicht gewarnt hat, habe ich die ZIP-Datei mit guten Gewissen bereitgestellt. Es tut mir Leid, dass ich der Administration Arbeit gemacht und die anderen Leser mit verseuchten Dateien belastet habe. Ich möchte mich hierfür in aller Form entschuldigen

Gruß

Gebhard


Alle Zeitangaben in WEZ +1. Es ist jetzt 04:51 Uhr.

Powered by vBulletin® Copyright ©2000 - 2024, Jelsoft Enterprises Ltd.
LinkBacks Enabled by vBSEO © 2011, Crawlability, Inc.
Delphi-PRAXiS (c) 2002 - 2023 by Daniel R. Wolf, 2024 by Thomas Breitkreuz