Delphi-PRAXiS

Delphi-PRAXiS (https://www.delphipraxis.net/forum.php)
-   Programmieren allgemein (https://www.delphipraxis.net/40-programmieren-allgemein/)
-   -   PDF zu TXT (https://www.delphipraxis.net/55294-pdf-zu-txt.html)

HendrikM 19. Okt 2005 10:12


PDF zu TXT
 
Also, ich soll eine PDF - Datei durchforsten und bestimmte Inhalte in eine Datenbank übernehmen.
Als Ausgangspunkt wählte ich einen PDF - Converter von Glenn Alcott mit dem ich das PDF nach TXT konvertierte. Leider sind die Daten die ich benötige in Tabellen enthalten, die dieses Programm mehr schlecht als recht nach .TXT bringt.
Kennt jemand etwas besseres?
Hendrik

generic 19. Okt 2005 10:56

Re: PDF zu TXT
 
du kannst über z.b. ghostscript per druck dir txt dateien erzeugen.
das geht allerdings nur wenn die pdf wirklich text enthält.

in pdf kann text auch als "kurven" abgelegt sein - das würde dann nicht gehen.

Flocke 19. Okt 2005 11:46

Re: PDF zu TXT
 
Selbst wenn die Daten in tabellarischer Form vorliegen - du müsstest schon viel Glück mit der Anordnung haben wenn du sie auch im PDF-Code so findest - Seiten in einer PDF-Datei müssen ja nicht von oben nach unten und von links nach rechts gedruckt werden.

Selbst wenn zwei bestimmte Worte auf dem Bildschirm nebeneinander in zwei Tabellenzellen stehen, dann muss dies im PDF selbst nicht der Fall sein.

Ich denke mal der Konverter gibt die Texte so aus der PDF-Datei heraus, wie er sie findet. Gibt's dort denn überhaupt keine Anhaltspunkte, an denen du deine Daten analysieren bzw. herausfiltern kannst?

HendrikM 19. Okt 2005 11:51

Re: PDF zu TXT
 
Ja, es gibt tatsächlich eine Reihe von inhaltlichen Punkten nach denen ich mich richte.
Ich hab das ja auch schon gemacht, nur mein Delphi - Code wird wahnsinnig kompliziert dadurch.
Ich muß immer Textbereiche die sich dann teilweise überschneiden durchsehen und an Hand der gefundenen Daten dann entscheiden um welches Feld es sich denn nun handelt.
Da ich das ganze jetzt nochmal in die Hand nehmen will, dachte ich, fragst mal ob jemand nen besseren Konverter kennt.
Hendrik

generic 20. Okt 2005 08:43

Re: PDF zu TXT
 
in einer pdf muss der context wo ein text geschrieben habt nix mit dem layout zutun haben.
das ist abhängig von der anwendung die die pdf erzeugt und abhängig vom druckertreiber.

^ das ist dir aber auch schon aufgefallen

was du durchforsten nennst ist also nicht alle wörter nehmen und drin suchen.
du brachst auch die position eines wortes im text?
(also ist die reihenfolge der wörter in der txt-datei für dich wichtig)

HendrikM 20. Okt 2005 08:45

Re: PDF zu TXT
 
ja genau die Reihenfolge ist wichtig, den in jeder Spalte der Tabelle steht ja (für mich) ein anderes Feld.


Alle Zeitangaben in WEZ +1. Es ist jetzt 12:49 Uhr.

Powered by vBulletin® Copyright ©2000 - 2024, Jelsoft Enterprises Ltd.
LinkBacks Enabled by vBSEO © 2011, Crawlability, Inc.
Delphi-PRAXiS (c) 2002 - 2023 by Daniel R. Wolf, 2024 by Thomas Breitkreuz