AGB  ·  Datenschutz  ·  Impressum  







Anmelden
Nützliche Links
Registrieren
Thema durchsuchen
Ansicht
Themen-Optionen

PDF zu TXT

Ein Thema von HendrikM · begonnen am 19. Okt 2005 · letzter Beitrag vom 20. Okt 2005
Antwort Antwort
HendrikM

Registriert seit: 30. Aug 2005
Ort: Berlin
49 Beiträge
 
#1

PDF zu TXT

  Alt 19. Okt 2005, 10:12
Also, ich soll eine PDF - Datei durchforsten und bestimmte Inhalte in eine Datenbank übernehmen.
Als Ausgangspunkt wählte ich einen PDF - Converter von Glenn Alcott mit dem ich das PDF nach TXT konvertierte. Leider sind die Daten die ich benötige in Tabellen enthalten, die dieses Programm mehr schlecht als recht nach .TXT bringt.
Kennt jemand etwas besseres?
Hendrik
  Mit Zitat antworten Zitat
generic

Registriert seit: 24. Mär 2004
Ort: bei Hannover
2.415 Beiträge
 
Delphi XE5 Professional
 
#2

Re: PDF zu TXT

  Alt 19. Okt 2005, 10:56
du kannst über z.b. ghostscript per druck dir txt dateien erzeugen.
das geht allerdings nur wenn die pdf wirklich text enthält.

in pdf kann text auch als "kurven" abgelegt sein - das würde dann nicht gehen.
Coding BOTT - Video Tutorials rund um das Programmieren - https://www.youtube.com/@codingbott
  Mit Zitat antworten Zitat
Benutzerbild von Flocke
Flocke

Registriert seit: 9. Jun 2005
Ort: Unna
1.172 Beiträge
 
Delphi 10.2 Tokyo Professional
 
#3

Re: PDF zu TXT

  Alt 19. Okt 2005, 11:46
Selbst wenn die Daten in tabellarischer Form vorliegen - du müsstest schon viel Glück mit der Anordnung haben wenn du sie auch im PDF-Code so findest - Seiten in einer PDF-Datei müssen ja nicht von oben nach unten und von links nach rechts gedruckt werden.

Selbst wenn zwei bestimmte Worte auf dem Bildschirm nebeneinander in zwei Tabellenzellen stehen, dann muss dies im PDF selbst nicht der Fall sein.

Ich denke mal der Konverter gibt die Texte so aus der PDF-Datei heraus, wie er sie findet. Gibt's dort denn überhaupt keine Anhaltspunkte, an denen du deine Daten analysieren bzw. herausfiltern kannst?
Volker
Besucht meine Garage
Aktuell: RtfLabel 1.3d, PrintToFile 1.4
  Mit Zitat antworten Zitat
HendrikM

Registriert seit: 30. Aug 2005
Ort: Berlin
49 Beiträge
 
#4

Re: PDF zu TXT

  Alt 19. Okt 2005, 11:51
Ja, es gibt tatsächlich eine Reihe von inhaltlichen Punkten nach denen ich mich richte.
Ich hab das ja auch schon gemacht, nur mein Delphi - Code wird wahnsinnig kompliziert dadurch.
Ich muß immer Textbereiche die sich dann teilweise überschneiden durchsehen und an Hand der gefundenen Daten dann entscheiden um welches Feld es sich denn nun handelt.
Da ich das ganze jetzt nochmal in die Hand nehmen will, dachte ich, fragst mal ob jemand nen besseren Konverter kennt.
Hendrik
  Mit Zitat antworten Zitat
generic

Registriert seit: 24. Mär 2004
Ort: bei Hannover
2.415 Beiträge
 
Delphi XE5 Professional
 
#5

Re: PDF zu TXT

  Alt 20. Okt 2005, 08:43
in einer pdf muss der context wo ein text geschrieben habt nix mit dem layout zutun haben.
das ist abhängig von der anwendung die die pdf erzeugt und abhängig vom druckertreiber.

^ das ist dir aber auch schon aufgefallen

was du durchforsten nennst ist also nicht alle wörter nehmen und drin suchen.
du brachst auch die position eines wortes im text?
(also ist die reihenfolge der wörter in der txt-datei für dich wichtig)
Coding BOTT - Video Tutorials rund um das Programmieren - https://www.youtube.com/@codingbott
  Mit Zitat antworten Zitat
HendrikM

Registriert seit: 30. Aug 2005
Ort: Berlin
49 Beiträge
 
#6

Re: PDF zu TXT

  Alt 20. Okt 2005, 08:45
ja genau die Reihenfolge ist wichtig, den in jeder Spalte der Tabelle steht ja (für mich) ein anderes Feld.
  Mit Zitat antworten Zitat
Antwort Antwort


Forumregeln

Es ist dir nicht erlaubt, neue Themen zu verfassen.
Es ist dir nicht erlaubt, auf Beiträge zu antworten.
Es ist dir nicht erlaubt, Anhänge hochzuladen.
Es ist dir nicht erlaubt, deine Beiträge zu bearbeiten.

BB-Code ist an.
Smileys sind an.
[IMG] Code ist an.
HTML-Code ist aus.
Trackbacks are an
Pingbacks are an
Refbacks are aus

Gehe zu:

Impressum · AGB · Datenschutz · Nach oben
Alle Zeitangaben in WEZ +1. Es ist jetzt 04:31 Uhr.
Powered by vBulletin® Copyright ©2000 - 2024, Jelsoft Enterprises Ltd.
LinkBacks Enabled by vBSEO © 2011, Crawlability, Inc.
Delphi-PRAXiS (c) 2002 - 2023 by Daniel R. Wolf, 2024 by Thomas Breitkreuz