AGB  ·  Datenschutz  ·  Impressum  







Anmelden
Nützliche Links
Registrieren
Thema durchsuchen
Ansicht
Themen-Optionen

Text in PDF Tabelle suchen

Ein Thema von ByTheTime · begonnen am 9. Mai 2013 · letzter Beitrag vom 10. Mai 2013
Antwort Antwort
ByTheTime

Registriert seit: 24. Sep 2011
Ort: Frankfurt
297 Beiträge
 
Delphi XE2 Architect
 
#1

AW: Text in PDF Tabelle suchen

  Alt 9. Mai 2013, 22:18
1. Okay, das mit den Bildern mach ich in Zukunft.
2. Also ich finde die Informationen so vor:
Code:
÷jô°î_¤²€FZ€ñ) h¤~Ði°ÿ‘ö:è( úúš5Ýߟ¶cÀdÀ1b¬*!d<ÊŒo.7y×ÁG¹ ð.ÐH|ä‚ý“—ï_uD@™€#ô¬3éxAÀ¤‚tKa§£,£¤Êr¿ R
n»R0H)0>%ƒ”‚ÃJÁ ¥ö?¾ªƒŽ’B*¯KábzgÓv˜8Gl…õ²hV`|Ã
{x”¾]=áaRøM– r”8HÎ:‚*Ô‚ôÏ{¤BEî÷EúÀäC>°H0>å‹ôÃúÀ"}ö?òÁNåƒ@ßÄéΑòEú€ñ)X¤>á‹ôAÀoä‹ôÙl¨`‘>Aú}`‘>y£›mK¯Õ*fë²CýkØËVebýY:#R&˜S8Fb1"áaNqx+#r”TB$×lp”XB‚Ô5χ   …ùÉkÄG…ùÉkÄG)%ð“‹)Ì*!Áàe
2
‡H\† :J#>´‘ 4Ê&¡&§¯ªWec͆oÆq!â«îÔ|¨«ê}¯áŒ»B¥âo¸¹î7wÚ>Ò¿R¢×?n¬YQ)Jjž%e4Çöÿvz˜Ä   @F£½O.a<Hg„O¸Œà(—yxJd ‰ÌÃSc8Èb¦Úh”¾=ä.N r—OÐ/.FƒÄEèÞÁ×[®¨Än2òQBÆ7\Q³e¡é†+]XÞ`äC™`’à‰‘áažp\50ðá (M„ýO|8Ê!AJž“ó“¾ >ÊÌO*ƒø(e~ràC   `æ   åA!Pòà   å@øp}F™$”ääÀGIÏŸQ³1ð‘F57êŸî|’>ÙCºWj])¾=>¹Ÿ|7>Û=ýä|<¾ËûãäÿÝÚ~endstream
endobj
26 0 obj
3409
endobj
29 0 obj
<</Length 30 0 R/Filter /FlateDecode>>
stream
xœ½ïoÛÆÇa[¶+E°›6–[Š]ÛR3ää5ÝV {ÓÍïʽêÖÅ*~³w÷å£ïxTÝ|&Ùü|yŸŽNúu–&›¥ú¿æ‹Ÿ>ŽªÙÿFlöa”Í~¥³¿ŽŠ*åy•HÆfÍV!
½9ûïèê;þ3úuT%\ÿ2»p¿þéãìÏw£w/gY–¤ùìîgõÙìVýV»)’’ÍOª2-fwGóµõµÁæÖöÃaýiíÅæÆ`mk
Also nur mal ein kleiner Ausschnitt, aber so sieht das aus... Und es sagt mir nicht viel

Also so wie ihr mir das jetzt erzählt scheint PDF ziemlich bescheiden zu sein. Da ich natürlich auch den Reader installiert habe, würde es mich interessieren, ob es soetwas wie OLE für PDF gibt, wie es auch für Office und Excel existiert.
Lukas
  Mit Zitat antworten Zitat
MeierZwoo

Registriert seit: 3. Dez 2012
106 Beiträge
 
#2

AW: Text in PDF Tabelle suchen

  Alt 9. Mai 2013, 22:46
Also so wie ihr mir das jetzt erzählt scheint PDF ziemlich bescheiden zu sein.
Im Gegenteil, PDF ist ein PostScript-Dialekt und sehr mächtig. Wenn es »bescheiden« wäre, wäre es kein Problem, deinen gewünschten Text auszulesen. Und mit den aktuellen Erweiterungen für Formulare ist es noch mächtiger geworden. Aber PDF ist keine db mit geordneten bzw. indizierten Datensätzen, wie Du es gerne hättest.

Nur, nochmal: In der Datei müssen die Ausgaben nicht geordnet vorliegen. Es ist einem Drucker oder Bildschirm ziemlich egal, in welcher Reihenfolge er Ausgabeelemente bekommt, wenn diese alle mit Koordinaten versehen sind. Ob zuerst unten, dann oben links, dann in der Mitte rechts ... ausgegeben wird, ist dem Endausgabegerät ziemlich wurscht. Deshalb braucht das PDF-erzeugende Tool auch keine Rücksicht auf solche »Ordnung« zu nehmen.

Wenn Du die PDF nicht komplett interpretierst, kommst du nicht an einzelne Elemente heran. Für das Interpretieren gibt es bestimmt fertige Units im Web. Allerdings fängt danach deine Arbeit erst richtig an - und wehe, der Aufbau, das Layout der PDF wird geändert *g
  Mit Zitat antworten Zitat
ByTheTime

Registriert seit: 24. Sep 2011
Ort: Frankfurt
297 Beiträge
 
Delphi XE2 Architect
 
#3

AW: Text in PDF Tabelle suchen

  Alt 10. Mai 2013, 09:24
Ja gut, dann such ich mal weiter Hoffe ich finde irgendwas
Lukas
  Mit Zitat antworten Zitat
Benutzerbild von p80286
p80286

Registriert seit: 28. Apr 2008
Ort: Stolberg (Rhl)
6.659 Beiträge
 
FreePascal / Lazarus
 
#4

AW: Text in PDF Tabelle suchen

  Alt 10. Mai 2013, 09:49
[QUOTE=ByTheTime;1214881]
Code:
   å@øp}F™$”ääÀGIÏŸQ³1ð‘F57êŸî|’>ÙCºWj])¾=>¹Ÿ|7>Û=ýä|<¾ËûãäÿÝÚ~endstream
endobj
26 0 obj
3409
endobj
29 0 obj
<</Length 30 0 R/Filter /FlateDecode>>
stream
xœ½ïoÛÆÇa[¶+E°›6–[Š]ÛR3ää5ÝV {ÓÍïʽêÖÅ*~³w÷å£ïxTÝ|&Ùü|yŸŽNúu–
Da hast Du doch Deinen Einstieg
mit obj fängt ein neues Objekt an und mit endobj endet es. Jetzt mußt Du nur noch die Doku des Dateiformates zu Rate ziehen und Du weißt was darin steht.
http://www.adobe.com/devnet/pdf/pdf_reference.html
ebenso könntest Du ja auch die Wikipedia fragen

Also nur mal ein kleiner Ausschnitt, aber so sieht das aus... Und es sagt mir nicht viel
Ein Hex-Dump wäre u U etwas aussagekräftiger.

Also so wie ihr mir das jetzt erzählt scheint PDF ziemlich bescheiden zu sein.
Nur weil hier der eine oder andere auch gerne über Adobe schimpft, heißt das noch lange nicht, daß die Grundidee, die dahinter steckt, "bescheiden" ist.

Da ich natürlich auch den Reader installiert habe, würde es mich interessieren, ob es soetwas wie OLE für PDF gibt, wie es auch für Office und Excel existiert.
Da hilft Dir die Suchfunktion weiter.

@MeyerZwo

Gruß
K-H
Programme gehorchen nicht Deinen Absichten sondern Deinen Anweisungen
R.E.D retired error detector
  Mit Zitat antworten Zitat
Benutzerbild von sx2008
sx2008

Registriert seit: 15. Feb 2008
Ort: Baden-Württemberg
2.332 Beiträge
 
Delphi 2007 Professional
 
#5

AW: Text in PDF Tabelle suchen

  Alt 10. Mai 2013, 10:45
Also ohne richtiges Werkzeug wird das nichts.
Mal eben so mit Delphi in ein PDF reinzufassen und Daten zu entnehmen ist nicht so einfach.

Ein "g'scheites" Werkzeug wäre z.B. PDFMiner.
Mit dem Kommandozeilenscript pdf2txt.py kann man Text aus dem PDF extrahieren.
Dafür benötigt man Python und natürlich auch etwas Einarbeitungszeit.
Mit der Online-Demo kann man prüfen, was man aus dem PDF als Text zu erwarten hat.

Danach kann man den extrahierten Text oder XML mit einem Delphi Programm parsen und die gewünschten Infos rausziehen.
Den Gesamtaufwand würde ich auf 2 Wochen schätzen.
fork me on Github
  Mit Zitat antworten Zitat
nahpets
(Gast)

n/a Beiträge
 
#6

AW: Text in PDF Tabelle suchen

  Alt 10. Mai 2013, 11:05
Hallo,

es gibt da ein Freewaretool pdftotext, mit dem aus PDF-Dateien Textdateien gemacht werden können. Dieses Programm könntest Du aus Delphi heraus per ShellExecute... aufrufen, um die von Dir heruntergeladene PDF-Datei zuerst einmal in eine Textdatei zu verwandeln. Aus dieser Textdatei kannst Du Dir dann per Delphiprogramm und Stringliste... die gewünschten Informationen suchen.

Der Aufruf des Programmes auf der Kommandozeile könnte so aussehen:

pdftotext -layout DiePDFDateiDerSchule.pdf DeineTextDatei.txt

Da dürften ein paar Stündchen für das komplette Parsen und Auswerten ausreichen.

Bitte Vorsicht bei der Suche nach pdftotext, es scheint da einige Stellen zu geben, an denen man dann direkt Viren und/oder Trojaner und Spyware geliefert bekommt.

Meine Version stammt von heute Morgen von dieser Seite: http://www.foolabs.com/xpdf/download.html

Der Download war allerdings sehr langsam. ftp://ftp.foolabs.com/pub/xpdf/xpdfbin-win-3.03.zip
  Mit Zitat antworten Zitat
Ginko

Registriert seit: 30. Aug 2008
208 Beiträge
 
FreePascal / Lazarus
 
#7

AW: Text in PDF Tabelle suchen

  Alt 10. Mai 2013, 12:40
Man braucht mit pdftotext auch noch nichtmal eine Datei anzulegen. Man kann den Output direkt abfangen und dann in eine Stringlist oder ähnliches Laden.

Statt
pdftotext -layout DiePDFDateiDerSchule.pdf DeineTextDatei.txt

benutzt man daführ dann
pdftotext -layout DiePDFDateiDerSchule.pdf -

der Bindestrich am Ende heißt hier das der Output in der Konsole erfolgt.

Hier gibt es eine Anleitung wie man die Ausgabe dann abfängt, die habe ich aber noch nicht probiert http://www.swissdelphicenter.ch/de/showcode.php?id=990

Geändert von Ginko (10. Mai 2013 um 12:45 Uhr)
  Mit Zitat antworten Zitat
nahpets
(Gast)

n/a Beiträge
 
#8

AW: Text in PDF Tabelle suchen

  Alt 10. Mai 2013, 13:12
@Ginko

Prinzipiell richtig, aber wenn Du Dir das Beispiel genauer anschaust, wirst Du feststellen, dass dort die Ausgabe zuerst in eine temporäre Datei geschrieben wird, diese dann in eine Stringliste geladen wird, deren Inhalt dann in ein Memo kopiert wird, um anschließend die temporäre Datei zu löschen.

Dann kann ich auch eine Datei erstellen lassen, diese per Stringliste direkt verarbeiten und die Datei wieder löschen (sofern ich sie nicht später weiterverwenden möchte).
  Mit Zitat antworten Zitat
Antwort Antwort


Forumregeln

Es ist dir nicht erlaubt, neue Themen zu verfassen.
Es ist dir nicht erlaubt, auf Beiträge zu antworten.
Es ist dir nicht erlaubt, Anhänge hochzuladen.
Es ist dir nicht erlaubt, deine Beiträge zu bearbeiten.

BB-Code ist an.
Smileys sind an.
[IMG] Code ist an.
HTML-Code ist aus.
Trackbacks are an
Pingbacks are an
Refbacks are aus

Gehe zu:

Impressum · AGB · Datenschutz · Nach oben
Alle Zeitangaben in WEZ +1. Es ist jetzt 09:29 Uhr.
Powered by vBulletin® Copyright ©2000 - 2025, Jelsoft Enterprises Ltd.
LinkBacks Enabled by vBSEO © 2011, Crawlability, Inc.
Delphi-PRAXiS (c) 2002 - 2023 by Daniel R. Wolf, 2024-2025 by Thomas Breitkreuz