Einzelnen Beitrag anzeigen

frieder2008

Registriert seit: 28. Feb 2009
78 Beiträge
 
#1

PDF-Doks auf doppelte Seiten vergleichen

  Alt 12. Jun 2015, 20:57
Liebe Leute,

ich habe ein Datenproblem, bei dem ich via Google nicht weiterkomme, sprich, ein fertiges Tool scheint es nicht zu geben. Bliebe also nur die eigene Programmierung. Zu dem folgendem Thema habe ich aber überhaupt keine Erfahrung:

- Ich habe etwa 180T PDF-Dokumente (mit unterschiedl. Dateinamen)
- jedes PDF hat mind. 1 Seite, manchmal mehrere
- Es ist davon auszugehen, dass manche Seiten in verschiedenen PDF-Dokumenten zugleich / parallel (!) vorhanden sind

Da ich die Daten zu Forschungszwecken benötige, muss ich doppelte Seiten ausschließen.

Welchen Ansatz könnte ich wählen, damit ich idealiter - vor einer Konvertierung in RTF oder gar via mühsamer / fehlerträchtiger Duplikat-Suche auf Basis von TXT-Äquivalenten (die immer ein bisschen anders aussehen...) - solche doppelten Seiten oder Dateien mit gleichen Seiten identifizieren kann?

Bin für jeden Tipp dankbar!

Viele Grüße und schönen Abend wünscht:
der Frieder
  Mit Zitat antworten Zitat