AGB  ·  Datenschutz  ·  Impressum  







Anmelden
Nützliche Links
Registrieren
Zurück Delphi-PRAXiS Programmierung allgemein Programmieren allgemein Text aus durchsuchbarer PDF-Datei extrahieren
Thema durchsuchen
Ansicht
Themen-Optionen

Text aus durchsuchbarer PDF-Datei extrahieren

Ein Thema von hoefi · begonnen am 31. Dez 2022 · letzter Beitrag vom 31. Dez 2022
 
Benutzerbild von himitsu
himitsu

Registriert seit: 11. Okt 2003
Ort: Elbflorenz
44.550 Beiträge
 
Delphi 12 Athens
 
#2

AW: Text aus durchsuchbarer PDF-Datei extrahieren

  Alt 31. Dez 2022, 13:59
Vermutlich wird der Scanner einfach nur das "Bild" als Bild in der PDF ablegen. (z.B. als JPEG oder komprimiertes Bitmap)

Genauso gut kann man sich vom Scanner auch ein TIFF geben lassen, oder einzelne Bilder pro Seite.



So oder so mußt du also noch ein OCR über die Bilder laufen lassen, um aus dem Bild den Text rauszubekommen.
OCR = Optical Character Recognition = Texterkennung

z.B. OCRmyPDF wandelt ein PDF aus Bildern in ein PDF mit Text um.



Und dann kannst du aus dieser PDF die Texte rausholen.

Oder eben die Bilder durch OCR in Text umwandeln und es direkt geben lassen.



Womit ich mal gespielt habe, ist Bei Google suchenOCRmyPDF im Docker innerhalb eines NAS laufen zu lassen.
Scanner scannt die PDF in ein Verzeichnis des NAS, darüber läuft regelmäßig das OCR (Bei Google suchensynOCR) und schiebt die konvertierten PDFs in ein anderes Verzeichnis (oder bennent sie zumindestens um).

Bei Google suchendelphi ocr
Ein Therapeut entspricht 1024 Gigapeut.

Geändert von himitsu (31. Dez 2022 um 14:03 Uhr)
  Mit Zitat antworten Zitat
 

 

Forumregeln

Es ist dir nicht erlaubt, neue Themen zu verfassen.
Es ist dir nicht erlaubt, auf Beiträge zu antworten.
Es ist dir nicht erlaubt, Anhänge hochzuladen.
Es ist dir nicht erlaubt, deine Beiträge zu bearbeiten.

BB-Code ist an.
Smileys sind an.
[IMG] Code ist an.
HTML-Code ist aus.
Trackbacks are an
Pingbacks are an
Refbacks are aus

Gehe zu:

Impressum · AGB · Datenschutz · Nach oben
Alle Zeitangaben in WEZ +1. Es ist jetzt 02:39 Uhr.
Powered by vBulletin® Copyright ©2000 - 2025, Jelsoft Enterprises Ltd.
LinkBacks Enabled by vBSEO © 2011, Crawlability, Inc.
Delphi-PRAXiS (c) 2002 - 2023 by Daniel R. Wolf, 2024-2025 by Thomas Breitkreuz