AGB  ·  Datenschutz  ·  Impressum  







Anmelden
Nützliche Links
Registrieren
Thema durchsuchen
Ansicht
Themen-Optionen

TesseractOCR

Ein Thema von Hobbycoder · begonnen am 24. Jun 2025 · letzter Beitrag vom 25. Jun 2025
 
Rollo62

Registriert seit: 15. Mär 2007
4.242 Beiträge
 
Delphi 12 Athens
 
#4

AW: TesseractOCR

  Alt 24. Jun 2025, 17:03
Mein Vorschlag wäre, installier Dir Pdf24, darunter gibt es Tesseract, was hervorragend funktioniert.
So musst Du nur ein einfaches Setup installieren und hast jede Menge Mehrwert plus OCR.
und welche Github-Repository benutzt du?
Ja stimmt, sorry, ich habe gerade nochmal nachgeschaut, nutze die doch nicht direkt, sondern über das PDF24-OCR.exe
Funktioniert aber super bei mir out-of-the-box, wenn es nur um das OCR'en geht.

Delphi-Quellcode:
@echo off

set path_caller=%~dp0
set par_in=%1

REM Ignore and remove the known file extension from the path
set "file_in_plain=%1"

REM Check, ob die Datei eine bekannte Endung hat
for %%E in (.pdf .jpg .png) do (
    if /i "%file_in_plain:~-4%"=="%%E" (
        set "file_in_plain=%file_in_plain:~0,-4%"
    )
)

set file_in=%file_in_plain%.pdf
set file_out=%file_in_plain%_ocred.pdf

set path_pdf24=C:\Program Files\PDF24\
set pdf24_ocr="%path_pdf24%pdf24-Ocr.exe"

echo .
echo . Input %1
echo . Input = %file_in%
echo . Output = %file_out%
echo .
echo . OCR the %file_in% to %file_out%
echo .

pause

rem pdf24-Ocr.exe.lnk
rem "pdf24-Ocr.exe.lnk" -outputFile "sichtkopie188806433_Test001_V05_ocred.pdf" -dpi 300 -deskew -autoRotatePages "sichtkopie188806433_Test001_V05.pdf "


%pdf24_ocr% -outputFile "%path_caller%%file_out%" -dpi 300 -deskew -autoRotatePages "%path_caller%%file_in%"

Ansonsten habe ich viele Versuche mit Python tesseract eingebunden, da gibt es verschiedene Ansätze, das ist aber viel mehr gefrickel, nur um eine Datei zu OCR'en.
Die scheinen mehr oder weniger alle auf UB Mannheim Tesseract zu basieren.
https://github.com/UB-Mannheim/Tesseract

Dann würde ich aber doch lieber gleich aud Docling umsteigen
https://pypi.org/project/docling/
Das lässt Dir über Python alle Möglichkeiten, bietet aber gleichzeitig auch eine CLI als "Kommandozeile" und kann außer verschiedenen OCR noch viel viel mehr.
  Mit Zitat antworten Zitat
 


Forumregeln

Es ist dir nicht erlaubt, neue Themen zu verfassen.
Es ist dir nicht erlaubt, auf Beiträge zu antworten.
Es ist dir nicht erlaubt, Anhänge hochzuladen.
Es ist dir nicht erlaubt, deine Beiträge zu bearbeiten.

BB-Code ist an.
Smileys sind an.
[IMG] Code ist an.
HTML-Code ist aus.
Trackbacks are an
Pingbacks are an
Refbacks are aus

Gehe zu:

Impressum · AGB · Datenschutz · Nach oben
Alle Zeitangaben in WEZ +1. Es ist jetzt 02:45 Uhr.
Powered by vBulletin® Copyright ©2000 - 2025, Jelsoft Enterprises Ltd.
LinkBacks Enabled by vBSEO © 2011, Crawlability, Inc.
Delphi-PRAXiS (c) 2002 - 2023 by Daniel R. Wolf, 2024-2025 by Thomas Breitkreuz