Delphi-PRAXiS - Einzelnen Beitrag anzeigen

**Rollo62**

Mein Vorschlag wäre, installier Dir Pdf24, darunter gibt es Tesseract, was hervorragend funktioniert.
So musst Du nur ein einfaches Setup installieren und hast jede Menge Mehrwert plus OCR.

und welche Github-Repository benutzt du?

Ja stimmt, sorry, ich habe gerade nochmal nachgeschaut, nutze die doch nicht direkt, sondern über das PDF24-OCR.exe

Funktioniert aber super bei mir out-of-the-box, wenn es nur um das OCR'en geht.

zusammenfalten · markieren

Delphi-Quellcode:

			@echo off

set path_caller=%~dp0

set par_in=%1

REM Ignore and remove the known file extension from the path 

set "file_in_plain=%1"

REM Check, ob die Datei eine bekannte Endung hat

for %%E in (.pdf .jpg .png) do (

    if /i "%file_in_plain:~-4%"=="%%E" (

        set "file_in_plain=%file_in_plain:~0,-4%"

    )

)

set file_in=%file_in_plain%.pdf

set file_out=%file_in_plain%_ocred.pdf

set path_pdf24=C:\Program Files\PDF24\

set pdf24_ocr="%path_pdf24%pdf24-Ocr.exe"

echo . 

echo . Input    %1

echo . Input  = %file_in%

echo . Output = %file_out%

echo .

echo . OCR the %file_in% to %file_out%

echo .

pause

rem pdf24-Ocr.exe.lnk

rem "pdf24-Ocr.exe.lnk" -outputFile "sichtkopie188806433_Test001_V05_ocred.pdf"  -dpi 300 -deskew -autoRotatePages  "sichtkopie188806433_Test001_V05.pdf "

%pdf24_ocr% -outputFile "%path_caller%%file_out%"  -dpi 300 -deskew -autoRotatePages  "%path_caller%%file_in%"

Ansonsten habe ich viele Versuche mit Python tesseract eingebunden, da gibt es verschiedene Ansätze, das ist aber viel mehr gefrickel, nur um eine Datei zu OCR'en.
Die scheinen mehr oder weniger alle auf

UB Mannheim Tesseract zu basieren.

https://github.com/UB-Mannheim/Tesseract

Dann würde ich aber doch lieber gleich aud Docling umsteigen

https://pypi.org/project/docling/
Das lässt Dir über Python alle Möglichkeiten, bietet aber gleichzeitig auch eine CLI als "Kommandozeile" und kann außer verschiedenen OCR noch viel viel mehr.

Einzelnen Beitrag anzeigen

AW: TesseractOCR