Delphi-PRAXiS

Delphi-PRAXiS (https://www.delphipraxis.net/forum.php)
-   Sonstige Fragen zu Delphi (https://www.delphipraxis.net/19-sonstige-fragen-zu-delphi/)
-   -   Delphi PDF mit Tesseract (https://www.delphipraxis.net/196235-pdf-mit-tesseract.html)

Delbor 3. Mai 2018 12:34

PDF mit Tesseract
 
Hi zusammen

Gegenwärtig arbeite ich immer noch an meinem PDF-Tool. Die Dinger anzuzeigen, war dank Googles PDFium schnell gelöst. Mittlerweile kann ich die Dinger auch einscannen und die standardmässig gelieferten Bitmaps auch in Tiffs umwandeln. Nur dann auch noch mit Tesseract den Text auszulesen, daran scheitere ich bislang. Mit der folgenden Prozedur wird der Scanvorgang abgeschlossen und Tessseract aufgerufen:
Delphi-Quellcode:
procedure TPDFOfficerMain.DoFinishedImageScan(Sender: TObject;
  const Image: TBitmap);
  var ActDate, OldFile, S, P :String; Scannedstream : TFileStream; TTifimage : TTIFFGraphic;    
begin
  TTifimage := TTIFFGraphic.Create;
  TTifimage.Assign(Image);
  ImgScannedImage.Picture.Assign(TTifimage);
  ImgScannedImage.Stretch := True;
  ActDate := ReplaceStr(DateTimeToStr(Now),':', '-' );
  OldFile := 'Image' +ActDate+'.tiff';
  S := IncludeTrailingPathDelimiter(FAppDataPath) + OldFile;
    try
      Scannedstream := TFileStream.Create(S, fmOpenReadWrite);
    except
      Scannedstream := TFileStream.Create(S, fmCreate);
    end;
    try
      P := ChangeFileExt(S,'.Pdf');
      TTifimage.SaveToStream(Scannedstream);
    finally
      Scannedstream.Free;
    end;
  Self.OCRFrame1.InputFileName := S;
  Self.OCRFrame1.OutputFileName := P;
  Self.OCRFrame1.OCR2PDF;
end;
Und weiter:
Delphi-Quellcode:
procedure TOCRFrame.OCR2PDF;
begin
  Tesseract := TTesseractOCR4.Create;
  try
    if Tesseract.Initialize('tessdata\', 'deu') then  //<== Dieser Ausdruck ist false
    begin
      if Tesseract.CreatePDF(FInputFileName, FOutputFileName) then
      begin
        ShowMessage('PDF was saved succesfully to ' + FOutputFileName);
      end;
    end;
  finally
    Tesseract.Free;
  end;
end;
Den Ordner Tesseract habe ich nach ...\Debug\Win32 kopiert, wo ich auch die DLLs habe (Weil mir erstmal nicht klar war, welche dieser Dinger benötiigt wird...)
Doch offensichtlich ist da was falsch. Nur was?

Vielen Dank für eure Antworten!

Gruss
Delbor

Delbor 26. Mai 2018 12:50

AW: PDF mit Tesseract
 
Hi zusammen

Inzwischen hat sich etwas getan, und obige Prozedur hat sich etwas verändert:
Delphi-Quellcode:
procedure TPDFOfficerMain.DoFinishedImageScan(Sender: TObject;
  const Image: TBitmap);
  var ActDate, OldFile, S, P :String;
      Scannedstream : TFileStream; TTifimage : TTIFFGraphic;
begin
  TTifimage := TTIFFGraphic.Create;
  TTifimage.Assign(Image);                                        /// Das Image(BMP) wird in ein Tiff umgewandelt
  ImgScannedImage.Picture.Assign(TTifimage);        /// und einem TImage zugewiesen und auch angezeigt
  ImgScannedImage.Stretch := True;
  ActDate := ReplaceStr(DateTimeToStr(Now),':', '-' );
  OldFile := 'Image' +ActDate+'.tiff';                // OldFile ist der Pfad, unter dem das Tiff gespeichert wird
  S := IncludeTrailingPathDelimiter(FAppDataPath) + OldFile;
  P := ChangeFileExt(S,'.Pdf');
  TTifimage.SaveToFile(S);                          // <=Hier sollte das Tiff gespeichert werden
  Self.OCRFrame1.OutputFileName := P;               // 2 Propertys beschreiben direkt 2 Felder für den
  Self.OCRFrame1.InputFileName := S;               // Quell- und den Zielpfad, den die Fuktion CreatePDF benötigt
  Self.OCRFrame1.OCR2PDF;
end;
Das Tiff wird zwar angezeigt, aber nicht gespeichert - logisch, dass die PDF-Datei zwar ebenso angelegt wird, wie die Tiff-Datei, aber natürlich ebenso leer ist. Das Problem scheint also genau da zu liegen. Was mache ich Falsch?

Gruss
Delbor

mkinzler 26. Mai 2018 13:20

AW: PDF mit Tesseract
 
TTiffGraphic überlädt nur .SaveToStream()
.SaveToFile() wird von TBitmap geerbt

Delbor 26. Mai 2018 18:30

AW: PDF mit Tesseract
 
Hi mkinzler

Inzwischen kann ich zwar ein "PDF" erstellen - der Grund für die verwendeten Hochkommas zeigt sich, wenn ich meinen PDF Viewer Plus starte und versuche, aus dem angelegten PDF ein durchsuchbares zu machen. Das geht schlicht nicht - also ist das Ding wohl auch nicht wirklich ein PDF.

Ich hab mir dann TTifimage nochmal etwas angesehen, und das bringt dann solche Sachen ans "Tageslicht" :
Delphi-Quellcode:
    TTifimage.ImageProperties.Width
    TTifimage.ImageProperties.Height
    TTifimage.Canvas...
Und da zeigt sich auch, dass das Handle des Tiffimage ein ganz normales Bitmap ist (HBitmap). Soweit ich das bis jetzt sehe, müssten diese ImageProperties bearbeitet werden:
Die Abmessungen des Bitmaps, das Pixelformat und der Canvas und dergleichen mehr müssten von der Ursprungsbitmap übernommen werden. Mit dem blossen Assign wie bei anderen Formaten ist es offensichtlich nicht getan.

Ich benutze die neueste GraphicEx-Master von Mike Lischke.

Gruss
Delbor


Alle Zeitangaben in WEZ +1. Es ist jetzt 02:14 Uhr.

Powered by vBulletin® Copyright ©2000 - 2024, Jelsoft Enterprises Ltd.
LinkBacks Enabled by vBSEO © 2011, Crawlability, Inc.
Delphi-PRAXiS (c) 2002 - 2023 by Daniel R. Wolf, 2024 by Thomas Breitkreuz