AGB  ·  Datenschutz  ·  Impressum  







Anmelden
Nützliche Links
Registrieren
Thema durchsuchen
Ansicht
Themen-Optionen

PDF mit Tesseract

Ein Thema von Delbor · begonnen am 3. Mai 2018 · letzter Beitrag vom 26. Mai 2018
Antwort Antwort
Delbor

Registriert seit: 8. Okt 2006
Ort: St.Gallen/Schweiz
1.186 Beiträge
 
Delphi 11 Alexandria
 
#1

PDF mit Tesseract

  Alt 3. Mai 2018, 12:34
Hi zusammen

Gegenwärtig arbeite ich immer noch an meinem PDF-Tool. Die Dinger anzuzeigen, war dank Googles PDFium schnell gelöst. Mittlerweile kann ich die Dinger auch einscannen und die standardmässig gelieferten Bitmaps auch in Tiffs umwandeln. Nur dann auch noch mit Tesseract den Text auszulesen, daran scheitere ich bislang. Mit der folgenden Prozedur wird der Scanvorgang abgeschlossen und Tessseract aufgerufen:
Delphi-Quellcode:
procedure TPDFOfficerMain.DoFinishedImageScan(Sender: TObject;
  const Image: TBitmap);
  var ActDate, OldFile, S, P :String; Scannedstream : TFileStream; TTifimage : TTIFFGraphic;
begin
  TTifimage := TTIFFGraphic.Create;
  TTifimage.Assign(Image);
  ImgScannedImage.Picture.Assign(TTifimage);
  ImgScannedImage.Stretch := True;
  ActDate := ReplaceStr(DateTimeToStr(Now),':', '-' );
  OldFile := 'Image' +ActDate+'.tiff';
  S := IncludeTrailingPathDelimiter(FAppDataPath) + OldFile;
    try
      Scannedstream := TFileStream.Create(S, fmOpenReadWrite);
    except
      Scannedstream := TFileStream.Create(S, fmCreate);
    end;
    try
      P := ChangeFileExt(S,'.Pdf');
      TTifimage.SaveToStream(Scannedstream);
    finally
      Scannedstream.Free;
    end;
  Self.OCRFrame1.InputFileName := S;
  Self.OCRFrame1.OutputFileName := P;
  Self.OCRFrame1.OCR2PDF;
end;
Und weiter:
Delphi-Quellcode:
procedure TOCRFrame.OCR2PDF;
begin
  Tesseract := TTesseractOCR4.Create;
  try
    if Tesseract.Initialize('tessdata\', 'deu') then //<== Dieser Ausdruck ist false
    begin
      if Tesseract.CreatePDF(FInputFileName, FOutputFileName) then
      begin
        ShowMessage('PDF was saved succesfully to ' + FOutputFileName);
      end;
    end;
  finally
    Tesseract.Free;
  end;
end;
Den Ordner Tesseract habe ich nach ...\Debug\Win32 kopiert, wo ich auch die DLLs habe (Weil mir erstmal nicht klar war, welche dieser Dinger benötiigt wird...)
Doch offensichtlich ist da was falsch. Nur was?

Vielen Dank für eure Antworten!

Gruss
Delbor
Roger
Man muss und kann nicht alles wissen - man muss nur wissen, wo es steht.
Frei nach Albert Einstein
http://roase.ch
  Mit Zitat antworten Zitat
Delbor

Registriert seit: 8. Okt 2006
Ort: St.Gallen/Schweiz
1.186 Beiträge
 
Delphi 11 Alexandria
 
#2

AW: PDF mit Tesseract

  Alt 26. Mai 2018, 12:50
Hi zusammen

Inzwischen hat sich etwas getan, und obige Prozedur hat sich etwas verändert:
Delphi-Quellcode:
procedure TPDFOfficerMain.DoFinishedImageScan(Sender: TObject;
  const Image: TBitmap);
  var ActDate, OldFile, S, P :String;
      Scannedstream : TFileStream; TTifimage : TTIFFGraphic;
begin
  TTifimage := TTIFFGraphic.Create;
  TTifimage.Assign(Image); /// Das Image(BMP) wird in ein Tiff umgewandelt
  ImgScannedImage.Picture.Assign(TTifimage); /// und einem TImage zugewiesen und auch angezeigt
  ImgScannedImage.Stretch := True;
  ActDate := ReplaceStr(DateTimeToStr(Now),':', '-' );
  OldFile := 'Image' +ActDate+'.tiff'; // OldFile ist der Pfad, unter dem das Tiff gespeichert wird
  S := IncludeTrailingPathDelimiter(FAppDataPath) + OldFile;
  P := ChangeFileExt(S,'.Pdf');
  TTifimage.SaveToFile(S); // <=Hier sollte das Tiff gespeichert werden
  Self.OCRFrame1.OutputFileName := P; // 2 Propertys beschreiben direkt 2 Felder für den
  Self.OCRFrame1.InputFileName := S; // Quell- und den Zielpfad, den die Fuktion CreatePDF benötigt
  Self.OCRFrame1.OCR2PDF;
end;
Das Tiff wird zwar angezeigt, aber nicht gespeichert - logisch, dass die PDF-Datei zwar ebenso angelegt wird, wie die Tiff-Datei, aber natürlich ebenso leer ist. Das Problem scheint also genau da zu liegen. Was mache ich Falsch?

Gruss
Delbor
Roger
Man muss und kann nicht alles wissen - man muss nur wissen, wo es steht.
Frei nach Albert Einstein
http://roase.ch
  Mit Zitat antworten Zitat
mkinzler
(Moderator)

Registriert seit: 9. Dez 2005
Ort: Heilbronn
39.851 Beiträge
 
Delphi 11 Alexandria
 
#3

AW: PDF mit Tesseract

  Alt 26. Mai 2018, 13:20
TTiffGraphic überlädt nur .SaveToStream()
.SaveToFile() wird von TBitmap geerbt
Markus Kinzler
  Mit Zitat antworten Zitat
Delbor

Registriert seit: 8. Okt 2006
Ort: St.Gallen/Schweiz
1.186 Beiträge
 
Delphi 11 Alexandria
 
#4

AW: PDF mit Tesseract

  Alt 26. Mai 2018, 18:30
Hi mkinzler

Inzwischen kann ich zwar ein "PDF" erstellen - der Grund für die verwendeten Hochkommas zeigt sich, wenn ich meinen PDF Viewer Plus starte und versuche, aus dem angelegten PDF ein durchsuchbares zu machen. Das geht schlicht nicht - also ist das Ding wohl auch nicht wirklich ein PDF.

Ich hab mir dann TTifimage nochmal etwas angesehen, und das bringt dann solche Sachen ans "Tageslicht" :
Delphi-Quellcode:
    TTifimage.ImageProperties.Width
    TTifimage.ImageProperties.Height
    TTifimage.Canvas...
Und da zeigt sich auch, dass das Handle des Tiffimage ein ganz normales Bitmap ist (HBitmap). Soweit ich das bis jetzt sehe, müssten diese ImageProperties bearbeitet werden:
Die Abmessungen des Bitmaps, das Pixelformat und der Canvas und dergleichen mehr müssten von der Ursprungsbitmap übernommen werden. Mit dem blossen Assign wie bei anderen Formaten ist es offensichtlich nicht getan.

Ich benutze die neueste GraphicEx-Master von Mike Lischke.

Gruss
Delbor
Roger
Man muss und kann nicht alles wissen - man muss nur wissen, wo es steht.
Frei nach Albert Einstein
http://roase.ch
  Mit Zitat antworten Zitat
Antwort Antwort


Forumregeln

Es ist dir nicht erlaubt, neue Themen zu verfassen.
Es ist dir nicht erlaubt, auf Beiträge zu antworten.
Es ist dir nicht erlaubt, Anhänge hochzuladen.
Es ist dir nicht erlaubt, deine Beiträge zu bearbeiten.

BB-Code ist an.
Smileys sind an.
[IMG] Code ist an.
HTML-Code ist aus.
Trackbacks are an
Pingbacks are an
Refbacks are aus

Gehe zu:

Impressum · AGB · Datenschutz · Nach oben
Alle Zeitangaben in WEZ +1. Es ist jetzt 10:26 Uhr.
Powered by vBulletin® Copyright ©2000 - 2024, Jelsoft Enterprises Ltd.
LinkBacks Enabled by vBSEO © 2011, Crawlability, Inc.
Delphi-PRAXiS (c) 2002 - 2023 by Daniel R. Wolf, 2024 by Thomas Breitkreuz