Delphi-PRAXiS
Seite 2 von 2     12   

Delphi-PRAXiS (https://www.delphipraxis.net/forum.php)
-   Software-Projekte der Mitglieder (https://www.delphipraxis.net/26-software-projekte-der-mitglieder/)
-   -   Normalisierung von Adressen / Postalman (https://www.delphipraxis.net/213746-normalisierung-von-adressen-postalman.html)

hanvas 20. Sep 2023 19:15

AW: Normalisierung von Adressen / Postalman
 
Zitat:

Zitat von BlueStarHH (Beitrag 1527161)
Zitat:

Zitat von hanvas (Beitrag 1527152)
Ich will, wenn ich irgendwann mit dem Training fertig bin, libpostal eigentlich einsetzen um mit Hilfe von Donut [2] Rechnungen zu parsen und anschließend die Adressen aufzuarbeiten.

Wozu braucht man die Adressen von Rechnungen? Wenn ich eine Rechnung ausstelle, kenn ich die Adresse, da ich sie selbst draufgeschrieben haben. Wenn ich eine Rechnung empfange, kenne ich die Adresse auch. Denn es ist meine eigene.

Im Grunde geht es um die automatische Verarbeitung von Dokumenten. Modelle wie Donut, Layoutlm, lilit und noch einige mehr können, entsprechendes Training vorrausgesetzt, die Inhalten von Dokumenten klassifizieren.

Also

Kunde->Hans Joerg Vasold, Schäferspforte....
Verkäufer->Amazon, Koblenz ....
Iban->DE 97 ....
TaxId->
Brutto-> 1189,00
Netto-> 1189,00
Steuer->0
Währung->€

usw.

Dabei fasst man (oder ich) die Daten zu Gruppen zusammen, also beispielsweise die Adresse(n), die Zeile(n) eine Rechnung, den Kopf oder Fuß usw. Das hat Vorteile beim Auszeichnen der Trainingsdaten, insbesondere das ich viel weniger Auszeichnen muss, ist zunächst weniger Fehleranfällig und lässt sich auch leichter trainieren.

Es hat aber unter anderem den Nachteil das ich die Gruppen später mit anderen Modellen (die ich ebenfallss trainieren muss) wieder aufsplitten muss.

Der Plan ist letztendlich ein Programm zu haben mit dem ich Dokumente (in diesem Fall Rechnungen) verarbeite, ein weiteres Programm zu haben, welches ein verarbeitetes Dokument zusammen mit den erkannten Daten präsentiert (und auch zur Korrektur verwendet werden kann) um anschließend einen Export der erkannten und korrigierten Daten durchzuführen.

cu Ha Joe

hanvas 20. Sep 2023 20:27

AW: Normalisierung von Adressen / Postalman
 
Zitat:

Zitat von BlueStarHH (Beitrag 1527160)
Was mache ich falsch?

Gar nichts, war mein Fehler.

In der Routine TPostalMan.Setup hat ein API Aufruf zum Setzen des Datenverzeichnisses gefehlt.

Hinweis: Wer nur die Headerdatei verwendet und das Datenverzeichnis verändern will muss erst das Datenverzeichnis setzen (libpostal_setup_datadir) bevor setup (libpostal_setup) aufgerufen wird.

Hab die entsprechende Datei (Postal.PostalMan) auf github geändert.

ps.: bei C:\Workbench\libpostal ist das Datenverzeichnis C:\Workbench\libpostal\datastore\libpostal, bei C:\WorkbenchX\libpostal ist das Datenverzeichnis entsprechend C:\WorkbenchX\libpostal\datastore\libpostal, natürlich können die Daten unterhalb von C:\Workbench\libpostal\datastore\libpostal aber auch in ein anderes Verzeichnis kopiert werden und dann muss eben das als Datenverzeichnis verwendet werden.

hth Ha Joe

hanvas 21. Sep 2023 10:41

AW: Normalisierung von Adressen / Postalman
 
Zitat:

Zitat von hanvas (Beitrag 1527168)
Zitat:

Zitat von BlueStarHH (Beitrag 1527160)
Was mache ich falsch?

Gar nichts, war mein Fehler.

Nicht nur.

Ich habe libpostal noch mal selbst gebaut. Wenn ich die selbst gebauten Binaries/Datenverzeichnisse verwende kann ich libpostal an jede beliebige Stelle kopieren, wenn ich die "vorbereiteten" verwende bin ich tatsächlich auf den Pfad C:\Workbench... festgelegt. Es scheint so als ob der Author von pypostalwin an irgendeiner Stelle den Pfad/Pfade fest verdrahtet hätte.

Ich werde versuchen die Binaries auf Github in den ächsten Tagen zur Verfügung zu stellen, muss dazu aber ein Release basteln (wegen der Dateigröße) bis dahin wirst Du wohl mit der Lösung "C:\Workbench" auskommen müssen oder die Binaries selbst bauen. Die Anleitung dazu findest du bei libpostal.

cu Ha Joe

hanvas 21. Sep 2023 12:58

AW: Normalisierung von Adressen / Postalman
 
Zitat:

Zitat von hanvas (Beitrag 1527176)
Ich habe libpostal noch mal selbst gebaut....
Ich werde versuchen die Binaries auf Github in den ächsten Tagen zur Verfügung zu stellen

Ich habe die Daten mit der Testanwendung als Release auf Github gestellt. Einfach in ein beliebiges Verzeichnis entpacken und die Testanwendung ausführen. Die Pfade für die DLL und das Datenverzeichnis werden in dem Fall automatisch, beim starten der Testanwendung gesetzt.

hth Ha-Jö


Alle Zeitangaben in WEZ +1. Es ist jetzt 05:46 Uhr.
Seite 2 von 2     12   

Powered by vBulletin® Copyright ©2000 - 2024, Jelsoft Enterprises Ltd.
LinkBacks Enabled by vBSEO © 2011, Crawlability, Inc.
Delphi-PRAXiS (c) 2002 - 2023 by Daniel R. Wolf, 2024 by Thomas Breitkreuz