Delphi-PRAXiS
Seite 1 von 4  1 23     Letzte »    

Delphi-PRAXiS (https://www.delphipraxis.net/forum.php)
-   Software-Projekte der Mitglieder (https://www.delphipraxis.net/26-software-projekte-der-mitglieder/)
-   -   Spracherkennung (Einzelworterkennung) (https://www.delphipraxis.net/100509-spracherkennung-einzelworterkennung.html)

omata 29. Sep 2007 02:38


Spracherkennung (Einzelworterkennung)
 
Liste der Anhänge anzeigen (Anzahl: 4)
Wie hier bereits erwähnt,
stelle ich nun mal ein Programm vor, dass eine Spracherkennung (Einzelworterkennung) durchführt.

Im Anhang befindet sich auch eine Dokumentation.

Viel Spass beim Testen.

Wichtig für den Quellcode: Zeos-Komponenten

Gruss
Thorsten

Go2EITS 30. Sep 2007 07:12

Re: Spracherkennung (Einzelworterkennung)
 
@omata
Dank für Deinen Beitrag und dem interessanten Programm. Ich habe zwar kein Micro, aber die Möglichkeit auch andere Quellen anzuschließen, finde ich interessant. Aber spannend wird es, wenn ich dem Programm z. B. sage: "Runterfahren" und das Programm fährt mir den Computer runter. Ich meine damit, dass, wenn ein Wort erkannt wird, eine definierte Aktion ausgeführt wird.
Die Dokumentation als PDF ist sehr umfangreich. Sollte man sich mal ansehen.

Beste Grüße
Go2EITS

GeMo 30. Sep 2007 10:44

Re: Spracherkennung (Einzelworterkennung)
 
hmmm... irgendwas scheine ich falsch zu machen...
ich habe das programm gestartet und es ist mikrofon ausgewählt.. jedoch kann ich keine aufnahme starten :/
um gleich vor zu beugen: mein mikrofon funktioniert in allen anderen anwendungen...

Relicted 30. Sep 2007 11:28

Re: Spracherkennung (Einzelworterkennung)
 
hört sich ja fast nach einer diplomarbeit an... cool gemacht :thumb:

jetzt noch ne komponente zum einsatz in anderen programmen und ich spring im kreis :-))

gruß
reli

Florian H 30. Sep 2007 11:48

Re: Spracherkennung (Einzelworterkennung)
 
Zitat:

Zitat von GeMo
hmmm... irgendwas scheine ich falsch zu machen...
ich habe das programm gestartet und es ist mikrofon ausgewählt.. jedoch kann ich keine aufnahme starten :/
um gleich vor zu beugen: mein mikrofon funktioniert in allen anderen anwendungen...

Ich zitiere aus der Doku:

Zitat:

Wenn Symbole und Personen angelegt wurden, konnen uber den Reiter Aufnahme Referenzmuster
aufgenommen, zugewiesen und in der Datenbank abgelegt werden.

Hador 30. Sep 2007 13:02

Re: Spracherkennung (Einzelworterkennung)
 
Ein echt cooles Programm.

Was mir so aufgefallen ist:
  • Anfangseinstellungen sind recht kompliziert und keinesfalls inuitiv. Hierfür würde ich dir einen Assistenten empfehlen: 1. Person erstellen, 2. Symbol erstellen, 3. Sound aufnehmen, bei bedarf zurück zu Punkt 2.
  • Das automatische Schneiden macht irgendwie bei mir nichts
  • Das manuelle schneiden löscht einfach den Bereich vor dem Marker. Was ist aber, wenn ich den Bereich dahinter löschen will? Besser, man kann einen Teil markieren und diesen dann löschen.
  • Es gibt Leute mit mehreren Soundkarten (ich habe bspw. drei). Bei dir kann man zwar auswählen, ob von Mikrofon oder Line-In aufgenommen werden soll, nicht jedoch von welcher Soundkarte.
  • Die erkennung ist noch nicht ganz so toll. Ich habe bei mir mal Sieben und Acht aufgenommen, und vorallem bei der Sieben hatte er erhebliche Probleme. Siehe:
    Code:
    Sieben [Lars Kiesow] (73,1%)
    Kein Symbol erkannt.
    Acht [Lars Kiesow] (62,0%)
    Kein Symbol erkannt.
    Kein Symbol erkannt.
    Sieben [Lars Kiesow] (63,0%)
    Kein Symbol erkannt.
    Kein Symbol erkannt.
    Kein Symbol erkannt.
    Kein Symbol erkannt.
    Kein Symbol erkannt.
    Kein Symbol erkannt.
    Kein Symbol erkannt.
    Kein Symbol erkannt.
    Kein Symbol erkannt.
    Kein Symbol erkannt.
    Kein Symbol erkannt.
    Kein Symbol erkannt.
    Kein Symbol erkannt.
    Acht [Lars Kiesow] (65,4%)
    Kein Symbol erkannt.
    Kein Symbol erkannt.
    Acht [Lars Kiesow] (55,9%)
    Kein Symbol erkannt.
    Kein Symbol erkannt.
    Kein Symbol erkannt.
    Kein Symbol erkannt.
    Kein Symbol erkannt.
    Kein Symbol erkannt.
    Kein Symbol erkannt.
    Sieben [Lars Kiesow] (72,8%)
    Kein Symbol erkannt.
    Kein Symbol erkannt.
    Kein Symbol erkannt.
    Kein Symbol erkannt.
    Kein Symbol erkannt.
    Sieben [Lars Kiesow] (69,5%)
    Acht [Lars Kiesow] (61,7%)
    Acht [Lars Kiesow] (56,5%)
    Acht [Lars Kiesow] (61,5%)
    Acht [Lars Kiesow] (62,9%)
    Kein Symbol erkannt.
    Kein Symbol erkannt.
    Sieben [Lars Kiesow] (80,9%)

EDIT: Habe gerade gelesen, dass das Schneiden ja über linke/rechte Maustaste geht. Einfaches markieren mit der linken fände ich einfacher, aber es geht auch so. Ausprobieren konnte ich es leider nicht, da sich das Programm nicht ein zweites mal starten lässt (Microsoft Application Error Reporting wird gestartet).

EDIT2: Habe gerade gemerkt, dass der erste Prozess noch lief, hatte sich scheinbar beim beenden aufgehangen. Der fehler beim erneuten startet kam dann von der DB, auf die du 2x zugreifen willst. Dieser kommt auch, wenn du das Prgm. ganz normal 2x gleichzeitig startest.

RWarnecke 30. Sep 2007 13:45

Re: Spracherkennung (Einzelworterkennung)
 
Hallo,

ich habe gerade Dein Programm getestet. Schonmal nicht schlecht. Nur folgende Dinge würde ich mir noch wünschen :
  • Auswahl des Audiogerätes
  • Eine einfachere Bedienbarkeit, finde ich ziemlich umständlich

Wieso werden zwei Fenster geöffnet, wenn ich unter Optionen-->Einstellungen auswähle ?

omata 30. Sep 2007 14:35

Re: Spracherkennung (Einzelworterkennung)
 
Hallo,
Zitat:

Zitat von Go2EITS
... Aber spannend wird es, wenn ich dem Programm z. B. sage: "Runterfahren" und das Programm fährt mir den Computer runter. Ich meine damit, dass, wenn ein Wort erkannt wird, eine definierte Aktion ausgeführt wird.

Das ist zwar eine Gute Idee, aber ich wollte hier nicht Microsoft Speech nachbauen.

Zitat:

Zitat von Relicted
... jetzt noch ne komponente zum einsatz in anderen programmen und ich spring im kreis :-))

Zugegeben, schöne Idee. Aber so einfach ist das dann auch wieder nicht.

Zitat:

Zitat von Hador
...Die erkennung ist noch nicht ganz so toll. Ich habe bei mir mal Sieben und Acht aufgenommen, und vorallem bei der Sieben hatte er erhebliche Probleme.

Die Erkennungrate hängt sehr stark von den Referenzmustern ab. Ich hatte auch schon Soundkarten (nur Laptops) bei denen so schlechte Signale von der Soundkarte kamen, dass damit keine guten Referenzmuster erstellt werden konnten. Die Signale werden zwar normalisiert, dies führt aber bei sehr leisen Amplituden zu verrauschten Signalen. In der Doku ist ja ein Bild von einer aufgenommenen Sieben zu sehen. Sieht sie bei dir auch so kräftig und satt aus?
Sieben sollte eigentlich immer sehr gut zu erkennen sein. Um die Trefferquote noch weiter zu erhöhen können auch mehrere Referenzmuster für ein Symbol aufgenommen werden.
Die Refenrenzmustern sollte man auf jeden Fall optimieren, falls eins nicht so gut geht -> löschen und neu aufnehmen. Deutlich sprechen und wie oben erwähnt, das Signal sollte nicht zu leise sein.
Spracherkennung ist hochkompliziert und immer garantiert nicht fehlerfrei. Trotzdem bin ich begeistert von der Erkennunggenauigkeit des Systems, weil ich mich mit mehreren Techniken beschätigt habe (Neuronale Netze, Dynamic Time Warping, LPC, Cepstrum, reine FFT, Spektrum). Und als ich das erstemal dieses Konzept getestet hatte, bin ich fast vom Stuhl gerutscht, weil die Erkennungrate bei 100% lag. Sie liegt in Wirklichheit bei <100% aber eben auch bei >95% und das will schon etwas heißen!

Zitat:

Zitat von Hador
... Habe gerade gemerkt, dass der erste Prozess noch lief, hatte sich scheinbar beim beenden aufgehangen. Der fehler beim erneuten startet kam dann von der DB, auf die du 2x zugreifen willst. Dieser kommt auch, wenn du das Prgm. ganz normal 2x gleichzeitig startest.

Ups, sowas baue ich eigentlich in jedes Programm ein. Hier hab ich es irgendwie übersehen.

Zitat:

Zitat von RWarnecke
  • Auswahl des Audiogerätes
  • Eine einfachere Bedienbarkeit, finde ich ziemlich umständlich
Wieso werden zwei Fenster geöffnet, wenn ich unter Optionen-->Einstellungen auswähle ?

Das mit den Soundkarten ist ebenfalls ein guter Hinweis, den Gedanken hatte ich auch schon mal kurz. Allerdings stand der nicht so hoch auf der Wunschliste, die restliche Funktion war mir da wichtiger.
Das mit den zwei Fenstern verstehe ich nicht so ganz. Es gibt ein Hauptfenster und ein Einstellungsfenster.


Vielen dank für eure Meinungen.
Bei der Entwicklung stand im Vordergrund das überhaupt ein einigermaßen funktionierendes Produkt zu stande kommt.
Es kann also durchaus sein, dass es noch Verbesserungen geben kann (gibt es die nicht immer), deshalb danke ich euch für die Hinweise. Allerdings sind in dieses Projekt bis jetzt >200 Stunden reingeflossen und ich muss ehrlich zugeben, ich kann es nicht mehr sehen. Deshalb wird es erstmal keine Änderungen geben.
Ich wollte es euch mal vorstellen, weil ich das Thema nach wie vor hoch interessant finde und ich mal zeigen wollte das es durchaus möglich ist soetwas zu realisieren.
Vielleicht finde ich irgendwann nochmal die Muße eure Wünsche mit einzubauen.

Gruss
Thorsten

dominikkv 30. Sep 2007 15:08

Re: Spracherkennung (Einzelworterkennung)
 
unter windows vista läuft dein prog nur mit administratorrechten.

omata 30. Sep 2007 15:19

Re: Spracherkennung (Einzelworterkennung)
 
Zitat:

Zitat von dominikkv
unter windows vista läuft dein prog nur mit administratorrechten.

Das kann gut sein, liegt vermutlich an der Firebird Embedded Datenbank.

Edit: Hast du eventuell die Window Firewall aktiv? Die unterschiedet ja leider nicht zwischen lokalen TCP/IP und von außen kommenden Verbindungen. Dort wird einfach alles gesperrt, deshalb geht dann Firebird nicht.

Gruss
Thorsten


Alle Zeitangaben in WEZ +1. Es ist jetzt 21:02 Uhr.
Seite 1 von 4  1 23     Letzte »    

Powered by vBulletin® Copyright ©2000 - 2024, Jelsoft Enterprises Ltd.
LinkBacks Enabled by vBSEO © 2011, Crawlability, Inc.
Delphi-PRAXiS (c) 2002 - 2023 by Daniel R. Wolf, 2024 by Thomas Breitkreuz