Delphi-PRAXiS

Delphi-PRAXiS (https://www.delphipraxis.net/forum.php)
-   Win32/Win64 API (native code) (https://www.delphipraxis.net/17-win32-win64-api-native-code/)
-   -   Delphi Microsoft Sprachengine : Alternativen (https://www.delphipraxis.net/4357-microsoft-sprachengine-alternativen.html)

moritz 25. Apr 2003 15:53


Microsoft Sprachengine : Alternativen
 
Hi

Ich wollte mal fragen, ob es eine bessere und kostenlose Sprachenigne als die M$-Sprachengine gibt.
Oder wie Ihr es einschätzt, eine eigene Sprachneingibe zu schreiben. Ich denke das geht mit ein paar Soundfiles.

Freue mich auf Feedback.

S - tefano 25. Apr 2003 17:52

Hi,

wüsst jetz keine, aber is denn die von M$ kostenpflichtig, oder meins du das jetz nur so weil eine Alternative nix kosten soll?
Ich kann mir eigentlich nicht vorstellen, dass es große Denkarbeit is, sone Engine zu entwickeln. Ich würd eher sagen, dass es halt wie bei stumpfen Matheaufgaben reine Schreibarbeit (und in dem Fall auch "Sprecharbeit") is, sowas zu machen.
Wär eigentlich ganz cool sowas zu haben/zu machen, weil mans dann leichter auf andere Betriebssysteme portieren kann. Ok, wie das jetz mit der "Portierungsfähigkeit" dieser MS- Engine zu anderen WindowsVersionen aussieht, weiß ich nich, aber bei ner eigenen Engine hätte mans besser unter Kontrolle.
Würd mich mal interessieren, was die andern davon halten. Wenns auf größeren Anklang stößt, hätt ich auch Bock bei sowas evtl. mitzumachen.

Bis dann,

S - tefano

Alexander 25. Apr 2003 18:30

Hi
ich denke mir, dass das doch ziemlich schwierig ist. Ihr könnt euch ja mal die Sprachausgabe von WinXp (oder ist auch shcon bei ME und 2000 dabei??) ankucken, dann wisst ihr was ich meine....
Also ich stell mir das wirklich schwer vor...

S - tefano 25. Apr 2003 19:07

Hi,

Naja...
eigentlich muss man "nur" ne Methode entwickeln, Silben zu erkennen und voneinander zu Unterscheiden, also im Endeffekt den String den wir aufsagen sollen so weit wie möglich kleinzuhacken, bis nur noch Silben oder Buchstaben übrig bleiben.
Die muss man dann noch "vertonen", sprich irgendeiner muss alle Bausteine die wir aus nem String rausholen können in sein Headset sprechen und beispielsweise als wav speichern.
Dann muss man evtl. noch die verschiedenen möglichen Betonungen berücksichtigen und so von den Bausteinen verschiedene "Versionen" machen.
Naja, und die müssen wir dann halt quasi "on the fly" (zähl mal einer die Gänsefüßchen die ich bislang schon gesetzt hab :nerd: ) wiedergeben. Und wenn wir einen Baustein nicht kennen, dann spielen wir halt bis wir wieder nen Baustein erkennen den Sound für die einzelnen Buchstaben ab.
Das größte Problem der Denkarbeit is eigentlich dass wir rausfinden müssen, wieviele und was es für Bausteine gibt. Der Rest ist schlichtweg Arbeit. Denk ich jedenfalls.

Bis dann,

S - tefano

Alexander 26. Apr 2003 07:25

naja dann macht mal....bin davon überzeugt, dass gerade diese Arbeit auch nicht leicht ist....
Denn gerade die Betonung macht ja eine gute Sprachenginge aus.
es wären aber nochmal weitere Meinungen interessant zu hören

moritz 26. Apr 2003 09:54

Also, ich denke mal, ein Versuch wäre es wert. Es kann halt sein das man für jeden Buchstaben mehrere Files braucht, aber das bekommt man dann hin. Ich werd das ganze mal als Betatyp versuchen. :chat:

S - tefano 26. Apr 2003 10:08

Ich denke am schwierigsten könnte nach dem String- Kleinhacken das Thema Lesegeschwindigkeit sein, bzw. die Silben im richtigen Tempo zu vertonen.
Wünsch dir viel Glück bei diesem Unterfangen, Onz, wenns Probleme gibt weißt du ja auf welcher Website du dich melden kannst :wink: .

S - tefano

Darty 26. Apr 2003 10:30

Der Sinn für solches Vorhaben wäre wohl, dass das Programm für Blinden was vorliest ?

Falls aber für eine Anwendung oder Spiel benutzt werden sollte, dann würde man doch speziell für dieses auch entsprechende Wave nutzen. Da das automatische Lesen denke ich hört sich zu mechanisch an ...

Für mich der schlecht hört, würde lieber auf Untettitel bestehen :roll: Was auch toll wäre, dass man das gesprochene in Untertitel umwandelt. Aber dies ist einfach nicht möglich, da die Aussprache und und und immer unterschiedlich sind :(

moritz 26. Apr 2003 11:03

Nein, der Zweck liegt einfach in einer gescheiten Sprachengine, die dann für alles mögliche verwendet werden kann.

MadMason 26. Apr 2003 12:43

ich denke mit waves kannst du das nicht realisieren.
zu der microsoft engine gehören auch keine tausende wav-files oder ne große gepackte datei. bei den vielen möglichkeiten, die man da aufnehmen müßte, würden sicherlich ein paar gigabyte zusammenkommen.

man müßte die wavs praktisch on the fly erzeugen. also sprich direkt ins wave out device schreiben.

moritz 26. Apr 2003 12:45

Ich werd mir das mal anschaun. Wenns ne Beta gibt dann Poste ich sie hier.

S - tefano 26. Apr 2003 20:10

Aber wie soll mans denn hinkriegen, gesprochene Laute/Silben per SourceCode on the fly zu erzeugen? Wüsst nich wie sowas gehn soll.
Und bis zur Perfektion muss man das ja auch nich entwickeln, man brauch von jeder Silbe/Laut doch (meiner Meinung nach) höchstens 4 verschiedene Versionen oder so, und Silben und Buchstaben nehmen ja auch nicht viel Zeit in Anspruch. Sprich, die Waves wären schonmal wegen der Kürze recht klein. Wenn man sie dann noch in keiner allzu hohen Qualität codiert würde das auch nicht viel Platz in Anspruch nehmen.
Ich könnt mir bei der M$ Engine eigentlich durchaus vorstellen, dass die ihre Sound in irgendeine Ressourcendatei reincompiliert haben. Vielleicht kommen die Sounds auch irgendwie versteckt mit DirectX oder direkt mit Windows mit.
Und der Sinn der ganzen Sache... naja... man muss ja nich immer irgendwas machen wofür man XTausend Verwendungszwecke hat. Das könnte man jetz z.B. gut machen, um sich mal wieder zu zeigen dass man auch solche "großen" Sachen auf die Beine stellen kann, oder halt mal n bissken experimentieren, oder im Zweifelsfall seine Grenzen zu erkunden.

S - tefano

hitzi 27. Apr 2003 11:58

Kann sich jemand noch an die alten Soundblaster Zeiten erinnern? Da wurde auch ein Programm mitgeliefert, welches sprechen konnte (war aber nur auf englisch, oder?). Dieses Programm hatte die "Sprache" auch nur syntetisch erzeugt. Also nix mit Wavedateien oder ähnlichen. Wie gut nun diese künstliche Stimme klingt, liegt am verwendeten Algorithmus.

Btw. eine Alternative wäre auch Logox -> www.logox.de


Bye Hitzi

S - tefano 27. Apr 2003 13:19

Hmhmhm
Ach Mist.
Scheint so als wär von mir oben schon befürchtetes bereits eingetreten.
Wie zum Geier will man als Normalsterblicher schon solche Laute per Code erzeugen?!?
Und dann gibts auch noch sonen professionellen Logox- Mist, der einem auch schon Jahre voraus ist.
Ich glaub ja nich mehr so richtig, dass sone Aktion von Erfolg sein könnte. Jedenfalls nich mit so wenig Unterstützung...
Und morgen is eh wieder Schule. Ach mann. Sowas is doof.

Bis dann,

S - tefano

BrainCode 1. Mai 2003 00:30

Die Microsoft-Engine kann man sich bei microsoft.com kostenlos herunterladen, und sie funzt auch auf jedem Win32 (so weit ich das weiß).

OrallY 3. Mai 2003 09:30

Ich will Niemandem die Laune verderben, aber solch eine Speechenginge zu entwickeln ist gar nicht so einfach. Schon alleine die einzelnen Silben herauszufiltern...viel Spaß. Habt ihr euch schon einmal die deutsche Sprache genau angesehen, besser genau angehört? Die kleinsten Nuancen in der Betonung können einem ganzen Satz eine völlig andere Bedeutung geben.
Wenn man jeden Buchstaben in ner Sounddatei speichert; das hört sich nicht nur ziemlich dämlich an, sondern es würde auch einfach massig an Speicherplatz fressen. Jeden Buchstaben in einer einzigen Version vorligen zu haben, bringt nicht viel, da sie, mal von der Betonung abgesehen, je nachdem, wo sie im Wort stehen, oft sehr verschieden Ausgesprochen werden. Außerdem gibt es ja auch "Buchstaben" wie 'ei' 'ie' 'ch' 'eu'... Ich will euch ein Problem mal am 'ch' verdeutlichen: Ein mal kann man es weich aussprechen, ein anderes mal hart. Kaninchen und Drache. Dann sag mal deinem Programm, wann es welche Form benutzen soll.

Naja, ein versuch ist es mit Sicherheit wert :wink:. Macht auf jedenfall bestimmt Spaß :mrgreen: .

S - tefano 3. Mai 2003 11:44

Hi,

also erstmal muss ich sagen, dass ich die Idee auch schon aufgegeben hab. Eigentlich schon an dem Punkt an dem festgestellt wurde, dass die anderen Engines ihre Sounds selber erzeugen anstatt auf Dateien zuzugreifen.
Aber vonwegen Buchstaben und Silben in verschiedenen Versionen...
eigentlich muss man sich dabei nur an Grammatik halten.
Am Beispiel mit dem "ch" sieht man z.B. dass das "ch" vom Kaninchen weich ausgesprochen wird, weil es auf einen Konsonanten folgt. Beim Drachen folgt es auf einen Vokal.
K, gibt vielleicht n paar Ausnahmen, aber selbst wenn mans machen würd, müsste man in Audiodateien aufnehmen nich wirklich viel Arbeit investieren. Schwieriger ist es eher rauszufinden welche man braucht.
Aber ich denke, dass man mit dieser Methode an das Niveau einer WinXp Engine herankommen kann. Die is ja auch nich sooo prickelnd.
Aber naja, ich habs ja eh schon aufgegeben.

Bis dann,

S - tefano

Basic-Master 4. Mai 2003 09:03

also ich würd dir mal so empfehlen, bei m$ zu bleiben, da die anderen eben sau teuer sind und das eben kostenlos, vielleicht kommt ja bald ma wieder ne neuere version davon raus... aber z.b. das sdk-set von logox kostet mal eben 1000€... ich weiss die sapi von m$ ist nicht gerade gut, aber wenigstens kostenlos *g*

Stanlay Hanks 4. Mai 2003 09:09

Also ich weiß nicht, was ihr habt. Ich hab die M$ Engine ausprobiert nd finde, dass die eigentlich ganz gut läuft. Außerdem finde ich, dass man von einer künstichen "Stimme" nicht erwarten kann (jedenfalls noch nicht), dass sie klingt, wie eine natürliche Stimme. Natürlich ist Logox besser. Aber es klingt auch nicht sooooo viel besser. Man kann es halt besser konfigurieren, was Höhe und lautstärke usw. angeht. Und in Verbindung mit dem M$ Agent ist die M$ Engine eine tolle Sache.

Man liest sich. Stanlay 8)


Alle Zeitangaben in WEZ +1. Es ist jetzt 21:04 Uhr.

Powered by vBulletin® Copyright ©2000 - 2025, Jelsoft Enterprises Ltd.
LinkBacks Enabled by vBSEO © 2011, Crawlability, Inc.
Delphi-PRAXiS (c) 2002 - 2023 by Daniel R. Wolf, 2024-2025 by Thomas Breitkreuz