Multimedia Retrieval SS 2007 Speech Recognition Arne Kuhlmann, Björn Reistel, Oliver Marx
Rückblick: Projektziel Entwicklung einer Applikation, der eine Audiodatei übergeben wird und Sprache in ein Textformat konvertiert
Rückblick: Ausblick 2. Meilenstein Teilziel: Erstellen einer kommandozeilen-basierenden Software, die mit Hilfe von Sphinx4 eine kompatible Audiodatei einliest und die Ergebnisse ausgibt Herausforderung: Finden geeigneter Modelle ggf. manuelle Neu-Kodierung einzulesender Audio-Dateien Externe Abhängigkeiten: Dozenten müssen Audio-Dateien und wenn möglich dazugehörende Texte bereitstellen
Verwendetes Modell für Sphinx4 HUB4, enthält Dictionary von 64.000 Wörtern Konfiguration über xml-File, jedoch wenig Dokumentation über die zahlreichen Parameter Kaum komplette Beispielkonfigurationen im Internet erhältlich
Audioformate Sphinx verlangt speziell codierte Audiodateien: <property name="sampleRate" value="16000"/> <property name="bitsPerSample" value="16"/> <property name="bigEndianData" value="false"/> <property name="signedData" value="true"/> <property name="bytesPerRead" value="320"/> Bei Nichteinhaltung schlechtere Ergebnisse Ergebnis bei Einhaltung Codierung: „i had forgotten he exclaimed“ Ergebnis bei Nichteinhaltung: „“
Testkorpus: Korpus von http://www.voxforge.org/ Sammlung von Sprachdateien zur Verwendung mit Speech-Recognition-Engines Verwendete Audiodateien Sphinx4 kompatibel
Ergebnisse Testläufe (1): Gesagt: Erkannt: SHE WAS HIS NOW FOREVER she was his now HOW MUCH WAS IT helmut twas attack WASH YOUR HANDS OF ME washer hands of me IT WAS MORE LIKE SUGAR i twist mortally chachi MY NAME'S FERGUSON findings ferguson THAT'S WHAT CARNEGIE DID up i get to t MAB SHE SAID now but chee said WITHOUT A DOUBT SOME OF THEM HAVE DINNER ENGAGEMENTS withheld attached I'LL ONLY BE IN THE WAY culpa leapt eon to wait YOU HAVE ALL THE ADVANTAGE
Ergebnisse Testläufe (2): Teilweise akzeptable Ergebnisse, teilweise unbrauchbare Ergebnisse Versuch, Ergebnisse zu verbessern