Spracherkennung mit dynamisch geladenen, spezifischen Akustikmodellen Sebastian Germesin am Fachbereich der Informatik Prof. Dr. Dr. h.c. mult. Wolfgang Wahlster Universität des Saarlandes Max 5 zeilen, max 6-7 wörter pro zeile, 2-3 min pro folie / 20 min Vortrag, 15 min Diskussion
Inhalt Motivation Konzept Ressourcen Ergebnisse Ausblick Das m3i-System Das Sphinx-System Sprachkorpus Ergebnisse Implementation Theoretische Ergebnisse Ausblick
Motivation Auflösen des Trade-Off Implementierung in das m3i-System Konzept Ressourcen Ergebnisse Ausblick Motivation Auflösen des Trade-Off Implementierung in das m3i-System
Konzept AGENDER als vorhandenes System zur Sprecherklassifizierung Motivation Konzept Ressourcen Ergebnisse Ausblick Konzept AGENDER als vorhandenes System zur Sprecherklassifizierung
Das m3i-System m3iCAT m3iServer PHP Web-Interface Motivation Konzept Ressourcen Ergebnisse Ausblick Das m3i-System m3iCAT PHP Web-Interface dient primär der Korpusanalyse m3iServer JAVA Blackboard-Architektur dient der Verarbeitung leistungsintensiver Prozesse
Das Sphinx-System SphinxTrain Sphinx IV C Motivation Konzept Ressourcen Ergebnisse Ausblick Das Sphinx-System SphinxTrain C Toolkit zur Erstellung von Akustikmodellen Sphinx IV JAVA 4. Version des Spracherkennungs-systems Sphinx
Sprachkorpus Zusammengesetzt aus zwei Korpora Timit Scansoft Motivation Konzept Ressourcen Ergebnisse Ausblick Sprachkorpus Zusammengesetzt aus zwei Korpora Timit Scansoft
Implementation Parsen von Transkriptionen Motivation Konzept Ressourcen Ergebnisse Ausblick Implementation Parsen von Transkriptionen m3iCAT-Skript zum Einpflegen der Transkriptionen eines Korpus aus Text-Dateien Parsen der Text-Dateien Entfernen von Punktierung Entfernen von „abgeschnittenen“ Wörtern Entfernen von Zahlen
Implementation Korpus-Filter Motivation Konzept Ressourcen Ergebnisse Ausblick Implementation Korpus-Filter Korpus musste mittels m3iCAT-Skript zugeschnitten werden! Grund SphinxTrain kann nur Äußerungen zw. 1 und 30 Sek. verarbeiten! Auswirkung Verkleinerung des Korpus um Faktor 8
Implementation Automatisches Training der AM Motivation Konzept Ressourcen Ergebnisse Ausblick Implementation Automatisches Training der AM Trainingsdaten werden erstellt/gefiltert. Sphinx-spezifische Trainingsumgebung wird erstellt. AM-Training mittels Sphinx-Skript wird gestartet und überwacht.
Implementation Multiple Instanzen von m3iCAT Motivation Konzept Ressourcen Ergebnisse Ausblick Implementation Multiple Instanzen von m3iCAT Session-ID wurde zu m3iCAT hinzugefügt. Auswirkung Paralleles Ausführen von mehreren m3iCAT-Instanzen nun möglich.
Implementation Durchführung der dynam. Spracherkennung Motivation Konzept Ressourcen Ergebnisse Ausblick Implementation Durchführung der dynam. Spracherkennung AM sind in m3iServer integriert.
Implementation Evaluation der AM Motivation Konzept Ressourcen Ergebnisse Ausblick Implementation Evaluation der AM
Implementation Zusammenfassung Motivation Konzept Ressourcen Ergebnisse Ausblick Implementation Zusammenfassung Adaption eines neuen Korpus jederzeit möglich!
Implementation Kompromiss Motivation Konzept Ressourcen Ergebnisse Ausblick Implementation Kompromiss Scansoft-Korpus konnte nicht verarbeitet werden! Grund: (zum AM-Training) schlecht geeignetes Korpus viele „abgeschnittene“ Wörter viele störende Laute (z.B. Husten, Rascheln, Klacken) Auswirkung nur geschlechts-spezifische AM keine altersspez. Spracherkennung möglich
Theoretische Ergebnisse Motivation Konzept Ressourcen Ergebnisse Ausblick Theoretische Ergebnisse Verbesserung der Erkennungsleistung 6,3% bei Verwendung von geschlechtsspezifischen Akustikmodellen Erkennungsleistung steigt bei steigendem Trainingsmaterial!
Ausblick Verbesserung der Spracherkennungseffizienz durch Motivation Konzept Ressourcen Ergebnisse Ausblick Ausblick Verbesserung der Spracherkennungseffizienz durch Erhöhung des Trainingsaufwandes Verwendung von N-Gram Sprachmodellen, statt Grammatiken bei breiter Anwendungsfläche Erweiterung der Sprecherklassen auf jugendliche Sprecher Erweiterung der Spracherkennung auf andere Sprachen (z.B. deutsch)
Zusammenfassung Ziele: Ergebnisse: Trade-Off zwischen sprecherabhängiger und –unabhängiger Spracherkennung auflösen mittels spezifischen Akustikmodellen. Automatisiertes Training von sprecher-spezifischen Akustikmodellen ermöglichen. Integration der Spracherkennung in das m3i-System. Ergebnisse: 6,3% Verbesserung in der Erkennung mit geschlechtsspezifischen Akustikmodellen erreicht. Akustikmodelle werden in m3iCAT automatisiert erstellt! Spracherkennung mit dynamisch-geladenen, sprecherspezifischen Akustikmodellen in das m3i-System erfolgreich integriert.
Ende…