Spracherkennung mit dynamisch geladenen, spezifischen Akustikmodellen

Spracherkennung mit dynamisch geladenen, spezifischen Akustikmodellen
Sebastian Germesin am Fachbereich der Informatik Prof. Dr. Dr. h.c. mult. Wolfgang Wahlster Universität des Saarlandes Max 5 zeilen, max 6-7 wörter pro zeile, 2-3 min pro folie / 20 min Vortrag, 15 min Diskussion

Inhalt Motivation Konzept Ressourcen Ergebnisse Ausblick
Das m3i-System Das Sphinx-System Sprachkorpus Ergebnisse Implementation Theoretische Ergebnisse Ausblick

Motivation Auflösen des Trade-Off Implementierung in das m3i-System
Konzept Ressourcen Ergebnisse Ausblick Motivation Auflösen des Trade-Off Implementierung in das m3i-System

Konzept AGENDER als vorhandenes System zur Sprecherklassifizierung
Motivation Konzept Ressourcen Ergebnisse Ausblick Konzept AGENDER als vorhandenes System zur Sprecherklassifizierung

Das m3i-System m3iCAT m3iServer PHP Web-Interface
Motivation Konzept Ressourcen Ergebnisse Ausblick Das m3i-System m3iCAT PHP Web-Interface dient primär der Korpusanalyse m3iServer JAVA Blackboard-Architektur dient der Verarbeitung leistungsintensiver Prozesse

Das Sphinx-System SphinxTrain Sphinx IV C
Motivation Konzept Ressourcen Ergebnisse Ausblick Das Sphinx-System SphinxTrain C Toolkit zur Erstellung von Akustikmodellen Sphinx IV JAVA 4. Version des Spracherkennungs-systems Sphinx

Sprachkorpus Zusammengesetzt aus zwei Korpora Timit Scansoft
Motivation Konzept Ressourcen Ergebnisse Ausblick Sprachkorpus Zusammengesetzt aus zwei Korpora Timit Scansoft

Implementation Parsen von Transkriptionen
Motivation Konzept Ressourcen Ergebnisse Ausblick Implementation Parsen von Transkriptionen m3iCAT-Skript zum Einpflegen der Transkriptionen eines Korpus aus Text-Dateien Parsen der Text-Dateien Entfernen von Punktierung Entfernen von „abgeschnittenen“ Wörtern Entfernen von Zahlen

Implementation Korpus-Filter
Motivation Konzept Ressourcen Ergebnisse Ausblick Implementation Korpus-Filter Korpus musste mittels m3iCAT-Skript zugeschnitten werden! Grund SphinxTrain kann nur Äußerungen zw. 1 und 30 Sek. verarbeiten! Auswirkung Verkleinerung des Korpus um Faktor 8

Implementation Automatisches Training der AM
Motivation Konzept Ressourcen Ergebnisse Ausblick Implementation Automatisches Training der AM Trainingsdaten werden erstellt/gefiltert. Sphinx-spezifische Trainingsumgebung wird erstellt. AM-Training mittels Sphinx-Skript wird gestartet und überwacht.

Implementation Multiple Instanzen von m3iCAT
Motivation Konzept Ressourcen Ergebnisse Ausblick Implementation Multiple Instanzen von m3iCAT Session-ID wurde zu m3iCAT hinzugefügt. Auswirkung Paralleles Ausführen von mehreren m3iCAT-Instanzen nun möglich.

Implementation Durchführung der dynam. Spracherkennung
Motivation Konzept Ressourcen Ergebnisse Ausblick Implementation Durchführung der dynam. Spracherkennung AM sind in m3iServer integriert.

Implementation Evaluation der AM
Motivation Konzept Ressourcen Ergebnisse Ausblick Implementation Evaluation der AM

Implementation Zusammenfassung
Motivation Konzept Ressourcen Ergebnisse Ausblick Implementation Zusammenfassung Adaption eines neuen Korpus jederzeit möglich!

Implementation Kompromiss
Motivation Konzept Ressourcen Ergebnisse Ausblick Implementation Kompromiss Scansoft-Korpus konnte nicht verarbeitet werden! Grund: (zum AM-Training) schlecht geeignetes Korpus viele „abgeschnittene“ Wörter viele störende Laute (z.B. Husten, Rascheln, Klacken) Auswirkung nur geschlechts-spezifische AM  keine altersspez. Spracherkennung möglich

Theoretische Ergebnisse
Motivation Konzept Ressourcen Ergebnisse Ausblick Theoretische Ergebnisse Verbesserung der Erkennungsleistung 6,3% bei Verwendung von geschlechtsspezifischen Akustikmodellen Erkennungsleistung steigt bei steigendem Trainingsmaterial!

Ausblick Verbesserung der Spracherkennungseffizienz durch
Motivation Konzept Ressourcen Ergebnisse Ausblick Ausblick Verbesserung der Spracherkennungseffizienz durch Erhöhung des Trainingsaufwandes Verwendung von N-Gram Sprachmodellen, statt Grammatiken bei breiter Anwendungsfläche Erweiterung der Sprecherklassen auf jugendliche Sprecher Erweiterung der Spracherkennung auf andere Sprachen (z.B. deutsch)

Zusammenfassung Ziele: Ergebnisse:
Trade-Off zwischen sprecherabhängiger und –unabhängiger Spracherkennung auflösen mittels spezifischen Akustikmodellen. Automatisiertes Training von sprecher-spezifischen Akustikmodellen ermöglichen. Integration der Spracherkennung in das m3i-System. Ergebnisse: 6,3% Verbesserung in der Erkennung mit geschlechtsspezifischen Akustikmodellen erreicht. Akustikmodelle werden in m3iCAT automatisiert erstellt! Spracherkennung mit dynamisch-geladenen, sprecherspezifischen Akustikmodellen in das m3i-System erfolgreich integriert.

Ende…

Spracherkennung mit dynamisch geladenen, spezifischen Akustikmodellen

Ähnliche Präsentationen

Präsentation zum Thema: "Spracherkennung mit dynamisch geladenen, spezifischen Akustikmodellen"— Präsentation transkript:

Ähnliche Präsentationen

Über Projekt

Feedback

Anmelden

Anmeldung über soziales Netzwerk:

Spracherkennung mit dynamisch geladenen, spezifischen Akustikmodellen

Ähnliche Präsentationen

Präsentation zum Thema: "Spracherkennung mit dynamisch geladenen, spezifischen Akustikmodellen"— Präsentation transkript:

Ähnliche Präsentationen

Über Projekt

Feedback