Spracherkennung mit dynamisch geladenen, spezifischen Akustikmodellen

Slides:



Advertisements
Ähnliche Präsentationen
Motivation E-Learning in der Hochschullehre
Advertisements

1 Jahr Digitization Lifecycle Überblick & Ausblick.
Rechnernetze und verteilte Systeme (BSRvS II)
EXMARaLDA Überblick.
Aufbau des Internets Überblick Prof. Dr. T. Hildebrandt
Dr. Helmuth Sagawe WS 2010/11 Universität Heidelberg
eine Plattform für annotierte Korpora in XML
Vorstellung von PaderWAVE Generierung von Web-Anwendungen aus visuellen Spezifikationen Projektgruppe aus der Arbeitsgruppe Programmiersprachen & Übersetzer.
Konzeption und Realisierung eines Software Configuration Management Systems Autor: Alex Rempel Referent: Prof. Dr. Elke Hergenröther Korreferent: Prof.
Erschließen von semantischen Referenzen mit Ontology-Reasoning-Werkzeugen Das Ziel dieser Masterarbeit war die Erweiterung des ORBI Systems um ein Inferenz-System.
Folie 1 Christian Pfeffer Carsten Walther Fernstudium Informatik Matrikel LABORPRAKTIKUM- SOMMERSEMESTER 2005 Umsetzung von Pattern Muster: DECORATOR.
Seminar Stochastische Schätzer: Kalman-Filter und mehr SS 2009 Antonia Pérez Arias Fakultät für Informatik Institut für Anthropomatik Lehrstuhl für Intelligente.
Inhalt Einführung –Spezifikation Aufbau des Tools –Aufnahme –Stille entfernen –Speicherung –Kommunikation mit den anderen Teilen.
Didaktisches Design digitaler Lernumgebungen
Präsentationstechnik
Voraussetzung für die Einführung eines BGM-Lern-Zyklus ist die Einrichtung eines Steuerkreises.
ASTROnomie Interaktiv & Dynamisch ASTROID C. Reimers Institut für Astronomie, Universität Wien Projektleitung: E. Dorfi, Institut für Astronomie, Universität.
DFG Round Table Session “Web Research” Darmstadt
Arbeitsbereich „Rechnernetze und verteilte Systeme“
Untersuchungen zur Erstellung eines
Web-basierter Unterricht in der Computergraphik: Konzepte und Realisierung von interaktiven Online-Kursen Reinhard Klein, Frank Hanisch Wilhelm-Schickard.
Kaseya Virtual System Administrator Produkt Update 7.0 Rocco van der Zwet Copyright ©2014 Kaseya 1.
Die gemeinsame Datenbank Die Forschungsgemeinschaft Eisenbahngeschichte betreibt eine Datenbank im Internet, die nur für die Mitglieder der Forschungsgemeinschaft.
Datenbanken im Web 1.
Hauptseminar W. de Boer, Univ. Karlsruhe1 Ziel eines Hauptseminars Lernen wie man einen guten Vortrag hält. Wichtig: 1)Kontakt mit den Zuhörern (z.B. Pointer.
Seminar Ingenieurdatenbanken WS 04/05 Dr. Schallehn, Prof. Paul, Dipl.-Inf. Fröhlich {eike | paul | iti.cs.uni-magdeburg.de.
Technische Universität München Praktikum Mobile Web Teil Kollaboratives Bewerten und Filtern am Touchscreen Robert Eigner
Technische Universität München, Informatik XI Angewandte Informatik / Kooperative Systeme Praktikum Mobile Web 2.0 – 2.Teil Wolfgang Wörndl, Robert Eigner.
Seminararbeit Release Management von Web-Systemen Minh Tran Lehrstuhl für Software Engineering RWTH Aachen
KIT – Universität des Landes Baden-Württemberg und nationales Großforschungszentrum in der Helmholtz-Gemeinschaft INSTITUTS-, FAKULTÄTS-, ABTEILUNGSNAME.
© WZL/Fraunhofer IPT Entwicklung einer Profilbörse für Konfigurationen von Smartphones Vortrag der Seminararbeit von Patrick Posor Aachen, den
1. Betreuer: Prof. Dr. Jörg Striegnitz 2. Betreuer: Dr. Martin Schindler Kontextsensitive Autocompletion für Klassendiagramme in der UML/P Florian Leppers.
Seminararbeit im Studiengang „Scientific Programming“ Konzeption eines nativen Webserver-Moduls zur hochperformanten Auslieferung dynamisch generierter.
Technische Universität München Praktikum Mobile Web Teil RFID Technologie in mobiler Umgebung Hubert Kreuzpointner
Technische Universität München, Informatik XI Angewandte Informatik / Kooperative Systeme Verteilte Anwendungen: Web Services Dr. Wolfgang Wörndl
Parallele Lösung von Differential-Algebraischen Gleichungssystemen und Sensitivitätssystemen Seminarvortrag Daniel Abele
© 2008 TravelTainment The Amadeus Leisure Group Webanwendungen mit Java - HttpServlets 17.Dezember 2010 Sebastian Olscher Erstprüfer: Hon.-Prof. Dr. H.
Allgemeine Hinweise und Regeln für gute Folien Michael Savorić (Version 1.0)
Verteilte Anwendungen: J2EE
Identifying the effects of gendered language on economic behavior
Abschlusspräsentation Tobias Vogel
Fachrichtung Theoretische Informatik
Vorbereitungsseminar Bachelorprojekt
Eine Präsentation von Sandro Schluep und Leon Wink.
ELEMENTE ENES VORTRAGS
Wissenschaftliches Arbeiten in der Informatik 1
Web-Interface for Multi-FPGA Board Pamette
Erzeugung von Sprecherklassifikations-modulen für multiple Plattformen
Realisierung einer mobilen Web App für iOS/Android
Titel der Diplomarbeit
Filmanalyse und -kritik
Jakarta Struts Quasi-Standard für JSP-basierte Entwicklung: Jakarta Struts Key Features von Struts: Implementierung des Action-Command-Pattern („Model.
Semantic Text Annotator
HM-Arbeitslisten.
INHALTE DES VORTRAGS ALS VORSTELLUNG DES THEMAS (10MIN)
-Rechnungsversand Intrexx Applikation Import von Belegen im PDF-Format aus einem beliebigen Ordner passende Datensätze aus dem A.eins anpassbaren.
GRAMMATIKKRIMI MIT QR-Codes
Praktikum – Ausbildung – Beruf
INHALTE DES VORTRAGS ALS VORSTELLUNG DES THEMAS (10MIN)
GENDER MAINSTREAMING Die 4-R-Methode
Thema Name des Vortragenden Ort, Datum
Virtualisierung von Web-Applikationen mit Docker
Filmanalyse und -kritik
Ι. Die rezeptiven Fertigkeiten Lesen u. Hören Teil A: LESEN
SEEL Teacher Training SEEL - Sound in European E-Learning ( DE02-KA ) Lehrer-Training – Modul 2: Die Wichtigkeit von Audios in Kursen.
Methodische Grundlagen des Software-Engineering
Projektvorschlag für ISO 9001:2008-Implementierung
Inhalt Sprachanwendungen
Fußzeile Text Fußzeile Text
Neues aus HORIZON Lessons Learned
 Präsentation transkript:

Spracherkennung mit dynamisch geladenen, spezifischen Akustikmodellen Sebastian Germesin am Fachbereich der Informatik Prof. Dr. Dr. h.c. mult. Wolfgang Wahlster Universität des Saarlandes Max 5 zeilen, max 6-7 wörter pro zeile, 2-3 min pro folie / 20 min Vortrag, 15 min Diskussion

Inhalt Motivation Konzept Ressourcen Ergebnisse Ausblick Das m3i-System Das Sphinx-System Sprachkorpus Ergebnisse Implementation Theoretische Ergebnisse Ausblick

Motivation Auflösen des Trade-Off Implementierung in das m3i-System Konzept Ressourcen Ergebnisse Ausblick Motivation Auflösen des Trade-Off Implementierung in das m3i-System

Konzept AGENDER als vorhandenes System zur Sprecherklassifizierung Motivation Konzept Ressourcen Ergebnisse Ausblick Konzept AGENDER als vorhandenes System zur Sprecherklassifizierung

Das m3i-System m3iCAT m3iServer PHP Web-Interface Motivation Konzept Ressourcen Ergebnisse Ausblick Das m3i-System m3iCAT PHP Web-Interface dient primär der Korpusanalyse m3iServer JAVA Blackboard-Architektur dient der Verarbeitung leistungsintensiver Prozesse

Das Sphinx-System SphinxTrain Sphinx IV C Motivation Konzept Ressourcen Ergebnisse Ausblick Das Sphinx-System SphinxTrain C Toolkit zur Erstellung von Akustikmodellen Sphinx IV JAVA 4. Version des Spracherkennungs-systems Sphinx

Sprachkorpus Zusammengesetzt aus zwei Korpora Timit Scansoft Motivation Konzept Ressourcen Ergebnisse Ausblick Sprachkorpus Zusammengesetzt aus zwei Korpora Timit Scansoft

Implementation Parsen von Transkriptionen Motivation Konzept Ressourcen Ergebnisse Ausblick Implementation Parsen von Transkriptionen m3iCAT-Skript zum Einpflegen der Transkriptionen eines Korpus aus Text-Dateien Parsen der Text-Dateien Entfernen von Punktierung Entfernen von „abgeschnittenen“ Wörtern Entfernen von Zahlen

Implementation Korpus-Filter Motivation Konzept Ressourcen Ergebnisse Ausblick Implementation Korpus-Filter Korpus musste mittels m3iCAT-Skript zugeschnitten werden! Grund SphinxTrain kann nur Äußerungen zw. 1 und 30 Sek. verarbeiten! Auswirkung Verkleinerung des Korpus um Faktor 8

Implementation Automatisches Training der AM Motivation Konzept Ressourcen Ergebnisse Ausblick Implementation Automatisches Training der AM Trainingsdaten werden erstellt/gefiltert. Sphinx-spezifische Trainingsumgebung wird erstellt. AM-Training mittels Sphinx-Skript wird gestartet und überwacht.

Implementation Multiple Instanzen von m3iCAT Motivation Konzept Ressourcen Ergebnisse Ausblick Implementation Multiple Instanzen von m3iCAT Session-ID wurde zu m3iCAT hinzugefügt. Auswirkung Paralleles Ausführen von mehreren m3iCAT-Instanzen nun möglich.

Implementation Durchführung der dynam. Spracherkennung Motivation Konzept Ressourcen Ergebnisse Ausblick Implementation Durchführung der dynam. Spracherkennung AM sind in m3iServer integriert.

Implementation Evaluation der AM Motivation Konzept Ressourcen Ergebnisse Ausblick Implementation Evaluation der AM

Implementation Zusammenfassung Motivation Konzept Ressourcen Ergebnisse Ausblick Implementation Zusammenfassung Adaption eines neuen Korpus jederzeit möglich!

Implementation Kompromiss Motivation Konzept Ressourcen Ergebnisse Ausblick Implementation Kompromiss Scansoft-Korpus konnte nicht verarbeitet werden! Grund: (zum AM-Training) schlecht geeignetes Korpus viele „abgeschnittene“ Wörter viele störende Laute (z.B. Husten, Rascheln, Klacken) Auswirkung nur geschlechts-spezifische AM  keine altersspez. Spracherkennung möglich

Theoretische Ergebnisse Motivation Konzept Ressourcen Ergebnisse Ausblick Theoretische Ergebnisse Verbesserung der Erkennungsleistung 6,3% bei Verwendung von geschlechtsspezifischen Akustikmodellen Erkennungsleistung steigt bei steigendem Trainingsmaterial!

Ausblick Verbesserung der Spracherkennungseffizienz durch Motivation Konzept Ressourcen Ergebnisse Ausblick Ausblick Verbesserung der Spracherkennungseffizienz durch Erhöhung des Trainingsaufwandes Verwendung von N-Gram Sprachmodellen, statt Grammatiken bei breiter Anwendungsfläche Erweiterung der Sprecherklassen auf jugendliche Sprecher Erweiterung der Spracherkennung auf andere Sprachen (z.B. deutsch)

Zusammenfassung Ziele: Ergebnisse: Trade-Off zwischen sprecherabhängiger und –unabhängiger Spracherkennung auflösen mittels spezifischen Akustikmodellen. Automatisiertes Training von sprecher-spezifischen Akustikmodellen ermöglichen. Integration der Spracherkennung in das m3i-System. Ergebnisse: 6,3% Verbesserung in der Erkennung mit geschlechtsspezifischen Akustikmodellen erreicht. Akustikmodelle werden in m3iCAT automatisiert erstellt! Spracherkennung mit dynamisch-geladenen, sprecherspezifischen Akustikmodellen in das m3i-System erfolgreich integriert.

Ende…