Spracherkennung mit dynamisch geladenen, spezifischen Akustikmodellen

Slides:

Advertisements

Ähnliche Präsentationen

Motivation E-Learning in der Hochschullehre

Advertisements

1 Jahr Digitization Lifecycle Überblick & Ausblick.

Rechnernetze und verteilte Systeme (BSRvS II)

EXMARaLDA Überblick.

Aufbau des Internets Überblick Prof. Dr. T. Hildebrandt

Dr. Helmuth Sagawe WS 2010/11 Universität Heidelberg

eine Plattform für annotierte Korpora in XML

Vorstellung von PaderWAVE Generierung von Web-Anwendungen aus visuellen Spezifikationen Projektgruppe aus der Arbeitsgruppe Programmiersprachen & Übersetzer.

Konzeption und Realisierung eines Software Configuration Management Systems Autor: Alex Rempel Referent: Prof. Dr. Elke Hergenröther Korreferent: Prof.

Erschließen von semantischen Referenzen mit Ontology-Reasoning-Werkzeugen Das Ziel dieser Masterarbeit war die Erweiterung des ORBI Systems um ein Inferenz-System.

Folie 1 Christian Pfeffer Carsten Walther Fernstudium Informatik Matrikel LABORPRAKTIKUM- SOMMERSEMESTER 2005 Umsetzung von Pattern Muster: DECORATOR.

Seminar Stochastische Schätzer: Kalman-Filter und mehr SS 2009 Antonia Pérez Arias Fakultät für Informatik Institut für Anthropomatik Lehrstuhl für Intelligente.

Inhalt Einführung –Spezifikation Aufbau des Tools –Aufnahme –Stille entfernen –Speicherung –Kommunikation mit den anderen Teilen.

Didaktisches Design digitaler Lernumgebungen

Präsentationstechnik

Voraussetzung für die Einführung eines BGM-Lern-Zyklus ist die Einrichtung eines Steuerkreises.

ASTROnomie Interaktiv & Dynamisch ASTROID C. Reimers Institut für Astronomie, Universität Wien Projektleitung: E. Dorfi, Institut für Astronomie, Universität.

DFG Round Table Session “Web Research” Darmstadt

Arbeitsbereich „Rechnernetze und verteilte Systeme“

Untersuchungen zur Erstellung eines

Web-basierter Unterricht in der Computergraphik: Konzepte und Realisierung von interaktiven Online-Kursen Reinhard Klein, Frank Hanisch Wilhelm-Schickard.

Kaseya Virtual System Administrator Produkt Update 7.0 Rocco van der Zwet Copyright ©2014 Kaseya 1.

Die gemeinsame Datenbank Die Forschungsgemeinschaft Eisenbahngeschichte betreibt eine Datenbank im Internet, die nur für die Mitglieder der Forschungsgemeinschaft.

Datenbanken im Web 1.

Hauptseminar W. de Boer, Univ. Karlsruhe1 Ziel eines Hauptseminars Lernen wie man einen guten Vortrag hält. Wichtig: 1)Kontakt mit den Zuhörern (z.B. Pointer.

Seminar Ingenieurdatenbanken WS 04/05 Dr. Schallehn, Prof. Paul, Dipl.-Inf. Fröhlich {eike | paul | iti.cs.uni-magdeburg.de.

Technische Universität München Praktikum Mobile Web Teil Kollaboratives Bewerten und Filtern am Touchscreen Robert Eigner

Technische Universität München, Informatik XI Angewandte Informatik / Kooperative Systeme Praktikum Mobile Web 2.0 – 2.Teil Wolfgang Wörndl, Robert Eigner.

Seminararbeit Release Management von Web-Systemen Minh Tran Lehrstuhl für Software Engineering RWTH Aachen

KIT – Universität des Landes Baden-Württemberg und nationales Großforschungszentrum in der Helmholtz-Gemeinschaft INSTITUTS-, FAKULTÄTS-, ABTEILUNGSNAME.

© WZL/Fraunhofer IPT Entwicklung einer Profilbörse für Konfigurationen von Smartphones Vortrag der Seminararbeit von Patrick Posor Aachen, den

1. Betreuer: Prof. Dr. Jörg Striegnitz 2. Betreuer: Dr. Martin Schindler Kontextsensitive Autocompletion für Klassendiagramme in der UML/P Florian Leppers.

Seminararbeit im Studiengang „Scientific Programming“ Konzeption eines nativen Webserver-Moduls zur hochperformanten Auslieferung dynamisch generierter.

Technische Universität München Praktikum Mobile Web Teil RFID Technologie in mobiler Umgebung Hubert Kreuzpointner

Technische Universität München, Informatik XI Angewandte Informatik / Kooperative Systeme Verteilte Anwendungen: Web Services Dr. Wolfgang Wörndl

Parallele Lösung von Differential-Algebraischen Gleichungssystemen und Sensitivitätssystemen Seminarvortrag Daniel Abele

© 2008 TravelTainment The Amadeus Leisure Group Webanwendungen mit Java - HttpServlets 17.Dezember 2010 Sebastian Olscher Erstprüfer: Hon.-Prof. Dr. H.

Allgemeine Hinweise und Regeln für gute Folien Michael Savorić (Version 1.0)

Verteilte Anwendungen: J2EE

Identifying the effects of gendered language on economic behavior

Abschlusspräsentation Tobias Vogel

Fachrichtung Theoretische Informatik

Vorbereitungsseminar Bachelorprojekt

Eine Präsentation von Sandro Schluep und Leon Wink.

ELEMENTE ENES VORTRAGS

Wissenschaftliches Arbeiten in der Informatik 1

Web-Interface for Multi-FPGA Board Pamette

Erzeugung von Sprecherklassifikations-modulen für multiple Plattformen

Realisierung einer mobilen Web App für iOS/Android

Titel der Diplomarbeit

Filmanalyse und -kritik

Jakarta Struts Quasi-Standard für JSP-basierte Entwicklung: Jakarta Struts Key Features von Struts: Implementierung des Action-Command-Pattern („Model.

Semantic Text Annotator

HM-Arbeitslisten.

INHALTE DES VORTRAGS ALS VORSTELLUNG DES THEMAS (10MIN)

-Rechnungsversand Intrexx Applikation Import von Belegen im PDF-Format aus einem beliebigen Ordner passende Datensätze aus dem A.eins anpassbaren.

GRAMMATIKKRIMI MIT QR-Codes

Praktikum – Ausbildung – Beruf

INHALTE DES VORTRAGS ALS VORSTELLUNG DES THEMAS (10MIN)

GENDER MAINSTREAMING Die 4-R-Methode

Thema Name des Vortragenden Ort, Datum

Virtualisierung von Web-Applikationen mit Docker

Filmanalyse und -kritik

Ι. Die rezeptiven Fertigkeiten Lesen u. Hören Teil A: LESEN

SEEL Teacher Training SEEL - Sound in European E-Learning ( DE02-KA ) Lehrer-Training – Modul 2: Die Wichtigkeit von Audios in Kursen.

Methodische Grundlagen des Software-Engineering

Projektvorschlag für ISO 9001:2008-Implementierung

Inhalt Sprachanwendungen

Fußzeile Text Fußzeile Text

Neues aus HORIZON Lessons Learned

Präsentation transkript:

Spracherkennung mit dynamisch geladenen, spezifischen Akustikmodellen Sebastian Germesin am Fachbereich der Informatik Prof. Dr. Dr. h.c. mult. Wolfgang Wahlster Universität des Saarlandes Max 5 zeilen, max 6-7 wörter pro zeile, 2-3 min pro folie / 20 min Vortrag, 15 min Diskussion

Inhalt Motivation Konzept Ressourcen Ergebnisse Ausblick Das m3i-System Das Sphinx-System Sprachkorpus Ergebnisse Implementation Theoretische Ergebnisse Ausblick

Motivation Auflösen des Trade-Off Implementierung in das m3i-System Konzept Ressourcen Ergebnisse Ausblick Motivation Auflösen des Trade-Off Implementierung in das m3i-System

Konzept AGENDER als vorhandenes System zur Sprecherklassifizierung Motivation Konzept Ressourcen Ergebnisse Ausblick Konzept AGENDER als vorhandenes System zur Sprecherklassifizierung

Das m3i-System m3iCAT m3iServer PHP Web-Interface Motivation Konzept Ressourcen Ergebnisse Ausblick Das m3i-System m3iCAT PHP Web-Interface dient primär der Korpusanalyse m3iServer JAVA Blackboard-Architektur dient der Verarbeitung leistungsintensiver Prozesse

Das Sphinx-System SphinxTrain Sphinx IV C Motivation Konzept Ressourcen Ergebnisse Ausblick Das Sphinx-System SphinxTrain C Toolkit zur Erstellung von Akustikmodellen Sphinx IV JAVA 4. Version des Spracherkennungs-systems Sphinx

Sprachkorpus Zusammengesetzt aus zwei Korpora Timit Scansoft Motivation Konzept Ressourcen Ergebnisse Ausblick Sprachkorpus Zusammengesetzt aus zwei Korpora Timit Scansoft

Implementation Parsen von Transkriptionen Motivation Konzept Ressourcen Ergebnisse Ausblick Implementation Parsen von Transkriptionen m3iCAT-Skript zum Einpflegen der Transkriptionen eines Korpus aus Text-Dateien Parsen der Text-Dateien Entfernen von Punktierung Entfernen von „abgeschnittenen“ Wörtern Entfernen von Zahlen

Implementation Korpus-Filter Motivation Konzept Ressourcen Ergebnisse Ausblick Implementation Korpus-Filter Korpus musste mittels m3iCAT-Skript zugeschnitten werden! Grund SphinxTrain kann nur Äußerungen zw. 1 und 30 Sek. verarbeiten! Auswirkung Verkleinerung des Korpus um Faktor 8

Implementation Automatisches Training der AM Motivation Konzept Ressourcen Ergebnisse Ausblick Implementation Automatisches Training der AM Trainingsdaten werden erstellt/gefiltert. Sphinx-spezifische Trainingsumgebung wird erstellt. AM-Training mittels Sphinx-Skript wird gestartet und überwacht.

Implementation Multiple Instanzen von m3iCAT Motivation Konzept Ressourcen Ergebnisse Ausblick Implementation Multiple Instanzen von m3iCAT Session-ID wurde zu m3iCAT hinzugefügt. Auswirkung Paralleles Ausführen von mehreren m3iCAT-Instanzen nun möglich.

Implementation Durchführung der dynam. Spracherkennung Motivation Konzept Ressourcen Ergebnisse Ausblick Implementation Durchführung der dynam. Spracherkennung AM sind in m3iServer integriert.

Implementation Evaluation der AM Motivation Konzept Ressourcen Ergebnisse Ausblick Implementation Evaluation der AM

Implementation Zusammenfassung Motivation Konzept Ressourcen Ergebnisse Ausblick Implementation Zusammenfassung Adaption eines neuen Korpus jederzeit möglich!

Implementation Kompromiss Motivation Konzept Ressourcen Ergebnisse Ausblick Implementation Kompromiss Scansoft-Korpus konnte nicht verarbeitet werden! Grund: (zum AM-Training) schlecht geeignetes Korpus viele „abgeschnittene“ Wörter viele störende Laute (z.B. Husten, Rascheln, Klacken) Auswirkung nur geschlechts-spezifische AM  keine altersspez. Spracherkennung möglich

Theoretische Ergebnisse Motivation Konzept Ressourcen Ergebnisse Ausblick Theoretische Ergebnisse Verbesserung der Erkennungsleistung 6,3% bei Verwendung von geschlechtsspezifischen Akustikmodellen Erkennungsleistung steigt bei steigendem Trainingsmaterial!

Ausblick Verbesserung der Spracherkennungseffizienz durch Motivation Konzept Ressourcen Ergebnisse Ausblick Ausblick Verbesserung der Spracherkennungseffizienz durch Erhöhung des Trainingsaufwandes Verwendung von N-Gram Sprachmodellen, statt Grammatiken bei breiter Anwendungsfläche Erweiterung der Sprecherklassen auf jugendliche Sprecher Erweiterung der Spracherkennung auf andere Sprachen (z.B. deutsch)

Zusammenfassung Ziele: Ergebnisse: Trade-Off zwischen sprecherabhängiger und –unabhängiger Spracherkennung auflösen mittels spezifischen Akustikmodellen. Automatisiertes Training von sprecher-spezifischen Akustikmodellen ermöglichen. Integration der Spracherkennung in das m3i-System. Ergebnisse: 6,3% Verbesserung in der Erkennung mit geschlechtsspezifischen Akustikmodellen erreicht. Akustikmodelle werden in m3iCAT automatisiert erstellt! Spracherkennung mit dynamisch-geladenen, sprecherspezifischen Akustikmodellen in das m3i-System erfolgreich integriert.

Ende…