Beispiel: Divisem. Beispiel: Divisem Beispiele für komplexe Bewegungen und sprach-begleitende Gesten Springen auf der Stelle Aufzählung von fünf Gliederungs-

Slides:



Advertisements
Ähnliche Präsentationen
NADIA Workshop Folien MMK. Übersicht Modelle Dekodertechnologie Modellerzeugung Vorversuch Stand eigener Erkenner TODOs.
Advertisements

Network Diffusion Models und Ihre Bedeutung für den Softwaremarkt
Statistische Aspekte der PSG
Simulation komplexer technischer Anlagen
Christian Schindelhauer
Die Beziérkurve Adrian Lehmann
Kontextfreie Grammatiken
SST - Sequence Search Tree
On the Criteria to Be Used in Decomposing Systems into Modules
Seminar Textmining WS 06/07 Themen Übung 11 unsupervised vs. supervised Symbolfolgen, Kunstsprachen Page Rank.
Seminar Textmining WS 06/07 Themen Übung 8 Diskussion über Erkennung von Eigennamen Question Answering Stemming.
Kapitel 3: Listen Lineare Liste: endliche Folge von Elementen eines Grundtyps (n>=0), leere Liste falls n=0 Listenelemente besitzen.
Einige entscheidbare bzw. rekursiv aufzählbare Sprachen
HEINZ NIXDORF INSTITUT Universität Paderborn Fachbereich Mathematik/Informatik Algorithmische Probleme in Funknetzwerken IX Christian Schindelhauer
Übersicht DIALIGN = DIagonal ALIGNment
Automatische Spracherkennung FR 4.7 Allgemeine Linguistik Institut für Phonetik, UdS (IPUS) Foundations in Language Science and Technology WS
Grundlagen der Analyse von Sprachdatenbanken
Was ist laut Stevens die Beziehung zwischen dem akustischen Signal, distinktiven Merkmalen und dem Lexikon?
Beata Kouchnir1 Part-of-Speech Tagging Eine Übersicht über verschiedene Ansätze sowie eine theoretische Beschreibung des TnT-Taggers von Thorsten.
PG 520 Intelligence Service – gezielte Informationen aus dem Internet
Algorithmen des Internets 2005 HEINZ NIXDORF INSTITUT Universität Paderborn Algorithmen und Komplexität 1 Klausuraufgaben.
Beispielrelation Buchbestellungen H = Menge der bedeutenden Ziele = {a, d} Schwelle T = 4 Stichprobe S = {a, b, a, a, a, a} mit s = |S| = 6 N = Anzahl.
Maschinelles Lernen Bayessche Verfahren (Mitchell Kap. 6), Teil 1.
On the Power of Profiles for Transcription Factor Binding Site Detection Sven Rahmann* Tobias Müller Martin Vingron * Computational Molecular Biology,
Statische Sprachmodellierung Training Sprachmodellen in SLM-Toolkit Buyu Xiao 24.Maerze.2010.
Statische Sprachmodellierung Training Sprachmodellen in SLM-Toolkit Buyu Xiao 24.Maerze.2010.
Statische Sprachmodellierung Training Sprachmodellen in SLM-Toolkit Buyu Xiao 24.Maerze.2010.
Gliederung Motivation und Ziele Grundlagen der Rotman Linsen
Entwicklung des sprachgesteuerten Schachcomputers Speech2Chess
Zähle die schwarzen Punkte... 
Effiziente Algorithmen
Effiziente Algorithmen
Hartmut Klauck Universität Frankfurt SS
Polynome und schnelle Fourier-Transformation
Korpuslinguistik für und mit Computerlinguistik
MATHEMATIK UND AKUSTISCHE SIGNALVERARBEITUNG
UML Modellierung des Verhaltens von Klassen und Objekten
Information Retrieval, Vektorraummodell
Sprachsignalverarbeitung
Meta-Modell für Story-Diagramme und Expressions
HEINZ NIXDORF INSTITUT Universität Paderborn Fachbereich Mathematik/Informatik Algorithmische Probleme in Funknetzwerken VIII Christian Schindelhauer
Jonathan Harrington: "Die phonetischen Grundlagen des Lautwandels“
HEINZ NIXDORF INSTITUT Universität Paderborn Fakultät für Elektrotechnik, Informatik und Mathematik Algorithmische Probleme in Funknetzwerken XIII Klaus.
Institut für Informationssysteme Technische Universität Braunschweig Institut für Informationssysteme Technische Universität Braunschweig Verdrängung von.
Caroline Euringer Hamburg University LEO.-App: Mobile phone application for self-testing in reading and writing Peer Learning Activity on the use of digital.
1 StatiX: Making XML Count J.Freire, J.R.Haritsa, M.Ramanath, P.Roy, J.Siméon: StatiX: Making XML Count ACM SIGMOD, June 2002 Ann Früchtl
The PageRank Axioms Johannes Zaunschirm. Überblick / Outline  Alon Altman and Moshe Tennenholtz. “Ranking Systems: The PageRank Axioms”., 2005  Basisstruktur.
Erzeugung von hoch skalierbaren virtuellen Welten Seminar Algorithmen zur Unterstützung von Immersive Gaming Philip Mildner, 8. Oktober 2008.
Schwarmintelligenz Lydia Pintscher Seminar Organic Computing Universität Karlsruhe.
Prüfungsthema SDT. Kontext: Entdeckung von Signalen (z.B. krankhafte Veränderungen, technische Störungen, fehlerhafte Bauteile...) Auf welche Weise können.
Fachrichtung Theoretische Informatik
Phonetik und Phonologie
Simple Recurrent Networks
Downstream Leistungsrücknahme (DPBO) Zentraleseitiges Kabel
Projektarbeit.
Phonetik und Phonologie
Spracherkennung mit dynamisch geladenen, spezifischen Akustikmodellen
Sichtbar – Mit den Augen wahrnehmbar.
Kapitel 6: Einführung in die DFT
Wiederholung TexPoint fonts used in EMF.
das Routing Information Protocol
Jeopardy Final Jeopardy Vokabular Schweiz Reisen Kultur $100 $100 $100
Inhalt Sprachanwendungen
Komplexität und Berechenbarkeit
Zufallsgrößen und Zufallsprozesse
Downstream Leistungsrücknahme (DPBO) Zentraleseitiges Kabel
VXML “in einer Nußschale”
Dialogmanagement am Beispiel des Dialogsystems WAXHOLM
Dialogsysteme mit VXML
Multivariate Analysemethoden Johannes Gutenberg Universität Mainz
 Präsentation transkript:

Beispiel: Divisem

Beispiele für komplexe Bewegungen und sprach-begleitende Gesten Springen auf der Stelle Aufzählung von fünf Gliederungs- punkten Im Kreis bewegen http://www.smartkom.org/intern/ag-homes/display/gestenkatalog

Beispiele für Zeigegesten und Vitalgesten Zeigen nach rechts Leichtes Hin- und Herbewegen Hand an den Kopf führen

Spracherkennung LVR („large-vocabulary continuous speech recognition“) Dialogsysteme: Medium size vocabulary, sprecherunabhängig Prinzipien der statistischen Mustererkennung Trainingsmaterial schwierig für Spontansprache Aufgabe: Bestimme die Wortfolge, deren Wahrscheinlichkeit für ein akustisches Signal maximal ist Institut für Maschinelle Sprachverarbeitung Universität Stuttgart

Prinzipien Y: Akustische Merkmalssequenz W: Sequenz aus Wörter wi P(W): a priori Wahrscheinlichkeit für Sprachmodell P(Y|W): Bedingte Wahrscheinlichkeit für akustisches Modell

Aufgaben Akustische Parametrisierung Akustisches Modell Sprachmodell Entschlüsselung (Decoding)

Akustische Parametrisierung Annahme eines stationären (d.h. spektral konstanten) Signals

Akustische Parametrisierung Übliche Parametrisierung: Fensterung des Signals in 10ms Abstand, 25ms Fensterlänge Berechnung von MFCC-Parametern (Mel-Frequency Cepstral Coefficients) 12 MFCCs, 1 Signalenergie + Ableitungen 1. und 2. Ordnung: 39 Koeffizienten

Akustisches Modell Berechnung von P(Y|wi) Dekomposition in Phoneme Ein HMM repräsentiert ein Phonem 1 2 3 4 5 a12 a23 a34 a45 a44 a33 a22 b2(y1) b2(y2) b3(y3) b4(y4) b4(y5) Markov Model M Akustische Vektorsequenz Y

Akustisches Modell Vorhang

Akustisches Modell Wahrscheinlichkeit der Vektorsequenz Verteilung der Ausgabewahrscheinlichkeit bj(yi) typischerweise gemischte Normalverteilung Meist ein HMM für jeden Triphon-Kontext State-Tying mit phonologischem Entscheidungsbaum

Sprachmodell Üblicherweise mit N-Gramm-Modellen modelliert Meist N=3 (Trigramm) Bei data sparsity: Bigramm-Modelle, gramm. Klassen (Städte, Zeiten, ...)

Decoding Suche durch HMM-Netzwerk nach der Sequenz mit der höchsten Wahrscheinlichkeit Beam-search mit einer maximalen Anzahl von n verfolgten Pfaden („pruning“) „Token-passing“ algorithm: n Token mit höchster kumulativer Wahrscheinlichkeit werden mit jedem Eingabevektor durch das Netz bewegt. Wahrsch. des wahrscheinlichsten Wortes wird als a-priori-Wahrscheinlichkeit berücksichtigt

Viterbi Decoding forced alignment (Sequenz liegt fest) ( x | ) u i ã p k ( x | ) X 1 X 2 X 3 X 4 X 5 X 6 X 7 X 8 X 9 X 1 X 1 1 X 1 2 X 1 3 X 1 4 X 1 5 X 1 6 X 1 7 u ã ã p forced alignment (Sequenz liegt fest)

Decoding (Worthypothesengraph)

Weitere Aspekte Sprecheradaption Robustheit gegen Rauschen Entfernen des Rauschsignals Rauschresistente Merkmale Veränderung des Algorithmus ... besondere Geräusche (Schmatzen, Atmen, Husten...) als Phonemmodelle

ASR in Dialogsystemen mixed-initiative Dialogsysteme: Interpolation zwischen LVR-System (unerwartete Eingebe) und Systemen mit kleinem Vokabular (erwartete Eingabe) VoiceXML 1.0: Alle Grammatikformate erlaubt (Bsp. in JavaSpeechGrammarFormat) IBM VoiceServer: JSGF (siehe VXML-Einführung) VoiceXML 2.0 (ende 2001): XML-Form der Grammatik - required ‚Erweiterte Backus-Naur-Form‘-Format (kompakter) - optional

VoiceXML – XML Grammatik Format <?xml version="1.0"?> <grammar xml:lang="en" version="1.0"> <rule id="city" scope="public"> <one-of> <item> new york </item> <item> sydney </item> <item> boston </item> <item> berlin </item> </one-of> </rule> </grammar>

VoiceXML – XML Grammatik Format <rule id="travel" scope="public"> I want to fly from <ruleref uri="locations.xml#UScity"/> to <ruleref uri="locations.xml#UScity"/> <count num="optional">on</count> <ruleref uri="date.xml"/> <count num="optional">at</count> <ruleref uri="time.xml"/> </rule>

<import name="polite" uri="http://www.sayplease.com/politeness.xml"/> <rule id="basicCommand" scope="public"> <example>please move the window</example> <example>open a file</example> <!-- A sequence of 3 rule references --> <ruleref import="polite#startPolite"/> <ruleref uri="#command"/> <ruleref import="polite#endPolite"/> </rule> <rule id="command"> <example>move the window</example> <!-- A sequence of 2 rule references --> <ruleref uri="#action"/> <ruleref uri="#object"/> <rule id="action"> <one-of> <item>open</item> <item>close</item> <item>delete</item> <item>move</item> </one-of> <rule id="object"> <count number="optional"> <item>the</item> <item>a</item> </count> <item>window</item> <item>file</item> <item>menu</item> </grammar>