Automatische Spracherkennung FR 4.7 Allgemeine Linguistik Institut für Phonetik, UdS (IPUS) Foundations in Language Science and Technology WS 2007-8.

Slides:



Advertisements
Ähnliche Präsentationen
Stochastik und Markovketten
Advertisements

Statistische Aspekte der PSG
Suche in Texten (Stringsuche )
Seminar Textmining WS 06/07 Themen Übung 11 unsupervised vs. supervised Symbolfolgen, Kunstsprachen Page Rank.
HEINZ NIXDORF INSTITUT Universität Paderborn Fachbereich Mathematik/Informatik Algorithmische Probleme in Funknetzwerken X Christian Schindelhauer
Nebenläufigkeit Teil I
Software Praat: Doing Phonetics by Computer. Phonetik Institut, Amsterdam, EMU: Ein System für die Analyse von Sprachdatenbanken Macquarie.
Software Praat: Doing Phonetics by Computer. Phonetik Institut, Amsterdam, EMU: Ein System für die Analyse von Sprachdatenbanken Macquarie.
Software Praat: Doing Phonetics by Computer. Phonetik Institut, Amsterdam, EMU: Ein System für die Analyse von Sprachdatenbanken Macquarie.
Zeitliches probabilistisches Schließen
FH-Hof Deadlocks Richard Göbel. FH-Hof Deadlock - Definition Menge von Prozessen ist an einem Deadlock beteiligt: wenn jeder Prozess in dieser Menge auf.
Spektrogramm Das Spektrogramm stellt 3 Dimensionen dar:
Spektrogramm Das Spektrogramm stellt 3 Dimensionen dar:
Die Phonetik und Sprachverarbeitung
Sprachproduktion- und Sprachperzeption
Vokale und die Quantaltheorie
1. Satzbetonung, Töne, und Grundfrequenz
Die Prosodie Jonathan Harrington Felicitas Kleber.
F. H&H Theorie und „adaptive dispersion“ in Lindbloms Modell
Grundlagen der Analyse von Sprachdatenbanken
Aufbau, Abfrage, Analyse von Sprachdatenbanken ErstellungAnalyse Abfrage Digitale Zeitsignale akustisch, artikulatorisch Etikettieren Verknüpfung mit Symbolen.
Was ist die artikulatorische Grundlage von Locus-Gleichungen? Hauptseminar: Modelle der Sprachproduktion & - perzeption Dozent: Prof. Dr. Jonathan Harrington.
Was sind die unterschiedlichen Vorhersagen der Quantal Theory (QT) und der Theory of Adaptive Dispersion (TAD) bezüglich der Verteilung der Vokale in den.
Was ist laut Stevens die Beziehung zwischen dem akustischen Signal, distinktiven Merkmalen und dem Lexikon?
Grundbegriffe der Wahrscheinlichkeitstheorie
1 Endliche Automaten in der Sprachtechnologie Kursthemen Karin Haenelt
Die Verschriftung der Sprache
Hypothesen testen: Grundidee
B E S C H R I F T U N G Platzierung ? Sebastian Vollmer
PG 520 Intelligence Service – gezielte Informationen aus dem Internet
Erwartungswert und Varianz I Der endliche Fall Erwartungswert Varianz.
4. Markov-Ketten 4.1. Übergangsmatrizen
Statistische Methoden I WS 2007/2008 Donnerstag, 31. Januar 2008 und Freitag, 1. Februar 2008 Probeklausur - statt Vorlesungen -
Statistische Methoden I WS 2009/2010 Probeklausur Montag, 25. Januar statt Vorlesung -
Kategoriale Wahrnehmung
Tutorium Willkommen zurück, in der wunderbaren Welt der Statistik Teil II.
und relative Häufigkeit Bettina delert, andreas mertke
Hidden Markov Modelle (HMM) (Rabiner Tutorial)
Maschinelles Lernen und automatische Textklassifikation
Wie macht man ein Sudoku? Transformations-Methode:
Eigenschaften der OLS-Schätzer
Für U2 an der FH in Bingen von Dipl. Inform. (FH) Heidi HannaH Daudistel.
Zeitpfeile in der Physik
Ausgleichungsrechnung II
Endliche Automaten Informatik JgSt. 13, Abitur 2009
Entwicklung des sprachgesteuerten Schachcomputers Speech2Chess
Erzeugen von Karten, Layern und Legenden
Black Box Algorithmen Hartmut Klauck Universität Frankfurt SS
Information und Kommunikation Hartmut Klauck Universität Frankfurt SS
Beweissysteme Hartmut Klauck Universität Frankfurt WS 06/
Die synchronen Grundlagen des Lautwandels Jonathan Harrington.
Wahrscheinlichkeitsrechnung
Informationstheorie Begr. von Claude Shannon
Sprachproduktion und Sprachwahrnehmung
Übung zu Einführung in die LDV I
Elman-Netzwerke Wintersemester 2004/05 Seminar Kindlicher Spracherwerb C. Friedrich & R. Assadollahi vorgestellt von Christian Scharinger & Guido Heinecke.
Petrinetze 1. Einführung Informatik : wesentlich Modellierung von
1 Albert-Ludwigs-Universität Freiburg Rechnernetze und Telematik Prof. Dr. Christian Schindelhauer Informatik III Christian Schindelhauer Wintersemester.
Plosive [a d a] [a t a] [a th a]
Aufmerksamkeit, Funktion, Symptom Merkmale einer Legasthenie:
Worterkennung und prälexikalische Repräsentation
HEINZ NIXDORF INSTITUT Universität Paderborn Fachbereich Mathematik/Informatik Algorithmische Probleme in Funknetzwerken VIII Christian Schindelhauer
Anfang Präsentation 3. November, 2004 Tarjan’s Schleifenaufbrechalgorithmus In dieser Vorlesung wird ein Verfahren vorgestellt, welches in der Lage ist,
Spracherkennung Egon Berger Didaktik der Physik
Die Binomialverteilung
Teilchenmodell und Aggregatzustände
Einführung in die Phonetik und Phonologie
TU Darmstadt FB 20 Informatik Bayes Decision Theory von Martin Tschirsich, Shuo Yang & Zijad Maxuti Hausübung 5: Erläuterung Anwendung.
Einführung in die Phonetik und Phonologie SS 2010 Bistra Andreeva Sitzung 1: Einführender Überblick.
Beispiel: Divisem. Beispiel: Divisem Beispiele für komplexe Bewegungen und sprach-begleitende Gesten Springen auf der Stelle Aufzählung von fünf Gliederungs-
 Präsentation transkript:

Automatische Spracherkennung FR 4.7 Allgemeine Linguistik Institut für Phonetik, UdS (IPUS) Foundations in Language Science and Technology WS

Variation in der Wortrealisierung –phonologisch –phonetisch Modellierung des akustischen Signals Hidden-Markov-Modellierung Überblick

Spracherkennung: Anwendungen Registrierung/Sicherheitssysteme (Banken usw.) Auskunftsysteme (Fahrplan DB) Hands-free telefonieren Gesprochene Eingabe, z.B für Navigations-systeme Hilfsmittel für Behinderte Diktiersysteme, z.B. NaturallySpeaking (Dragon/ Scansoft), ViaVoice (IBM), FreeSpeech (Philips)

Ziel eines ASR-Systems Erkennung einer Äußerung anhand von: Die Variabilität im Signal wirkt sich sowohl auf die Signalmodellierung als auch auf das Lexikon aus. Signal Lexikon Sprachmodell Worterkennung

Phonologische Prozesse können dazu führen, daß Wörter nicht immer gleich realisiert werden: Variation in der Wortrealisierung Lauttilgung Epenthese Assimilation

Lauttilgung (deletion) Ein Laut, der in der sog. kanonischen Form (Lexikonform) vorhanden ist, wird nicht realisiert. Variation in der Wortrealisierung Einst stritten sich der Nordwind und Fährst du mit dem Bus?.....

Epenthese Ein Laut, der in der sog. kanonischen Form nicht vorhanden ist, wird eingefügt. Variation in der Wortrealisierung im Fahrstuhl: eins ( [aIns] oder [ aInts ]) Pils - Pilz Gans - Ganz

Variation in der Wortrealisierung

Assimilation (Angleichung) Die (phonologische) Identität eines Lautes ändert sich unter Einfluß des Kontexts (auch prosodisch bedingt). Variation in der Wortrealisierung unmöglich, einbauen aber nicht: umtaufen, umdrehen

Die durch phonologische Prozesse (Lauttilgung, Epenthese und Assimilation) bedingte Variation kann durch Aussprachevarianten im Lexikon erfasst werden. Variation in der Wortrealisierung

Das Lexikon und das Sprachmodell, das festlegt, welche Wörter aufeinander folgen können (zusammen: top-down Verarbeitung), sorgen dafür, daß Ambiguitäten in der Signalverar- beitung (bottom-up Verarbeitung) aufgelöst werden, oder besser: vorgebeugt werden, denn nur Lautsequenzen, die eine mögliche Reihenfolge von Lexikoneinträgen darstellen, können von einem ASR-System erkannt werden. Top-down versus bottom-up

Ambiguitäten in der Signalverarbeitung entstehen durch phonetische Variation, die durch die Koartikulation zwischen Lauten bedingt ist: Variation in der Lautrealisierung ein Laut eine akustische Identität Überlagerung von artikulatorischen Gesten Artikulatorische Übergänge

Variation in der Lautrealisierung ein Laut eine Identität Beispiel: /h/ kann in unterschiedlichen Kontexten unterschiedlich realisiert werden. Man könnte /h/ als eine stimmlose Realisie- rung der Kontextvokale betrachten. (Spektrogramme ihi, aha, uhu: verschiedene Realisierungen des /h/)

Variation in der Lautrealisierung i: h a: h h u: [] ] ] [[

Variation in der Lautrealisierung Überlagerung von artikulatorischen Gesten Beispiel: Die artikulatorische Geste für den Vokal /Y/ wird durch die Geste für die benachbarten Frikativen über-lagert. (SpektrogrammDezimalsystem: keine klare Abgrenzung der Laute)

Variation in der Lautrealisierung det0sima:lzYd0 s t0te:m[] (

Variation in der Lautrealisierung Artikulatorische Übergänge Beispiel: An den Grenzen des Vokals hängt die Realisierung stark von der Artikulation der benachbarten Laute ab. (Spektrogramm aba, ada, aga: Variation innerhalb der Laute)

Variation in der Lautrealisierung a: b0dg[][[]]d0g0b

Variation in der Lautrealisierung Menschliche Hörer haben mit der im Signal vorhandenen Variation normalerweise keine Probleme. Für den Computer ist sie aber eine Herausforde- rung, den die Variation in der Lautrealisierung muß in den akustischen Modellen erfasst werden. Dazu werden statistische Verfahren (meistens hidden Markov Modellierung) verwendet.

Markov-Modellierung Markov-Modelle bestehen aus Zuständen ("states"), die durch Übergänge miteinander verbunden sind. Wenn sich der Automat in einem bestimmten Zustand befindet, emittiert es ein Symbol (z.B. eine akustische Vektor). Die Übergänge zwischen den Zuständen sind mit Wahrscheinlichkeiten versehen. Spielen wir erstmal ein einfaches Beispiel durch, in dem die Zustände Behälter mit farbigen Bällen darstellen. stochastische Modellierung

MMs: Einfaches Beispiel Man fängt in Zustand S (keine Emission) an und geht von da mit einer Wahrscheinlichkeit von p = 1 zu Zustand 1 weiter. Da nimmt man einen schwarzen Ball aus dem Behälter. S E

MMs: Einfaches Beispiel Danach geht man entweder weiter zum 2. Zustand (p = 0.4) und nimmt einen roten Ball aus dem Behälter oder man geht noch mal zum 1. Behälter und nimmt wieder einen schwarzen Ball. So weiter, bis man in Zustand E landet und eine Reihe von gefärbten Bällen hat. S E

Hidden Markov Modellierung Hidden-Markov-Modelle (HMMs) unterscheiden sich darin von Markov-Modellen, dass die Emissionen nicht unbedingt einem bestimmten Zustand zuzuordnen sind. In unserem Beispiel wäre dies der Fall, wenn in allen drei Behältern rote, schwarze und gelbe Bälle wären

Hidden Markov Modellierung Dabei kann das Verhältnis der farbigen Bällen in den Behältern unterschiedlich sein, so dass die Farbemissionen in den drei Zuständen unterschiedliche Wahrscheinlichkeiten haben.

HMMs: Einfaches Beispiel Man fängt in Zustand S (keine Emission) an und geht von da mit einer Wahrscheinlichkeit von p = 1 zu Zustand 1 weiter. Da nimmt man einen Ball aus dem Behälter, der jetzt aber schwarz, rot oder gelb sein kann. S E

HMMs: Einfaches Beispiel Danach geht man entweder weiter zum 2. Zustand (p = 0.4) und nimmt einen Ball aus dem Behälter oder man geht noch mal zum 1. Behälter und nimmt da noch mal einen Ball. So weiter, bis man in Zustand E landet und eine Reihe von gefärbten Bällen hat. S E

HMMs: verborgene Zustände Wenn jetzt eine Reihe von farbigen Bällen vorliegt, kann man nicht mehr eindeutig erkennen, in welchem Zustand (aus welchem Behälter) man die einzelnen Bälle genommen hat. Die Zustände sind verborgen, deswegen Hidden-Markov- Modellierung usw.

HMMs: Spracherkennung Reihe von farbigen Bällen = akustische Frames mit Parametervektoren. Die Aufgabe für den Spracherkenner ist es, für eine vorliegende Äußerung zu erkennen, welche Abfolge von Zuständen die Frames am wahrscheinlichsten emittiert hat. Das wird durch die Transitions- und Emissionswahrscheinlichkeiten bestimmt.

HMMs: Übergange In der Spracherkennung werden links-rechts- Modelle verwendet (wie vorher gezeichnet), weil die akustischen Ereignisse in der Zeit geordnet sind. So werden Vokale z.B. oft betrachtet als eine Sequenz von Anfangs-transition, steady state und Endtransition. Wenn ein Modell für Pausen trainiert wird, werden meist Übergange von jedem Zustand zu jedem anderen erlaubt, da es keinen vorgegebenen Ablauf von akustischen Ereignissen gibt (ergodisch).

HMMs: Emissionen Emissionen können beschrieben werden mit: Vektorcodebook: Eine feste Anzahl von quantisierten akustischen Vektoren werden verwendet. Sie werden durch Beobachtungs- wahrscheinlichkeiten bestimmten Zuständen zugeordnet. Gauss'sche Verteilungen: Die Variation in der akustischen Realisierung in einem Zustand wird mittels einer Normalverteilung beschrieben.

HMMs: komplexere Modelle Es werden auch komplexere Modelle benutzt : parallele Zustände und multiple mixtures können Variationen in der Lautrealisierung ( Sprecher, Dialekt, Kontext, usw.) besser beschreiben. Gauss'sche Mixturen: die systematische Variation in der akustischen Realisierung von einem Zustand wird mittels mehrerer Normalverteilungen beschrieben.

HMMs: Datenarmut? Generalisierte Triphone beschreiben einen Laut in unterschiedlichen Kontexten, wobei die Kontexten gruppiert sind (z.B. nach Artikulationsstelle oderdata-driven nach akustischen Eigenschaften). So werden die Anforderungen an der Größe des Trainingkorpus reduziert.

HMMs: Spracherkennung Es kann mehrere Abfolgen von Zuständen geben, die das vom gleichen Signal (Framefolge) folgen können. Die Zustandfolge mit der höchsten Wahrscheinlichkeit wird gesucht (dazu wird der sog. Viterbi-Algorithmus verwendet). Dies gilt für alle HMMs: Die Zustandsequenz, die die höchste Wahrscheinlichkeit hat, wird erkannt.

HMMs: Lexikon & Sprachmodell Mit HMM kann man heutzutage kontinuierliche Spracherkennung durchführen. Dazu braucht man, außer akustischen (Hidden-Markov-) Modellen, auch ein Lexikon und ein Sprachmodell. Im Lexikon werden alle Wörter (oder Morpheme) aufgelistet, die das System erkennen soll. Im Sprachmodell werden alle mögliche Kombi- nationen von Einträgen im Lexikon festgelegt.

HMMs: Lexikon Die Einträge im Lexikon bestehen meist aus einem orthographischen Wort und seiner Realisierung als Folge von HMMs für Laute. Um Variationen in der Aussprache von Wörtern besser zu bewältigen, werden manchmal im Lexikon auch Aussprachevarianten geschrieben, in denen Reduktionen, Einfügungen und Assimilationen berücksichtigt werden. Sie sorgen dafür, daß der Abstand zwischen akustischer Realisierung und Eintrag geringer sind.

HMMs: Lexikon Dafür wird auch der Abstand zwischen den Lexikoneinträgen geringer, was wieder zu Verwechslungen führen kann. Deswegen werden oft nur die häufigsten Aussprachevarianten, z.B. für Funktionswörter, berücksichtigt, um die Erkennung zu verbessern.

HMMs: Sprachmodell Das Sprachmodell kann entweder als Regelsystem (linguistische Grammatik) oder als probabilistisches System implementiert werden. Regelsysteme haben den Vorteil, das sie zu einem besseren Verständnis der linguistischen Eigenschaften von Äußerungen führen (genau so wie kenntnisbasierte Lauterkennung zu einem besseren Verständnis der phonetischen Eigenschaften von Lauten führen kann).

HMMs: Sprachmodell Probabilistische Systeme modellieren dagegen realisierte Äußerungen. Sie berechnen Wahrscheinlichkeiten für die Übergänge zwischen Lexikoneinträge. Sie sind weniger generalisierend, brauchen dafür große Datenmengen als Trainingsmaterial. Angenommen, dass die Testbedingungen gut mit den Trainingsdaten übereinstimmen (Textsorte, lexikalische Domäne, usw.) beschreiben sie aber sehr genau das beobachtete Sprecherverhalten.

Literaturangaben: Van Alphen, P. und D. van Bergem (1989). Markov models and their application in speech recognition, Proceedings Institute of Phonetic Sciences, University of Amsterdam 13, Holmes, J. (1988). Speech Synthesis and Recognition (Kap. 8). Wokingham (Berks.): Van Nostrand Reinhold, Holmes, J. (1991). Spracherkennung und Sprachsynthese (Kap. 8). München: Oldenburg.

Literaturangaben: Cox, S. (1988). Hidden Markov models for automatic speech recognition: theory and application, Br. Telecom techn. Journal 6(2), Lee, K.-F. (1989). Hidden Markov modelling: past, present, future, Proc. Eurospeech 1989, vol. 1,