Bayes Netze Seminar: Transkription in Sprachsynthese und -erkennung

Slides:



Advertisements
Ähnliche Präsentationen
Präsentiert von Torben Pastuch
Advertisements

Transkription in der Sprachsythese und –erkennung SS 2004 Regelgesteuerte automatische Transkription auf der Basis von Expertenwissen Referent: Freshta.
Statistische Aspekte der PSG
Auswahl-Sort Sortieren in mehreren Durchgängen. In jedem Durchgang wird das größte Element bestimmt und mit dem letzten Element der nichtsortierten Elemente.
Docking von starren und flexiblen Proteinen
Bayes-Netze KI 14-Bayes-Netze.
TECHNISCHE UNIVERSITÄT DARMSTADT Naive Bayes for Ranking
HEINZ NIXDORF INSTITUT Universität Paderborn Fachbereich Mathematik/Informatik Algorithmische Probleme in Funknetzwerken IX Christian Schindelhauer
HEINZ NIXDORF INSTITUT Universität Paderborn Fachbereich Mathematik/Informatik Algorithmische Probleme in Funknetzwerken X Christian Schindelhauer
Heuristiken und Kontexteinflüsse
Forschungsstatistik II Prof. Dr. G. Meinhardt SS 2005 Fachbereich Sozialwissenschaften, Psychologisches Institut Johannes Gutenberg Universität Mainz KLW-24.
Lernende Agenten Seminar Softwareagenten Wintersemester 2001/2002 Norman Neuhaus.
Vorlesung Informatik 2 Algorithmen und Datenstrukturen (27 – Kürzeste Wege) Prof. Th. Ottmann.
Seminar parallele Programmierung SS 2003
Proseminar „Algorithmen auf Graphen“
Rigi und Web2Rsf vorgestellt von Tobias Weigand. Inhalt Ziel von Web2Rsf und Rigi Vorstellung des Parsers Web2Rsf Vorstellung des Werkzeugs Rigi Analyse.
Projekt A4: Alignment of Situation Models Gert Rickheit Sven Wachsmuth Constanze Vorwerg Agnes Swadzba SFB-Kolloqium,
High Performance = Innovative Computer Systems + Efficient Algorithms Friedhelm Meyer auf der Heide 1 HEINZ NIXDORF INSTITUT Universität Paderborn Algorithmen.
Algorithmen und Komplexität
Christian Schindelhauer
Verteilte Algorithmen
Statistische Methoden II
Konfidenzintervalle Intervallschätzung
M-L-Schätzer Erwartungswert
TESTS. Worum es geht Man möchte testen, ob eine bestimmte Annahme (Hypothese) über Parameter der Realität entspricht oder nicht. Beobachtung (Stichprobe)
Konfidenzintervalle Intervallschätzung Jeder Beobachtung wird ein Intervall C( ) der reellen Zahlen zugeordnet Niveau Dabei ist die Wahrscheinlichkeit,
Klausurtermin (laut Prüfungsamt) Probeklausur Freitag, 13. Juni 2003 statt Vorlesung.
Statistische Methoden II SS 2003
Classification of Credit Applicants Using Data Mining. Thema.
Tutorium
Tutorium Aufgabe 1 Informationen in Designmatrix in: - Darin sind die Prädiktoren enthalten - Aber sagt uns noch mehr! Untersuchungsdesign darin.
FH-Hof Analyse des R-Baums - Teil 1 Richard Göbel.
Bayes‘sche Verfahren (Mitchell Kap. 6), Teil 1
Maschinelles Lernen und automatische Textklassifikation
Maschinelles Lernen Bayessche Verfahren (Mitchell Kap. 6), Teil 1.
Wahrscheinlichkeitsrechnung
Datenverteilung in Ad-hoc Netzen 1/24 Adaptive Datenverteilung in mobilen Ad-hoc Netzen unter Verwendung des Area Graph basierten Bewegungsmodells S. Bittner,
Beweissysteme Hartmut Klauck Universität Frankfurt WS 06/
Knowledge Discovery mit Wordnet und Alembic Workbench
Effiziente Algorithmen
Ausgleichungsrechnung I
DataMining Von Daten zu Informationen und Wissen
Effiziente Algorithmen
Quantum Computing Hartmut Klauck Universität Frankfurt WS 05/
Effiziente Algorithmen
Black Box Algorithmen Hartmut Klauck Universität Frankfurt SS
Effiziente Algorithmen
Effiziente Algorithmen Hartmut Klauck Universität Frankfurt SS
Effiziente Algorithmen
Hartmut Klauck Universität Frankfurt SS
Beweissysteme Hartmut Klauck Universität Frankfurt WS 06/
Information und Kommunikation Hartmut Klauck Universität Frankfurt SS
Information und Kommunikation
Peter Grzybek Projekt # (FWF) Projekt # 43s9 (OEAD/SAIA) Graphem-Häufigkeiten.
Korpuslinguistik für und mit Computerlinguistik
STATISIK LV Nr.: 1375 SS März 2005.
Kompetenz -, Lern - und Prüfungsbereiche Anforderungsbereiche
Black Box Algorithmen Hartmut Klauck Universität Frankfurt SS
Sedimentation und Filtration
Routing Instabilitäten
Methoden Die klassische Methode der Psycholinguistik (genauso wie der experimentellen Psychologie im Allgemeinen) ist die Messung von Reaktionszeiten.
HEINZ NIXDORF INSTITUT Universität Paderborn Fachbereich Mathematik/Informatik Algorithmische Probleme in Funknetzwerken VIII Christian Schindelhauer
Methoden der Sozialwissenschaften
Forschendes Lernen Wie sehen forschungsorientierte Aufgabenstellungen in der Mathematik aus? Modul IE-2: Offene und geschlossene Aufgaben (Problemstellungen)
EIN NEUES ENSEMBLE- KLASSIFIKATIONSVERFAHREN Tim Schneider Rotation Forest.
Operatoren Ein Operator zeigt an, welchen Teilbereich und in welcher Tiefe der Sachverhalt dargestellt werden soll. Je nachdem, welcher Operator verwendet.
TU Darmstadt FB 20 Informatik Bayes Decision Theory von Martin Tschirsich, Shuo Yang & Zijad Maxuti Hausübung 5: Erläuterung Anwendung.
 Gegenstandsbereich der Testtheorie: Analyse der Charakteristika von Tests:  Güte von Tests.  Struktur von Tests.  Schwierigkeit von Tests.  Gruppenunterschiede.
Prognose von Zeitreihen Hans Nübel Hans Nübel Prognose von Zeitreihen Aufbau 1.Motivation 2.Holt-Winters-Verfahren 3.Prognose.
Rechen- und Kommunikationszentrum (RZ) Selektionsstrategien auf Graphstrukturen Sven Porsche Seminarvorträge Aachen.
 Präsentation transkript:

Bayes Netze Seminar: Transkription in Sprachsynthese und -erkennung Vortragender: Thomas Jach

Überblick Bayes Grundlagen Wahrscheinlichkeitstheoretischer Ansatz zur Erkennung von Sprache Ermitteln von Phonemwahrscheinlich-keiten durch Bayes Netze Experimentelle Ergebnisse und Vergleiche

Bayes Grundlagen Thomas Bayes 1702 – 1761 Englischer Mathematiker Bayes Theorem

Bayes Grundlagen Durch Bayes Theorem kann direkte Beziehung zwischen den Wahrscheinlichkeiten, daß Hypothese eintrifft, wenn Vorbedingung erfüllt, und daß Vorbedingungen eintreffen, wenn Hypothese erfüllt, hergestellt werden Das Bayes Theorem setzt die Wahrscheinlichkeiten das eine Hypothese eintrifft, unter der Bedingung das eine Vorbedingung erfüllt ist, in eine direkte Beziehung zu der Wahrscheinlichkeit das eine Vorbedingung erfüllt ist, unter der Bedingung das eine Hypothese erfüllt ist. Das macht ein späteres verwenden eines trainierten Netzes erst wirklich möglich

Bayes Grundlagen Bayes Theorem P(h) = a priori Wahrscheinlichkeit einer Hypothese P(D) = a priori Wahrscheinlichkeit einer Bedingung P(h|D) = Wahrscheinlichkeit von h gegeben D P(D|h) = Wahrscheinlichkeit von D gegeben h

Bayes Grundlagen Familie weg (fw) Magenprobleme (mp) P(mp) = 1% P(fw) =15% Hund draussen (hd) Licht aus (la) P(hd|fw,mp) = 99% P(hd|fw,nicht mp) = 90% P(hd|nicht fw,mp) = 97 % P(hd|nichtfw,nicht mp) = 30% P(la|fw) = 60% P(la|nicht fw) = 5% Beispiel für ein Bayesnetz: Fragestellung: Komme nach Hause, keine Lust Schlüssel zu suchen… Ist jemand zu Hause ? Idikatoren: Ist das Licht aus? Höhre ich Hundegebell? Ist das Hundegebell von meinem Hund ? Wurde der Hund nach draussen geschickt, weil er Magenprobleme hatte ? Besonderheiten dieses Beispiels: Zufallsvariablen alle boolesch, auch andere Typen möglich, allerdings wird Tabelle mit Wahrscheinlichkeiten sehr schnell sehr groß Wahrscheinlichkeiten müssen unter Brücksichtung von allen möglichen Eingangskonfigurationen (eingehende Kanten) erstellt werden Gebell (gb) P(gb|hd) = 70% P(gb|nicht hd) = 1 %

Bayes Grundlagen Modellierung von voneinander abhängigen bedingten Wahrscheinlichkeiten und Unabhängigkeiten durch einen Graphen Bayes Netz Zufallsvariablen werden dabei zu Knoten Wahrscheinlichkeiten werden zu Knotenbeschriftungen Gerichtete Kanten zwischen von einander abhängigen Knoten Bedingte Wahrscheinlichkeiten können in einem Graphen modelliert werden. Zufallsvariablen werden werden dabei zu Knoten im Graphen Wahrscheinlichkeiten zu Kantenbeschriftungen Direkte gerichtete Kanten zwischen von einander abhängigen Zufallsvariablen Knoten zwischen denen es keine direkten Kanten gibt sind von einander unabhägig

Bayes Grundlagen Modellierung von komplexen Sachverhalten mit Hilfe von wenigen Parametern möglich Bayes Netze typischerweise relativ klein im Vergleich zu Entscheidungsbäumen oder herkömmlichen neuronalen Netzen Diese Modellierung ermöglicht: Darstellung von komplexen Sachverhalten mit Hilfe von relativ wenigen Parametern möglich Bayesnetze sind im Vergleich zu anderen neuronalen Netzen oder Entscheidungsbäumen relativ klein, da diese bereits durch Ihre variable Struktur eine Identifikation der voneinander abhängigen Variablen ermöglichen

Bayes Grundlagen Bayes Netze verhalten sich ähnlich der Entscheidungsfindung eines menschlichen Experten z.B. Ärzten bei einer Diagnose Bayes Netze können durch Experten manuell erstellt werden, oder auch vollständig oder teilweise automatisch trainiert werden (derzeitig intensives Forschungsgebiet) Bayesnetze verhalten sich ähnlich der Entscheidungsfindung von menschlichen Experten, die quasi an Hand von Beobachtungen und mit Hilfe von Erfahrungswerten eine Diagnose oder Einschätzung der Lage liefern müssen. Als Gutes Beispiel wäre z.B. die Diagnose eines Arztes zu nennen. Bayesnetze könne von Experten vollständig manuell erstellt werden, oder aber auch nur teilweise z.B. die Warscheinlichkeiten, oder aber auch ganz (Struktur und Warscheinlichkeiten) vollautomatisch trainiert werden. Eine Effektive Trainierung im Besonderen das Trainieren der Struktur eines Bayesnetzes sind ein derzeitig sehr intensives Forschungsgebiet und werden deshalb nicht genauer in diesem Vortrag erläutert

Phonemerkennung Formalisierung des Problems der Phonemerkennung: s‘ = argmaxs P(O|s,w)P(s|w) 2 Stufiger Prozess: Erzeugen der Aussprache s eines Wortes w mit seiner Wahrscheinlichkeit Auffinden der Phonemsequenz s‘, die P(O|s,w) optimiert O ist dabei eine Sequenz von akustischen Beobachtungen

Phonemerkennung Im weiteren wird sich auf den 1. Schritt konzentriert Automatische Transkription mit Hilfe von Bayes Netzen > Transkription somit dynamisch durch die Anwendung anpassbar Approximative Lösung durch Wahrscheinlichkeiten sinnvoll, um auch unbekannte Wörter einfach klassifizieren zu können.

Bayes Netze Wort w = α1α2..αm Grapheme Aussprache s = β1β2..βn Phoneme Es gilt: P(s|w) = P (β1β2..βn| α1α2..αm) ≈ ∏ P(βi| α1α2..αm) P(βi| βi-1…β1) P(βi| βi-1…β1) Wahrscheinlichkeit der Auswahl von βi unter Berücksichtung der vorherigen Phoneme P(βi| α1α2..αm) Wahrscheinlichkeit der Auswahl von βi unter Berücksichtigung einer bestimmten Anzahl von umgebenden Graphemen.

Bayes Netze Phonemkontext P(βi| βi-1…β1) kann in unserer weiteren Betrachtung vernachlässigt werden. bzw. wird in den experimentellen Ergebnissen später im Vortrag nur durch den verkürzten Kontext P(βi| βi-1) berücksichtigt. Eine weitere Erhöhung würde nicht mehr zu einer signifikanten Erhöhung der Erkennungsleistung führen Der erste Term kann in unseren weiteren Betrachtungen vernachlässigt werden, bzw. wird einfach auf ein Phonem beschränkt. Eine weitere Erhöhung würde keine Signifikante Erhöhung der Erkennungsleistung erreichen. Experimentelles Ergebniss

Bayes Netze Lösung des Problems P(βi| α1,α2,..,αm) mit Hilfe von Bayes Netzen. Wir verwenden dafür einen Kontext von 7 Graphemen αi-3,…,αi,..,αi+3 Beim Design der Bayes Netze gehen wir von der Annahme aus, daß Grapheme in relativer Nähe zum betrachteten Graphem αi größere Auswirkung auf dessen Aussprache haben. Zur Lösung des 2. Terms verwenden wird nun Bayesnetze. Es wird ein Kontext von 7 Graphemen verwendet. 3 Grapheme, vor dem betrachteten Graphem und 3 Buchstaben danach Beim Design der Struktur der Bayesnetze gehen wir davon aus, dass Grapheme in relativer Nähe zum zu bewertenden Graphem größere Auswirkung auf dessen Aussprache haben

Bayes Netze A B C D E P(a|p,a) = 0.01% …. P(z|p,a) = 0.02% Netz A-D von Hand Netz E vollautomatisch erzeugt Netze sehen alle relativ ähnlich aus. Gut zu erkennen: jedes Graphem hat Abhängigkeit zum Phonem, allerdings auch diverse Abhängigkeiten der Grapheme untereinander. Typischerweise werden hier auseinander folgende Buchstaben berücksichtigt. Netz e wurde wie gesagt vollautomatisch erzeugt, durch Start mit einem „Naiven Bayesnetz“ (Netz bei dem keine Abhängigkeiten zwischen den Graphemen bestehen) und weiterer Hinhzunahme von Kanten, bis sich ein akzeptables Ergebnis ergibt P(a|p,a) = 0.01% …. P(z|p,a) = 0.02% P(a|p,b) = 0.002% ….. … P(z|p,b) = 0.03 % P(a|b,a) = 0.001 % E

Experimentelle Ergebnisse Lernen der Wahrscheinlichkeiten mit Hilfe des CMU-Wörterbuches mit 58000 Wörtern Bei Kontext von 7 ergeben sich 404405 Segmente von denen 322209 trainiert wurden, mit dem Rest wurde getestet 3 fache Iteration des Trainings durch manuelle Korrektur der falsch erkannten Phoneme und Neuberechnung der Wahrscheinlichkeiten Die Wahrscheinlichkeiten an den Zufallsvariablen werden auf Basis des CMU-Wörterbuches (Aussprache Wörterbuch) mit 58000 Wörtern erstellt. Beim Kontext von 7 ergeben sich 404405 Teilwörter von denen 322209 durch Zufall ausgewählt in die Netze hineingworfen wurden und entsprechend der dabei auftretenden Wahrscheinlichkeiten die Wahrscheinlichkeitstabellen an den Knoten generiert wurden Mit den restlichen Wörtern wurde getestet. Also sind die Testdaten und die Trainingsdaten vollständig unterschiedlich Das Training wurde 3 mal wiederholt, in dem nach jeder Testphase die am schlechtesten Klassifizierten Testdaten gewählt wurden und diese manuell korrigiert den Trainingsdaten hinzugefügt wurden. Klassifizierung, in dem die Zufallsvariablen als Beobachtungen (ähnlich dem Beispiel oben) gesehen werden und dann die Wahrscheinlichkeiten neu berechnet werden. Nach diesem Training ergab sich folgende Leistung

Experimentelle Ergebnisse Netze 1.Versuch 2.Versuch 3.Versuch A Test 83.3 93.4 96.9 Train 85.6 94.9 97.8 C 84.7 97.6 89.0 97.1 99.0 Naiv 69.94 85.49 91.69 B 78.3 91.2 96.02 D 84.3 94.3 97.0 E 80.01 89.91 92.81 Netze C und D haben beste Erkennungsleistung. Das liegt Hauptsächlich an der engen Verkettung des direkten Kontextes um das betrachtete Graphem. Als Kontrollmessung tauchen in dieser Tabelle noch die Erkennungsergebnisse des Naiven Bayesnetzes auf, um zu belegen, dass die Hinzunahme von Kanten überhaupt zu einer Erhöhung der Erkennungsleistung führt. Ausserdem ist das exakte Lösen eines Naiven BayesNetze in linearer Zeit möglich

Experimentelle Ergebnisse Entscheidungsbaum 1.Versuch 2.Versuch 3.Versuch Pruned Test 82.58 87.58 88.58 Train 95.94 99.14 99.64 Nicht Pruned 80.5 83.9 84.4 97.80 99.9 100.0 Im Vergleich zu den vorherigen Testergebnissen ein Entscheidungsbaum, der auf eine ähnliche Komplexität wie das Bayesnetz beschränkt wurde. Diese Ergebnisse könnten noch verbessert werden, würden aber zu einer Erhöhung der Rechenzeit führen

Experimentelle Ergebnisse Training der Netze eventuell sehr aufwendig Effektives lösen von Bayes Netzen meistens nur approximativ möglich Trifft in konkretem Beispiel aber nicht zu, da verwendete Bayes Netze relativ klein, und Struktur in den meisten Fällen bekannt

Experimentelle Ergebnisse Bayes Netze haben eine höhere Erkennungsleistung für unbekannte Wörter als Entscheidungsbäume vergleichbarer Komplexität Bayes Netze benötigen durch ihre Struktur weniger Speicher als Entscheidungsbäume mit gleicher Erkennungsleistung Bayes Netze benötigen weniger Rechenzeit als Entscheidungsbäume (ein erhöhter Kontext würde in der Praxis wesentlich schneller zu einem nicht mehr berechenbaren Baum führen)