Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

Bayes Netze Seminar: Transkription in Sprachsynthese und -erkennung

Ähnliche Präsentationen


Präsentation zum Thema: "Bayes Netze Seminar: Transkription in Sprachsynthese und -erkennung"—  Präsentation transkript:

1 Bayes Netze Seminar: Transkription in Sprachsynthese und -erkennung
Vortragender: Thomas Jach

2 Überblick Bayes Grundlagen
Wahrscheinlichkeitstheoretischer Ansatz zur Erkennung von Sprache Ermitteln von Phonemwahrscheinlich-keiten durch Bayes Netze Experimentelle Ergebnisse und Vergleiche

3 Bayes Grundlagen Thomas Bayes 1702 – 1761 Englischer Mathematiker
Bayes Theorem

4 Bayes Grundlagen Durch Bayes Theorem kann direkte Beziehung zwischen den Wahrscheinlichkeiten, daß Hypothese eintrifft, wenn Vorbedingung erfüllt, und daß Vorbedingungen eintreffen, wenn Hypothese erfüllt, hergestellt werden Das Bayes Theorem setzt die Wahrscheinlichkeiten das eine Hypothese eintrifft, unter der Bedingung das eine Vorbedingung erfüllt ist, in eine direkte Beziehung zu der Wahrscheinlichkeit das eine Vorbedingung erfüllt ist, unter der Bedingung das eine Hypothese erfüllt ist. Das macht ein späteres verwenden eines trainierten Netzes erst wirklich möglich

5 Bayes Grundlagen Bayes Theorem
P(h) = a priori Wahrscheinlichkeit einer Hypothese P(D) = a priori Wahrscheinlichkeit einer Bedingung P(h|D) = Wahrscheinlichkeit von h gegeben D P(D|h) = Wahrscheinlichkeit von D gegeben h

6 Bayes Grundlagen Familie weg (fw) Magenprobleme (mp) P(mp) = 1%
P(fw) =15% Hund draussen (hd) Licht aus (la) P(hd|fw,mp) = 99% P(hd|fw,nicht mp) = 90% P(hd|nicht fw,mp) = 97 % P(hd|nichtfw,nicht mp) = 30% P(la|fw) = 60% P(la|nicht fw) = 5% Beispiel für ein Bayesnetz: Fragestellung: Komme nach Hause, keine Lust Schlüssel zu suchen… Ist jemand zu Hause ? Idikatoren: Ist das Licht aus? Höhre ich Hundegebell? Ist das Hundegebell von meinem Hund ? Wurde der Hund nach draussen geschickt, weil er Magenprobleme hatte ? Besonderheiten dieses Beispiels: Zufallsvariablen alle boolesch, auch andere Typen möglich, allerdings wird Tabelle mit Wahrscheinlichkeiten sehr schnell sehr groß Wahrscheinlichkeiten müssen unter Brücksichtung von allen möglichen Eingangskonfigurationen (eingehende Kanten) erstellt werden Gebell (gb) P(gb|hd) = 70% P(gb|nicht hd) = 1 %

7 Bayes Grundlagen Modellierung von voneinander abhängigen bedingten Wahrscheinlichkeiten und Unabhängigkeiten durch einen Graphen Bayes Netz Zufallsvariablen werden dabei zu Knoten Wahrscheinlichkeiten werden zu Knotenbeschriftungen Gerichtete Kanten zwischen von einander abhängigen Knoten Bedingte Wahrscheinlichkeiten können in einem Graphen modelliert werden. Zufallsvariablen werden werden dabei zu Knoten im Graphen Wahrscheinlichkeiten zu Kantenbeschriftungen Direkte gerichtete Kanten zwischen von einander abhängigen Zufallsvariablen Knoten zwischen denen es keine direkten Kanten gibt sind von einander unabhägig

8 Bayes Grundlagen Modellierung von komplexen Sachverhalten mit Hilfe von wenigen Parametern möglich Bayes Netze typischerweise relativ klein im Vergleich zu Entscheidungsbäumen oder herkömmlichen neuronalen Netzen Diese Modellierung ermöglicht: Darstellung von komplexen Sachverhalten mit Hilfe von relativ wenigen Parametern möglich Bayesnetze sind im Vergleich zu anderen neuronalen Netzen oder Entscheidungsbäumen relativ klein, da diese bereits durch Ihre variable Struktur eine Identifikation der voneinander abhängigen Variablen ermöglichen

9 Bayes Grundlagen Bayes Netze verhalten sich ähnlich der Entscheidungsfindung eines menschlichen Experten z.B. Ärzten bei einer Diagnose Bayes Netze können durch Experten manuell erstellt werden, oder auch vollständig oder teilweise automatisch trainiert werden (derzeitig intensives Forschungsgebiet) Bayesnetze verhalten sich ähnlich der Entscheidungsfindung von menschlichen Experten, die quasi an Hand von Beobachtungen und mit Hilfe von Erfahrungswerten eine Diagnose oder Einschätzung der Lage liefern müssen. Als Gutes Beispiel wäre z.B. die Diagnose eines Arztes zu nennen. Bayesnetze könne von Experten vollständig manuell erstellt werden, oder aber auch nur teilweise z.B. die Warscheinlichkeiten, oder aber auch ganz (Struktur und Warscheinlichkeiten) vollautomatisch trainiert werden. Eine Effektive Trainierung im Besonderen das Trainieren der Struktur eines Bayesnetzes sind ein derzeitig sehr intensives Forschungsgebiet und werden deshalb nicht genauer in diesem Vortrag erläutert

10 Phonemerkennung Formalisierung des Problems der Phonemerkennung: s‘ = argmaxs P(O|s,w)P(s|w) 2 Stufiger Prozess: Erzeugen der Aussprache s eines Wortes w mit seiner Wahrscheinlichkeit Auffinden der Phonemsequenz s‘, die P(O|s,w) optimiert O ist dabei eine Sequenz von akustischen Beobachtungen

11 Phonemerkennung Im weiteren wird sich auf den 1. Schritt konzentriert
Automatische Transkription mit Hilfe von Bayes Netzen > Transkription somit dynamisch durch die Anwendung anpassbar Approximative Lösung durch Wahrscheinlichkeiten sinnvoll, um auch unbekannte Wörter einfach klassifizieren zu können.

12 Bayes Netze Wort w = α1α2..αm Grapheme Aussprache s = β1β2..βn Phoneme
Es gilt: P(s|w) = P (β1β2..βn| α1α2..αm) ≈ ∏ P(βi| α1α2..αm) P(βi| βi-1…β1) P(βi| βi-1…β1) Wahrscheinlichkeit der Auswahl von βi unter Berücksichtung der vorherigen Phoneme P(βi| α1α2..αm) Wahrscheinlichkeit der Auswahl von βi unter Berücksichtigung einer bestimmten Anzahl von umgebenden Graphemen.

13 Bayes Netze Phonemkontext P(βi| βi-1…β1) kann in unserer weiteren Betrachtung vernachlässigt werden. bzw. wird in den experimentellen Ergebnissen später im Vortrag nur durch den verkürzten Kontext P(βi| βi-1) berücksichtigt. Eine weitere Erhöhung würde nicht mehr zu einer signifikanten Erhöhung der Erkennungsleistung führen Der erste Term kann in unseren weiteren Betrachtungen vernachlässigt werden, bzw. wird einfach auf ein Phonem beschränkt. Eine weitere Erhöhung würde keine Signifikante Erhöhung der Erkennungsleistung erreichen. Experimentelles Ergebniss

14 Bayes Netze Lösung des Problems P(βi| α1,α2,..,αm) mit Hilfe von Bayes Netzen. Wir verwenden dafür einen Kontext von 7 Graphemen αi-3,…,αi,..,αi+3 Beim Design der Bayes Netze gehen wir von der Annahme aus, daß Grapheme in relativer Nähe zum betrachteten Graphem αi größere Auswirkung auf dessen Aussprache haben. Zur Lösung des 2. Terms verwenden wird nun Bayesnetze. Es wird ein Kontext von 7 Graphemen verwendet. 3 Grapheme, vor dem betrachteten Graphem und 3 Buchstaben danach Beim Design der Struktur der Bayesnetze gehen wir davon aus, dass Grapheme in relativer Nähe zum zu bewertenden Graphem größere Auswirkung auf dessen Aussprache haben

15 Bayes Netze A B C D E P(a|p,a) = 0.01% …. P(z|p,a) = 0.02%
Netz A-D von Hand Netz E vollautomatisch erzeugt Netze sehen alle relativ ähnlich aus. Gut zu erkennen: jedes Graphem hat Abhängigkeit zum Phonem, allerdings auch diverse Abhängigkeiten der Grapheme untereinander. Typischerweise werden hier auseinander folgende Buchstaben berücksichtigt. Netz e wurde wie gesagt vollautomatisch erzeugt, durch Start mit einem „Naiven Bayesnetz“ (Netz bei dem keine Abhängigkeiten zwischen den Graphemen bestehen) und weiterer Hinhzunahme von Kanten, bis sich ein akzeptables Ergebnis ergibt P(a|p,a) = 0.01% …. P(z|p,a) = 0.02% P(a|p,b) = 0.002% ….. P(z|p,b) = 0.03 % P(a|b,a) = % E

16 Experimentelle Ergebnisse
Lernen der Wahrscheinlichkeiten mit Hilfe des CMU-Wörterbuches mit Wörtern Bei Kontext von 7 ergeben sich Segmente von denen trainiert wurden, mit dem Rest wurde getestet 3 fache Iteration des Trainings durch manuelle Korrektur der falsch erkannten Phoneme und Neuberechnung der Wahrscheinlichkeiten Die Wahrscheinlichkeiten an den Zufallsvariablen werden auf Basis des CMU-Wörterbuches (Aussprache Wörterbuch) mit Wörtern erstellt. Beim Kontext von 7 ergeben sich Teilwörter von denen durch Zufall ausgewählt in die Netze hineingworfen wurden und entsprechend der dabei auftretenden Wahrscheinlichkeiten die Wahrscheinlichkeitstabellen an den Knoten generiert wurden Mit den restlichen Wörtern wurde getestet. Also sind die Testdaten und die Trainingsdaten vollständig unterschiedlich Das Training wurde 3 mal wiederholt, in dem nach jeder Testphase die am schlechtesten Klassifizierten Testdaten gewählt wurden und diese manuell korrigiert den Trainingsdaten hinzugefügt wurden. Klassifizierung, in dem die Zufallsvariablen als Beobachtungen (ähnlich dem Beispiel oben) gesehen werden und dann die Wahrscheinlichkeiten neu berechnet werden. Nach diesem Training ergab sich folgende Leistung

17 Experimentelle Ergebnisse
Netze 1.Versuch 2.Versuch 3.Versuch A Test 83.3 93.4 96.9 Train 85.6 94.9 97.8 C 84.7 97.6 89.0 97.1 99.0 Naiv 69.94 85.49 91.69 B 78.3 91.2 96.02 D 84.3 94.3 97.0 E 80.01 89.91 92.81 Netze C und D haben beste Erkennungsleistung. Das liegt Hauptsächlich an der engen Verkettung des direkten Kontextes um das betrachtete Graphem. Als Kontrollmessung tauchen in dieser Tabelle noch die Erkennungsergebnisse des Naiven Bayesnetzes auf, um zu belegen, dass die Hinzunahme von Kanten überhaupt zu einer Erhöhung der Erkennungsleistung führt. Ausserdem ist das exakte Lösen eines Naiven BayesNetze in linearer Zeit möglich

18 Experimentelle Ergebnisse
Entscheidungsbaum 1.Versuch 2.Versuch 3.Versuch Pruned Test 82.58 87.58 88.58 Train 95.94 99.14 99.64 Nicht Pruned 80.5 83.9 84.4 97.80 99.9 100.0 Im Vergleich zu den vorherigen Testergebnissen ein Entscheidungsbaum, der auf eine ähnliche Komplexität wie das Bayesnetz beschränkt wurde. Diese Ergebnisse könnten noch verbessert werden, würden aber zu einer Erhöhung der Rechenzeit führen

19 Experimentelle Ergebnisse
Training der Netze eventuell sehr aufwendig Effektives lösen von Bayes Netzen meistens nur approximativ möglich Trifft in konkretem Beispiel aber nicht zu, da verwendete Bayes Netze relativ klein, und Struktur in den meisten Fällen bekannt

20 Experimentelle Ergebnisse
Bayes Netze haben eine höhere Erkennungsleistung für unbekannte Wörter als Entscheidungsbäume vergleichbarer Komplexität Bayes Netze benötigen durch ihre Struktur weniger Speicher als Entscheidungsbäume mit gleicher Erkennungsleistung Bayes Netze benötigen weniger Rechenzeit als Entscheidungsbäume (ein erhöhter Kontext würde in der Praxis wesentlich schneller zu einem nicht mehr berechenbaren Baum führen)


Herunterladen ppt "Bayes Netze Seminar: Transkription in Sprachsynthese und -erkennung"

Ähnliche Präsentationen


Google-Anzeigen