Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

1 Hidden Markov Models (HMM) Karin Haenelt 16.5.2009.

Ähnliche Präsentationen


Präsentation zum Thema: "1 Hidden Markov Models (HMM) Karin Haenelt 16.5.2009."—  Präsentation transkript:

1 1 Hidden Markov Models (HMM) Karin Haenelt

2 Inhalt Einführung Theoretische Basis Elementares Zufallsereignis Stochastischer Prozess (Folge von elementaren Zufallsereignissen) Markow-Kette (Stochastischer Prozess mit begrenzter Abhängigkeit) Hidden Markov Models Definition Aufgabenlösungen mit Hidden Markov Models State Emission Models / Arc Emission Models © Karin Haenelt, Hidden Markov Models,

3 Was sind Hidden Markov Models? Ein Hidden Markov Model (HMM) ist ein stochastisches Modell auch beschreibbar als Variante eines endlichen Automaten Theoretische Basis: Markow-Ketten Vorteile direkt aus annotierten Daten (z.B. Text-Corpora mit Metadaten) ableitbar Eigenschaften der Daten und Verarbeitungsverfahren nach stochastischen Gesetzmäßigkeiten trainierbar und optimierbar Nachteil nicht-deterministisch © Karin Haenelt, Hidden Markov Models,

4 Was ist ein Hidden Markov Model ? Eine Variante eines endlichen Automaten mit einer Menge von Zuständen Q einem Ausgabealphabet O Übergangswahrscheinlichkeiten A Ausgabewahrscheinlichkeiten B Startwahrscheinlichkeiten Π © Karin Haenelt, Hidden Markov Models, nomnauxvpart wirwerdengeschickt x.2 x.4 x.3 x.2 x.4 = Paul E. Black, "hidden Markov model", in Dictionary of Algorithms and Data Structures Dictionary of Algorithms and Data Structures

5 Was ist ein Hidden Markov Model ? Der aktuelle Zustand kann nicht beobachtet werden Nur die Ausgaben eines Zustandes können beobachtet werden © Karin Haenelt, Hidden Markov Models, nomnauxvpart wirwerdengeschickt x.2 x.4 x.3 x.2 x.4 = Paul E. Black, "hidden Markov model", in Dictionary of Algorithms and Data Structures Dictionary of Algorithms and Data Structures

6 Hidden Markov Model: Beispiel in einem Text lassen sich nur die Ausgaben (= produzierte Wörter) beobachten (visible) die Sequenz von Zuständen (= Wortarten), die die Wörter ausgeben, (Satzmuster) lässt sich nicht beobachten (hidden) mehrere Sequenzen können dieselbe Ausgabe erzeugen: © Karin Haenelt, Hidden Markov Models, nomnauxvpart wirwerdengeschickt nomnkopvadje wirwerdengeschickt x.2 x.4 x.3 x.2 x.4 = x.2 x.3 x.5 x.2 x.2 =

7 Anwendungsgebiete von Hidden Markov Models Mit Hilfe von Hidden Markov Models lassen sich zu beobachteten Daten Metadatenmuster auffinden Data Mining: Erkennung von Mustern in Datenbeständen Spracherkennung Part-of-Speech-Tagging Bildverarbeitung Bioinformatik Gestenerkennung Psychologie … © Karin Haenelt, Hidden Markov Models,

8 Hidden Markov Model Hidden Markov Models (HMM) sind stochastische Modelle, die auf Markow-Ketten beruhen © Karin Haenelt, Hidden Markov Models,

9 Inhalt Einführung Theoretische Basis Elementares Zufallsereignis Stochastischer Prozess (Folge von elementaren Zufallsereignissen) Markow-Kette (Stochastischer Prozess mit begrenzter Abhängigkeit) Hidden Markov Models Definition Aufgabenlösungen mit Hidden Markov Models State Emission Models / Arc Emission Models © Karin Haenelt, Hidden Markov Models,

10 Wahrscheinlichkeitsraum Modell zur Beschreibung von Zufallsexperimenten ein Wahrscheinlichkeitsraum ist ein Tripel eine beliebige Menge Feine σ-Algebra Pein Wahrscheinlichkeitsmaß © Karin Haenelt, Hidden Markov Models,

11 σ-Algebra eine Mengenalgebra, die unter abzählbar unendlichen Vereinigungen abgeschlossen ist Mengensystem über Ω mit folgenden Eigenschaften © Karin Haenelt, Hidden Markov Models, Brants,Crocker,Lieblang, 2000

12 Wahrscheinlichkeitsmaß eine Abbildung mit den Eigenschaften © Karin Haenelt, Hidden Markov Models,

13 Komponenten des Wahrscheinlichkeitsraumes BezeichnungErläuterung (Ω,F,P)Wahrscheinlichkeit sraum ΩErgebnismenge, Grundgesamtheit Menge aller Elementarereignisse σ-Algebra über ΩEreignisraumMenge aller möglichen Ereignisse; -Nicht notwendigerweise jede Teilmenge von Ω, mindestens - Ω als sicheres Ereignis - als unmögliches Ereignis ω σ-Algebra über Ω Ereignis © Karin Haenelt, Hidden Markov Models,

14 Komponenten des Wahrscheinlichkeitsraumes: Beispiel 1 BezeichnungBeispiel (Ω,F,P)Wahrscheinlichkeits raum ΩErgebnismenge{a,b,c} σ-Algebra über ΩEreignisraum{ {a,b,c}, {a,b},{a,c}, {a}, {b,c}, {b}, {c}, {} } ω σ-Algebra über Ω Ereignis{a,b,c} © Karin Haenelt, Hidden Markov Models,

15 Komponenten des Wahrscheinlichkeitsraumes: Beispiel 2 (Verkehrsampel) BezeichnungBeispiel (Ω,F,P)Wahrscheinlichkeits raum ΩErgebnismenge{rot,gelb,grün} σ-Algebra über ΩEreignisraum{ {rot}, {rot,gelb},{gelb}, {grün}, {} } ω σ-Algebra über Ω Ereignis{} © Karin Haenelt, Hidden Markov Models,

16 Stochastischer Prozess Definition 1 Sei Ω eine Menge elementarer Zufallsereignisse (Ergebnismenge eines Wahrscheinlichkeitsraumes). Ein stochastischer Prozess oder Zufallsprozess ist eine Folge von elementaren Zufallsereignissen X 1,X 2,…X i Ω Definition 2 Die möglichen Zufallswerte in einem stochastischen Prozess heißen Zustände des Prozesses. Man sagt, dass sich der Prozess zum Zeitpunkt t in Zustand X t befindet © Karin Haenelt, Hidden Markov Models, Brants, 1999: 30

17 Stochastischer Prozess Für die vollständige Beschreibung eines Zufallsprozesses mit diskretem Zeitparameter benötigt man 1.die Anfangswahrscheinlichkeit: die für jeden Zustand angibt, mit welcher Wahrscheinlichkeit er als Zustand X 1 beobachtet werden kann (d.h. den Startzustand bildet) π i = P(X 1 =s i ) 2.die Übergangswahrscheinlichkeit: die für jeden Zustand angibt, mit welcher Wahrscheinlichkeit er in einer Zustandsfolge auftritt: P(X t+1 = x t+1 | X 1 = x 1, X 2 = x 2, …,X t = x t ) © Karin Haenelt, Hidden Markov Models, Brants, 1999: 30

18 Stochastischer Prozess: Beispiel Ein Textgenerator hat ein Lexikon mit drei Wörtern von denen an jeder Position jedes auftreten kann : Ω = {geschickt, werden, wir} wir beobachten an jeder Position, welches Wort generiert wurde Sei X 1 das Wort zum ersten Beobachtungszeitpunkt X 2 das Wort zum zweiten Beobachtungszeitpunkt, usw. Dann ist die Folge der Wörter ein stochastischer Prozess mit diskreter Zufallsvariable und diskretem Zeitparameter Für diese Folge kann man eine Wahrscheinlichkeit angeben © Karin Haenelt, Hidden Markov Models,

19 Markow-Kette Eine Markow-Kette ist ein stochastischer Prozess, bei dem der nächste Zustand X t+1 bei bekanntem gegenwärtigem Zustand X t unabhängig von den vergangenen Zuständen X t-1, X t-2,…,X 0 ist. Es gilt P(X t+1 = j | X t = i t, X t-1 = i t-1, …,X 1 = i 1, X 0 =i 0 ) = P(X t+1 = j | X t = i t ) daher der Name Kette: Kettenglieder hängen nur am vorigen Kettenglied, nicht an allen vorherigen Kettengliedern © Karin Haenelt, Hidden Markov Models, Brants,Crocker,Lieblang, 2000:22

20 Endliche Markow-Kette Für eine endliche Markow-Kette gibt es endlich viele Zustände, und die Kette muss sich zu jedem Zeitpunkt in einem dieser endlich vielen Zustände befinden Prozess ohne Gedächtnis mit endlich vielen Zuständen entspricht den Eigenschaften eines endlichen Automaten © Karin Haenelt, Hidden Markov Models, Brants, 1999: 31

21 Markow-Kette und Eigenschaften menschlicher Sprachen: ein Beispiel nach einem q folgt oft ein u, Vorhersage über 2. Buchstaben hinter q? abhängig von q? nach einem s folgt ein c, dann folgt ein h Vorhersage über 3. Buchstaben hinter s? abhängig von s? © Karin Haenelt, Hidden Markov Models, Kunze, 2001 Markow-Modell 1. Ordnung Markow-Modell 2. Ordnung …

22 Markow-Kette: Matrix-Darstellung kann beschrieben werden durch die Angaben Stochastische Übergangsmatrix A Anfangswahrscheinlichkeiten Π © Karin Haenelt, Hidden Markov Models, Manning/Schütze, 2000: 318

23 Markow Model: Definition © Karin Haenelt, Hidden Markov Models,

24 Markow-Kette: Graph-Darstellung kann beschrieben werden durch Zustandsübergangsgraphen © Karin Haenelt, Hidden Markov Models, wir werden geschickt

25 Markow-Kette: Berechnung einer Sequenz- Wahrscheinlichkeit Wahrscheinlichkeit der Sequenz der Zustände X 1 … X T für eine Markow-Kette gilt: © Karin Haenelt, Hidden Markov Models, Manning/Schütze, 2000: 320

26 Markow-Kette: Berechnungsbeispiel Wahrscheinlichkeit der Sequenz der Zustände X 1 … X T © Karin Haenelt, Hidden Markov Models,

27 Inhalt Einführung Theoretische Basis Elementares Zufallsereignis Stochastischer Prozess (Folge von elementaren Zufallsereignissen) Markow-Kette (Stochastischer Prozess mit begrenzter Abhängigkeit) Hidden Markov Models Definition Aufgabenlösungen mit Hidden Markov Models State Emission Models / Arc Emission Models © Karin Haenelt, Hidden Markov Models,

28 Hidden Markov Modell (HMM): Beschreibung Ein Hidden Markov Model ist ein Markow-Modell bei dem nur die Sequenz der Ausgaben beobachtbar ist, die Sequenz der Zustände verborgen bleibt Es kann mehrere Zustandssequenzen geben, die dieselbe Ausgabe erzeugen © Karin Haenelt, Hidden Markov Models,

29 Hidden Markov Model: Beispiel in einem Text lassen sich nur die Ausgaben (= produzierte Wörter) beobachten (visible) die Sequenz von Zuständen (= Wortarten), die die Wörter ausgeben, (Satzmuster) lässt sich nicht beobachten (hidden) mehrere Sequenzen können dieselbe Ausgabe erzeugen: © Karin Haenelt, Hidden Markov Models, nomnauxvpart wirwerdengeschickt nomnkopvadje wirwerdengeschickt x.2 x.4 x.3 x.2 x.4 = x.2 x.3 x.5 x.2 x.2 =

30 Hidden Markov Model: Definition © Karin Haenelt, Hidden Markov Models, Rabiner, 1989, S. 260/261 Manning/Schütze, 2000:

31 Ein Hidden Markov Model © Karin Haenelt, Hidden Markov Models, ÜbergangsmatrixEmissionsmatrixStartwahr scheinlich keit XtXt X t+1 otot π AdjeAuxVKopVNomnPartgeschicktwerdenwir... Adje AuxV KopV Nomn Part

32 Hidden Markov Model: Gewinnung der Daten – Übersicht Annotation eines Corpus Auszählung der Sequenzen Umrechnung der Häufigkeiten in prozentuale Anteile © Karin Haenelt, Hidden Markov Models,

33 Hidden Markov Model: Gewinnung der Daten (1) Annotation eines Corpus Auszählung der Sequenzen Umrechnung der Häufigkeiten in prozentuale Anteile © Karin Haenelt, Hidden Markov Models,

34 Hidden Markov Model: Gewinnung der Daten (2) Annotation eines Corpus Auszählung der Sequenzen Umrechnung der Häufigkeiten in prozentuale Anteile © Karin Haenelt, Hidden Markov Models,

35 Hidden Markov Model: Gewinnung der Daten (3) Annotation eines Corpus Auszählung der Sequenzen Umrechnung der Häufigkeiten in prozentuale Anteile © Karin Haenelt, Hidden Markov Models,

36 Drei grundlegende Aufgaben, die mit HMMs bearbeitet werden 1.Dekodierung: Wahrscheinlichkeit einer Beobachtung finden brute force Forward-Algorithmus / Backward-Algorithmus 2.Beste Pfad-Sequenz finden brute force Viterbi-Algorithmus 3.Training: Aufbau des besten Modells aus Trainingsdaten © Karin Haenelt, Hidden Markov Models, Manning/Schütze, 2000: 325

37 Algorithmen für Hidden Markov Models Note: Computing a model given sets of sequences of observed outputs is very difficult, since the states are not directly observable and transitions are probabilistic. One method is the Baum Welch algorithm. Baum Welch algorithm Although the states cannot, by definition, be directly observed, the most likely sequence of sets for a given sequence of observed outputs can be computed in O(nt), where n is the number of states and t is the length of the sequence. One method is the Viterbi algorithm.Viterbi algorithm © Karin Haenelt, Hidden Markov Models, Paul E. Black, "hidden Markov model", in Dictionary of Algorithms and Data Structures Dictionary of Algorithms and Data Structures

38 A1: Wahrscheinlichkeit einer Beobachtung finden gegeben: eine Sequenz von Beobachtungen O=(wir,werden,geschickt) ein Modell gesucht: die Wahrscheinlichkeit © Karin Haenelt, Hidden Markov Models, Adje AuxVKopVNomnPartgschicktwerdenwir AuxV KopV Nomn Part Adje

39 A1: Wahrscheinlichkeit einer Beobachtung finden Lösungsweg 1: brute force Für alle möglichen Zustandsfolgen Berechnung der Wahrscheinlichkeit der Beobachtungen Summierung der Wahrscheinlichkeiten © Karin Haenelt, Hidden Markov Models, state transition symbol emission vgl. Rabiner, 1989, S. 260/261 vgl. Manning/Schütze, 2000: 326

40 A1: Wahrscheinlichkeit einer Beobachtung finden Lösungsweg 1: brute force: Beispiel P(wir,werden,geschickt | Adje Adje Adje, μ) + P(wir,werden,geschickt | Adje Adje AuxV, μ) + … + P(wir,werden,geschickt | Nomn AuxV Part, μ) + … + P(wir,werden,geschickt | Nomn KopV Adje, μ) + … + P(wir,werden,geschickt | Part Part Part, μ) = … © Karin Haenelt, Hidden Markov Models, x.2 x.3 x.5 x.2 x.2 = x.2 x.4 x.3 x.2 x.4 = =0.0 =

41 A1: Wahrscheinlichkeit einer Beobachtung finden Lösungsweg 1: brute force: Effizienz Lösungsweg ist hoffnungslos ineffizient Benötigt im allgemeinen Fall, d.h. -Start in jedem Zustand möglich, -Jeder Zustand kann auf jeden folgen (2T -1) x N T Multiplikationen © Karin Haenelt, Hidden Markov Models, vgl. Manning/Schütze, 2000: 326 vgl. Rabiner, 1989, S. 260/261 T Anzahl der Beobachtungen O N Anzahl der Zustände

42 A1: Wahrscheinlichkeit einer Beobachtung finden Lösungsweg 2: Vorwärts- und Rückwärts-Verfahren Forward procedure Backward procedure Merken partieller Ergebnisse statt Wiederholter Berechnung © Karin Haenelt, Hidden Markov Models, Manning/Schütze, 2000: 326ff

43 A2: Beste Pfadsequenz finden gegeben: eine Sequenz von Beobachtungen O=(wir,werden,geschickt) ein Modell gesucht: die wahrscheinlichste Pfadsequenz © Karin Haenelt, Hidden Markov Models, Adje AuxVKopVNomnPartgschicktwerdenwir AuxV KopV Nomn Part Adje

44 A2: Beste Pfadsequenz finden Lösungsweg 1: brute force: Wie in [A1]: alle Varianten berechnen die wahrscheinlichste auswählen hoffnungslos ineffizient Lösungsweg 2: beste Einzelzustände Für jeden Zeitpunkt t Zustand mit höchster Ausgabewahrscheinlichkeit auswählen Zusammensetzung kann unwahrscheinliche Sequenzen ergeben © Karin Haenelt, Hidden Markov Models,

45 A2: Beste Pfadsequenz finden Lösungsweg 3: Viterbi-Algorithmus Speichert für jeden Zeitpunkt t die Wahrscheinlichkeit des wahrscheinlichsten Pfades, der zu einem Knoten führt © Karin Haenelt, Hidden Markov Models, wir|Adje wir|Nomn wir|AuxV wir|KopV wir|Part werden|Adje werden|Nomn werden|AuxV werden|KopV werden|Part geschickt|Adje geschickt|Nomn geschickt|AuxV geschickt|KopV geschickt|Part

46 A3: Training der Modellparameter gegeben: eine Sequenz von Beobachtungen In einem Trainingscorpus gesucht: ein Modell, das für die beobachteten Sequenzen im Trainingscorpus die maximalen Wahrscheinlichkeiten erzeugt © Karin Haenelt, Hidden Markov Models, Manning/Schütze, 2000: 333ff

47 A3: Training der Modellparameter Lösung: Baum-Welch oder Forward-backward-Algorithmus © Karin Haenelt, Hidden Markov Models, Manning/Schütze, 2000: 333ff

48 Formen von Hidden Markov Models: Emissionen auf den vorangehenden Folien wurde ein State Emission Model verwendet den allgemeinen Fall stellt ein Arc Emission Model dar ein State Emission Model kann in ein Arc Emission Model überführt werden, umgekehrt ist dies nicht immer möglich auf den folgenden Folien wird ein Arc Emission Model beschrieben © Karin Haenelt, Hidden Markov Models,

49 Formen von Hidden Markov Models: Emissionen © Karin Haenelt, Hidden Markov Models, Allgemeine Form: Arc Emission Model Zur Zeit t emittiertes Symbol hängt ab von Zustand zur Zeit t und Zustand zur Zeit t+1 tt+1 o o t o Spezielle Form: State Emission Model –Zur Zeit t emittiertes Symbol hängt ab von Zustand zur Zeit t

50 Arc Emission Model Formen von HMM: Emissionen: Beispiel © Karin Haenelt, Hidden Markov Models, auxvpart werden.2.3 verb haben.4 werden.95 haben.05 sein.3.2 State Emission Model auxvpart werden.2.65 haben.25 sein.10

51 Arc Emission Model: Beispiel in einem Text lassen sich nur die Ausgaben (= produzierte Wörter) beobachten (visible) die Sequenz von Zuständen (= Wortarten), die die Wörter ausgeben, (Satzmuster) lässt sich nicht beobachten (hidden) mehrere Sequenzen können dieselbe Ausgabe erzeugen: © Karin Haenelt, Hidden Markov Models, nomnauxvpart wirwerdengeschickt x.3 x.2 x.2 x.3 x.1 x.4 = nomnkopvadje wirwerdengeschickt x.3 x.2 x.2 x.5 x.1 x.2 = punkt.1

52 Arc Emission Model: Darstellung als Wahrscheinlichkeitsmatrix © Karin Haenelt, Hidden Markov Models,

53 Arc Emission Model: Spezialfall: State Emission Model © Karin Haenelt, Hidden Markov Models, Wenn die Emissionsverteilungen für alle Übergänge aus einem Zustand identisch sind, entspricht dies einem State Emission Modell

54 Arc Emission Model: Definition © Karin Haenelt, Hidden Markov Models, Manning/Schütze, 2000:

55 Formen von Hidden Markov Models: Verbindungen zwischen Zuständen ergodic model: jeder Zustand kann von jedem in einer endlichen Anzahl von Schritten erreicht werden: andere Arten z.B. in der Verarbeitung gesprochener Sprache verwendet © Karin Haenelt, Hidden Markov Models, Rabiner, 1989, S. 266

56 Vielen Dank Für das Aufspüren von Fehlern in früheren Versionen und Hinweise zur Verbesserung danke ich Wiebke Petersen © Karin Haenelt, Hidden Markov Models,

57 Literatur Allen, James (1995): Natural Language Understanding. 2nd edition. Addison-Wesley Publishing Co. Paul E. Black, "hidden Markov model", in Dictionary of Algorithms and Data Structures [online], Paul E. Black, ed., U.S. National Institute of Standards and Technology. 14 August (accessed ) Available from: of Algorithms and Data StructuresU.S. National Institute of Standards and Technology Brants, Thorsten (1999). Statistische Methoden in der Sprachverarbeitung. Seminarskript 15. Juni 1999 Brants, Thorsten; Matthew Crocker und Enrico Lieblang (2000). Statistische Methoden in der Sprachverarbeitung. Seminarskript. saarland.de/~thorsten/stat00/skript.ps.gzhttp://www.coli.uni- saarland.de/~thorsten/stat00/skript.ps.gz Haenelt, Karin: Der Viterbi-Algorithmus. Eine Erläuterung der formalen Spezifikation am Beispiel des Part-of-Speech Tagging. Kursskript Kunze, Jürgen (2001). Computerlinguistik I: Erkennung und Synthese gesprochener Sprache. Vorlesungsskript. Humboldt-Universität zu Berlin. © Karin Haenelt, Hidden Markov Models,

58 Literatur Manning, Christopher D.; Schütze, Hinrich (1999): Foundations of Statistical Natural Language Processing. Cambridge, Mass., London: The MIT Press. (vgl.: Rabiner, Lawrence R. (1989). A Tutorial on Hidden Markov Models and Selected Applications in Speech Recognition. In: Proceedings of the IEEE, Vol. 77, No. 2, February. 20applications.pdf 20applications.pdf © Karin Haenelt, Hidden Markov Models,


Herunterladen ppt "1 Hidden Markov Models (HMM) Karin Haenelt 16.5.2009."

Ähnliche Präsentationen


Google-Anzeigen