Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

KI 15-Zeit1 Zeitliches probabilistisches Schließen.

Ähnliche Präsentationen


Präsentation zum Thema: "KI 15-Zeit1 Zeitliches probabilistisches Schließen."—  Präsentation transkript:

1 KI 15-Zeit1 Zeitliches probabilistisches Schließen

2 KI 15-Zeit2 Überblick Zeit und Unsicherheit, Markov-Prozesse Inferenz: - Filtern, Vorhersage, Glättung - Wahrscheinlichste Erklärung (Viterbi-Algorithmus) Hidden-Markov-Modelle Kalman-Filter Dynamische Bayes-Netze (kurz)

3 KI 15-Zeit3 Zeit und Unsicherheit Ziel: Zeitabläufe verfolgen und vorhersagen Beispiele: Motormanagement; Einstellung von Medikamenten Idee: Kopiere Zustand und Evidenzvariable für jeden Zeitschritt X t =Menge unbeobachtbarer Zustandsvariabler zur Zeit t z.B. Blutzucker t, Mageninhalt t, etc. E t =Menge beobachtbarer Evidenzvariabler zur Zeit t z.B. GemessenerBlutzucker t, Puls t, VerzehrteNahrung t Hierbei wird diskrete Zeit angenommen; Schrittweite problemabhängig. Notation: X a:b = X a, X a+1, …, X b-1, X b

4 KI 15-Zeit4 Markov-Prozesse Konstruiere Bayes-Netz aus diskret zeitabhängigen Variablen: Was sind die Elternknoten? Markov-Annahme: X t hängt nur von beschränkter Teilmenge der Variablen X 0:t-1 ab (Markov-Prozess oder Markov-Kette) Markov-Prozess 1. Ordnung: P(X t | X 0:t-1 ) = P(X t | X t-1 ) Markov-Prozess 2. Ordnung: P(X t | X 0:t-1 ) = P(X t | X t-2,X t-1 ) 1. Ordnung 2. Ordnung

5 KI 15-Zeit5 Markov-Prozesse Markov-Annahme für Sensoren: Sensorwert hängt nur vom aktuellen Wert der beobachteten Größe ab. P(E t | X 0:t, E 0:t-1 ) = P(E t | X t ) Beispiel: Tachowert E t hängt nur von aktueller Geschwindigkeit X t ab, aber nicht von vergangener X t-1. Gegenbeispiel: Wasserstandsanzeiger bei Hydrokultur Variable: Wasserstand X t Evidenz (Beobachtungsgröße): Angezeigte Höhe E t Kein Markov-Sensor, denn falls X 10 Tage über Maximum ist, bilden sich Algen und Anzeiger klebt fest.

6 KI 15-Zeit6 Markov-Prozesse Stationärer Prozess: Welt verändert sich, aber Gesetze dieser Änderung und ihrer Beobachtung sind konstant: Übergangsmodell P(X t | X t-1 ) und Sensormodell (Beobachtungsmodell) P(E t | X t ) sind beide fest für alle t.

7 KI 15-Zeit7 Markov-Prozesse Beispiel für konstantes Übergangsmodell: X ist Wasserstand. Gieße jede Woche ca. 1l rein, Menge ist Gauss-verteilt mit Standardabweichung 0.2 l. Gegenbeispiel: Nachdem eine Pflanze vertrocknet ist, wird Mittelwert auf 1.2 l erhöht. Beispiel für konstantes Sensormodell: Waage, X ist Gewicht, E mit Gauss-verteiltem Fehler behaftete Anzeige. Gegenbeispiel: Feder der Waage leiert allmählich aus.

8 KI 15-Zeit8 Realwelt: Annahme eines Markov-Prozesses 1. Ordnung stimmt meist nicht exakt ! Mögliche Verbesserungen: 1. Markov-Prozesse höherer Ordnung 2. Erweitere Zustand um andere Evidenzen (Meßgrößen) Beispiel: Bewegung eines Roboters Erweitere Zustandsbeschreibung (Position, Geschwindigkeit) um Batterie t Markov-Prozesse

9 KI 15-Zeit9 Inferenz Ausgangspunkt: Stationärer Markov-Prozess 1. Ordnung mit geg. Übergangsmodell P(X t | X t-1 ) Markov-Sensor mit geg. Sensormodell P(E t | X t ) Inferenz: Verschiedene Problemtypen, die unterschiedliche Mischungen aus zwei Grundproblemen sind: Ableitung der Zufallsvariablen X aus den Evidenzen Vorhersage

10 KI 15-Zeit10 Inferenz Arten der Inferenz unterscheiden sich darin, für welche Zeitpunkte die Wahrscheinlichkeitsverteilung für X aus welchen Evidenzen e berechnet wird: 1.Filtern: P(X T | e 1:T ) Berechne aktuellen Zustand X T aus aktueller Evidenz e T und vergangenen Evidenzen e 1:T-1 (aber x 1 … x T-1 sind unbekannt). 2. Vorhersage: P(X T+K | e 1:T ), k>0 Sage zukünftigen Zustand X T+K aus Evidenzen e 1:T (ohne Kenntnis von X 1 … X T+K ) voraus. Wie Filtern, aber die jüngsten Evidenzen e T+1:T+K sind unbekannt. 3.Glättung: P(X K | e 1:T ), Berechne vergangenen Zustand X K aus früheren Evidenzen e 1:K-1 und späteren Evidenzen e K+1:T. 4. Wahrscheinlichste Erklärung: arg max X 1:T P(X 1:T | e 1:T ) Berechne alle X 1:T aus allen Evidenzen e 1:T. Bsp.: Worterkennung.

11 Inferenz: Filtern Gegeben:Übergangsmodell P(X t | X t-1 ) und Sensormodell P(E t | X t ) Gesucht:X T aus e 1:T Idee:Suche Rekursionsbeziehung der Zustandsschätzungen, so dass, beginnend mit Annahme für X 0, aus t auch t+1 berechnet werden kann. Für t = 0, 1, … T-1: P(X t+1 | e 1:t+1 )= P(X t+1 | e 1:t,e t+1 ) = α P(e t+1 | X t+1,e 1:t ) P(X t+1 | e 1:t ) (Bayes) = α P(e t+1 | X t+1 ) P(X t+1 | e 1:t ) (Markov-Sensor) = α P(e t+1 | X t+1 ) Σ x t P(X t+1 | x t,e 1:t ) P(x t | e 1:t ) (X t aussummieren) = α P(e t+1 | X t+1 ) Σ x t P(X t+1 | x t ) P(x t | e 1:t )(Markov-Prozess) = α Sensormodell t+1 Σ x t Übergangsmodell t+1,t Zustandsverteilung t Struktur der Rekursionsbeziehung: f 1:t+1 =Forward(f 1:t, e t+1 ) mit f 1:t = P(X t | e 1:t ) Zeit- und Speicherbedarf konstant für jeden Schritt von t-1 t (d.h. unabhängig von t ).

12 KI 15-Zeit12 Filtern: Beispiel Leben im Bunker: Keine direkte Beobachtung der Außenwelt Regen X wird nur daraus erschlossen, ob Chef Regenschirm E dabei hat (Chef darf raus) Zeitschritte: Tage

13 KI 15-Zeit13 Übergangsmodell: P(X t | X t-1 ) = P(Regen t | Regen t-1 )mitP(X t | X t-1 = wahr) = P(X t | X t-1 = falsch) = Sensormodell: P(E t | X t ) = P(Schirm t | Regen t )mitP(E t | X t = wahr) = P(E t | X t = falsch) = Frage: Was ist Regenwahrscheinlichkeit P(X 2 ) am zweiten Tag (T=2), wenn Tag 1: Regenschirm, d.h. e 1 = w. Tag 2: Regenschirm, d.h. e 2 = w. Annahme über Regenwahrscheinlichkeit am Tag 0: P(X 0 ) = Filtern: Beispiel

14 KI 15-Zeit14 P(X t+1 |e 1:t+1 )= α P(e t+1 | X t+1 ) Σ x t P(X t+1 | x t ) P(x t | e 1:t ) P(X 2 | e 1:2 )= α P(e 2 | X 2 ) Σ x 1 P(X 2 | x 1 ) P(x 1 | e 1 ) P(X 1 | e 1 )= α P(e 1 | X 1 ) Σ x 0 P(X 1 | x 0 ) P(x 0 ) = α P(e 1 | X 1 ) [ P(X 1 | x 0 =w) P(x 0 =w) + P(X 1 | x 0 =f) P(x 0 =f) ] = α P(e 1 | X 1 ) [ ] = α P(e 1 | X 1 ) = α = α = P(X 2 | e 1:2 )= α P(e 2 | X 2 ) Σ x 1 P(X 2 | x 1 ) P(x 1 | e 1 ) = α P(e 2 | X 2 ) [ P(X 2 | x 1 =w) P(X 2 | x 1 =f) ] = α [ ] = α = α = Filtern: Beispiel

15 KI 15-Zeit15 Filtern: Beispiel

16 KI 15-Zeit16 Vorhersage Gegeben: Übergangsmodell P(X t | X t-1 ) und Sensormodell P(E t | X t ) Gesucht: X T+K aus e 1:T Idee: Filterung bis T Dann K weitere Schritte ohne neue Evidenzen (e T+1:T+K fehlen!) Dafür Rekursionsformel: T+k T+k+1 Für k = 0, 1, … K-1: P(X T+k+1 | e 1:T )= Σ x T+k P(X T+k+1 | x T+k ) P(x T+k | e 1:T ) = Σ x T+k Übergangsmodell T+k+1,T+k Zustandsverteilung T+k Je weiter über letzte Evidenz hinaus vorausberechnet wird, desto mehr wird Verteilung allein vom Übergangsmodell bestimmt.

17 KI 15-Zeit17 Glättung Gegeben: Übergangsmodell P(X t | X t-1 ) und Sensormodell P(E t | X t ) Gesucht: X K aus e 1:T wobei 1 <= K < T Idee: Vorwärts-Rückwärts-Algorithmus: Filterung von 1 bis K und Rückwärtsfilterung von T bis K.

18 KI 15-Zeit18 Glättung Teile Evidenzen e 1:T in Evidenzen bis K und nach K: e 1:K, e K+1:T P(X K | e 1:T )= P(X K | e 1:K, e K+1:T ) = α P(X K | e 1:K ) P(e K+1:T | X K, e 1:K )(Bayes) = α P(X K | e 1:K ) P(e K+1:T | X K )(Markov-Sensor) = α f 1:K b K+1:T Rückwärts-Rekursion für k = T-1, T-2,... K+1, K: P(e k+1:T | X k )= x k+1 P(e k+1:T | X k, x k+1 )P(x k+1 | X k ) = x k+1 P(e k+1:T | x k+1 )P(x k+1 | X k ) (bed. unabh.) = x k+1 P(e k+1, e k+2:T | x k+1 )P(x k+1 | X k ) = x k+1 P(e k+1 | x k+1 ) P(e k+2:T | x k+1 )P(x k+1 | X k ) b k+1:T = Backward(b k+2:T, e k+1:T ) mit b k+1:T = P(e k+1:T | X k )

19 19 Wie bisher: P(X t | X t-1 = wahr)= P(E t | X t = wahr)= P(X t | X t-1 = falsch)= P(E t | X t = falsch)= P(X 0 ) =, e 1 = w, e 2 = w. P(X 1 | e 1:2 ) = ? Allg.: P(X K | e 1:T ) = α P(X K | e 1:K ) P(e K+1:T | X K ), hier: T=2, K=1 Hier: P(X 1 | e 1:2 ) = α P(X 1 | e 1 ) P(e 2 | X 1 ) Aus Filterung: P(X 1 | e 1 ) = P(e k+1:T | X k ) = x k+1 P(e k+1 | x k+1 ) P(e k+2:T | x k+1 ) P(x k+1 | X k ) P(e 2 | X 2 ) = x 2 P(e 2 | x 2 ) P(e 3:2 | x 2 ) P(x 2 | X 1 ) mit P(e 3:2 | x 2 ) = 1 = 0.9 x 1 x x 1 x = P(X 1 | e 1:2 ) = α x = Glättung: Beispiel

20 KI 15-Zeit20 Glättung: Beispiel

21 KI 15-Zeit21 Wahrscheinlichste Erklärung Problem: Finde die wahrscheinlichste Erklärung für beobachtete Ereignisse Genauer: Finde wahrscheinlichste Folge versteckter Zustände, die eine beobachtete Folge von Evidenzen bewirkt. Für T Schritte gibt es 2 T mögliche Zustandsfolgen (für boolesche Zustände) Naiver Ansatz: Berechne durch Glättung jede Wahrscheinlichkeit einzeln. Aber: Wahrscheinlichste Folge verlangt Maximierung gemeinsamer Wahrscheinlichkeit ! D.h. wahrscheinlichste Folge ist nicht Folge der wahrscheinlichsten Zustände ! Lösung: Viterbi-Algorithmus Anwendungen: Entzerrung und Korrektur fehlerhafter Signale, z.B. bei Handys, WLAN, Festplatten; Spracherkennung

22 KI 15-Zeit22 Wahrscheinlichste Erklärung Wahrscheinlichster Pfad zu x t+1 = wahrscheinlichster Pfad zu x t plus ein weiterer Schritt. max x 1 … x t P(x 1, …, x t, X t+1 | e 1:t+1 ) = P(e t+1 | X t+1 ) max x t [ P(X t+1 | x t ) max x 1 … x t-1 P(x 1,…,x t-1,x t | e 1:t ) ] Wie Filtern (f 1:t+1 = α P(e t+1 | X t+1 ) Σ x t P(X t+1 | x t ) f 1:t ), aber: 1.f 1:t = P(X t | e 1:t ) wird ersetzt durch m 1:t = max x 1 … x t-1 P(x 1,…,x t-1,X t | e 1:t ), d.h. m 1:t (i) ist die Wahrscheinlichkeit des wahrscheinlichsten Pfades zu Zustand i. 2.Ersetze Summation über x t durch Maximierung über x t (Viterbi-Algorithmus): m 1:t+1 = P(e t+1 | X t+1 ) max x t [ P(X t+1 | x t ) m 1:t ]

23 KI 15-Zeit23 Viterbi-Algorithmus 1.Berechne sukzessive alle m 1:t. Speichere dabei jeweils besten Vorgänger für jeden Zustand (dicke Pfeile). 2.Wähle den wahrscheinlichsten Zustand zur Zeit t. 3.Gehe von dort zurück zum besten Vorgänger etc.

24 KI 15-Zeit24 Hidden-Markov-Modelle Bisher keine formale Beschreibung für Übergangs- und Sensormodelle. Modell für Markov-Prozess mit Zuständen, die durch eine Variable beschrieben werden: Hidden-Markov-Modell (HMM). X t sei eine diskrete Variable, E t die zugehörige Evidenz (meist ebenfalls eine einzelne Variable). Domäne von X t sei {1 … S}. Übergangsmatrix: T ij = P(X t = j | X t-1 = i), z.B. Sensormatrix O t für jeden Zeitschritt, Diagonalelemente sind P(e t | X t = i) : z.B. mit E 1 = wahr O 1 =

25 KI 15-Zeit25 Hidden-Markov-Modelle Mit Übergangsmatrix T ij = P(X t = j | X t-1 = i) und Sensormatrix (O t ) ii = P(e t | X t = i) : ergibt sich Matrix-Schreibweise, z.B. für Glättung: f 1:t+1 = α O t+1 T T f 1:t (statt P(X t+1 | e 1:t+1 ) = α P(e t+1 | X t+1 ) Σ x t P(X t+1 | x t ) P(x t | e 1:t ) ) b k+1:t = TO k+1 b k+2:t (statt P(e k+1:T | X k ) = x k+1 P(e k+1 | x k+1 ) P(e k+2:T | x k+1 ) P(x k+1 | X k ) )

26 KI 15-Zeit26 Country-Dance-Algorithmus Vorwärts-Rückwärts Algorithmus P(X k | e 1:T ) = α f 1:k b k+1:T mitf 1:t+1 = α O t+1 T T f 1:t (1) b k+1:t = TO k+1 b k+2:t (2) braucht Zeit O(S 2 T) und Speicher O(S T) um die gesamte Folge zu glätten, denn alle f müssen beim Vorwärts-Durchgang gespeichert werden. Vermeide bei Glättung die Speicherung aller f, indem auch der Vorwärts- Algorithmus rückwärts angewandt wird: f 1:t+1 = α O t+1 T T f 1:t O -1 t+1 f 1:t+1 = α T T f 1:t α´(T T ) -1 O -1 t+1 f 1:t+1 = f 1:t (3) Verbesserter Algorithmus: Vorwärts-Durchgang berechnet f 1:T (also das letzte f) mit Gl. (1). Rückwärts-Durchgang berechnet jeweils f 1:k mittels Gl. (3) und b k+1:T mit Gl. (2).

27 KI 15-Zeit27 Country-Dance-Algorithmus f1b1e1f1b1e1 fTbTeTfTbTeT

28 KI 15-Zeit28 Country-Dance-Algorithmus f1b1e1f1b1e1 fTbTeTfTbTeT

29 KI 15-Zeit29 Country-Dance-Algorithmus f1b1e1f1b1e1 fTbTeTfTbTeT

30 KI 15-Zeit30 Country-Dance-Algorithmus f1b1e1f1b1e1 fTbTeTfTbTeT

31 KI 15-Zeit31 Country-Dance-Algorithmus f1b1e1f1b1e1 fTbTeTfTbTeT

32 KI 15-Zeit32 Country-Dance-Algorithmus f1b1e1f1b1e1 fTbTeTfTbTeT

33 KI 15-Zeit33 Country-Dance-Algorithmus f1b1e1f1b1e1 fTbTeTfTbTeT

34 KI 15-Zeit34 Country-Dance-Algorithmus f1b1e1f1b1e1 fTbTeTfTbTeT

35 KI 15-Zeit35 Country-Dance-Algorithmus f1b1e1f1b1e1 fTbTeTfTbTeT

36 KI 15-Zeit36 Country-Dance-Algorithmus f1b1e1f1b1e1 fTbTeTfTbTeT

37 KI 15-Zeit37 Kalman-Filter Modellierung von Systemen, die durch eine Menge stetiger (insb. zeitabhängiger) Variabler beschrieben werden. Z.B. Trajektorienverfolgung: Zufallsvariable sind Ortskoordinaten und deren Zeitableitung. Bsp.: Vogel fliegt durch Wald, teilweise von Bäumen verdeckt. Versuche Trajektorie vorherzusagen. Weitere Beipiele: Planeten, Roboter, Ökosystem, Volkswirtschaft, Flugzeuge (insb. Fusion GPS - Trägheitsnavigation), … Bayes-Netz für lineares dynamisches System mit Position X t und Positions- messung Z t :

38 KI 15-Zeit38 Kalman-Filter Bsp. 1D-Trajektorie: Beobachte X-Koordinate Zeitabstand der Beobachtungen: t Annahme: Geschwindigkeit näherungsweise konstant Einfache Trajektorien-Vorhersage: Um Meßfehler und nicht konstante Geschwindigkeit zu berücksichtigen, wird Gauß-verteilter Fehler angenommen:

39 KI 15-Zeit39 Anpassen der Gauß-Verteilungen Annahme: Gaußsche a-priori Verteilung, lineares Gaußsches Übergangsmodell, lineares Gaußsches Sensormodell. Vorhersageschritt: Wenn P(X t | e 1:t ) Gauß-verteilt ist, dann ist die vorhergesagte Verteilung P(X t+1 | e 1:t ) = P(X t+1 | x t ) P(x t | e 1:t ) dx t ebenfalls eine Gaußverteilung. Mit P(X t+1 | e 1:t ) ist dann auch P(X t+1 | e 1:t+1 ) = α P(e t+1 | X t+1 ) P(X t+1 | e 1:t ) Gauß-verteilt. Daher ist P(X t | e 1:t ) eine (multivariate) Gaußverteilung N( t, t ) für alle t mit Mittelwertmatrix und Kovarianzmatrix.

40 KI 15-Zeit40 Interpretation P(X t | e 1:t ) ist (und bleibt) Gaußverteilung, deren Parameter (Mittelwerte, Kovarianzen) sich mit der Zeit ändern. D.h. P(X t | e 1:t ) kann für alle t mit der gleichen Anzahl Parameter beschrieben werden. Da sich die Gaußverteilung beliebig verbreitern kann, ist ggf. nur noch sehr wenig nutzbare Information über X vorhanden, aber … … diese kann zumindest durch eine konstante Zahl von Parametern ausgedrückt werden ! Dies gilt im allgemeinen (d.h. nichtlinearen, nicht-Gaußschen) Fall nicht: Im allgemeinen wächst der Aufwand zur Beschreibung einer a- posteriori Verteilung mit der Zeit unbegrenzt !

41 41 1-D Beispiel: Random Walk

42 KI 15-Zeit42 1-D Beispiel: Random Walk Startverteilung: 0 = 0, 0 = 1 Übergang ist Rauschen mit x = 2 Sensorrauschen z = 1 Erste Beobachtung: z 1 = 2.5 Vorhersage P(x 1 ) ist flacher als P(x 0 ) wegen Übergangsrauschen Mittelwert 1 von P(x 1 | z 1 ) kleiner als 2.5, da Vorhersage P(x 1 ) berücksichtigt wird.

43 KI 15-Zeit43 Kalman-Filter: Allgemeiner Fall n Zufallsvariable, zusammengefasst als Vektor x. Vektor der n Sensorwerte: z. Übergangsmodell:P(x t+1 | x t )= N(F x t, x, x t+1 ) Sensormodell:P(z t | x t )= N(H x t, z, z t ) F:n x n - Matrix des linearen Übergangsmodells H:n x n - Matrix des linearen Sensormodells x :n x n - Kovarianzmatrix des Übergangsrauschens z :n x n - Kovarianzmatrix des Sensorrauschens Gaußverteilung mit n Variablen: N(,, x) = exp ( -½ (x- ) T (x- ) )

44 KI 15-Zeit44 Kalman-Filter: Allgemeiner Fall Aktualisierung: t+1 = F t + K t+1 (z t+1 – H F t ) t+1 = (1 – K t+1 ) L wobei L= F t F T + x K t+1 = L H T (H L H T + z ) -1 K heißt Kalman-Gain(-Matrix). Interpretation: F t : Gemäß lin. Modell vorhergesagtes H F t : Vorhergesagte Beobachtung z t+1 – HF t : Differenz Vorhersage – Beob. K t+1 : Bewertet Vertrauenswürdigkeit der Beobachtung (dient als Gewicht gegenüber linearer Vorhersage). t und K t sind unabhängig von der beobachteten Sequenz Offline- Berechnung.

45 KI 15-Zeit45 2-D Tracking Beispiel: Filterung

46 KI 15-Zeit46 2-D Tracking Beispiel: Glättung

47 47 Grenzen des Kalman-Filters Einfacher Kalman-Filter nicht anwendbar, falls Übergangsmodell nichtlinear. Erweiterter Kalman-Filter: Behandlung von Nichtlinearitäten durch Annahme lokaler Linearität in der Umgebung von x t = t Versagt, falls System wesentliche Nichtlinearität bei x t = t hat. Bsp.: Vogel fliegt auf Baum zu. Lösung: Switching-Kalman-Filter mehrere parallele Filter Spezialfall der DBNs

48 KI 15-Zeit48 Dynamische Bayes-Netze DBN ist temporales Wahrscheinlichkeitsmodell … … mit beliebiger Anzahl von Zustandsvariablen X t, und Evidenzvariablen E t … … für jeden Zeitschritt. Beispiele: Regenschirmnetz; Robotersteuerung

49 KI 15-Zeit49 DBNs und HMMs Jedes HMM ist ein DBN mit einer Variablen. Jedes DBN mit diskreten Variablen kann als HMM dargestellt werden: Fasse alle Variablen des DBN zu einer HMM-Variablen zusammen HMM-Variable hat für jede DBN-Wertekombination einen Wert Vorteil DBN: Zerlegte Zustände Exponentiell weniger Parameter ! Bsp: 20 boolsche Zustandsvariable mit je 3 Eltern DBN hat 20 x 2 3 = 160 Parameter, HMM dagegen 2 20 x 2 20

50 KI 15-Zeit50 DBNs und Kalman-Filter Jeder Kalman-Filter ist ein DBN, aber nur wenige DBNs sind Kalman-Filter. Realwelt erfordert nicht-Gaußsche Wahrscheinlichkeiten.

51 KI 15-Zeit51 Exakte Inferenz in DBNs Naive Methode: Aufrollen, d.h. explizite Repräsentation aller Zeitschritte, dann Algorithmus für statische Bayes-Netze anwenden. Problem: Speicher und Zeit wachsen mit O(t). Rollup filtering: Zeitschritt t+1 hinzufügen, dann Variablen von Zeitschritt t aussummieren Konstanter Zeit- und Speicherbedarf, aber Aufwand wächst exponentiell in # Zustandsvariablen. Näherungsverfahren erforderlich, z.B. particle filtering.

52 KI 15-Zeit52 Zusammenfassung In temporalen Modellen wird die Welt durch Zustands- und Sensorvariablen für jeden Zeitschritt repräsentiert. Markov-Annahmen für Zustandsübergänge und Sensoren sowie Annahme eines stationären Prozesses ermöglichen Beschreibung durch: Übergangsmodell P(X t | X t-1 ) beschreibt Veränderung der Welt Sensormodell P(E t | X t ) beschreibt Beobachtung der Welt Typische Aufgaben: Filtern, Vorhersage, Glättung, wahrscheinlichste Folge … … sind mit konstanten Kosten pro Zeitschritt möglich. HMMs haben nur eine diskrete Zustandsvariable; Anwendung: Spracherkennung Kalman-Filter erlauben n Zustandsvariable Dynamische Bayes-Netze subsummieren HMMs und Kalman-Filters; exakte Inferenz ist jedoch nicht realisierbar (hoher Aufwand) Particle filtering ist eine gute Näherung für Filterung mit DBNs.

53 KI 15-Zeit53 Spracherkennung

54 KI 15-Zeit54 Überblick Sprache als probabilistische Inferenz Phonologie Sprachlaute Wortaussprache Wortfolgen

55 KI 15-Zeit55 Spracherkennung Spracherkennung: Erkenne Folge von Wörtern aus dem Signal Sprachverstehen: Interpretation der Wortfolge Stelle Beziehung zwischen Wortfolge und anderen Daten her, z.B. anderen Sensordaten oder WB. Sprachsignale sind höchst variabel, mehrdeutig, verrauscht, etc. Besonderes Problem: Im Gegensatz zu gewöhnlichen Klassifikationsaufgaben (Schema: Signal Merkmalsextraktion Klassifikator Symbole) ist Sprachsignal so komplex, dass Erkennung auf mehreren Abstraktionsebenen gleichzeitig erfolgen muss.

56 KI 15-Zeit56 Spracherkennung als probabilistische Inferenz Aufgabe: Was ist die wahrscheinlichste Wortfolge für ein gegebenes Sprachsignal? D.h. wähle Wörter so, dass P(Wörter | Signal) maximiert wird. Anwendung der Bayes-Regel: P(Wörter | Signal) = α P(Signal | Wörter) P(Wörter) Damit wird Dekomposition in akustisches Modell + Sprachmodell erreicht. Die Wörter sind die (versteckte) Zustandsfolge, das Signal ist die Beobachtungsfolge.

57 KI 15-Zeit57 Phone und Phoneme Phonologie: Menschliche Sprache besteht aus 40 – 50 Phonen (Lauten) Phone werden durch die Artikulatoren (Lippen, Zähne, Zunge, Stimmbänder, Luftdruck) gebildet Phoneme: Kleinste bedeutungsunterscheidende Einheiten (d.h. ein einzelnes Phonem hat selbst keine Bedeutung, aber Austausch eines Phonems ändert die Wortbedeutung). Phoneme Buchstaben: Vgl. rasten – rasten Allophone: Lautliche Varianten eines Phonems Phoneme sind eine von den Phonen abstrahierte Repräsentationsebene, die zwischen Signal und Wörtern liegt. Damit Aufteilung in Akustisches Modell = Signalmodell + Aussprachemodell

58 KI 15-Zeit58 Phone und Phoneme DARPA-Alphabet (ARPAbet) für American English: Z.B. ceiling: [s iy l ich ng] / [s iy l ix ng] / [s iy l en]

59 KI 15-Zeit59 Sprachlaute Signal: Auslenkung der Mikrofon-Membran als Funktion der Zeit. Repräsentation: 8-16 kHz Abtastrate, 8-12 Bit Quantisierung Verarbeitung erfolgt in überlappenden Frames von 30 ms. Datenreduktion: Jedes Frame wird durch Merkmale repräsentiert. Merkmale: Z.B. Peaks im Leistungsspektrum Analogsignal Abgetastetes, digitalisiertes Signal Frames mit Merkmalen

60 KI 15-Zeit60 Lautmodelle Merkmale der Frames in P(Merkmale | Laute) werden kompakter repräsentiert durch -eine natürliche Zahl, z.B. in [0…255] (nach erfolgter Vektorquantisierung) -die Parameter eines Gaußschen Mischungsmodells Darstellung der inneren Struktur von Lauten durch Dreizustands- Lautmodell: -Jeder Laut besteht aus Onset, Mid, End. -Z.B. [t] hat stummen Anfang, explosive Mitte, Zischen am Ende -P(Merkmale | Laute, Phase)

61 KI 15-Zeit61 Lautmodelle Problem: Laute klingen je nach Kontext, d.h. in einer Umgebung von anderen Lauten, unterschiedlich (Koartikulationseffekt) Koartikulationseffekt entsteht, weil Artikulatoren nicht instantan ihre Position verändern können. Kontext-Erfassung durch Triphone-Modell: -Jeder von n Lauten wird durch n 2 verschiedene Laute repräsentiert, die von den beiden benachbarten Lauten abhängen. -Z.B. [t] in star wird repräsentiert durch [t(s,aa)] Kombination aus Dreizustands-Modell und Triphone-Modell vergrößert Repräsentation von n auf 3n 3. Aufwand lohnt sich !

62 KI 15-Zeit62 Lautmodelle: Beispiel Laut-HMM für [m]: Zu jedem der drei Zustände des Laut-HMMs gehören die Ausgabewahrscheinlichkeiten für die Merkmale (z.B. VQ-Clusterzentren):

63 KI 15-Zeit63 Aussprachemodelle für Wörter Jedes Wort wird durch eine Wahrscheinlichkeitsverteilung über einer Lautfolge dargestellt, diese wird durch ein HMM repräsentiert: P([towmeytow] | tomato) = P([towmaatow] | tomato) = 0.1 P([tahmeytow] | tomato) = P([tahmaatow] | tomato) = 0.4 Struktur wird manuell erstellt Übergangswahrscheinlichkeiten werden gelernt.

64 KI 15-Zeit64 Wortmodelle Wortmodell besteht aus Lautmodell und Aussprachemodell. Wortmodell für Tomato: Zustand eines Wort-HMM = Laut + Lautzustand Z.B. hat Wort-HMM für Tomato den Zustand [m] Mid.

65 KI 15-Zeit65 Erkennung einzelner Wörter Lautmodelle + Wortmodelle bestimmen P(e 1:t | Wort) für einzelne Wörter. Erkennung eines Wortes bedeutet Maximierung von P(Wort | e 1:t ) = α P(e 1:t | Wort) P(Wort). Die a priori Wahrscheinlichkeit P(Wort) ergibt sich aus der Worthäufigkeit. P(e 1:t | Wort) wird rekursiv berechnet. Sei l 1:t = P(X t, e 1:t ). Verwende Rekursion l 1:t+1 = VORWÄRTS( l 1:t, e t+1 ) und dann P(e 1:t | Wort) = x t l 1:t (x t ). Einzel-Wort Erkennung erreicht mit Training 95 – 99 % Genauigkeit.

66 KI 15-Zeit66 Erkennung fortlaufender Sprache Erkennung fortlaufender Sprache Folge von Einzel-Wort-Erkennungen ! Benachbarte Wörter sind stark korreliert Folge wahrscheinlichster Wörter wahrscheinlichste Wortfolge Segmentierung von Wörtern: Schwierig, da kaum Pausen zwischen den Wörtern, die sich unmittelbar im Signal abzeichnen. Koartikulation zwischen Wörtern, z.B. next thing Systeme zur Erkennung fortlaufender Sprache haben 60 – 80 % Genauigkeit.

67 KI 15-Zeit67 Sprachmodell Sprachmodell spezifiziert die a priori Wahrscheinlichkeit jeder Wortfolge, diese ist gegeben durch die Kettenregel: P(w 1 …w n ) = i=1 n P(w i | w 1 …w i-1 ) Die meisten Terme sind schwer zu schätzen, daher Näherung durch Bigram Modell: P(w i | w 1 …w i-1 ) P(w i | w i-1 ), d.h. Markov-Annahme 1. Stufe. Training: Zähle alle Wort-Paare in einem großen Text-Korpus. Kompliziertere Modelle wie Trigrams (d.h. P(w i | w 1 …w i-1 ) P(w i | w i-1, w i-2 ) oder Grammatik-Modelle bringen gewisse Verbesserungen.

68 KI 15-Zeit68 Erkennung von Wortfolgen: Kombiniertes HMM Kombiniere Wortmodell und Bigram-Sprachmodell zu einem HMM. Zustände des kombinierten HMM sind gegeben durch das Wort, den Laut und den Lautzustand. Bsp.: [m] Tomato Mid Übergänge: Lautzustand – Lautzustand (innerhalb eines Lautes) Laut – Laut (innerhalb eines Wortes) Wort-Endzustand – Wort-Anfangszustand Repräsentationsaufwand: Für W Wörter mit durchschnittlich L Dreizustandslauten hat kombiniertes HMM 3LW Zustände.

69 KI 15-Zeit69 Erkennung von Wortfolgen: Kombiniertes HMM Wahrscheinlichste Lautfolge wird durch den Viterbi-Algorithmus ermittelt, damit ist auch eine Wortfolge bestimmt. Zugleich wird auch Wort-Segmentierungsproblem gelöst. Aber: Die aus der wahrscheinlichsten Lautfolge ermittelte Wortfolge ist nicht unbedingt die wahrscheinlichste Wortfolge. Grund: Wahrscheinlichkeit einer Wortfolge = Summe der Wahrscheinlichkeiten aller zugehörigen Zustandsfolgen ! Lösung: A*-Decoder (Jelinek 1969)

70 70 A*-Decoder Verwende A*-Suche um wahrscheinlichste Wortfolge zu finden Repräsentation durch Graph: -Wort = Knoten in Graph -Wortfolge = Pfad in Graph -Nachfolger eines Knotens = Mögliche nachfolgende Wörter -Graph für Satzlänge S hat S Ebenen Erinnerung A*: Geschätzte Kosten über n zum Ziel = f(n) = g(n)+h(n), wobei g(n) = bisher angefallene Kosten bis n, h(n) = geschätzte Kosten von n zum Ziel. Hier: Für Bigram-Modelle ist g(w i-1, w i ) = – log P(w i | w i-1 ) Gesamte Pfadkosten K einer Wortfolge: K(w 1 … w S ) = i=1 S – log P(w i | w i-1 ) = – log i=1 S P(w i | w i-1 ) Damit: Kürzester Pfad = wahrscheinlichste Wortfolge Heuristikfunktion h:

71 KI 15-Zeit71 DBN für die Spracherkennung Weitere Variable können leicht hinzugefügt werden, z.B. Akzent, Geschlecht, Alter, Geschwindigkeit. Zweig und Russell (1998) erreichten bis 40 % Fehlerreduktion gegenüber HMMs. Phonem-Index Übergang Phonem Artikulatoren Beobachtung Deterministisch,fest Stochastisch,gelernt Deteministisch,fest Stochastisch,gelernt

72 KI 15-Zeit72 Zusammenfassung Seit den 70ern wird Spracherkennung als probabilistische Inferenz formuliert. Evidenz = Sprachsignal Versteckte Variable = Lautfolgen und Wörter Kontext-Effekte wie Koartikulation werden durch Zustandserweiterung behandelt.

73 KI 15-Zeit73 Zusammenfassung Standard-Ansatz: Lautmodell + Aussprachemodell ergibt Wortmodell. Wortmodelle werden mit Bigram- Sprachmodellen zu gemeinsamem HMM vereint. Ermittlung der wahrscheinlichten Lautfolge durch Viterbi- Algorithmus Wahrscheinlichste Wortfolge mit A*-Decoder Die kontinuierliche Erkennung von Sprache ist ein ungelöstes Problem, die größten Schwierigkeiten liegen in der Variabilität natürlicher Sprache (Dialekt, Geschwindigkeit etc. etc.) und den Hintergrundgeräuschen in natürlicher Umgebung.


Herunterladen ppt "KI 15-Zeit1 Zeitliches probabilistisches Schließen."

Ähnliche Präsentationen


Google-Anzeigen