Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

G.Heyer Sprachprodukttechnologie SS 2001 1 Statistische Aspekte der PSG Art:der, die N:Hund, Katze V:bellt, schläft (P:hier, dort) S NPVP NP ArtN VP V.

Ähnliche Präsentationen


Präsentation zum Thema: "G.Heyer Sprachprodukttechnologie SS 2001 1 Statistische Aspekte der PSG Art:der, die N:Hund, Katze V:bellt, schläft (P:hier, dort) S NPVP NP ArtN VP V."—  Präsentation transkript:

1 G.Heyer Sprachprodukttechnologie SS Statistische Aspekte der PSG Art:der, die N:Hund, Katze V:bellt, schläft (P:hier, dort) S NPVP NP ArtN VP V NP VP ArtN V PP || | | || | P || | | der Hundbellt hier S 1.) Keine Angaben zu Häufigkeit der Wortformen im Lexikon 2.) Keine Angaben zu Übergangswahrscheinlichkeiten, Wortformen / Phrasen,, ( ), ( ) bellt >, schläft >, ( bellt >)

2 G.Heyer Sprachprodukttechnologie SS Alternatives Modell: endlicher Automat mit Übergangswahrscheinlichkeiten O 0,5 Hund0,5 der 0,5 dort 0,5 hier 0,5 schläft0,5 Katze0,5 die 0,5 bellt Problem: Weder die Übergangswahrscheinlichkeiten noch das zugrunde liegende Netzwerk (Automat) sind bekannt. Black Box " der" "Hund" " ? " Modell ?

3 G.Heyer Sprachprodukttechnologie SS Aufgaben:1. Berechnung der Übergangswahrscheinlichkeiten 2. Präzisierung der probabilistischen Automaten Statistische Grundlagen Notation Sei X eine Zufallsvariable mit einer endlichen Menge V(X) von m Ereignissen. | X = x | sei die Anzahl von Ereignissen bei denen X den Wert x hat ( d. h. x V(X)). Die Wahrscheinlichkeit des Auftretens von x i ( Abkürzung P(x i ) ist: | x i | P (X = x i ) = m | x j | j = 1

4 G.Heyer Sprachprodukttechnologie SS Beispiel: Sei W das Auftreten einer bestimmten Wortform w i aus der Menge der m Wortformen eines Textes. Die Wahrscheinlichkeit des Auftretens der i-ten Wortform w i ist dann: | w i | P (W = w i ) = m | w j | j = 1 Bedingte Wahrscheinlichkeit Die Wahrscheinlichkeit für das Eintreten eines Ereignisses X unter der Voraussetzung, dass das Ereignis y schon eingetreten ist, heißt bedingte Wahrscheinlichkeit P ( x | y ). P ( x, y ) P ( x | y ) = P ( y )

5 G.Heyer Sprachprodukttechnologie SS Sind x und y voneinander unabhängig, so gilt: P ( x, y ) = P ( x ) * P ( y ) Die bedingte Wahrscheinlichkeit unabhängiger Ereignisse ist: P ( x | y ) = P ( x ) Beispiel: Die bedingte Wahrscheinlichkeit des Aufeinanderfolgens zweier Wortformen ist: | W 1 = w i, W 2 = w j | P (W 2 = w j | W 1 = w i ) = | W 1 = w i |

6 G.Heyer Sprachprodukttechnologie SS Bayessches Gesetz Wenn die Ereignisse x V (x) einander paarweise ausschließen und die Menge der m Elementarereignisse ausschöpfen, so gilt für die bedingte Wahrscheinlichkeit: P ( x ) * P ( y | x ) P ( x | y ) = P ( y ) Verallgemeinerungen P ( w, x) * P ( y, z | w, x ) P ( w, x | y, z )= P ( y, z ) P ( w 1, w 2, w 3,..., w n ) = P ( w 1 ) * P ( w 2 | w 1 ) * P (w 3 | w 1, w 2 )... * P (w n | w 1,..., w n-1 )

7 G.Heyer Sprachprodukttechnologie SS Anwendung: Statistisches Modell der Deutschen Sprache Weise allen Folgen von Wortformen der Länge n eine Wahrscheinlichkeit zu, d. h. P ( W 1,n = w i,n ) für alle Folgen w 1,n. W 1,n ist eine Folge von n Zufallsvariablen w 1, w 2,..., w n, die jeweils irgendeine Wortform des Deutschen als Wert nehmen können, und w 1,n ist eine konkrete Folge von deutschen Wortformen. Diese Folge kann auf der Grundlage der verallgemeinerten Bayesschen Regel berechnet werden. P ( w 1,n ) = P ( w 1 ) * P ( w 2 | w 1 ) * P ( w 3 | w 1,2 ) *... * P ( w n | w 1,n-1 )

8 G.Heyer Sprachprodukttechnologie SS Als Berechnungsgrundlage dient ein n-gram Modell, d. h. die Annahme, dass nur die vorangehenden n-1 Wortformen von Einfluss auf die Wahrscheinlichkeit der nächsten Wortform sind, wobei n = 3 ( daher tri-gram ) P ( w n | w 1,..., w n-1 ) = P (w n | w n-2, w n-1 ) P ( w 1,n ) = P (w 1 ) * P (w 2 | w 1 ) * P ( w 3 | w 1,2 ) *... * P (w n | w n-2,w n-1 ) n = P (w 1 ) * P ( w 2 | w 1 ) * P ( w i | w i-2,i-1 ) i = 3 n = P (w i | w i-2,w i-1 ) i=1

9 G.Heyer Sprachprodukttechnologie SS Beispiel: Um ein Trigram-Modell zu erzeugen, wird in einem Trainingstext gezählt, welche Paare und Tripel von Wörtern wie oft auftreten. " Der Hund bellt und die Katze schläft. " C (w i-2, i )(Tripel) P e (w i | w i-2, i-1 ) = C ( w i-2, i-1 )

10 G.Heyer Sprachprodukttechnologie SS Anwendung Das Problem der Spracherkennung lässt sich beschreiben als das Finden derjenigen Wortfolge w 1,n, durch die P ( W 1,n = w 1,n | Lautfolge) maximiert wird. Unter Anwendung der Bayesschen Regel lässt sich das Problem in zwei Teile zerlegen, in die Wahrscheinlichkeitsverteilung einzelner Lautfolgen (z.B. im Deutschen) und in die Wahrscheinlichkeitsverteilung einzelner Wortformen (sog. Sprachmodell ) : P (w 1,n ) * P ( Lautfolge | w 1,n ) P ( w 1,n | Lautfolge ) = P ( Lautfolge ) Da der Nenner für alle w 1,n gleich bleibt, muss nur der Zähler maximiert werden.

11 G.Heyer Sprachprodukttechnologie SS Markov Modelle Es sei X = ( X 1,..., X T ) eine Folge von Zufallsvariablen mit Werten in einer endlichen Menge S = { S 1,..., S N }, dem Zustandsraum. X ist eine Markov-Kette oder ein Markov-Modell, wenn die folgenden Markov-Eigenschaften erfüllt sind: Abhängigkeit vom vorherigen Zustand P ( X t+1 = S k | X 1,..., X t ) = P ( X t+1 = S k | X t ) Zeitinvarianz P ( X t+1 = S k | X 1,..., X t ) = P ( X 2 = S k | X 1 )

12 G.Heyer Sprachprodukttechnologie SS Als Darstellung wird gewöhnlich ein (nichtdeterministischer ) endlicher Automat gewählt, bei dem die Kanten mit Übergangswahrscheinlichkeiten gekennzeichnet sind. (Alle ausgehenden Kanten eines Knotens summieren sich zu 1). Wird bei einem Markov-Modell nicht nur der vorangehende Zustand, sondern m Zustände zur Vorhersage des nächsten Zustands verwendet, spricht man von einem Markov-Modell m-ter Ordnung. Jedes n-gram Modell ist äquivalent zu einem Markov-Modell (n-1)-ter Ordnung.

13 G.Heyer Sprachprodukttechnologie SS Versteckte Markov-Modelle (Hidden Markov Models ) Im Unterschied zu sichtbaren Markov-Modellen gelten für versteckte Markov-Modelle folgende Bedingungen: 1.) Die Übergänge von einem Knoten zum nächsten sind nicht sichtbar, lediglich die Wahrscheinlichkeit des Endzustandes ist bekannt. 2.) Einem Zustand können mehrere Übergänge mit demselben Symbol zugeordnet sein.

14 G.Heyer Sprachprodukttechnologie SS Ein HMM ist ein Quadrupel mit S einer Menge von Zuständen. s 1 S dem Anfangszustand des Modells W der Menge der Ausgangszeichen und E der Menge der Übergänge (edges), wobei jede Menge geordnet ist: S = W = E =

15 G.Heyer Sprachprodukttechnologie SS Ein Übergang ist eine Quadrupel mit s i S dem Ausgangszustand, s j S dem Endzustand w k W dem Ausgangszeichen ( das von dem Modell akzeptiert oder generiert wird und p der Wahrscheinlichkeit des Übergangs. Wir schreiben einen Übergang: wkwk s i s j (Ein Zustand a kann der Ausgangszustand für mehrere Übergänge sein, die dasselbe Ausgangssymbol haben, aber in verschiedene Endzustände übergehen.)

16 G.Heyer Sprachprodukttechnologie SS Die Wahrscheinlichkeit p eines Übergangs wkwk s i s j wkwk p ist definiert als die Wahrscheinlichkeit, dass zu einem Zeitpunkt t das HMM das t-te Symbol w k ausgibt und in den ( t+1)-ten Zustand, s j, übergeht, wenn der t-te Zustand s i war., wkwk s i s j p =: p ( s t+1 = s j, w t = w k | s t = s i ) = p ( s j, w k | s i )

17 G.Heyer Sprachprodukttechnologie SS Die Wahrscheinlichkeit einer Folge w 1,n lässt sich nunmehr berechnen als die Wahrscheinlichkeit aller möglichen Pfade durch das HMM, das diese Folge generieren könnte: p (w 1,n ) = p ( w 1,n, s 1,n+1 ) s 1,n+1

18 G.Heyer Sprachprodukttechnologie SS Ergänzende Literatur E.Charniak, Statistical Language Learning, MIT Press: Cambridge (Mass.) 1993 C. Manning und H.Schütze, Foundations of Statistical Natural Language Processing, MIT Press: Cambridge (Mass.) 1999 ( ) D.Juravsky, J.Martin, Speech and Language Processing: An Introduction to Natural Language Processing, Computational Linguistics and Speech Recognition, Prentice Hall: San Francisco 2000


Herunterladen ppt "G.Heyer Sprachprodukttechnologie SS 2001 1 Statistische Aspekte der PSG Art:der, die N:Hund, Katze V:bellt, schläft (P:hier, dort) S NPVP NP ArtN VP V."

Ähnliche Präsentationen


Google-Anzeigen