Statistische Aspekte der PSG

Slides:



Advertisements
Ähnliche Präsentationen
8. Termin Teil B: Wiederholung Begriffe Baum
Advertisements

Zufallsfelder Def. Zufallsfeld: Sei V eine endliche Menge (von Orten). Für jedes v V existiere eine (endliche) Menge X(v) von Zuständen x(v). Der Raum.
Gensuche mit Hidden Markov Modellen Zentrum für Bioinformatik
Definition [1]: Sei S eine endliche Menge und sei p eine Abbildung von S in die positiven reellen Zahlen Für einen Teilmenge ES von S sei p definiert.
Rekursion: Rekurrenz: Algorithmen rufen sich selbst (rekursiv) auf.
Falls Algorithmen sich selbst rekursiv aufrufen, so kann ihr Laufzeitverhalten bzw. ihr Speicherplatzbedarf in der Regel durch eine Rekursionsformel (recurrence,
Eine dynamische Menge, die diese Operationen unterstützt,
Stochastik und Markovketten
Die Laufzeit von randomisierten (zufallsgesteuerten) Algorithmen hängt von gewissen zufälligen Ereignissen ab (Beispiel Quicksort). Um die Laufzeiten dieser.
Bounded Model Checking II
7. Natürliche Binärbäume
7. Automaten Ein Automat ist ein Sechstupel A= (I, O, Q, , q0, F).
Seminar Textmining WS 06/07 Themen Übung 11 unsupervised vs. supervised Symbolfolgen, Kunstsprachen Page Rank.
R. Der - Vorlesung Algorithmen und Datenstrukturen (Magister)
8. Formale Sprachen und Grammatiken
Seminar „Extrapolationsmethoden für zufällige Felder“
Numerik partieller Differentialgleichungen
Parser für CH3-Sprachen
Forschungsstatistik II Prof. Dr. G. Meinhardt SS 2005 Fachbereich Sozialwissenschaften, Psychologisches Institut Johannes Gutenberg Universität Mainz KLW-17.
Vorlesung Informatik 3 Einführung in die Theoretische Informatik (12 – Kellerautomaten, PDA) Prof. Dr. Th. Ottmann.
Vorlesung Informatik 3 Einführung in die Theoretische Informatik (04 – Automaten mit ε-Transitionen) Prof. Dr. Th. Ottmann.
Vorlesung Informatik 3 Einführung in die Theoretische Informatik (17 –Turingmaschinen) Prof. Dr. Th. Ottmann.
Kapitel 5 Stetigkeit.
Kapitel 1 Das Schubfachprinzip
Kapitel 2 Die rationalen und die irrationalen Zahlen.
Reguläre Sprachen Karin Haenelt.
Grundbegriffe der Wahrscheinlichkeitstheorie
Reguläre Ausdrücke Karin Haenelt
© Karin Haenelt 2006, Äquivalenzen Reg.Ausdrücke, Reg.Sprachen, EA ( ) 1 Reguläre Sprachen Karin Haenelt.
1 Endliche Automaten in der Sprachtechnologie Kursthemen Karin Haenelt
© Karin Haenelt 2005, Endliche Automaten: Alphabet, Zeichenreihe, Sprache, Endliche Automaten Grundlagen: Alphabet, Zeichenreihe, Sprache.
© Karin Haenelt, Transduktoren, Transduktoren für die Sprachverarbeitung Vereinigung von Transduktoren Karin Haenelt Karin Haenelt, Transduktoren,
Datentyp  Zusammenfassung von Mengen von "Werten" mit auf
Lexikalisch-Funktionale-Grammatik
PG 520 Intelligence Service – gezielte Informationen aus dem Internet
Christian Schindelhauer
Christian Schindelhauer
Kapitel III: Stochastische Modelle im Januar haben wir behandelt: 12/3
Hidden Markov Modelle (HMM) (Rabiner Tutorial)
Bayes‘sche Verfahren (Mitchell Kap. 6), Teil 1
Maschinelles Lernen Bayessche Verfahren (Mitchell Kap. 6), Teil 1.
Wahrscheinlichkeitsrechnung
Effiziente Algorithmen
Endliche Automaten Informatik JgSt. 13, Abitur 2009
Effiziente Algorithmen
Black Box Algorithmen Hartmut Klauck Universität Frankfurt SS
Effiziente Algorithmen
Effiziente Algorithmen Hartmut Klauck Universität Frankfurt SS
Information und Kommunikation Hartmut Klauck Universität Frankfurt SS
Hartmut Klauck Universität Frankfurt WS 06/
Information und Kommunikation Hartmut Klauck Universität Frankfurt SS
Information und Kommunikation
Wahrscheinlichkeit Zufallsexperiment:
Kapitel 10 Multikollinearität
Wahrscheinlichkeitsrechnung
Wahrscheinlichkeitsrechnung
Informationstheorie Begr. von Claude Shannon
Formale Sprachen Reguläre Sprachen Rudolf FREUND, Marian KOGLER.
Beispiele: KFG 2.Teil Beispiel 1: Sei G eine Grammatik mit den folgenden Regeln: S  Ac | Bd A  aAb | ab B  aBbb | abb Definieren Sie.
Petrinetze 1. Einführung Informatik : wesentlich Modellierung von
Christian Schindelhauer Wintersemester 2006/07 3. Vorlesung
1 Albert-Ludwigs-Universität Freiburg Rechnernetze und Telematik Prof. Dr. Christian Schindelhauer Informatik III Christian Schindelhauer Wintersemester.
Christian Schindelhauer Wintersemester 2006/07 2. Vorlesung
1 Albert-Ludwigs-Universität Freiburg Rechnernetze und Telematik Prof. Dr. Christian Schindelhauer Informatik III Christian Schindelhauer Wintersemester.
Institut für Softwarewissenschaft – Universität WienP.Brezany 1 Beispiele (Frist: ) Beispiel 1: Sei  = {a, b} ein Alphabet und Q = {q 0, q 1 } eine.
Die Binomialverteilung
SS 2009Maschinelles Lernen und Neural Computation 133 Kapitel 7: Ensemble Methoden.
Wann ist eine Funktion (über den natürlichen Zahlen) berechenbar?
Sprachprodukttechnologie SS 2001G. Heyer 1 Sprachstatistik  Grundlegende Definitionen  Alphabet Sei NL eine natürliche Sprache und sei A eine Menge von.
Der Wiener Prozess und seltene Ereignisse
 Präsentation transkript:

Statistische Aspekte der PSG NP VP Art N V PP | | | | | | | P der Hund bellt hier S Art: der, die N: Hund, Katze V: bellt, schläft (P: hier, dort) S  NP VP NP  Art N VP  V 1.) Keine Angaben zu Häufigkeit der Wortformen im Lexikon 2.) Keine Angaben zu Übergangswahrscheinlichkeiten, Wortformen / Phrasen < der Hund >, < die Katze >, (< der Katze >), ( < die Hund >) << der Hund > bellt >, << der Hund > schläft >, (<< die Katze > bellt >)

Alternatives Modell: endlicher Automat mit Übergangswahrscheinlichkeiten 0,5 hier O 0,5 der 0,5 Hund 0,5 bellt 0,5 die 0,5 Katze 0,5 schläft 0,5 dort Problem: Weder die Übergangswahrscheinlichkeiten noch das zugrunde liegende Netzwerk (Automat) sind bekannt. Black Box " der" "Hund" " ? " Modell ?

Aufgaben:. 1. Berechnung der Übergangswahrscheinlichkeiten. 2 Aufgaben: 1. Berechnung der Übergangswahrscheinlichkeiten 2. Präzisierung der probabilistischen Automaten Statistische Grundlagen Notation Sei X eine Zufallsvariable mit einer endlichen Menge V(X) von m Ereignissen. | X = x | sei die Anzahl von Ereignissen bei denen X den Wert x hat ( d. h. x  V(X)). Die Wahrscheinlichkeit des Auftretens von xi ( Abkürzung P(xi) ist: | xi | P (X = xi ) = m  | xj | j = 1

Beispiel: Sei W das Auftreten einer bestimmten Wortform wi aus der Menge der m Wortformen eines Textes. Die Wahrscheinlichkeit des Auftretens der i-ten Wortform wi ist dann: | wi | P (W = wi ) = m  | wj | j = 1 Bedingte Wahrscheinlichkeit Die Wahrscheinlichkeit für das Eintreten eines Ereignisses X unter der Voraussetzung , dass das Ereignis y schon eingetreten ist, heißt bedingte Wahrscheinlichkeit P ( x | y ). P ( x , y ) P ( x | y ) = P ( y )

Sind x und y voneinander unabhängig, so gilt: P ( x, y ) = P ( x ) * P ( y ) Die bedingte Wahrscheinlichkeit unabhängiger Ereignisse ist: P ( x | y ) = P ( x ) Beispiel: Die bedingte Wahrscheinlichkeit des Aufeinanderfolgens zweier Wortformen ist: | W1 = wi , W2 = wj | P (W2 = wj | W1 = wi ) = | W1 = wi |

Bayessches Gesetz Wenn die Ereignisse x  V (x) einander paarweise ausschließen und die Menge der m Elementarereignisse ausschöpfen, so gilt für die bedingte Wahrscheinlichkeit: P ( x ) * P ( y | x ) P ( x | y ) = P ( y ) Verallgemeinerungen P ( w, x) * P ( y, z | w, x ) P ( w, x | y, z )= P ( y, z ) P ( w1, w2, w3, ... , wn ) = P ( w1 ) * P ( w2 | w1 ) * P (w3 | w1, w2 ) . . . * P (wn | w1, . . . , w n-1)

Anwendung: Statistisches Modell der Deutschen Sprache Weise allen Folgen von Wortformen der Länge n eine Wahrscheinlichkeit zu, d. h. P ( W1,n = wi,n ) für alle Folgen w1,n . W1,n ist eine Folge von n Zufallsvariablen w1, w2, ... , wn , die jeweils irgendeine Wortform des Deutschen als Wert nehmen können, und w1,n ist eine konkrete Folge von deutschen Wortformen. Diese Folge kann auf der Grundlage der verallgemeinerten Bayesschen Regel berechnet werden. P ( w1,n ) = P ( w1 ) * P ( w2 | w1 ) * P ( w3 | w1,2 ) * . . . * P ( wn | w1,n-1 )

Als Berechnungsgrundlage dient ein n-gram Modell, d. h. die Annahme, dass nur die vorangehenden n-1 Wortformen von Einfluss auf die Wahrscheinlichkeit der nächsten Wortform sind, wobei n = 3 ( daher tri-gram ) P ( wn | w1, ... , wn-1) = P (wn | wn-2, wn-1 ) P ( w1,n ) = P (w1 ) * P (w2 | w1 ) * P ( w3 | w 1,2 ) * ... * P (wn | wn-2,wn-1 ) n = P (w1 ) * P ( w2 | w1 ) *  P ( wi | wi-2,i-1 ) i = 3 =  P (wi | wi-2,wi-1) i=1

Beispiel: Um ein Trigram-Modell zu erzeugen, wird in einem Trainingstext gezählt, welche Paare und Tripel von Wörtern wie oft auftreten. " Der Hund bellt und die Katze schläft. " < Der Hund > < Der Hund bellt > < Hund bellt > < Hund bellt und > < bellt und > < bellt und die > C (wi-2, i ) (Tripel) Pe (wi | wi-2, i-1 ) = C ( wi-2, i-1 )

Anwendung Das Problem der Spracherkennung lässt sich beschreiben als das Finden derjenigen Wortfolge w1,n, durch die P ( W1,n = w1,n | Lautfolge) maximiert wird. Unter Anwendung der Bayesschen Regel lässt sich das Problem in zwei Teile zerlegen, in die Wahrscheinlichkeitsverteilung einzelner Lautfolgen (z.B. im Deutschen) und in die Wahrscheinlichkeitsverteilung einzelner Wortformen (sog. Sprachmodell ) : P (w1,n ) * P ( Lautfolge | w1,n ) P ( w1,n | Lautfolge ) = P ( Lautfolge ) Da der Nenner für alle w1,n gleich bleibt, muss nur der Zähler maximiert werden.

Markov Modelle Es sei X = ( X1, ... , XT ) eine Folge von Zufallsvariablen mit Werten in einer endlichen Menge S = { S1, ... , SN } , dem Zustandsraum. X ist eine Markov-Kette oder ein Markov-Modell, wenn die folgenden Markov-Eigenschaften erfüllt sind: Abhängigkeit vom vorherigen Zustand P ( Xt+1 = Sk | X1, ... , Xt ) = P ( Xt+1 = Sk | Xt ) Zeitinvarianz P ( Xt+1 = Sk | X1 , ... , Xt ) = P ( X2 = Sk | X1 )

Als Darstellung wird gewöhnlich ein (nichtdeterministischer ) endlicher Automat gewählt, bei dem die Kanten mit Übergangswahrscheinlichkeiten gekennzeichnet sind. (Alle ausgehenden Kanten eines Knotens summieren sich zu 1). Wird bei einem Markov-Modell nicht nur der vorangehende Zustand, sondern m Zustände zur Vorhersage des nächsten Zustands verwendet, spricht man von einem Markov-Modell m-ter Ordnung. Jedes n-gram Modell ist äquivalent zu einem Markov-Modell (n-1)-ter Ordnung.

Versteckte Markov-Modelle (Hidden Markov Models ) Im Unterschied zu sichtbaren Markov-Modellen gelten für versteckte Markov-Modelle folgende Bedingungen: 1.) Die Übergänge von einem Knoten zum nächsten sind nicht sichtbar, lediglich die Wahrscheinlichkeit des Endzustandes ist bekannt. 2.) Einem Zustand können mehrere Übergänge mit demselben Symbol zugeordnet sein.

Ein HMM ist ein Quadrupel < s1, S, W, E > mit S einer Menge von Zuständen. s1  S dem Anfangszustand des Modells W der Menge der Ausgangszeichen und E der Menge der Übergänge (edges), wobei jede Menge geordnet ist: S = < s1, s2, . . . , s > W = < w1, w2, . . . , w > E = < e1, e2, . . . , e >

Ein Übergang ist eine Quadrupel < si, sj, wk, p > mit si  S dem Ausgangszustand, sj  S dem Endzustand wk  W dem Ausgangszeichen ( das von dem Modell akzeptiert oder generiert wird und p der Wahrscheinlichkeit des Übergangs . Wir schreiben einen Übergang: wk si sj (Ein Zustand a kann der Ausgangszustand für mehrere Übergänge sein, die dasselbe Ausgangssymbol haben, aber in verschiedene Endzustände übergehen.)

Die Wahrscheinlichkeit p eines Übergangs wk si sj wk si sj p , ist definiert als die Wahrscheinlichkeit, dass zu einem Zeitpunkt t das HMM das t-te Symbol wk ausgibt und in den ( t+1)-ten Zustand, sj , übergeht, wenn der t-te Zustand si war. wk si sj p =: p ( st+1 = sj , wt = wk | st = si ) = p ( sj, wk | si )

Die Wahrscheinlichkeit einer Folge w1,n lässt sich nunmehr berechnen als die Wahrscheinlichkeit aller möglichen Pfade durch das HMM, das diese Folge generieren könnte: p (w1,n) =  p ( w1,n , s1,n+1 ) s1,n+1

Ergänzende Literatur E.Charniak, Statistical Language Learning, MIT Press: Cambridge (Mass.) 1993 C. Manning und H.Schütze, Foundations of Statistical Natural Language Processing, MIT Press: Cambridge (Mass.) 1999 (32000) D.Juravsky, J.Martin, Speech and Language Processing: An Introduction to Natural Language Processing, Computational Linguistics and Speech Recognition, Prentice Hall: San Francisco 2000