Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

Korpuslinguistik für und mit Computerlinguistik Seminar SS 2003 Sitzung 3: Statistik, Vektoren Gerold Schneider.

Ähnliche Präsentationen


Präsentation zum Thema: "Korpuslinguistik für und mit Computerlinguistik Seminar SS 2003 Sitzung 3: Statistik, Vektoren Gerold Schneider."—  Präsentation transkript:

1 Korpuslinguistik für und mit Computerlinguistik Seminar SS 2003 Sitzung 3: Statistik, Vektoren Gerold Schneider

2 Gerold Schneider: Korpuslinguistik für Computerlinguistik, III2 Übersicht Wahrscheinlichkeitsrechnung Maximum Likelihood Estimation (MLE) Informationstheorie Statistische Tests Sprachmodelle Vektoren (Igor)

3 Gerold Schneider: Korpuslinguistik für Computerlinguistik, III3 Bedingte Wahrscheinlichkeit Zusatzinfo verändert Wahrscheinlichkeit Priori und posteriori Wahrscheinlichkeit Definition: mehr B auch in A mehr B ausser- halb A

4 Gerold Schneider: Korpuslinguistik für Computerlinguistik, III4 Bedingte Wahrscheinlichkeit: Bayes'

5 Gerold Schneider: Korpuslinguistik für Computerlinguistik, III5 Bayes: Medizinische Tests als Beispiel Eine seltene Krankheit befällt 0.2 % der Bevölkerung: P(I)=.002 Die Erkennungsrate des Tests ist 98 %: P( |I)=.98, P( |I')=.02 Mein Test sagt ! Wie gross ist die Gefahr, dass ich krank bin? Bayes: krank (I), richtig erkannt ( |I) P( ) = ?. 2 Wege zu gesund (I'), nur falsch gestestet ( |I')

6 Gerold Schneider: Korpuslinguistik für Computerlinguistik, III6 Maximum Likelihood Estimation (MLE) Eine einfache Methode, (bedingte) Wahrscheinlichkeiten aufgrund von empirischen Daten zu schätzen (estimate). Wir kennen die wirklichen Wahrscheinlichkeiten nicht, aber wir beobachten empirische Werte. Wir nehmen an, dass diese mit grösster Wahrscheinlichkeit (maximum likelihood) die wirklichen Wahrscheinlichkeiten annähern. Statt freq oft auch f oder # (number of) oder C (count)

7 Gerold Schneider: Korpuslinguistik für Computerlinguistik, III7 Informationstheorie Information Theory is interested in the situation before the reception of a symbol, rather than the symbol itself (Oakes) Information und Informatik: Binarität. Entropie H=Anzahl der nötigen Binärentscheidungen. log 2 aufgrund der Binarität. Es gilt:

8 Gerold Schneider: Korpuslinguistik für Computerlinguistik, III8 Informationstheorie: Entropie Spezialfall: Equiprobabilität (alle p(x) gleich: p(x)=1/X)) p * Baumtiefe B = log 2 X = - log 2 (1/X) drückt aus: 2 B = X B = # Binärentscheidungen=Pfadlänge=Baumtiefe E.g. log 2 256= - log 2 (1/256) = 8 Bei Nicht-Equiprobabilität gewichtet mit p(x): Tieferer Baum für seltenes, den tieferen Baum selten nehmen optimale Bitkürze Perplexity(X) = 2 H = Durchschnittliche Pfadlänge

9 Gerold Schneider: Korpuslinguistik für Computerlinguistik, III9 Informationstheorie: Co-occurrence, Statistische Tests (goodness of fit) Mutual Information: Relative Entropie (Kullback-Leibler):

10 Gerold Schneider: Korpuslinguistik für Computerlinguistik, III10 Statistische Tests: 2 Basiert nicht auf Informationstheorie, sondern eher auf Standardabweichung=s, Variance=s 2 : Abweichung vom Schnitt im Quadrat, pro Anzahl Werte Chi-Quadrat= 2 : Abweichung vom Modell E im Quadrat, im Verhältnis zum jeweiligen Wert e

11 Gerold Schneider: Korpuslinguistik für Computerlinguistik, III11 Statistische Tests: G 2 = Log-likelihood Dem 2 Test eng verwandt Besonders erfolgreich für Kollokationen: E = O:w1¬w1 w2ab ¬w2cd

12 Gerold Schneider: Korpuslinguistik für Computerlinguistik, III12 Sprachmodelle: Abhängigkeiten und Unabhängigkeitsannahmen I In Bigramm-Tagger ist p(Tag) als abhängig modelliert nur vom vorhergehenden Tag: Wort: bzw.

13 Gerold Schneider: Korpuslinguistik für Computerlinguistik, III13 Sprachmodelle: Abhängigkeiten und Unabhängigkeitsannahmen II Ein vollständiges Sprachmodell berücksichtigte enorm viele weitere Abhängigkeiten: längere Distanz, Struktur,Prosodie,... die... sitzende Frau [die [... PP ] sitzende Frau NP ] DIE... sitzende Frau die auf der Bank sitzende Frau meine ich, nicht jene. Männer. Die auf der Bank sitzende Frau, auf sie wartend, suchen. Anno Domini Die auf der Bank sitzende Frau. Ora Cenae.

14 Gerold Schneider: Korpuslinguistik für Computerlinguistik, III14 Sprachmodelle: Abhängigkeiten, Komplexität, Auftretenshäufigkeit Mit zunehmender Feinheit des Sprachmodells verschlimmern sich zwei Probleme: Grösse des Suchraumes: kann schon für ein Bigramm-Modell enorm sein cutoff, dynamische Programmierung (Viterbi). Vgl. Zeitaufwand fürs Training des Brill-Taggers. Seltenes Auftreten (sparse data): schon bei Bigrammen ein Problem für p(Wort|Tag) falls Wort unbekannt. Bei Trigrammen wird ein backoff zu Bigrammen verwendet. Quadrigramme sind so sparse, dass sie keine Taggingverbesserung mehr bringen.


Herunterladen ppt "Korpuslinguistik für und mit Computerlinguistik Seminar SS 2003 Sitzung 3: Statistik, Vektoren Gerold Schneider."

Ähnliche Präsentationen


Google-Anzeigen