Korpuslinguistik für und mit Computerlinguistik

Slides:



Advertisements
Ähnliche Präsentationen
Bayes Netze Seminar: Transkription in Sprachsynthese und -erkennung
Advertisements

Knapsack & Bin Packing Sebastian Stober
Vorlesung Programmieren II
Heute 1.F – Test zur Varianzhomogenität 2.Bartlett-Test zur Varianzhomogenität 3.Chi – Quadrat Tests für Häufigkeiten 4.Chi – Quadrat Tests zur Verteilungsanpassung.
Statistische Methoden in der Hochenergiephysik
Der Binomialtest Man habe einen wahren Anteil P.
Prof. Dr. S. Albers Prof. Dr. Th. Ottmann
Vorlesung Informatik 2 Algorithmen und Datenstrukturen (19 - Analyse natürlicher Bäume) Prof. Th. Ottmann.
Algorithmentheorie 7 – Bin Packing
Beata Kouchnir1 Part-of-Speech Tagging Eine Übersicht über verschiedene Ansätze sowie eine theoretische Beschreibung des TnT-Taggers von Thorsten.
Cs104 Programmieren II / cs108 Programmier-Projekt Präsentation Meilenstein 3 Frühjahrsemester 2011 Javatan (Gruppe Nr. 2) Mirco Spindler Rebecca Quek.
Gesunder Mensch im gesunden Unternehmen
Statistische Methoden II SS 2007 Vorlesung:Prof. Dr. Michael Schürmann Zeit:Freitag (Pause: ) Ort:Hörsaal Loefflerstraße Übungen.
Statistische Methoden II SS 2008
Die Vorlesung Statistische Methoden II findet am (nächste Woche) wegen der Projektwoche nicht wegen der Projektwoche nicht statt.
Statistische Methoden II SS 2007 Vorlesung:Prof. Dr. Michael Schürmann Zeit:Freitag (Pause: ) Ort:Hörsaal Loefflerstraße Übungen.
Statistische Methoden I WS 2007/2008 Donnerstag, 31. Januar 2008 und Freitag, 1. Februar 2008 Probeklausur - statt Vorlesungen -
Statistische Methoden I SS 2005 Vorlesung:Prof. Dr. Michael Schürmann Zeit:Freitag (Pause: ) Ort:Hörsaal Loefflerstraße Übungen.
4. Markov-Ketten 4.1. Übergangsmatrizen
Kolmogorov-Smirnov-Test. A. N. Kolmogorov Geboren in Tambov, Russland. Begründer der modernen Wahrscheinlichkeitstheorie.
Statistische Methoden I WS 2007/2008 Donnerstag, 31. Januar 2008 und Freitag, 1. Februar 2008 Probeklausur nächste Woche - statt Vorlesungen -
Statistische Methoden II SS 2003 Vorlesung:Prof. Dr. Michael Schürmann Zeit:Freitag (Pause: ) Ort:Hörsaal Loefflerstraße Übungen.
III. Induktive Statistik
Probeklausur Die Probeklausur findet am anstelle der Vorlesung statt. 13. Juni 2003 Nächste Woche!!
Statistische Methoden I WS 2002/2003 Probeklausur Freitag, 13. Dezember statt Vorlesung - Nächsten Freitag!!!
Tutorium
Tutorium Aufgabe 1 Informationen in Designmatrix in: - Darin sind die Prädiktoren enthalten - Aber sagt uns noch mehr! Untersuchungsdesign darin.
Zur Kommunikation von Wahrscheinlichkeiten
Wiederholung und Beispiele
Bayes‘sche Verfahren (Mitchell Kap. 6), Teil 1
Maschinelles Lernen Bayessche Verfahren (Mitchell Kap. 6), Teil 1.
Vorlesung: ANOVA I
Christian Djeffal - AG ÖR III1 BOTSCHAFTSKONTENFALL BverfGE 46, 342 A.Sachverhalt B.Zulässigkeit.
Eigenschaften der OLS-Schätzer
Organisch-Chemisches Grundpraktikum
Chi Quadrat Test Tamara Katschnig.
Logistische Regression
Überblick Statistik Deskriptive Statistik=beschreibende Statistik
Effiziente Algorithmen Hartmut Klauck Universität Frankfurt SS
Black Box Algorithmen Hartmut Klauck Universität Frankfurt SS
Hartmut Klauck Universität Frankfurt SS
Information und Kommunikation Hartmut Klauck Universität Frankfurt SS
Definitionen für Wahrscheinlichkeiten
Statistische Lernmethoden
Überblick Statistik Deskriptive Statistik=beschreibende Statistik
Cs104 Programmieren II Präsentation Meilenstein 3 Sommersemester 2007 Gruppenname (Gruppe Nr. x) Name 1 (Name der/des Vortragenden unterstreichen) Name.
Cs104 Programmieren II Präsentation Meilenstein 3 Frühjahrsemester 2010 Gruppenname (Gruppe Nr. x) Name 1 Name 2 Name 3 Name 4 Logo der Gruppe.
Cs104 Programmieren II / cs108 Programmier-Projekt Präsentation Meilenstein 3 Frühjahrsemester 2011 Gruppenname (Gruppe Nr. x) Name 1 Name 2 Name 3 Name.
Modul Statistische Datenanalyse
Ökonometrie I Modellvergleich (Übersicht) Ökonometrie I2 Vergleich von Modellen Fragestellungen für Modellvergleich 1.Fehlende Regressoren.
Prädiktion und Klassifikation mit Random Forest
Wahrscheinlichkeitsrechnung
Graphen und Bäume.
cs108 Programmier-Projekt Präsentation Meilenstein 3
Befragung Verantwortlicher in der KLJB Bayern zu Glaube und Kirche 2004.
Der Zentralwert.
Statistik – Regression - Korrelation
Arzt-Patienten-Beziehung
K. Desch - Statistik und Datenanalyse SS05 Statistik und Datenanalyse 1.Wahrscheinlichkeit 2.Wahrscheinlichkeitsverteilungen 3.Monte-Carlo-Methoden 4.Statistische.
SS 2009Maschinelles Lernen und Neural Computation 133 Kapitel 7: Ensemble Methoden.
K. Desch - Statistik und Datenanalyse SS05
Information - syntaktisch
Geoinformationssysteme
TU Darmstadt FB 20 Informatik Bayes Decision Theory von Martin Tschirsich, Shuo Yang & Zijad Maxuti Hausübung 5: Erläuterung Anwendung.
 Gegenstandsbereich der Testtheorie: Analyse der Charakteristika von Tests:  Güte von Tests.  Struktur von Tests.  Schwierigkeit von Tests.  Gruppenunterschiede.
Exkurs: Chi-quadrat und Modellgüte 1. ist ein Distanzmaß, welches die Distanz zwischen Modellvorhersage und Daten misst.  Je kleiner desto besser ist.
 Präsentation transkript:

Korpuslinguistik für und mit Computerlinguistik Seminar SS 2003 Sitzung 3: Statistik, Vektoren Gerold Schneider

Gerold Schneider: Korpuslinguistik für Computerlinguistik, III Übersicht Wahrscheinlichkeitsrechnung Maximum Likelihood Estimation (MLE) Informationstheorie Statistische Tests Sprachmodelle Vektoren (Igor) Gerold Schneider: Korpuslinguistik für Computerlinguistik, III

Bedingte Wahrscheinlichkeit Zusatzinfo verändert Wahrscheinlichkeit Priori und posteriori Wahrscheinlichkeit Definition: mehr B auch in A mehr B ausser-halb A Gerold Schneider: Korpuslinguistik für Computerlinguistik, III

Bedingte Wahrscheinlichkeit: Bayes' Gerold Schneider: Korpuslinguistik für Computerlinguistik, III

Bayes: Medizinische Tests als Beispiel Eine seltene Krankheit befällt 0.2 % der Bevölkerung: P(I)=.002 Die Erkennungsrate des Tests ist 98 %: P(⊕|I)=.98, P(⊕|I')=.02 Mein Test sagt ⊕! Wie gross ist die Gefahr, dass ich krank bin? Bayes: krank (I), richtig erkannt (⊕|I) P(⊕) = ?. 2 Wege zu ⊕ gesund (I'), nur falsch gestestet (⊕|I') Gerold Schneider: Korpuslinguistik für Computerlinguistik, III

Maximum Likelihood Estimation (MLE) Eine einfache Methode, (bedingte) Wahrscheinlichkeiten aufgrund von empirischen Daten zu schätzen (estimate). Wir kennen die „wirklichen“ Wahrscheinlichkeiten nicht, aber wir beobachten empirische Werte. Wir nehmen an, dass diese mit grösster Wahrscheinlichkeit (maximum likelihood) die „wirklichen“ Wahrscheinlichkeiten annähern. Statt freq oft auch f oder # (number of) oder C (count) Gerold Schneider: Korpuslinguistik für Computerlinguistik, III

Gerold Schneider: Korpuslinguistik für Computerlinguistik, III Informationstheorie „Information Theory is interested in the situation before the reception of a symbol, rather than the symbol itself“ (Oakes) Information und Informatik: Binarität. Entropie H=Anzahl der nötigen Binärentscheidungen. log2 aufgrund der Binarität. Es gilt: Gerold Schneider: Korpuslinguistik für Computerlinguistik, III

Informationstheorie: Entropie Spezialfall: Equiprobabilität (alle p(x) gleich: p(x)=1/X)) p * Baumtiefe B = log2 X = - log2 (1/X) drückt aus: 2B = X  B = # Binärentscheidungen=Pfadlänge=Baumtiefe E.g. log2 256= - log2 (1/256) = 8 Bei Nicht-Equiprobabilität gewichtet mit p(x): „Tieferer Baum für seltenes, den tieferen Baum selten nehmen“  optimale Bitkürze Perplexity(X) = 2H = Durchschnittliche Pfadlänge Gerold Schneider: Korpuslinguistik für Computerlinguistik, III

Gerold Schneider: Korpuslinguistik für Computerlinguistik, III Informationstheorie: Co-occurrence, Statistische Tests („goodness of fit“) Mutual Information: Relative Entropie (Kullback-Leibler): Gerold Schneider: Korpuslinguistik für Computerlinguistik, III

Gerold Schneider: Korpuslinguistik für Computerlinguistik, III Statistische Tests: 2 Basiert nicht auf Informationstheorie, sondern eher auf Standardabweichung=s, Variance=s2: Abweichung vom Schnitt im Quadrat, pro Anzahl Werte Chi-Quadrat= 2: Abweichung vom Modell E im Quadrat, im Verhältnis zum jeweiligen Wert e Gerold Schneider: Korpuslinguistik für Computerlinguistik, III

Statistische Tests: G2 = Log-likelihood Dem 2 Test eng verwandt Besonders erfolgreich für Kollokationen: E = O: w1 ¬w1 w2 a b ¬w2 c d Gerold Schneider: Korpuslinguistik für Computerlinguistik, III

Sprachmodelle: Abhängigkeiten und Unabhängigkeitsannahmen I In Bigramm-Tagger ist p(Tag) als abhängig modelliert nur vom vorhergehenden Tag: Wort: bzw. Gerold Schneider: Korpuslinguistik für Computerlinguistik, III

Sprachmodelle: Abhängigkeiten und Unabhängigkeitsannahmen II Ein „vollständiges“ Sprachmodell berücksichtigte enorm viele weitere Abhängigkeiten: längere Distanz, Struktur,Prosodie,... die ... sitzende Frau [die [...PP] sitzende Frau NP] DIE ... sitzende Frau die auf der Bank sitzende Frau meine ich, nicht jene. Männer. Die auf der Bank sitzende Frau, auf sie wartend, suchen. Anno Domini 1712. Die auf der Bank sitzende Frau. Ora Cenae. Gerold Schneider: Korpuslinguistik für Computerlinguistik, III

Sprachmodelle: Abhängigkeiten, Komplexität, Auftretenshäufigkeit Mit zunehmender Feinheit des Sprachmodells verschlimmern sich zwei Probleme: Grösse des Suchraumes: kann schon für ein Bigramm-Modell enorm sein  cutoff, dynamische Programmierung (Viterbi). Vgl. Zeitaufwand fürs Training des Brill-Taggers. Seltenes Auftreten (sparse data): schon bei Bigrammen ein Problem für p(Wort|Tag) falls Wort unbekannt. Bei Trigrammen wird ein backoff zu Bigrammen verwendet. Quadrigramme sind so sparse, dass sie keine Taggingverbesserung mehr bringen. Gerold Schneider: Korpuslinguistik für Computerlinguistik, III