Statistische Verfahren zur Bestimmung von Kollokationen

Slides:



Advertisements
Ähnliche Präsentationen
T - Test Prüfung des Mittelwerteunterschieds bei abhängigen und unabhängigen Stichproben.
Advertisements

Statistische Aspekte der PSG
3. Kapitel: Komplexität und Komplexitätsklassen
Bewegungswissenschaft
Gliederung Vertrauensintervalle Arten von Hypothesen
Die t-Verteilung Jonathan Harrington.
Forschungsstatistik II
Forschungsstatistik II Prof. Dr. G. Meinhardt SS 2005 Fachbereich Sozialwissenschaften, Psychologisches Institut Johannes Gutenberg Universität Mainz KLW-24.
Forschungsstatistik II Prof. Dr. G. Meinhardt SS 2005 Fachbereich Sozialwissenschaften, Psychologisches Institut Johannes Gutenberg Universität Mainz KLW-23.
Forschungsstatistik II Prof. Dr. G. Meinhardt SS 2006 Fachbereich Sozialwissenschaften, Psychologisches Institut Johannes Gutenberg Universität Mainz KLW-18.
Computerkurs: Quantitative Auswertung biochemischer Experimente Guten Morgen.
Konfidenzintervalle für Parameter
Mehrfachregressionen
Hypothesen testen: Grundidee
Prüfung statistischer Hypothesen
Intelligentes Crawling im WWW mit Hilfe intuitiver Suchbedingungen
Nachholung der Vorlesung vom Freitag
Konfidenzintervalle Intervallschätzung
Ab nächster Woche wird die Übungsgruppe Gruppe 2: Henrike Berg Di SR 222 wegen Personalmangel eingestellt.
Kolmogorov-Smirnov-Test. A. N. Kolmogorov Geboren in Tambov, Russland. Begründer der modernen Wahrscheinlichkeitstheorie.
Test auf Normalverteilung
Klausur am :00 bis 13:00 Hörsaal Loefflerstraße und Hörsaal Makarenkostraße.
Sportwissenschaftliche Forschungsmethoden SS Statistischer Test.
Tutorium
Tutorium
Tutorium
Wiederholung und Beispiele
Bayes‘sche Verfahren (Mitchell Kap. 6), Teil 1
Maschinelles Lernen Bayessche Verfahren (Mitchell Kap. 6), Teil 1.
Vorlesung: ANOVA I
Eigenschaften der OLS-Schätzer
Multikollinearität Wann spricht man von Multikollinearität?
Wiederholung: Einfache Regressionsgleichung
Deutsch als Zweitsprache: Experimentelle Methoden WS 2013/2014
Ausgleichungsrechnung I
Ausgleichungsrechnung II
Die t-Verteilung und die Prüfstatistik
Theorien, Methoden, Modelle und Praxis
© Wortstellung im Deutschen Norbert Fries.
Black Box Algorithmen Hartmut Klauck Universität Frankfurt SS
Quantum Computing Hartmut Klauck Universität Frankfurt WS 05/
Black Box Algorithmen Hartmut Klauck Universität Frankfurt SS
Hartmut Klauck Universität Frankfurt SS
Beweissysteme Hartmut Klauck Universität Frankfurt WS 06/
Einführung in SPSS/PASW. Inhaltsübersicht 1. Intro ( ) 2. Deskriptive Statistik ( ) (In Buch 1 Seite 85ff.) Kennwerte (Erwartungswert,
Messwerte, Verteilung, Histogramm, Mittelwert und Standardabweichung
Mittelwert und Standardabweichung
Die Gaußverteilung.
Korpuslinguistik für und mit Computerlinguistik
Multivariate Verfahren der Statistik bei der quantitativen Textanalyse
Statistik: Mehr zur Regression.
Modul Statistische Datenanalyse
SStotal SStotal SStreat SSerror SStreat SSerror Biomasse (g) wenig
Wahrscheinlichkeitsrechnung
Statistische Methoden in der Wirtschafts- und Sozialgeographie
Statistik – Regression - Korrelation
Statistik – Wahrscheinlichkeit
Wiederholung/Zusammenfassung
Stochastik ganz kurz Beispiel diskret Würfelwurf Beispiel stetig
Die einfache/multiple lineare Regression
K. Desch - Statistik und Datenanalyse SS05
Die Binomialverteilung
SS 2009Maschinelles Lernen und Neural Computation 133 Kapitel 7: Ensemble Methoden.
STATISIK LV Nr.: 1375 SS März 2005.
K. Desch - Statistik und Datenanalyse SS05
Geoinformationssysteme
- Seite 1 TIME INTELLIGENCE ® by Zeichenrand – Löschen! Titel.
Spärliche Kodierung von Videos natürlicher Szenen Vortragender: Christian Fischer.
- Seite 1 TIME INTELLIGENCE ® by Titel.
Kontextualisierte Wortschatzvermittlung mit Hilfe des AWL Highlighters
 Präsentation transkript:

Statistische Verfahren zur Bestimmung von Kollokationen LV Sprachverarbeitung WS 02/03 H. Schweppe Literatur: C. Manning, H. Schütze, Foundations of Statistical NL Processing, ch. 5 ff, MIT Press, 2002

"The notion of collocation may be confusing to readers without a background in linguistics" (C.M.)

Nicht substituierbare Bestandteile: Kollokationen Allgemein: Sprachliche Ausdrücke, die aus zwei oder mehr Wörtern bestehen und einen Inhalt ausdrücken. Beispiele: starker Tobak, steife Brise, Big Blue, internationale Spitze Nicht substituierbare Bestandteile: starker Mann - kräftiger Mann, aber: starker Tobak – kräftiger Tobak ? Im Deutschen oft Komposita: Weltstandard vs. international best practice Große Ähnlichkeit zu "terminologische Phrase", "Terminus Technicus", "Namen"

Typische Eigenschaften Kollokationen Typische Eigenschaften Nicht kompositionell "Neue Schuhe" versus "Neuer Markt" Nicht substituierbar "white wine" , "yellow wine" Nicht modifizierbar "Neuer dynamischer Markt" aber "dynamischer Neuer Markt" ( Adj, Nomen) Erweiterte Definition schließt ein: Eigennamen Terminologische Ausdrücke ("test set", "program specification") Assoziative Kollokationen ("Krankenhaus – Schwester") Verb / Substantiv – Kollokationen ("Entscheidung treffen")

Kontext und Anwendungen Keine Bedeutung in strukturalistischer Linguistik à la Chomsky Anwendungen: Spracherzeugung … also auch maschinelle Übersetzung stiff breeze = starke Brise?? steifer Wind?? Korpus-Linguistik (besonders Wörterbücher) Parsen Terminologie Extraktion (in technischer Literatur) "Projektbeginn" : " Projektbeginn ist am...", "Projekt beginnt am..."

Einfachstes Verfahren: Frequenzanalyse Einfachstes Verfahren: Worthistogramm erstellen die Wörter, die häufig gemeinsam (z.B. in einem Satz, "in der Nachbarschaft" vorkommen), bilden Kollokation Unbrauchbar: C(w1,w2) w1 w2 80871 of the … 15494 to be …. 11428 New York Nach Manning, New York Times Korpus, 115 MB Text C(w1,w2): Häufigkeit des gemeinsamen Vorkommens.

A = Adjektiv, N = Nomen, P = Präposition Frequenzanalyse Wesentliche Verbesserung durch einfache Syntaxmuster (Justeson, Katz, 1995) Voraussetzung: Wörter sind markiert ("tag") Muster Beispiel A N linear function NN regression coefficient (im D Kompositum!) NAN mean square error (mittlerer quadr. Fehler) NPN degrees of freedom (Freiheitsgrade) A = Adjektiv, N = Nomen, P = Präposition

Frequenzanalyse mit Syntaxfilter NYT-Korpus (wie oben) mit Justeson / Katz Filter

Nicht substituierbare Adjektive: "strong" vs "powerful" Fast disjunkte Listen => Differenzierung der Semantik

Verbesserungen leicht möglich durch Fazit Einfache quantitative Technik (hier Frequenzfilter) kombiniert mit einfachem linguistischen Wissen liefert erstaunlich gute Ergebnisse Verbesserungen leicht möglich durch Stoppwort-Filter Lemmatisierung (Reduktion auf Stammformen) Aber: Große Trainingsmenge Bisher nur auf n-Gramme, n klein

Mittelwert und Standardabweichung Bisher: n-Gramme Syntaxmuster sonst kaum sinnvoll anwendbar(?) (oder auch reguläre Ausdrücke sinnvoll??) Alternative: Fenster der Breite b zulassen b im allgemeinen klein (5 … 10), da Kollokationen lokales Phänomen sind. Beispiel : "Projektbeginn" "Das Projekt beginnt am 1.1.2003" "Nach Verzögerungen beginnt das Projekt…" "Das Projekt, an das keiner mehr geglaubt hat, beginnt am…" "Das Projekt mit der knappsten Personalausstattung beginnt.."

Mittelwert und Standardabweichung Berechne Mittelwert und Standardabweichung der Wortabstände Im Beispiel: d = ¼ *(1+2+7+6) = 4,0 s = Ö S (di-d)2 /(n-1) = 5,1… Frequenz/Abstands-Histogramme von zu untersuchendem Wort w und anderen x,y,z sind Indiz für Kollokationen w x, w y, w z (Abb.) Hypothese - nur in homogenem Textmaterial anwendbar "Die Klasse beginnt mit einem import-…" (ok) "Die Aufführung beginnt …" (disjunkte Korpora?)

Frequenzhistogramm eines Wortes rel. zu anderen flach: keine Kollokation opposition - strong support - strong zwei Maxima: keine Kollokation for - strong

Varian und Mittelwert von Wortändenabst Mittelwert und Standard- abweichung Interpretation Kleiner mittlerer Abstand d und kleine Standardabweichung entspricht Syntaxmustern. Großer Abstand und kleine Standardabweichung -> interessant, Kollokation? Hohe Standardabweichung -> nicht interessant.

Typisches statistisches Problem: Hypothesentests Wie lassen sich zufällige Ergebnisse vermeiden? Beispiel: zufällig häufiges Auftreten von "neue" und "Firmen" , etwa in Wirtschaftsartikeln. Typisches statistisches Problem: Hypothesentests Nullhypothese: z.B. zwei zufällige Ereignisse sind unabhängig. Bestimme Wahrscheinlichkeit p, dass sie beide eintreffen, wenn Nullhypothese zutrifft. Nullhypothese zurückweisen, wenn p zu klein z.B. p <= 0,05.

Statistische Testverfahren z.B. t-Test : Hypothesentests Beispiel Hypothese: Die Wörter "new" und "companies" kommen unabhängig in Texten vor (keine Kollokation): P(w1 w2) = P(w1) P(w2) Statistische Testverfahren z.B. t-Test : Gegeben N Messungen, errechneter Mittelwert x und Varianz s2. Zu testen die Nullhypothese: Daten sind aus einer Menge mit gegebene Verteilung und Mittelwert m. Technisch: berechnen des t-Wertes: t = (x – m) /( Ö s2/N ) t-Verteilung liefert Konfidenzniveau, auf dem Nullhypothese verworfen oder akzeptiert wird.

Hypothesentest: Beispiel Beispiel wie oben: " new", "companies".... Experimentelle Daten Anzahl Wörter im Korpus: N=14.307.668 Anzahl Vorkommen: "new": 15.828 "companies": 4675 Maximum Liklihood Schätzungen P("new") = 15828/N, P("companies") = ... Nullhypothese: "new" und "companies" sind unabhängig: H0: P("new companies") = P("new")*P("companies")  3,6 * 10 -7

Hypothesentest: Beispiel Interpretation der Nullhypothese als Bernoulliprozess: zufällige Auswahl von Wortpaaren (w1,w2) mit (w1,w2) = ("new companies") = 1, 0 sonst, p = 3,6 * 10 –7 Mittelwert m = 3,6 * 10 –7 Varianz für Binominalverteilung: p(1-p)  p . 8 mal kommt das Bigramm "new companies" tatsächlich unter den 14307668 Bigrammen auf: x = 8 / 14...68  5,5* 10-7 t berechnen: t  0,999.

Beispiel: Hypothesentest Kritischer Wert für Konfidenz p = 0,995 , dass Nullhypothese zutrifft ist t0 = 2,576. Nullhypothese ist für t > t0 zurückzuweisen. Trifft hier NICHT zu => "new companies" keine Kollokation (Bestätigung der Null-Hypothese)

Kritik Hier gute Ergebnisse (Tabelle), aber viele Bi-Gramme sind nach dem Modell Kollokationen (falsches Modell?) => statistische Hypothesentests nur interessant für Rangordnung möglicher Kollokationen. Signifikanzlevel eher uninteressant.

Andere Verfahren Relative Frequenzen: Mehre Korpora Erwartet: Verhältnis der Frequenzen nahe 1 Aber: Sprachentwicklung. "Prager Fühling", "east Berliners",... Interessant, um Fachterminologie von anderen Kollokationen zu trennen. D Informationstheoretisches Maß I(w, v) = log ( P(w v) / (P(w)P(v)) ) = log (P( w|v) / P(w)) = ... "Welche Information liefert w über v bzw. v über w" Brauchbares Maß für Unabhängigkeit von w, v, aber insgesamt für Kollokations-Analyse wenig geeignet.

Allgemeines zu probabilistischen Sprachmodellen Jeder Wortfolge t = w1w2…wn wird Wahrscheinlichkeit p(t) zugeordnet Verkettung und bedingte Wahrscheinlichkeiten für Text t: p(t) = p(w1…wn) = p(w1) … p(wn|w1,…wn-1) mit p(wk | w1…wk-1) = p(w1…wk) / P(w1…wk-1)  C(w1…wk) / C(w1…wk-1) (C: Empirische Frequenzen der Folgen) Diese "Verkettungsregel" führt zu einem Historien-basierten Modell´. Historien clustern, um riesige Parametermenge zu reduzieren.

Klassische statistische Sprachmodelle n-gram Modelle Klassische statistische Sprachmodelle Jedes Wort wird in einem begrenzten Kontext entsprechen einer bedingten Wahrscheinlichkeit vorhergesagt. Tabellen… P(of|both) = 0,066 P(to|both) = 0,041 P(in|both) = 0,038 w1 w2 w3 wn n klein, lokaler Kontext.

n-gram -Modelle Fragwürdig, weil Distanz von aufeinander Einfluß habenden Wörtern SEHR groß ist. "Der Politiker, wohl wissend, dass seine anstehende Entscheidung zur Reform des Arbeitsmarktes erhebliche Auswirkung auf das Leben des Einzelnen, besonders des gering Verdienenden, haben würde, liess sich in seinem Vorhaben nicht beirren." Nützlich… … weil solche Sätze selten sind Empirische Untersuchungen: 74% Abhängigkeit zwischen benachbarten Wörtern (einfache Nominalphrasen als Wörter gezählt), 95% innerhalb 1…5 Wörtern.