Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

Statistische Verfahren zur Bestimmung von Kollokationen LV Sprachverarbeitung WS 02/03 H. Schweppe Literatur: C. Manning, H. Schütze, Foundations of Statistical.

Ähnliche Präsentationen


Präsentation zum Thema: "Statistische Verfahren zur Bestimmung von Kollokationen LV Sprachverarbeitung WS 02/03 H. Schweppe Literatur: C. Manning, H. Schütze, Foundations of Statistical."—  Präsentation transkript:

1 Statistische Verfahren zur Bestimmung von Kollokationen LV Sprachverarbeitung WS 02/03 H. Schweppe Literatur: C. Manning, H. Schütze, Foundations of Statistical NL Processing, ch. 5 ff, MIT Press, 2002

2 hs / fub – alp3-19-Bbaum-1 2 "The notion of collocation may be confusing to readers without a background in linguistics" (C.M.)

3 hs / fub – alp3-19-Bbaum-1 3 Kollokationen  Allgemein: Sprachliche Ausdrücke, die aus zwei oder mehr Wörtern bestehen und einen Inhalt ausdrücken.  Beispiele: starker Tobak, steife Brise, Big Blue, internationale Spitze  Nicht substituierbare Bestandteile: starker Mann - kräftiger Mann, aber: starker Tobak – kräftiger Tobak ?  Im Deutschen oft Komposita: Weltstandard vs. international best practice  Große Ähnlichkeit zu "terminologische Phrase", "Terminus Technicus", "Namen"

4 hs / fub – alp3-19-Bbaum-1 4 Kollokationen  Typische Eigenschaften  Nicht kompositionell "Neue Schuhe" versus "Neuer Markt"  Nicht substituierbar "white wine", "yellow wine"  Nicht modifizierbar "Neuer dynamischer Markt" aber "dynamischer Neuer Markt" ( Adj, Nomen)  Erweiterte Definition schließt ein:  Eigennamen  Terminologische Ausdrücke ("test set", "program specification")  Assoziative Kollokationen ("Krankenhaus – Schwester")  Verb / Substantiv – Kollokationen ("Entscheidung treffen")

5 hs / fub – alp3-19-Bbaum-1 5 Kontext und Anwendungen  Keine Bedeutung in strukturalistischer Linguistik à la Chomsky  Anwendungen:  Spracherzeugung  … also auch maschinelle Übersetzung - stiff breeze = starke Brise?? steifer Wind??  Korpus-Linguistik (besonders Wörterbücher)  Parsen  Terminologie Extraktion (in technischer Literatur) "Projektbeginn" : " Projektbeginn ist am...", "Projekt beginnt am..."

6 hs / fub – alp3-19-Bbaum-1 6 Frequenzanalyse  Einfachstes Verfahren:  Worthistogramm erstellen  die Wörter, die häufig gemeinsam (z.B. in einem Satz, "in der Nachbarschaft" vorkommen), bilden Kollokation  Unbrauchbar: C(w1,w2)w1w ofthe … 15494tobe … New York Nach Manning, New York Times Korpus, 115 MB Text C(w1,w2): Häufigkeit des gemeinsamen Vorkommens.

7 hs / fub – alp3-19-Bbaum-1 7 Frequenzanalyse  Wesentliche Verbesserung durch einfache Syntaxmuster (Justeson, Katz, 1995)  Voraussetzung: Wörter sind markiert ("tag") MusterBeispiel A N linear function NN regression coefficient (im D Kompositum!) NAN mean square error (mittlerer quadr. Fehler) NPNdegrees of freedom (Freiheitsgrade) A = Adjektiv, N = Nomen, P = Präposition

8 hs / fub – alp3-19-Bbaum-1 8 Frequenzanalyse mit Syntaxfilter  NYT-Korpus (wie oben) mit Justeson / Katz Filter

9 Nicht substituierbare Adjektive: "strong" vs "powerful" Fast disjunkte Listen => Differenzierung der Semantik

10 hs / fub – alp3-19-Bbaum-1 10 Fazit  Einfache quantitative Technik (hier Frequenzfilter) kombiniert mit einfachem linguistischen Wissen liefert erstaunlich gute Ergebnisse  Verbesserungen leicht möglich durch  Stoppwort-Filter  Lemmatisierung (Reduktion auf Stammformen)  Aber:  Große Trainingsmenge  Bisher nur auf n-Gramme, n klein

11 hs / fub – alp3-19-Bbaum-1 11 Mittelwert und Standardabweichung  Bisher: n-Gramme  Syntaxmuster sonst kaum sinnvoll anwendbar(?) (oder auch reguläre Ausdrücke sinnvoll??)  Alternative: Fenster der Breite b zulassen  b im allgemeinen klein (5 … 10), da Kollokationen lokales Phänomen sind.  Beispiel : "Projektbeginn" - "Das Projekt beginnt am " - "Nach Verzögerungen beginnt das Projekt…" - "Das Projekt, an das keiner mehr geglaubt hat, beginnt am…" - "Das Projekt mit der knappsten Personalausstattung beginnt.."

12 hs / fub – alp3-19-Bbaum-1 12 Mittelwert und Standardabweichung  Berechne Mittelwert und Standardabweichung der Wortabstände  Im Beispiel: d = ¼ *( ) = 4,0 s =   (di-d)2 /(n-1) = 5,1…  Frequenz/Abstands-Histogramme von zu untersuchendem Wort w und anderen x,y,z sind Indiz für Kollokationen w x, w y, w z (Abb.)  Hypothese - nur in homogenem Textmaterial anwendbar "Die Klasse beginnt mit einem import-…" (ok) "Die Aufführung beginnt …" (disjunkte Korpora?)

13 opposition - strong support - strong for - strong zwei Maxima: keine Kollokation flach: keine Kollokation Frequenzhistogramm eines Wortes rel. zu anderen

14 Varian und Mittelwert von Wortändenabst  I nte rpretation  Kleiner mittlerer Abstand d und kleine Standardabweichung entspricht Syntaxmustern.  Großer Abstand und kleine Standardabweichung -> interessant, Kollokation?  Hohe Standardabweichung -> nicht interessant. Mittelwert und Standard- abweichung

15 hs / fub – alp3-19-Bbaum-1 15 Hypothesentests  Wie lassen sich zufällige Ergebnisse vermeiden? Beispiel: zufällig häufiges Auftreten von "neue" und "Firmen", etwa in Wirtschaftsartikeln.  Typisches statistisches Problem: Hypothesentests  Nullhypothese: z.B. zwei zufällige Ereignisse sind unabhängig.  Bestimme Wahrscheinlichkeit p, dass sie beide eintreffen, wenn Nullhypothese zutrifft.  Nullhypothese zurückweisen, wenn p zu klein z.B. p <= 0,05.

16 hs / fub – alp3-19-Bbaum-1 16 Hypothesentests  Beispiel Hypothese: Die Wörter "new" und "companies" kommen unabhängig in Texten vor (keine Kollokation): P(w1 w2) = P(w1) P(w2)  Statistische Testverfahren z.B. t-Test :  Gegeben N Messungen, errechneter Mittelwert x und Varianz s 2.  Zu testen die Nullhypothese: Daten sind aus einer Menge mit gegebene Verteilung und Mittelwert .  Technisch: berechnen des t-Wertes: t = (x –  ) /(  s 2 /N )  t-Verteilung liefert Konfidenzniveau, auf dem Nullhypothese verworfen oder akzeptiert wird.

17 hs / fub – alp3-19-Bbaum-1 17 Hypothesentest: Beispiel  Beispiel wie oben: " new", "companies"....  Experimentelle Daten  Anzahl Wörter im Korpus: N=  Anzahl Vorkommen: "new": "companies": 4675  Maximum Liklihood Schätzungen P("new") = 15828/N, P("companies") =...  Nullhypothese: "new" und "companies" sind unabhängig: H 0 : P("new companies") = P("new")*P("companies")  3,6 * 10 -7

18 hs / fub – alp3-19-Bbaum-1 18 Hypothesentest: Beispiel  Interpretation der Nullhypothese als Bernoulliprozess: zufällige Auswahl von Wortpaaren (w1,w2) mit (w1,w2) = ("new companies") = 1, 0 sonst, p = 3,6 * 10 –7  Mittelwert  = 3,6 * 10 –7 Varianz für Binominalverteilung: p(1-p)  p.  8 mal kommt das Bigramm "new companies" tatsächlich unter den Bigrammen auf: x = 8 /  5,5*  t berechnen: t  0,999.

19 hs / fub – alp3-19-Bbaum-1 19 Beispiel: Hypothesentest  Kritischer Wert für Konfidenz p = 0,995, dass Nullhypothese zutrifft ist t 0 = 2,576.  Nullhypothese ist für t > t 0 zurückzuweisen. Trifft hier NICHT zu => "new companies" keine Kollokation (Bestätigung der Null-Hypothese)

20 Kritik  Hier gute Ergebnisse (Tabelle), aber viele Bi-Gramme sind nach dem Modell Kollokationen (falsches Modell?)  => statistische Hypothesentests nur interessant für Rangordnung möglicher Kollokationen. Signifikanzlevel eher uninteressant.

21 hs / fub – alp3-19-Bbaum-1 21 Andere Verfahren  Relative Frequenzen:  Mehre Korpora  Erwartet: Verhältnis der Frequenzen nahe 1  Aber: Sprachentwicklung. "Prager Fühling", "east Berliners",...  Interessant, um Fachterminologie von anderen Kollokationen zu trennen. D  Informationstheoretisches Maß I(w, v) = log ( P(w v) / (P(w)P(v)) ) = log (P( w|v) / P(w)) =... "Welche Information liefert w über v bzw. v über w"  Brauchbares Maß für Unabhängigkeit von w, v, aber insgesamt für Kollokations-Analyse wenig geeignet.

22 hs / fub – alp3-19-Bbaum-1 22 Allgemeines zu probabilistischen Sprachmodellen  Jeder Wortfolge t = w1w2…wn wird Wahrscheinlichkeit p(t) zugeordnet  Verkettung und bedingte Wahrscheinlichkeiten für Text t: p(t) = p(w1…wn) = p(w1) … p(wn|w1,…wn-1) mit p(wk | w1…wk-1) = p(w1…wk) / P(w1…wk-1)  C(w1…wk) / C(w1…wk-1) (C: Empirische Frequenzen der Folgen)  Diese "Verkettungsregel" führt zu einem Historien-basierten Modell´.  Historien clustern, um riesige Parametermenge zu reduzieren.

23 hs / fub – alp3-19-Bbaum-1 23 n-gram Modelle  Klassische statistische Sprachmodelle  Jedes Wort wird in einem begrenzten Kontext entsprechen einer bedingten Wahrscheinlichkeit vorhergesagt.  Tabellen…  P(of|both)=0,066  P(to|both)=0,041  P(in|both)=0,038 w1w2w3wn n klein, lokaler Kontext.

24 hs / fub – alp3-19-Bbaum-1 24 n-gram -Modelle  Fragwürdig, weil Distanz von aufeinander Einfluß habenden Wörtern SEHR groß ist. "Der Politiker, wohl wissend, dass seine anstehende Entscheidung zur Reform des Arbeitsmarktes erhebliche Auswirkung auf das Leben des Einzelnen, besonders des gering Verdienenden, haben würde, liess sich in seinem Vorhaben nicht beirren."  Nützlich…  … weil solche Sätze selten sind  Empirische Untersuchungen: 74% Abhängigkeit zwischen benachbarten Wörtern (einfache Nominalphrasen als Wörter gezählt), 95% innerhalb 1…5 Wörtern.


Herunterladen ppt "Statistische Verfahren zur Bestimmung von Kollokationen LV Sprachverarbeitung WS 02/03 H. Schweppe Literatur: C. Manning, H. Schütze, Foundations of Statistical."

Ähnliche Präsentationen


Google-Anzeigen