Automatische Akquisition linguistischen Wissens

Automatische Akquisition linguistischen Wissens
Was genau sind Redewendungen? Wozu sind sie gut? Wie kann man sie erkennen? Wie könnte man ein Programm schreiben, welches sie erkennt? Wie erkennt man, wie viele man schon gefunden hat? Referat WS 05/06 Automatische Akquisition linguistischen Wissens

1. Kollokationen, Redewendungen
Opake Bedeutungskombination: mit Kind und Kegel, zwischen den Zeilen, das A und O Metaphorisch: ein Dorn im Auge, Hals über Kopf, Sturm der Entrüstung einen Strich durch die Rechnung, auf Teufel komm raus Frequenzbasiert: sage und schreibe, wie durch ein Wunder zu guter Letzt, jetzt erst recht, Weg nach oben Fraglich: bei weitem nicht, Druck von außen, aus welchen Gründen auch immer WS 05/06 Automatische Akquisition linguistischen Wissens

1.1. Verschiedene Definitionen
Firth 1957 collocation – consistent co-occurrence of a word pair within a given context … Meaning by collocation is an abstraction at the syntagmatic level and is not directly concerned with the conceptual or idea approach to the meaning of words Firth 1957: Benson, Benson and Ilson 86 Grammatical and lexical collocations A grammatical collocation is a phrase consisting of a dominant word (noun, adjective, verb) and a preposition or grammatical structure such as an infinitive or a clause account for, adjacent to, an oath that, … Lexical collocations consist of lexical elements with strong dependencies between them and without the possibility of exchanging any of the elements. to beat about the bush, aber nicht to beat around the bush WS 05/06 Automatische Akquisition linguistischen Wissens

1.2. Weitere relevante Definitionen
Harris 68 The structure of language can be found only from the non-equiprobability of combination of parts. This means that the description of a language is the description of contributory departures from equiprobability, and the least statement of such contributions (constraints) that is adequate to describe the sentences and discourses of the language is the most revealing. Choueka 88 A collocation is defined as a sequence of two or more consecutive words, that has characteristics of a syntactic and semantic unit, and whose exact and unambiguous meaning cannot be derived directly from the meaning or connotation of its components WS 05/06 Automatische Akquisition linguistischen Wissens

1.3. Taxonomien von Kollokationen
Gebräuchlichste Taxonomien: Einteilung in Wortarten der beteiligten Wörter Adjektiv-Nomen Der rote Politiker Verb-Verb gehüpft wie gesprungen Verb-Nomen Verbindungen idiomatischen Charakters Eins hinter die Löffel bekommen Einteilung in Art der Kollokation Grammatisch, lexikalisch Einteilung in Art der Extraktion Frequenzbasiert, opak, metaphorisch WS 05/06 Automatische Akquisition linguistischen Wissens

1.4. Eigenschaften Das Auftreten von Redewendungen hat unter anderem folgende Eigenschaften: (häufiges) gemeinsames Auftreten von lexikalischen Einheiten Syntaktische Einheiten Wenn .. dann Semantische Einheiten Katz und Maus Semantische Irregularitäten Im Stich gelassen Syntaktische Rigidität (Armut) *über dem Stich gelassen WS 05/06 Automatische Akquisition linguistischen Wissens

1.5. Weitere Eigenschaften
Redewendungen können syntaktisch komplett fix sein Sie spielten Katz und Maus Oder flexibel Er fühlte sich im Stich gelassen. – Sie liess ihn im Stich Syntaktische Restriktionen korrelieren mit dem Grad der Lexikalisierung der Redewendungen, bzw. der Wortkombination Häufiger Gebrauch von Redewendungen kann auch zu Verkürzungen und „Verwortlichung“ führen: nichts desto trotz (356,000) → nichtsdestotrotz (1,290,000) und später vielleicht nichtstotrotz (0)? Oder eher nichtsdetrotz (60)! WS 05/06 Automatische Akquisition linguistischen Wissens

1.6. Zusammenfassung Es gibt Definitionen, die von Redewendungen als Nähe von lexikalischen Einheiten reden Es gibt Definitionen, die von syntaktischen oder semantischen Einheiten, bzw. semantischen Irregularitäten reden Terminologie Idiome: speziell in Englischer Literatur (Katz 62) Phraseologische Einheiten: vorrangig in Deutscher Literatur (Burger et al. 82, Fleischer 82) Multiwort Lexeme, Multiwort Ausdrücke, non-compositional compounds eher aus der computational linguistics Collocation von Lexikographen WS 05/06 Automatische Akquisition linguistischen Wissens

2. Anwendungen Allgemeine (z.B. syntaktische) Sprachverarbeitungsysteme Diverse Sorten von Redewendungen sind syntaktische oder semantische Anomalien, die mit normalen Regeln nicht erklärbar oder generierbar sind Maschinelle Übersetzung Damit nicht „to beat about the bush“ mit „über den Bush schlagen“ übersetzt wird. Didaktik, Fremdsprachunterricht Damit Ausländer vor allem die opaken Redewendungen lernen Werbeindustrie Nur Sprüche, die natürlich und einprägsam sind (Geiz ist geil) verbleiben im Bewusstsein der Zielgruppe Allerdings müssen es gleichzeitig neue Sprüche und einprägsame sein (Damit ist das eine Anomalie, weil Geiz und geil traditionell eher antonymisch sind) WS 05/06 Automatische Akquisition linguistischen Wissens

2.1. Speicher/Ausgabeformate
Für manche Zwecke muss möglichst viel explizite Information vorliegen Welcher Art (nach welcher Taxonomie) die Redewendung ist Welches variable, welches fixe Teile sind Mögliche vs. unmögliche Modifikationen „To beat about the bush“ und „to mightily beat about the bush“ aber nicht „to beat about the green bush“ Für andere Zwecke genügt reine Liste Um die Elemente einer Redewendungen nicht als einzelne Wörter z.B. beim Kookkurrenzzählen zu berücksichtigen, sondern die Gesamtformulierung als solche Um Qualität des Textes messbarer zu machen Allerdings wie sieht Eintrag für syntaktisch komplexe Redewendung in einfacher Liste aus? WS 05/06 Automatische Akquisition linguistischen Wissens

3. Extraktionsmethoden Vorgehen weitgehend einheitlich: Textkorpus zusammenstellen Verschiedene Mittel anwenden, um Kandidaten zu finden global – es wird versucht, eine gerankte Liste von besten Kandidaten herzustellen lokal – es wird für jedes Wort untersucht, mit welchen anderen es möglicherweise in einer Redewendung steht Kandidaten per manuelle Arbeit oder Algorithmen unifizieren „er ließ mich im Stich“ = „er lässt mich im Stich“ = … Kandidaten per manuelle Arbeit verifizieren Unterschiede vor allem durch folgende Faktoren: Größe und Qualität des Korpus Herangehensweise: global oder lokal und welches Maß jeweils Unifizierung: von gar keine bis manuelle WS 05/06 Automatische Akquisition linguistischen Wissens

3.1. Globale Extraktion Kookkurrenzmessungen welche Wörter miteinander auffällig oft vorkommen, dabei Nur die Paare auswählen, die in Frage kommen (N+V, Subj.+V,…) die am höchsten bewerten, welche am auffälligsten miteinander vorkommen Was bedeutet auffällig? Dazu mehrere Herangehensweisen mit steigender Komplexität Einfluß der sehr häufigen Wörter muss nach Möglichkeit ausgeblendet werden (ohne dabei Wörter wie Haus auszublenden, die auch sehr häufig sind) Verwendung unterschiedlicher Maße WS 05/06 Automatische Akquisition linguistischen Wissens

3.1.1. Einfluss des Zipfschen Gesetzes
Wortfrequenzen sind bekanntermaßen entsprechend dem Zipfschen Gesetz verteilt: Daraus folgt, dass die meisten „interessanten“ Wörter recht selten vorkommen Unterschied zwischen 5 oder 7 Mal miteinander vorgekommen kann bedeutsam sein (auch so, dass die 5 wichtiger ist Wie hoch ist Wahrscheinlichkeit, dass zwei zufällig gewählte Wörter mit Frequenzen A und B insgesamt C mal miteinander vorkommen in einem N großen Korpus? WS 05/06 Automatische Akquisition linguistischen Wissens

Zipfsches Gesetz Ordnet man die Wortformen eines Textes absteigend nach ihrer Häufigkeit, so lässt sich folgende von Zipf formulierte Gesetzmäßigkeit erkennen: Der Rang einer Wortform innerhalb der Liste multipliziert mit ihrer Häufigkeit ist in etwa konstant (vgl. Zipf 1935).  10 100 1.000 10.000 r n he but be friends family WS 05/06 Automatische Akquisition linguistischen Wissens

3.2. Lokale Extraktion Im Gegensatz zur globalen Extraktion wird hier für jedes Wort einzeln untersucht, in welchen Konstruktionen es als Redewendung verwendet wird Vorteile sind vor allem, dass evtl. wesentlich mehr gefunden wird Nachteile sind, dass auch viel Rauschen entstehen kann, weil bei weitem nicht jedes Wort in einer Redewendung vorkommt Es wird also zusätzlich ein Mechanismus benötigt, welcher entscheidet, ob ein Wort überhaupt in Redewendungen vorkommt WS 05/06 Automatische Akquisition linguistischen Wissens

3.3. Kontingenztabelle Wenn das Vorkommen von A und B unabhängig sind, müssten folgende Bedingungen alle auf einmal gelten: p(A,B)=p(A)ּp(B) p(¬A,B)=p(¬A)ּp(B) p(A,¬B)=p(A)ּp(¬B) p(¬A,¬B)=p(¬A)ּp(¬B) WS 05/06 Automatische Akquisition linguistischen Wissens

3.3.1. Frequenzen und Signifikanzen
Die Bedingungen, umgeformt in Frequenzen, ergeben die gleiche Forderung: p(A,B)=p(A)ּp(B), also nAB=(nAּnB)/n Für die meisten „interessanten“ Fälle wird diese Bedingung nicht eingehalten Die Frage lautet dann, um wie viel – somit würde ein Ranking nach „Interessantheit“ möglich Bekanntestes Maß Mutual Information (MI) berechnet genau diesen Quotienten: sigMI(A,B)=log2(p(A,B)/(p(A) ּ p(B)))=log2((nּnAB)/(nAּnB)) WS 05/06 Automatische Akquisition linguistischen Wissens

Was wird gemessen? Gemeinsames Vorkommen kann direkt nebeneinander, in einem Fenster oder im Satz (usw.) gemessen werden Für manche Redewendungen am besten direkt nebeneinander Feste, starre Konstruktionen (Mann und Maus) Für andere im Fenster oder Satz Bei variablen Konstruktionen (Im Stich …) WS 05/06 Automatische Akquisition linguistischen Wissens

3.3.3. Testalgorithmus (von Prof. Quasthoff)
Iterationsprozess, in jedem Schritt: Definiere alle Paare von Wörtern als Wortgruppen, die gewissen Mindestfrequenz (10) und Mindestsignifikanz (10, log-likelihood) aufweisen Iteriere so lange, wie neue Wortgruppen entstehen 13 | gibt es nach wie vor 13 | einen Tag der offenen Tür 11 | Tag der offenen Tür im 30 | nicht von heute auf morgen 18 | der Gewerkschaft Erziehung und Wissenschaft 27 | Die Gewerkschaft Erziehung und Wissenschaft 16 | die Gewerkschaft Erziehung und Wissenschaft Oder auch für einzelne Wörter betrachtet: 53 | allein gelassen 26 | außer acht gelassen 82 | im Stich gelassen 10 | zu Wasser gelassen 39 | hinter sich gelassen WS 05/06 Automatische Akquisition linguistischen Wissens

3.4. Variierende Zielstellungen
Für viele Sorten expliziter Extraktion wie Verb-Nomen, Adjektiv-Nomen usw. Tagger bzw. getaggter Korpus notwendig Soll Ergebnis nur als Blacklist genutzt werden oder soll ein von Menschen benutzbares Nachschlagewerk entstehen? Sollen nur die gebräuchlichsten und wichtigsten gefunden werden oder möglichst alle? Wie hoch ist Annotierungsüberdeckung beim Menschen? WS 05/06 Automatische Akquisition linguistischen Wissens

3.5. Probleme Redewendungen bestehen oft nicht nur aus zwei Hauptwörtern wie „Stich“ und „lassen“, sondern auch aus festen Beiwörtern, in diesem Fall „im“ Ansatz mit Signifikanzmessung lässt sich nicht ohne weiteres von 2 beteiligten Wörtern auf 3 oder mehr verallgemeinern Evtl. auch nicht notwendig: Wenn A und B in einer Redewendung sind, sowie auch A und C, ist vermutlich ABC eine Redewendung. Tritt B und C miteinander auf? Stich ließ fühlte gelassen 13 Stich fühlte ließ fühlte 34 Stich gelassen ließ gelassen 0 Fazit: Stich, fühlen und lassen bilden wahrscheinlich eine Redewendung, allerdings nicht z.B. Stich, lassen, lassen WS 05/06 Automatische Akquisition linguistischen Wissens

3.5.1. Probleme mit Frequenzen
Oft sind Funktionswörter wie „und“ in „Katz und Maus“ fester Bestandteil der Redewendungen Auf der anderen Seite können auch sehr seltene Wörter in Redewendungen vorkommen oder aber Wörter, deren Hauptbedeutung(en) (eine) andere ist: über den Jordan: Frequenz 4693 Kookkurrenzen von Jordan: Williams Frentzen Vernon Air Ferrari Bulls Benetton Mejias Michael Sauber BAR NBA McLaren-Mercedes Arrows Wizards McLaren Frentzens Jörg-Uwe Konstrukteurswertung Team Minardi Saison Abdulateef Mittelmeer WS 05/06 Automatische Akquisition linguistischen Wissens

3.6. Unifizierung „Ich fühle mich im Stich gelassen“ und „ließ ihn im Stich“ „Auf alle Fälle“ ist es das gleiche wie „Auf jeden Fall“ Mögliche Hypothesen: Vielleicht ein Kern mit optionalen Modifizierern und Konnektoren an Kontexte? Vielleicht je zwei verschiedene Redewendungen? Vielleicht Begriff von Redewendung inhärent unscharf? WS 05/06 Automatische Akquisition linguistischen Wissens

3.6.1. Unifizierung durch Kernwörter
Bei vielen Redewendungen lassen sich Kernwörter identifizieren (Im Stich gelassen fühlen) Durch Grundformreduzierung können morphologische Varianten reduziert werden Im Stich gelassen fühlen → Stich, lassen, fühlen fühlte sich im Stich gelassen → fühlen, Stich, lassen ließ ihn im Stich → lassen, Stich … Fazit: Zwei Redewendungen Stich, lassen, fühlen lassen, Stich Weiter unifizieren? WS 05/06 Automatische Akquisition linguistischen Wissens

3.6.2. Manuelle Unifizierung
Manuelle Unifizierung kann unterstützt werden Belegstellenanzeige Zusammensortierung vermuteter Unifizierungskandidaten Durch Grundformreduzierung Clustering (siehe auch Berechnung ähnlicher Wörter) Editierabstand Problem, wenn kein Kern erkennbar: so weit so gut nichts desto trotz Evtl. für diese globaler Ansatz besser geeignet (nur aufgrund hoher Frequenz nicht mit Mutual Information) WS 05/06 Automatische Akquisition linguistischen Wissens

Referat Evert, Krenn papers Weiterführung des Themas „verschiedene Masse“, konkret t-score, Vergleich frequency zu anderen, log-likelihood, Chi-Square test Mutual Information (ESSLLI Foliensätze 1-5 und Krenn_Evert_2001.pdf) Evaluierungsmethoden (Evert_Krenn_2001.pdf) nicht notwendig auf Tagging einzugehen Vorführen: Ergebnisse von zwei verschiedenen Maßen auf Testkorpus ohne Unifizierung oder Tagging (bzw. freiwillig) WS 05/06 Automatische Akquisition linguistischen Wissens

Quellen WS 05/06 Automatische Akquisition linguistischen Wissens

Automatische Akquisition linguistischen Wissens

Ähnliche Präsentationen

Präsentation zum Thema: "Automatische Akquisition linguistischen Wissens"— Präsentation transkript:

Ähnliche Präsentationen

Über Projekt

Feedback

Anmelden

Anmeldung über soziales Netzwerk:

Automatische Akquisition linguistischen Wissens

Ähnliche Präsentationen

Präsentation zum Thema: "Automatische Akquisition linguistischen Wissens"— Präsentation transkript:

Ähnliche Präsentationen

Über Projekt

Feedback