Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

WS 05/06Automatische Akquisition linguistischen Wissens1 1.Was genau sind Redewendungen? 2.Wozu sind sie gut? 3.Wie kann man sie erkennen? Wie könnte man.

Ähnliche Präsentationen


Präsentation zum Thema: "WS 05/06Automatische Akquisition linguistischen Wissens1 1.Was genau sind Redewendungen? 2.Wozu sind sie gut? 3.Wie kann man sie erkennen? Wie könnte man."—  Präsentation transkript:

1 WS 05/06Automatische Akquisition linguistischen Wissens1 1.Was genau sind Redewendungen? 2.Wozu sind sie gut? 3.Wie kann man sie erkennen? Wie könnte man ein Programm schreiben, welches sie erkennt? Wie erkennt man, wie viele man schon gefunden hat? 4.Referat

2 WS 05/06Automatische Akquisition linguistischen Wissens2 1. Kollokationen, Redewendungen Opake Bedeutungskombination: mit Kind und Kegel, zwischen den Zeilen, das A und O Metaphorisch: ein Dorn im Auge, Hals über Kopf, Sturm der Entrüstung einen Strich durch die Rechnung, auf Teufel komm raus Frequenzbasiert: sage und schreibe, wie durch ein Wunder zu guter Letzt, jetzt erst recht, Weg nach oben Fraglich: bei weitem nicht, Druck von außen, aus welchen Gründen auch immer

3 WS 05/06Automatische Akquisition linguistischen Wissens Verschiedene Definitionen Firth 1957 collocation – consistent co-occurrence of a word pair within a given context … Meaning by collocation is an abstraction at the syntagmatic level and is not directly concerned with the conceptual or idea approach to the meaning of words Firth 1957: Benson, Benson and Ilson 86 Grammatical and lexical collocations –A grammatical collocation is a phrase consisting of a dominant word (noun, adjective, verb) and a preposition or grammatical structure such as an infinitive or a clause account for, adjacent to, an oath that, … –Lexical collocations consist of lexical elements with strong dependencies between them and without the possibility of exchanging any of the elements. to beat about the bush, aber nicht to beat around the bush

4 WS 05/06Automatische Akquisition linguistischen Wissens Weitere relevante Definitionen Harris 68 The structure of language can be found only from the non- equiprobability of combination of parts. This means that the description of a language is the description of contributory departures from equiprobability, and the least statement of such contributions (constraints) that is adequate to describe the sentences and discourses of the language is the most revealing. Choueka 88 A collocation is defined as a sequence of two or more consecutive words, that has characteristics of a syntactic and semantic unit, and whose exact and unambiguous meaning cannot be derived directly from the meaning or connotation of its components

5 WS 05/06Automatische Akquisition linguistischen Wissens Taxonomien von Kollokationen Gebräuchlichste Taxonomien: Einteilung in Wortarten der beteiligten Wörter –Adjektiv-Nomen Der rote Politiker –Verb-Verb gehüpft wie gesprungen –Verb-Nomen Verbindungen idiomatischen Charakters Eins hinter die Löffel bekommen Einteilung in Art der Kollokation –Grammatisch, lexikalisch Einteilung in Art der Extraktion –Frequenzbasiert, opak, metaphorisch

6 WS 05/06Automatische Akquisition linguistischen Wissens Eigenschaften Das Auftreten von Redewendungen hat unter anderem folgende Eigenschaften: (häufiges) gemeinsames Auftreten von lexikalischen Einheiten Syntaktische Einheiten –Wenn.. dann Semantische Einheiten –Katz und Maus Semantische Irregularitäten –Im Stich gelassen Syntaktische Rigidität (Armut) –*über dem Stich gelassen

7 WS 05/06Automatische Akquisition linguistischen Wissens Weitere Eigenschaften Redewendungen können syntaktisch komplett fix sein –Sie spielten Katz und Maus Oder flexibel –Er fühlte sich im Stich gelassen. – Sie liess ihn im Stich Syntaktische Restriktionen korrelieren mit dem Grad der Lexikalisierung der Redewendungen, bzw. der Wortkombination Häufiger Gebrauch von Redewendungen kann auch zu Verkürzungen und Verwortlichung führen: –nichts desto trotz (356,000) – nichtsdestotrotz (1,290,000) –und später vielleicht nichtstotrotz (0)? –Oder eher nichtsdetrotz (60)!

8 WS 05/06Automatische Akquisition linguistischen Wissens Zusammenfassung Es gibt Definitionen, die von Redewendungen als Nähe von lexikalischen Einheiten reden Es gibt Definitionen, die von syntaktischen oder semantischen Einheiten, bzw. semantischen Irregularitäten reden Terminologie Idiome: speziell in Englischer Literatur (Katz 62) Phraseologische Einheiten: vorrangig in Deutscher Literatur (Burger et al. 82, Fleischer 82) Multiwort Lexeme, Multiwort Ausdrücke, non-compositional compounds eher aus der computational linguistics Collocation von Lexikographen

9 WS 05/06Automatische Akquisition linguistischen Wissens9 2. Anwendungen Allgemeine (z.B. syntaktische) Sprachverarbeitungsysteme –Diverse Sorten von Redewendungen sind syntaktische oder semantische Anomalien, die mit normalen Regeln nicht erklärbar oder generierbar sind Maschinelle Übersetzung –Damit nicht to beat about the bush mit über den Bush schlagen übersetzt wird. Didaktik, Fremdsprachunterricht –Damit Ausländer vor allem die opaken Redewendungen lernen Werbeindustrie –Nur Sprüche, die natürlich und einprägsam sind (Geiz ist geil) verbleiben im Bewusstsein der Zielgruppe –Allerdings müssen es gleichzeitig neue Sprüche und einprägsame sein (Damit ist das eine Anomalie, weil Geiz und geil traditionell eher antonymisch sind)

10 WS 05/06Automatische Akquisition linguistischen Wissens Speicher/Ausgabeformate Für manche Zwecke muss möglichst viel explizite Information vorliegen –Welcher Art (nach welcher Taxonomie) die Redewendung ist –Welches variable, welches fixe Teile sind –Mögliche vs. unmögliche Modifikationen To beat about the bush und to mightily beat about the bush aber nicht to beat about the green bush Für andere Zwecke genügt reine Liste –Um die Elemente einer Redewendungen nicht als einzelne Wörter z.B. beim Kookkurrenzzählen zu berücksichtigen, sondern die Gesamtformulierung als solche –Um Qualität des Textes messbarer zu machen Allerdings wie sieht Eintrag für syntaktisch komplexe Redewendung in einfacher Liste aus?

11 WS 05/06Automatische Akquisition linguistischen Wissens11 3. Extraktionsmethoden Vorgehen weitgehend einheitlich: –Textkorpus zusammenstellen –Verschiedene Mittel anwenden, um Kandidaten zu finden global – es wird versucht, eine gerankte Liste von besten Kandidaten herzustellen lokal – es wird für jedes Wort untersucht, mit welchen anderen es möglicherweise in einer Redewendung steht –Kandidaten per manuelle Arbeit oder Algorithmen unifizieren er ließ mich im Stich = er lässt mich im Stich = … –Kandidaten per manuelle Arbeit verifizieren Unterschiede vor allem durch folgende Faktoren: –Größe und Qualität des Korpus –Herangehensweise: global oder lokal und welches Maß jeweils –Unifizierung: von gar keine bis manuelle

12 WS 05/06Automatische Akquisition linguistischen Wissens Globale Extraktion Kookkurrenzmessungen welche Wörter miteinander auffällig oft vorkommen, dabei –Nur die Paare auswählen, die in Frage kommen (N+V, Subj.+V,…) –die am höchsten bewerten, welche am auffälligsten miteinander vorkommen Was bedeutet auffällig? –Dazu mehrere Herangehensweisen mit steigender Komplexität –Einfluß der sehr häufigen Wörter muss nach Möglichkeit ausgeblendet werden (ohne dabei Wörter wie Haus auszublenden, die auch sehr häufig sind) –Verwendung unterschiedlicher Maße

13 WS 05/06Automatische Akquisition linguistischen Wissens Einfluss des Zipfschen Gesetzes Wortfrequenzen sind bekanntermaßen entsprechend dem Zipfschen Gesetz verteilt: Daraus folgt, dass die meisten interessanten Wörter recht selten vorkommen –Unterschied zwischen 5 oder 7 Mal miteinander vorgekommen kann bedeutsam sein (auch so, dass die 5 wichtiger ist Wie hoch ist Wahrscheinlichkeit, dass zwei zufällig gewählte Wörter mit Frequenzen A und B insgesamt C mal miteinander vorkommen in einem N großen Korpus?

14 WS 05/06Automatische Akquisition linguistischen Wissens Zipfsches Gesetz Ordnet man die Wortformen eines Textes absteigend nach ihrer Häufigkeit, so lässt sich folgende von Zipf formulierte Gesetzmäßigkeit erkennen: Der Rang einer Wortform innerhalb der Liste multipliziert mit ihrer Häufigkeit ist in etwa konstant (vgl. Zipf 1935) r n he but be friends family

15 WS 05/06Automatische Akquisition linguistischen Wissens Lokale Extraktion Im Gegensatz zur globalen Extraktion wird hier für jedes Wort einzeln untersucht, in welchen Konstruktionen es als Redewendung verwendet wird –Vorteile sind vor allem, dass evtl. wesentlich mehr gefunden wird –Nachteile sind, dass auch viel Rauschen entstehen kann, weil bei weitem nicht jedes Wort in einer Redewendung vorkommt Es wird also zusätzlich ein Mechanismus benötigt, welcher entscheidet, ob ein Wort überhaupt in Redewendungen vorkommt

16 WS 05/06Automatische Akquisition linguistischen Wissens Kontingenztabelle Wenn das Vorkommen von A und B unabhängig sind, müssten folgende Bedingungen alle auf einmal gelten: 1.p(A,B)=p(A)ּp(B) 2.p(¬A,B)=p(¬A)ּp(B) 3.p(A,¬B)=p(A)ּp(¬B) 4.p(¬A,¬B)=p(¬A)ּp(¬B)

17 WS 05/06Automatische Akquisition linguistischen Wissens Frequenzen und Signifikanzen Die Bedingungen, umgeformt in Frequenzen, ergeben die gleiche Forderung: p(A,B)=p(A)ּp(B), also n AB =(n A ּn B )/n Für die meisten interessanten Fälle wird diese Bedingung nicht eingehalten Die Frage lautet dann, um wie viel – somit würde ein Ranking nach Interessantheit möglich Bekanntestes Maß Mutual Information (MI) berechnet genau diesen Quotienten: sig MI (A,B)=log 2 (p(A,B)/(p(A) ּ p(B)))=log 2 ((nּn AB )/(n A ּn B ))

18 WS 05/06Automatische Akquisition linguistischen Wissens Was wird gemessen? Gemeinsames Vorkommen kann direkt nebeneinander, in einem Fenster oder im Satz (usw.) gemessen werden Für manche Redewendungen am besten direkt nebeneinander –Feste, starre Konstruktionen (Mann und Maus) Für andere im Fenster oder Satz –Bei variablen Konstruktionen (Im Stich …)

19 WS 05/06Automatische Akquisition linguistischen Wissens Testalgorithmus (von Prof. Quasthoff) Iterationsprozess, in jedem Schritt: –Definiere alle Paare von Wörtern als Wortgruppen, die gewissen Mindestfrequenz (10) und Mindestsignifikanz (10, log-likelihood) aufweisen –Iteriere so lange, wie neue Wortgruppen entstehen 13 | gibt es nach wie vor 13 | einen Tag der offenen Tür 11 | Tag der offenen Tür im 30 | nicht von heute auf morgen 18 | der Gewerkschaft Erziehung und Wissenschaft 27 | Die Gewerkschaft Erziehung und Wissenschaft 16 | die Gewerkschaft Erziehung und Wissenschaft –Oder auch für einzelne Wörter betrachtet: 53 | allein gelassen 26 | außer acht gelassen 82 | im Stich gelassen 10 | zu Wasser gelassen 39 | hinter sich gelassen

20 WS 05/06Automatische Akquisition linguistischen Wissens Variierende Zielstellungen Für viele Sorten expliziter Extraktion wie Verb-Nomen, Adjektiv-Nomen usw. Tagger bzw. getaggter Korpus notwendig Soll Ergebnis nur als Blacklist genutzt werden oder soll ein von Menschen benutzbares Nachschlagewerk entstehen? Sollen nur die gebräuchlichsten und wichtigsten gefunden werden oder möglichst alle? Wie hoch ist Annotierungsüberdeckung beim Menschen?

21 WS 05/06Automatische Akquisition linguistischen Wissens Probleme Redewendungen bestehen oft nicht nur aus zwei Hauptwörtern wie Stich und lassen, sondern auch aus festen Beiwörtern, in diesem Fall im Ansatz mit Signifikanzmessung lässt sich nicht ohne weiteres von 2 beteiligten Wörtern auf 3 oder mehr verallgemeinern Evtl. auch nicht notwendig: –Wenn A und B in einer Redewendung sind, sowie auch A und C, ist vermutlich ABC eine Redewendung. Tritt B und C miteinander auf? –Stich ließ 31- fühlte gelassen 13 –Stich fühlte 21- ließ fühlte 34 –Stich gelassen 56- ließ gelassen 0 Fazit: Stich, fühlen und lassen bilden wahrscheinlich eine Redewendung, allerdings nicht z.B. Stich, lassen, lassen

22 WS 05/06Automatische Akquisition linguistischen Wissens Probleme mit Frequenzen Oft sind Funktionswörter wie und in Katz und Maus fester Bestandteil der Redewendungen Auf der anderen Seite können auch sehr seltene Wörter in Redewendungen vorkommen oder aber Wörter, deren Hauptbedeutung(en) (eine) andere ist: –über den Jordan: Frequenz 4693 Kookkurrenzen von Jordan: Williams Frentzen Vernon Air Ferrari Bulls Benetton Mejias Michael Sauber BAR NBA McLaren-Mercedes Arrows Wizards McLaren Frentzens Jörg-Uwe Konstrukteurswertung Team Minardi Saison Abdulateef Mittelmeer

23 WS 05/06Automatische Akquisition linguistischen Wissens Unifizierung Ich fühle mich im Stich gelassen und ließ ihn im Stich Auf alle Fälle ist es das gleiche wie Auf jeden Fall Mögliche Hypothesen: Vielleicht ein Kern mit optionalen Modifizierern und Konnektoren an Kontexte? Vielleicht je zwei verschiedene Redewendungen? Vielleicht Begriff von Redewendung inhärent unscharf?

24 WS 05/06Automatische Akquisition linguistischen Wissens Unifizierung durch Kernwörter Bei vielen Redewendungen lassen sich Kernwörter identifizieren (Im Stich gelassen fühlen) Durch Grundformreduzierung können morphologische Varianten reduziert werden –Im Stich gelassen fühlen Stich, lassen, fühlen –fühlte sich im Stich gelassen fühlen, Stich, lassen –ließ ihn im Stich lassen, Stich –… Fazit: Zwei Redewendungen –Stich, lassen, fühlen –lassen, Stich Weiter unifizieren?

25 WS 05/06Automatische Akquisition linguistischen Wissens Manuelle Unifizierung Manuelle Unifizierung kann unterstützt werden –Belegstellenanzeige –Zusammensortierung vermuteter Unifizierungskandidaten Durch Grundformreduzierung Clustering (siehe auch Berechnung ähnlicher Wörter) Editierabstand Problem, wenn kein Kern erkennbar: –so weit so gut –nichts desto trotz Evtl. für diese globaler Ansatz besser geeignet (nur aufgrund hoher Frequenz nicht mit Mutual Information)

26 WS 05/06Automatische Akquisition linguistischen Wissens26 Referat Evert, Krenn papers Weiterführung des Themas verschiedene Masse, konkret –t-score, –Vergleich frequency zu anderen, –log-likelihood, –Chi-Square test –Mutual Information –(ESSLLI Foliensätze 1-5 und Krenn_Evert_2001.pdf) Evaluierungsmethoden (Evert_Krenn_2001.pdf) nicht notwendig auf Tagging einzugehen Vorführen: Ergebnisse von zwei verschiedenen Maßen auf Testkorpus ohne Unifizierung oder Tagging (bzw. freiwillig)

27 WS 05/06Automatische Akquisition linguistischen Wissens27 Quellen 1.www.collocations.de 2.http://wortschatz.uni-leipzig.de/html/infos/info_104.html


Herunterladen ppt "WS 05/06Automatische Akquisition linguistischen Wissens1 1.Was genau sind Redewendungen? 2.Wozu sind sie gut? 3.Wie kann man sie erkennen? Wie könnte man."

Ähnliche Präsentationen


Google-Anzeigen