Automatische Akquisition linguistischen Wissens

Slides:

Advertisements

Ähnliche Präsentationen

Polynomial Root Isolation

Advertisements

Suche in Texten (Stringsuche )

Seminar Textmining WS 06/07 Themen Übung 9 Multilingualität Weitere Termine: 13.7.Symbolfolgen und PageRank Findlinks mitstreiter gesucht!

WS 05/06Automatische Akquisition linguistischen Wissens1 Vollautomatisches bestimmen von Relationen 1.Anforderungen Welches Wissen und welches nicht Komplexitätsprobleme.

Automatische Akquisition linguistischen Wissens

WS 05/06Automatische Akquisition linguistischen Wissens1 Partielles Wissen erweitern 1.Zusammenhang mit bisherigen Algorithmen 2.Vom offensichtlichen zum.

Automatische Akquisition linguistischen Wissens

Automatische Akquisition linguistischen Wissens

Automatische Akquisition linguistischen Wissens

Genetische Algorithmen für die Variogrammanpassung

Maschinelle Übersetzung I

Genetische Algorithmen

Algorithmentheorie 04 –Hashing

Kapitel 5 Stetigkeit.

Intelligentes Crawling im WWW mit Hilfe intuitiver Suchbedingungen

Was ich gern lese Lesetagebuch von

Nützlichkeit statistischer Phrasen in der Textklassifikation

Abkürzungen mit Präpositionen German Prepositional Contractions

Automatische Übersetzungen mit Google

Infinitivkonstruktionen

You need to use your mouse to see this presentation © Heidi Behrens.

You need to use your mouse to see this presentation © Heidi Behrens.

Black Box Algorithmen Hartmut Klauck Universität Frankfurt SS

Hartmut Klauck Universität Frankfurt SS

Beweissysteme Hartmut Klauck Universität Frankfurt WS 06/

Mittwoch: LT: Infinitive clauses

Der ideale Mitarbeiter

Wahrscheinlichkeitsrechnung

Meine Lernziele.

Malcolm – 1. Teil Malcolm interpretiert Descartes mit Blick auf die Frage nach der Natur des Denkens (dem cogito) folgendermaßen: Jeder mentale oder bewusste.

Niklas: Was möchte ___________ (your) Schwester denn zum Geburtstag?

Using latent semantic analysis to find different names for the same entity in free text Präsentation und Diskussion des Papers Im Rahmen des PS Web-Information.

Stadtratswahl am 7. Juni 2009 Wie werden Stimmen zu Sitzen? Hinweise zum Berechnungsverfahren.

Information Retrieval, Vektorraummodell

Da - Komponisten Deutsch macht Spaß mit Frau Boyle!

GERMAN 1013 Kapitel 2 2. Die Familie die Großeltern die Eltern die Kinder die Geschwister die Enkel der Großvater der Vater der Sohn der Bruder die Großmutter.

German Article & Adjective Combos Do you find it difficult to choose the correct adjective endings? It can help to realize that not all adjective endings.

Tasks UNDERSTAND KNOW COMPREHEND know comprehend understandit ž, n, d, c, r, s, t, a, n, d w, t žn dcr stan dwt [žn] – [dcr] – [stan] – [dwt] SELECTION.

Coordinating Conjunctions Why we need them & how to use them deutschdrang.com.

 Every part in a sentence has a grammatical function. Some common functions are: - Subject - Verb - Direct object / accusative object - Indirect object.

Grammatikalische Begriffe im Unterricht

Linking sentences or phrases together

Die Fragen Wörter Wer? Was? Wann?.

Lexikalische Semantik

Sprachprodukttechnologie SS 2001G. Heyer 1 Sprachstatistik  Grundlegende Definitionen  Alphabet Sei NL eine natürliche Sprache und sei A eine Menge von.

What is a “CASE”? in English: pronouns, certain interrogatives

What is a “CASE”? in English: pronouns, certain interrogatives

type / function / form type of words:

Kapitel 9 Grammar INDEX 1.Prepositions 2.Dative Prepositions 3.Accusative Prepositions.

Kapitel 8 Grammar INDEX 1.Command Forms: The Du-Command Form & Ihr- Command 2.Sentences & Clauses.

Vorstellen und Herleiten der Horner Schemas

Komparativ und Superlativ German 2. zum Beispiel … Ein VW ist schnell. Ein BMW ist schneller. Ein Porsche ist am Schnellsten. There are 2 levels of comparison:

Rotkäppchen: Wie sieht sie aus? Richtig oder falsch?

Kapitel 9 Grammar INDEX 1.Formal Sie- Command 2.There Is/There Are 3.Negation: Nicht/Klein.

Imperativ What is the Imperative used for?

Arbeiten mit WordSmith 4. Inhalt 1. Arbeiten mit der Funktion Wortliste (im getaggten Korpus) 1. Arbeiten mit der Funktion Wortliste (im getaggten Korpus)

Word order: 1.In a main clause the VERB is the second idea: Helgakommteben aus der Bäckerei This may not be the second word Meiner Meinung nachsind Hobbys.

Academic writing in German Deutsche Wissenschaftssprache Transition Module 5a developed by Elisabeth Wielander.

On the case of German has 4 cases NOMINATIVE ACCUSATIVE GENITIVE DATIVE.

German “ da - compounds ” Provided by deutschdrang. com for individual and classroom use only. May not be reproduced for any other purposes.

Adjektiven und Adverbien Endungen. Das prädikativ gebrauchte Adjektiv Predicate adjectives follow the verbs sein, werden or bleiben. The modify the subject.

Phraseologismen Matej-Bel-Universität in Banská Bystrica Matej-Bel-Universität in Banská Bystrica Sommersemester 2011 Zuzana Tuhárska.

DA- und WO- Verbindungen Wie gut verstehst du sie?

Interrogatives and Verbs

Präsentation transkript:

Automatische Akquisition linguistischen Wissens Was genau sind Redewendungen? Wozu sind sie gut? Wie kann man sie erkennen? Wie könnte man ein Programm schreiben, welches sie erkennt? Wie erkennt man, wie viele man schon gefunden hat? Referat WS 05/06 Automatische Akquisition linguistischen Wissens

1. Kollokationen, Redewendungen Opake Bedeutungskombination: mit Kind und Kegel, zwischen den Zeilen, das A und O Metaphorisch: ein Dorn im Auge, Hals über Kopf, Sturm der Entrüstung einen Strich durch die Rechnung, auf Teufel komm raus Frequenzbasiert: sage und schreibe, wie durch ein Wunder zu guter Letzt, jetzt erst recht, Weg nach oben Fraglich: bei weitem nicht, Druck von außen, aus welchen Gründen auch immer WS 05/06 Automatische Akquisition linguistischen Wissens

1.1. Verschiedene Definitionen Firth 1957 collocation – consistent co-occurrence of a word pair within a given context … Meaning by collocation is an abstraction at the syntagmatic level and is not directly concerned with the conceptual or idea approach to the meaning of words Firth 1957: Benson, Benson and Ilson 86 Grammatical and lexical collocations A grammatical collocation is a phrase consisting of a dominant word (noun, adjective, verb) and a preposition or grammatical structure such as an infinitive or a clause account for, adjacent to, an oath that, … Lexical collocations consist of lexical elements with strong dependencies between them and without the possibility of exchanging any of the elements. to beat about the bush, aber nicht to beat around the bush WS 05/06 Automatische Akquisition linguistischen Wissens

1.2. Weitere relevante Definitionen Harris 68 The structure of language can be found only from the non-equiprobability of combination of parts. This means that the description of a language is the description of contributory departures from equiprobability, and the least statement of such contributions (constraints) that is adequate to describe the sentences and discourses of the language is the most revealing. Choueka 88 A collocation is defined as a sequence of two or more consecutive words, that has characteristics of a syntactic and semantic unit, and whose exact and unambiguous meaning cannot be derived directly from the meaning or connotation of its components WS 05/06 Automatische Akquisition linguistischen Wissens

1.3. Taxonomien von Kollokationen Gebräuchlichste Taxonomien: Einteilung in Wortarten der beteiligten Wörter Adjektiv-Nomen Der rote Politiker Verb-Verb gehüpft wie gesprungen Verb-Nomen Verbindungen idiomatischen Charakters Eins hinter die Löffel bekommen Einteilung in Art der Kollokation Grammatisch, lexikalisch Einteilung in Art der Extraktion Frequenzbasiert, opak, metaphorisch WS 05/06 Automatische Akquisition linguistischen Wissens

Automatische Akquisition linguistischen Wissens 1.4. Eigenschaften Das Auftreten von Redewendungen hat unter anderem folgende Eigenschaften: (häufiges) gemeinsames Auftreten von lexikalischen Einheiten Syntaktische Einheiten Wenn .. dann Semantische Einheiten Katz und Maus Semantische Irregularitäten Im Stich gelassen Syntaktische Rigidität (Armut) *über dem Stich gelassen WS 05/06 Automatische Akquisition linguistischen Wissens

1.5. Weitere Eigenschaften Redewendungen können syntaktisch komplett fix sein Sie spielten Katz und Maus Oder flexibel Er fühlte sich im Stich gelassen. – Sie liess ihn im Stich Syntaktische Restriktionen korrelieren mit dem Grad der Lexikalisierung der Redewendungen, bzw. der Wortkombination Häufiger Gebrauch von Redewendungen kann auch zu Verkürzungen und „Verwortlichung“ führen: nichts desto trotz (356,000) → nichtsdestotrotz (1,290,000) und später vielleicht nichtstotrotz (0)? Oder eher nichtsdetrotz (60)! WS 05/06 Automatische Akquisition linguistischen Wissens

Automatische Akquisition linguistischen Wissens 1.6. Zusammenfassung Es gibt Definitionen, die von Redewendungen als Nähe von lexikalischen Einheiten reden Es gibt Definitionen, die von syntaktischen oder semantischen Einheiten, bzw. semantischen Irregularitäten reden Terminologie Idiome: speziell in Englischer Literatur (Katz 62) Phraseologische Einheiten: vorrangig in Deutscher Literatur (Burger et al. 82, Fleischer 82) Multiwort Lexeme, Multiwort Ausdrücke, non-compositional compounds eher aus der computational linguistics Collocation von Lexikographen WS 05/06 Automatische Akquisition linguistischen Wissens

Automatische Akquisition linguistischen Wissens 2. Anwendungen Allgemeine (z.B. syntaktische) Sprachverarbeitungsysteme Diverse Sorten von Redewendungen sind syntaktische oder semantische Anomalien, die mit normalen Regeln nicht erklärbar oder generierbar sind Maschinelle Übersetzung Damit nicht „to beat about the bush“ mit „über den Bush schlagen“ übersetzt wird. Didaktik, Fremdsprachunterricht Damit Ausländer vor allem die opaken Redewendungen lernen Werbeindustrie Nur Sprüche, die natürlich und einprägsam sind (Geiz ist geil) verbleiben im Bewusstsein der Zielgruppe Allerdings müssen es gleichzeitig neue Sprüche und einprägsame sein (Damit ist das eine Anomalie, weil Geiz und geil traditionell eher antonymisch sind) WS 05/06 Automatische Akquisition linguistischen Wissens

2.1. Speicher/Ausgabeformate Für manche Zwecke muss möglichst viel explizite Information vorliegen Welcher Art (nach welcher Taxonomie) die Redewendung ist Welches variable, welches fixe Teile sind Mögliche vs. unmögliche Modifikationen „To beat about the bush“ und „to mightily beat about the bush“ aber nicht „to beat about the green bush“ Für andere Zwecke genügt reine Liste Um die Elemente einer Redewendungen nicht als einzelne Wörter z.B. beim Kookkurrenzzählen zu berücksichtigen, sondern die Gesamtformulierung als solche Um Qualität des Textes messbarer zu machen Allerdings wie sieht Eintrag für syntaktisch komplexe Redewendung in einfacher Liste aus? WS 05/06 Automatische Akquisition linguistischen Wissens

Automatische Akquisition linguistischen Wissens 3. Extraktionsmethoden Vorgehen weitgehend einheitlich: Textkorpus zusammenstellen Verschiedene Mittel anwenden, um Kandidaten zu finden global – es wird versucht, eine gerankte Liste von besten Kandidaten herzustellen lokal – es wird für jedes Wort untersucht, mit welchen anderen es möglicherweise in einer Redewendung steht Kandidaten per manuelle Arbeit oder Algorithmen unifizieren „er ließ mich im Stich“ = „er lässt mich im Stich“ = … Kandidaten per manuelle Arbeit verifizieren Unterschiede vor allem durch folgende Faktoren: Größe und Qualität des Korpus Herangehensweise: global oder lokal und welches Maß jeweils Unifizierung: von gar keine bis manuelle WS 05/06 Automatische Akquisition linguistischen Wissens

Automatische Akquisition linguistischen Wissens 3.1. Globale Extraktion Kookkurrenzmessungen welche Wörter miteinander auffällig oft vorkommen, dabei Nur die Paare auswählen, die in Frage kommen (N+V, Subj.+V,…) die am höchsten bewerten, welche am auffälligsten miteinander vorkommen Was bedeutet auffällig? Dazu mehrere Herangehensweisen mit steigender Komplexität Einfluß der sehr häufigen Wörter muss nach Möglichkeit ausgeblendet werden (ohne dabei Wörter wie Haus auszublenden, die auch sehr häufig sind) Verwendung unterschiedlicher Maße WS 05/06 Automatische Akquisition linguistischen Wissens

3.1.1. Einfluss des Zipfschen Gesetzes Wortfrequenzen sind bekanntermaßen entsprechend dem Zipfschen Gesetz verteilt: Daraus folgt, dass die meisten „interessanten“ Wörter recht selten vorkommen Unterschied zwischen 5 oder 7 Mal miteinander vorgekommen kann bedeutsam sein (auch so, dass die 5 wichtiger ist Wie hoch ist Wahrscheinlichkeit, dass zwei zufällig gewählte Wörter mit Frequenzen A und B insgesamt C mal miteinander vorkommen in einem N großen Korpus? WS 05/06 Automatische Akquisition linguistischen Wissens

Automatische Akquisition linguistischen Wissens 3.1.2. Zipfsches Gesetz Ordnet man die Wortformen eines Textes absteigend nach ihrer Häufigkeit, so lässt sich folgende von Zipf formulierte Gesetzmäßigkeit erkennen: Der Rang einer Wortform innerhalb der Liste multipliziert mit ihrer Häufigkeit ist in etwa konstant (vgl. Zipf 1935).  10 100 1.000 10.000 r n he but be friends family WS 05/06 Automatische Akquisition linguistischen Wissens

Automatische Akquisition linguistischen Wissens 3.2. Lokale Extraktion Im Gegensatz zur globalen Extraktion wird hier für jedes Wort einzeln untersucht, in welchen Konstruktionen es als Redewendung verwendet wird Vorteile sind vor allem, dass evtl. wesentlich mehr gefunden wird Nachteile sind, dass auch viel Rauschen entstehen kann, weil bei weitem nicht jedes Wort in einer Redewendung vorkommt Es wird also zusätzlich ein Mechanismus benötigt, welcher entscheidet, ob ein Wort überhaupt in Redewendungen vorkommt WS 05/06 Automatische Akquisition linguistischen Wissens

Automatische Akquisition linguistischen Wissens 3.3. Kontingenztabelle Wenn das Vorkommen von A und B unabhängig sind, müssten folgende Bedingungen alle auf einmal gelten: p(A,B)=p(A)ּp(B) p(¬A,B)=p(¬A)ּp(B) p(A,¬B)=p(A)ּp(¬B) p(¬A,¬B)=p(¬A)ּp(¬B) WS 05/06 Automatische Akquisition linguistischen Wissens

3.3.1. Frequenzen und Signifikanzen Die Bedingungen, umgeformt in Frequenzen, ergeben die gleiche Forderung: p(A,B)=p(A)ּp(B), also nAB=(nAּnB)/n Für die meisten „interessanten“ Fälle wird diese Bedingung nicht eingehalten Die Frage lautet dann, um wie viel – somit würde ein Ranking nach „Interessantheit“ möglich Bekanntestes Maß Mutual Information (MI) berechnet genau diesen Quotienten: sigMI(A,B)=log2(p(A,B)/(p(A) ּ p(B)))=log2((nּnAB)/(nAּnB)) WS 05/06 Automatische Akquisition linguistischen Wissens

Automatische Akquisition linguistischen Wissens 3.3.2. Was wird gemessen? Gemeinsames Vorkommen kann direkt nebeneinander, in einem Fenster oder im Satz (usw.) gemessen werden Für manche Redewendungen am besten direkt nebeneinander Feste, starre Konstruktionen (Mann und Maus) Für andere im Fenster oder Satz Bei variablen Konstruktionen (Im Stich …) WS 05/06 Automatische Akquisition linguistischen Wissens

3.3.3. Testalgorithmus (von Prof. Quasthoff) Iterationsprozess, in jedem Schritt: Definiere alle Paare von Wörtern als Wortgruppen, die gewissen Mindestfrequenz (10) und Mindestsignifikanz (10, log-likelihood) aufweisen Iteriere so lange, wie neue Wortgruppen entstehen 13 | gibt es nach wie vor 13 | einen Tag der offenen Tür 11 | Tag der offenen Tür im 30 | nicht von heute auf morgen 18 | der Gewerkschaft Erziehung und Wissenschaft 27 | Die Gewerkschaft Erziehung und Wissenschaft 16 | die Gewerkschaft Erziehung und Wissenschaft Oder auch für einzelne Wörter betrachtet: 53 | allein gelassen 26 | außer acht gelassen 82 | im Stich gelassen 10 | zu Wasser gelassen 39 | hinter sich gelassen WS 05/06 Automatische Akquisition linguistischen Wissens

3.4. Variierende Zielstellungen Für viele Sorten expliziter Extraktion wie Verb-Nomen, Adjektiv-Nomen usw. Tagger bzw. getaggter Korpus notwendig Soll Ergebnis nur als Blacklist genutzt werden oder soll ein von Menschen benutzbares Nachschlagewerk entstehen? Sollen nur die gebräuchlichsten und wichtigsten gefunden werden oder möglichst alle? Wie hoch ist Annotierungsüberdeckung beim Menschen? WS 05/06 Automatische Akquisition linguistischen Wissens

Automatische Akquisition linguistischen Wissens 3.5. Probleme Redewendungen bestehen oft nicht nur aus zwei Hauptwörtern wie „Stich“ und „lassen“, sondern auch aus festen Beiwörtern, in diesem Fall „im“ Ansatz mit Signifikanzmessung lässt sich nicht ohne weiteres von 2 beteiligten Wörtern auf 3 oder mehr verallgemeinern Evtl. auch nicht notwendig: Wenn A und B in einer Redewendung sind, sowie auch A und C, ist vermutlich ABC eine Redewendung. Tritt B und C miteinander auf? Stich ließ 31 - fühlte gelassen 13 Stich fühlte 21 - ließ fühlte 34 Stich gelassen 56 - ließ gelassen 0 Fazit: Stich, fühlen und lassen bilden wahrscheinlich eine Redewendung, allerdings nicht z.B. Stich, lassen, lassen WS 05/06 Automatische Akquisition linguistischen Wissens

3.5.1. Probleme mit Frequenzen Oft sind Funktionswörter wie „und“ in „Katz und Maus“ fester Bestandteil der Redewendungen Auf der anderen Seite können auch sehr seltene Wörter in Redewendungen vorkommen oder aber Wörter, deren Hauptbedeutung(en) (eine) andere ist: über den Jordan: Frequenz 4693 Kookkurrenzen von Jordan: Williams Frentzen Vernon Air Ferrari Bulls Benetton Mejias Michael Sauber BAR NBA McLaren-Mercedes Arrows Wizards McLaren Frentzens Jörg-Uwe Konstrukteurswertung Team Minardi Saison Abdulateef Mittelmeer WS 05/06 Automatische Akquisition linguistischen Wissens

Automatische Akquisition linguistischen Wissens 3.6. Unifizierung „Ich fühle mich im Stich gelassen“ und „ließ ihn im Stich“ „Auf alle Fälle“ ist es das gleiche wie „Auf jeden Fall“ Mögliche Hypothesen: Vielleicht ein Kern mit optionalen Modifizierern und Konnektoren an Kontexte? Vielleicht je zwei verschiedene Redewendungen? Vielleicht Begriff von Redewendung inhärent unscharf? WS 05/06 Automatische Akquisition linguistischen Wissens

3.6.1. Unifizierung durch Kernwörter Bei vielen Redewendungen lassen sich Kernwörter identifizieren (Im Stich gelassen fühlen) Durch Grundformreduzierung können morphologische Varianten reduziert werden Im Stich gelassen fühlen → Stich, lassen, fühlen fühlte sich im Stich gelassen → fühlen, Stich, lassen ließ ihn im Stich → lassen, Stich … Fazit: Zwei Redewendungen Stich, lassen, fühlen lassen, Stich Weiter unifizieren? WS 05/06 Automatische Akquisition linguistischen Wissens

3.6.2. Manuelle Unifizierung Manuelle Unifizierung kann unterstützt werden Belegstellenanzeige Zusammensortierung vermuteter Unifizierungskandidaten Durch Grundformreduzierung Clustering (siehe auch Berechnung ähnlicher Wörter) Editierabstand Problem, wenn kein Kern erkennbar: so weit so gut nichts desto trotz Evtl. für diese globaler Ansatz besser geeignet (nur aufgrund hoher Frequenz nicht mit Mutual Information) WS 05/06 Automatische Akquisition linguistischen Wissens

Automatische Akquisition linguistischen Wissens Referat Evert, Krenn papers Weiterführung des Themas „verschiedene Masse“, konkret t-score, Vergleich frequency zu anderen, log-likelihood, Chi-Square test Mutual Information (ESSLLI Foliensätze 1-5 und Krenn_Evert_2001.pdf) Evaluierungsmethoden (Evert_Krenn_2001.pdf) nicht notwendig auf Tagging einzugehen Vorführen: Ergebnisse von zwei verschiedenen Maßen auf Testkorpus ohne Unifizierung oder Tagging (bzw. freiwillig) WS 05/06 Automatische Akquisition linguistischen Wissens

Automatische Akquisition linguistischen Wissens Quellen www.collocations.de http://wortschatz.uni-leipzig.de/html/infos/info_104.html WS 05/06 Automatische Akquisition linguistischen Wissens