Automatische Akquisition linguistischen Wissens

Slides:



Advertisements
Ähnliche Präsentationen
Algorithmen und Datenstrukturen
Advertisements

Motivation Bisher: Codes mit möglichst kurzer Codelänge.
Polynomial Root Isolation
Algebraische Zahlen: Exaktes Rechnen mit Wurzeln
Vom graphischen Differenzieren
Die Binomialverteilung
Wilhelm-Raabe-Schule Fachbereich: Mathematik Thema: Lineare Funktionen
Seminar Textmining WS 06/07 Themen Übung 11 unsupervised vs. supervised Symbolfolgen, Kunstsprachen Page Rank.
Seminar Textmining WS 06/07 Themen Übung 9 Multilingualität Weitere Termine: 13.7.Symbolfolgen und PageRank Findlinks mitstreiter gesucht!
WS 05/06Automatische Akquisition linguistischen Wissens1 Vollautomatisches bestimmen von Relationen 1.Anforderungen Welches Wissen und welches nicht Komplexitätsprobleme.
WS 05/06Automatische Akquisition linguistischen Wissens1 Partielles Wissen erweitern 1.Zusammenhang mit bisherigen Algorithmen 2.Vom offensichtlichen zum.
WS 05/06Automatische Akquisition linguistischen Wissens1 Extraktion Morphologischen Wissens 1.Problemstellung - Facetten der Morphologie 2.Anwendungen.
Automatische Akquisition linguistischen Wissens
Automatische Akquisition linguistischen Wissens
Genetische Algorithmen für die Variogrammanpassung
Klassische Hypothesenprüfung
Kapitel 1 Das Schubfachprinzip
Kapitel 6 Differenzierbarkeit. Kapitel 6: Differenzierbarkeit © Beutelspacher Juni 2005 Seite 2 Inhalt 6.1 Die Definition 6.2 Die Eigenschaften 6.3 Extremwerte.
Hypothesen testen: Grundidee
Mathematische Grundlagen und Rechnen mit algebraischen Zahlen
Konfidenzintervalle Intervallschätzung
TESTS. Worum es geht Man möchte testen, ob eine bestimmte Annahme (Hypothese) über Parameter der Realität entspricht oder nicht. Beobachtung (Stichprobe)
Die Student- oder t-Verteilung
Konfidenzintervalle Intervallschätzung Jeder Beobachtung wird ein Intervall C( ) der reellen Zahlen zugeordnet Niveau Dabei ist die Wahrscheinlichkeit,
Klausurtermin (laut Prüfungsamt) Probeklausur Freitag, 13. Juni 2003 statt Vorlesung.
Achtung Vorlesung am Montag, den 21. Juni Zeit: Uhr Ort: Kiste.
III. Induktive Statistik
Statistische Methoden I WS 2002/2003 Probeklausur Freitag, 13. Dezember statt Vorlesung - Nächsten Freitag!!!
Tutorium
Tutorium Willkommen zurück, in der wunderbaren Welt der Statistik Teil II.
Tutorium
Tutorium
Tutorium
Tutorium Aufgabe 1 Informationen in Designmatrix in: - Darin sind die Prädiktoren enthalten - Aber sagt uns noch mehr! Untersuchungsdesign darin.
Vorlesung: ANOVA I
Kakuro Regeln und Strategien
Multikollinearität Wann spricht man von Multikollinearität?
Histogramm/empirische Verteilung Verteilungen
Beweissysteme Hartmut Klauck Universität Frankfurt WS 06/
Effiziente Algorithmen
Einführung in die beurteilende Statistik
Ausgleichungsrechnung II
Quantum Computing Hartmut Klauck Universität Frankfurt WS 05/
Black Box Algorithmen Hartmut Klauck Universität Frankfurt SS
Quantum Computing Hartmut Klauck Universität Frankfurt WS 05/
Quantum Computing Hartmut Klauck Universität Frankfurt WS 05/
Black Box Algorithmen Hartmut Klauck Universität Frankfurt SS
Quantum Computing Hartmut Klauck Universität Frankfurt WS 04/
Quantum Computing Hartmut Klauck Universität Frankfurt WS 05/ /23.1.
Effiziente Algorithmen Hartmut Klauck Universität Frankfurt SS
Effiziente Algorithmen Hartmut Klauck Universität Frankfurt SS
Hartmut Klauck Universität Frankfurt SS
Beweissysteme Hartmut Klauck Universität Frankfurt WS 06/
Information und Kommunikation Hartmut Klauck Universität Frankfurt SS
Beweissysteme Hartmut Klauck Universität Frankfurt WS 06/
Beweissysteme Hartmut Klauck Universität Frankfurt WS 06/
§3 Allgemeine lineare Gleichungssysteme
Die Poisson-Verteilung: Mittelwert und Standardabweichung
Wahrscheinlichkeitsrechnung
Bereit ???? Nimm dir 10 Minuten Zeit. Ich versuche es dir zu erklären.
Using latent semantic analysis to find different names for the same entity in free text Präsentation und Diskussion des Papers Im Rahmen des PS Web-Information.
Toleranzanalyse und Simulation Beispiel 1, Montage von Einzelteilen
Schnittpunkt von zwei Geraden
Statistik – Regression - Korrelation
Vom graphischen Differenzieren
setzt Linearität des Zusammenhangs voraus
Vorstellen und Herleiten der Horner Schemas
Spärliche Kodierung von Videos natürlicher Szenen Vortragender: Christian Fischer.
 Gegenstandsbereich der Testtheorie: Analyse der Charakteristika von Tests:  Güte von Tests.  Struktur von Tests.  Schwierigkeit von Tests.  Gruppenunterschiede.
Lineare Optimierung Nakkiye Günay, Jennifer Kalywas & Corina Unger Jetzt erkläre ich euch die einzelnen Schritte und gebe Tipps!
 Präsentation transkript:

Automatische Akquisition linguistischen Wissens Acquisition Bottleneck Praktische Einteilung in syntagmatische und paradigmatische Relationen Trennung von Kookkurrenzmaßen und Ähnlichkeitsmassen Evaluierung Implementierungsdetails und LSA Referat: LSA WS 05/06 Automatische Akquisition linguistischen Wissens

1. Ansatz der getrennten Ebenen Anstatt wie bislang Ähnlichkeit in einem Schritt und damit entsprechend dem Kontiguitätsprinzip zu berechnen, wird hier zweistufig vorgegangen Erste Stufe ist, Kontextinformation sammeln für jedes Wort Diese dann nutzen, um für jedes Wort eine Art Bedeutungsfeatures zu haben, mit Hilfe derer mit anderen Wörtern verglichen werden kann Dies entspricht der Unterscheidung zwischen syntagmatischen und paradigmatischen Relationen Syntagmatisch ist das miteinander Vorkommen Paradigmatisch ist das ähnlichsein durch ähnliche Kontexte Oder wie bei LSA beides in einem Schritt WS 05/06 Automatische Akquisition linguistischen Wissens

1.1. Acquisition Bottleneck Sämtliche Algorithmen sind darauf ausgerichtet, möglichst viel Wissen zu extrahieren Einschränkung: Möglichst wenig Handarbeit soll investiert werden Bisher stets in Form von Tagging, Mustern usw. Ultimatives Ziel: Sprachunabhängige Algorithmen, die 100% Recall und Precision haben, also alles herausfinden und dabei keine Fehler machen, ohne das die jeweils neue Sprache überhaupt (vom Menschen) angeschaut wird. In der Praxis: Je weniger Handarbeit hineingesteckt wird (kleinere Trainingsmengen, weniger Regeln, weniger Hypothesen), umso schlechter die ohnehin schlechten Ergebnisse WS 05/06 Automatische Akquisition linguistischen Wissens

1.2. Eingesetzte Standardquellen Fast jeder Algorithmus geht von einem Grundformreduzierten und Wortartmarkierten Korpus aus: Tagger (Brill, TNT, …): benötigt (grosse) Trainingsmengen: PennTreeBank, Negra, Susanne, … Grundformreduzierer: benötigt Morphologieregeln für die Sprache Manche Algorithmen würden ohne getaggten Korpus gar nicht funktionieren: Hyperonyme (Hearst 92), Vergleiche von Wörtern (Resnik 99), Meronyme: (Berland & Charniak 99) uvm., da sie explizit Tripel wie z.B. (x,subj-of,y) untersuchen Bootstrapalgorithmen sind an der Grenze: benötigen zwar oft sprachspezifisches Wissen, aber in so geringen Mengen, dass es im Grunde nichts ausmacht WS 05/06 Automatische Akquisition linguistischen Wissens

1.3. Weitere eingesetzte Quellen Ausser den Standardquellen gibt es weitere Quellen, die für “automatische” Verfahren genutzt werden, wie Wortähnlichkeiten mit Hilfe von WordNet (Jiang & Conrath 97) Disambiguierung mit Hilfe von WordNet, Wörterbüchern und anderen Nachschlagewerken (Lesk 86) und fast alle nachfolgenden Autoren Automatische Uebersetzung anhand von Wörterbüchern Komplexe Lexikale Netze für klassische Computerlinguistik (DRT, RST, usw.) Umfangreiche Grammatikregelsammlungen zum Parsin usw. Erst wenn es gelingt, die entsprechenden Ressourcen auch automatisch zu extrahieren, können diese Verfahren vollautomatisch genannt werden. WS 05/06 Automatische Akquisition linguistischen Wissens

1.4. Lokale vs. globale Information (Wdh.) Es kann eine einfach Einteilung beim Betrachten eines Satzes vorgenommen werden: lokale Information: Mit diesem Satz soll irgendwas konkretes gesagt werden Es werden Wörter in einem teils ungewöhnlichen Zusammenhang gebraucht globale Information: Dieser Satz soll verständlich sein Es werden erklärende, verschönernde, Bedeutungsähnliche (falls Zuhörer das eine oder andere nicht kennt, oder um Stimmung besonders gut auszumalen) usw. Wörter eingefügt: All was sweet and mellow and peaceful in the golden evening light, and yet as I looked at them my soul shared none of the peace of nature but quivered at the vagueness and the terror of that interview which every instant was bringing nearer. (A. C. Doyle: The hound of Baskervilles) reine Information: It is evening, I feel terror in anticipation of the interview. WS 05/06 Automatische Akquisition linguistischen Wissens

1.5. Messen von lokalem Miteinanderauftreten Die meisten Maße bereits in Referaten abgehandelt, aber hier noch einmal ein Überblick Dabei zunächst die einfachen Maße, die aus verschiedenen Bereichen kommen und sich anbieten Danach Wiederholung der Kontingenztabelle Anschliessend Wiederholung Signifikanzteste Kurze Beschreibung von log-likelihood und Poissonabschätzung Anschließend verschiedene Maße für Ähnlichkeit WS 05/06 Automatische Akquisition linguistischen Wissens

2. Baseline, einfache Masse Am einfachsten ist als Baseline die reine Anzahl gemeinsamer Auftreten zu nehmen: jedoch ignoriert das die Häufigkeiten der beteiligten Wörter A und B, also könnte man einfach das Tanimoto (oder auch Jaccard) Mass nehmen: Alternativ gibt es auch den Dice Koeffizienten, der etwas ähnliches macht: WS 05/06 Automatische Akquisition linguistischen Wissens

Automatische Akquisition linguistischen Wissens 2.1. Motivation für Masse Problematisch an bisher vorgestellten Massen ist die fehlende Begründung, warum gerade so und nicht anders Weiterhin ist Normierung gegen Korpusgrösse nicht vorhanden Statistische Fundierung unterscheidet vier Fälle: A tritt mit B auf (die Anzahl jeweils) A tritt auf, aber B nicht A tritt nicht auf, aber B Weder A noch B treten auf Die ‘contingency table’: WS 05/06 Automatische Akquisition linguistischen Wissens

Automatische Akquisition linguistischen Wissens 2.2. Signifikanztest t-score, Chi-square-test müssen nun als nächstes benutzt werden, um festzustellen, ob jedes Wort A von jedem anderem Wort B unabhängig sind Da jedoch in Wirklichkeit kein einziges Wort unabhängig von allen anderen ist, ist viel mehr interessant, welche Wörter signifikant abhängig sind voneinander (associated) welche von Ihnen wie stark signifikant abhängig sind -> ranking Optional nach dem Signifikanztest wird in der Statistik noch berechnet, um wie viel die beobachteten Daten von der theoretisch im Falle der Unabhängigkeit angenommenen Wahrscheinlichkeit (und damit konkret erwarteten Häufigkeit) abweichen WS 05/06 Automatische Akquisition linguistischen Wissens

Automatische Akquisition linguistischen Wissens 2.3. Log-likelihood-test (Dunning 93) schlägt statistisch fundierte Vorgehensweise vor Es handelt sich um Versuche: Jeder Satz ist ein Versuch, jedes Ergebnis unabhängig von vorhergehenden Die Wahrscheinlichkeiten der einzelnen Wörter sind konstant A und B treten in einem Satz maximal 1 mal auf Parameter: k ist die Anzahl der gemeinsamen Auftreten, also n ist die Anzahl der Versuche (Sätze) Die Wahrscheinlichkeit, ein bestimmtes k zu beobachten (Binomialverteilt): WS 05/06 Automatische Akquisition linguistischen Wissens

Automatische Akquisition linguistischen Wissens 2.3.1. Log-likelihood II Für np(1-p)>5 (die Varianz) nähert sich diese Verteilung der Normalverteilung Der Vorschlag ist, den generellen likelihood-test zu benutzen, der daraus besteht, den Quotienten zu bestimmen: Quotient zwischen dem maximalen Wert der likelihood Funktion unter der Nullhypothese und dem maximalen Wert der likelihood Funktion mit den beobachteten Werten: Es gibt zwei binomiale Verteilungen, für Wort A und B jeweils, also sind die beobachteten Werte (für gemeinsames Auftreten miteinander multipliziert): während die Nullhypothese p1=p2 setzt und der Quotient demzufolge lautet: WS 05/06 Automatische Akquisition linguistischen Wissens

Automatische Akquisition linguistischen Wissens 2.3.2. Log-likelihood III Die Maxima der Funktionen werden jeweils in den folgenden Fällen erreicht: Damit läßt sich likelihood umschreiben zu: mit Man nimmt dann den Logarithmus des Quotienten, wodurch sich ergibt: WS 05/06 Automatische Akquisition linguistischen Wissens

Automatische Akquisition linguistischen Wissens 2.4. Poisson Verteilung (Quasthoff & Wolff 02) beschreiben ein Verfahren, welches statt der Binomialverteilung die Poissonverteilung zur Beschreibung gemeinsamer Auftreten nimmt. (Holtsberg & Willners 01) geben einen Beweis, dass die Poissonverteilung die Binomialverteilung approximiert Dieses Verfahren testet nicht, sondern geht direkt davon aus, dass es signifikante gemeinsame Auftreten gibt Es berechnet nur, (wie auch likelihood) das Mass der Abweichung vom erwarteten gemeinsamen Auftreten gemäß der Unabhängigkeitshypothese Der negative Logarithmus wird genommen, um aus einer Wahrscheinlichkeit (eine bestimmte Anzahl von Auftreten zu beobachten) einen Signifikanzwert zu erhalten WS 05/06 Automatische Akquisition linguistischen Wissens

Automatische Akquisition linguistischen Wissens 2.4.1. Poisson Verteilung II Es ergibt sich demnach direkt eine Signifikanzformel: Für k>10 gibt es für k! eine Approximation: Dadurch ergibt sich Approximationsformel: Allerdings kann man k! auch durch die Stirlingsche Formel approximieren: dabei für grosse k: Und somit ergibt sich einfache Signifikanzformel: WS 05/06 Automatische Akquisition linguistischen Wissens

2.4.2. Poisson Verteilung: Vergleiche Wie sehr unterscheiden sich diese zwei Approximationen? Beispiel: Für na=4000 und nb=2000 und n=24Mio ergibt sich für steigendes k folgendes Bild: Wie sehr unterscheidet sich eine (die erste) der Approximationen von der log-likelihood Funktion, fuer die es ja eine Approximation sein soll? WS 05/06 Automatische Akquisition linguistischen Wissens

3. Berechnung von Wortähnlichkeiten Die Berechnung von signifikanten Kookkurrenzen ist syntagmatischer Natur – alles was im weiteren Sinne nebeneinander stehen kann Das Ergebnis ist eine Art Kontextwissen – Diese Menge von signifikanten Kookkurrenzen ist der allgemeine Kontext eines Wortes Ähnliche Wörter müsste man demzufolge erhalten, wenn man Wörter mittels ihres allgemeinen Kontexts vergleicht. bedeutet dabei der Kontextvektor des Wortes A Welcher genau Kontext genommen wird, ist dabei zunächst irrelevant, hat aber Einfluss auf die Ergebnisqualität WS 05/06 Automatische Akquisition linguistischen Wissens

Automatische Akquisition linguistischen Wissens 3.1. Baseline Das einfachste Mittel, zwei Wörter A und B über ihre Kontexte miteinander zu vergleichen, ist, zu untersuchen, wie viele Wörter ihre Kontexte jeweils gemeinsam haben Die Vektorschreibweise führt zu folgender Formalisierung: mit Probleme: Signifikanzen der Kookkurrenzen, bzw. das Profil des Kontexts wird nicht berücksichtigt Häufigere Wörter haben mehr Kookkurrenzen, sind somit ähnlicher zu allen andere Wörtern WS 05/06 Automatische Akquisition linguistischen Wissens

Automatische Akquisition linguistischen Wissens 3.2. Dice und Jaccard Weiterhin läßt sich wieder der Dice- Koeffizient bestimmten: Oder auch der Jaccard-Koeffizient (bzw. Tanimoto-Mass) Probleme: Motiviation, sowie Mass selbst scheint ungeklärt WS 05/06 Automatische Akquisition linguistischen Wissens

3.3. Abstand und Ähnlichkeit Da Abstand = 1-Ähnlichkeit und Vektoren eigentlich Punkte in einem n-dimensionalen Raum darstellen, kann entweder Winkel zwischen Vektoren oder Abstand zwischen Punkten als Ähnlichkeit berechnet werden, daher: Winkel zwischen den Vektoren: L1-norm-abstand zwischen den zwei Punkten (City-Block-Metrik): L2-norm-abstand zwischen den zwei Punkten (euklidischer Abstand): WS 05/06 Automatische Akquisition linguistischen Wissens

3.4. Visualisierung der Abstände y x Es wird allerdings oft auch Ähnlichkeit für C und D berechnet, obwohl sie in unterschiedlichen Dimensionen liegen (nur cos liefert in diesem Fall 0) WS 05/06 Automatische Akquisition linguistischen Wissens

Automatische Akquisition linguistischen Wissens 4. Evaluierung Wenn es so viele (und noch mehr) Möglichkeiten gibt, Kookkurrenzen zu berechnen und jeweils die derart erhaltenen Kontextinformationen miteinander zu vergleichen – welche ist besser? Andere Frage – Welche macht was? Evaluierungsmöglichkeiten: Psycholinguistische Tests (Miller & Charles 91) Vokabulartests, TOEFL und andere (Rapp 02) Applikationsbasiert Künstliche Wörter (Synonyme, ambige Wörter (Manning & Schütze 99)) Gold-standard (Grefenstette 94) WS 05/06 Automatische Akquisition linguistischen Wissens

Automatische Akquisition linguistischen Wissens 4.1. Gold-standard Unter Gold-standard versteht man eine allgemein bekannte Ressource, deren Qualität jedem bekannt ist, gegen die getestet wird In diesem Fall GermaNet, organisiert nach: Synonymen Links verschiedener Art zwischen Synonymen, dabei: Oberbegriffe (Hyperonyme) Unterbegriffe (Hyponyme) Antonyme see also Pertainyme aus Oberbegriffen lassen sich noch Kohyponyme ableiten usw. WS 05/06 Automatische Akquisition linguistischen Wissens

Automatische Akquisition linguistischen Wissens 4.2. Gold-standard Evaluierung verläuft dann folgender maßen: Ergebnis einer Maßkombination: Dollar: Finanzaufwendung Umschuldungsaktion US-Dollar Schilling Franc Ecu Jahresvolumen Pesete Mark Lire Gulden schätzungsweise uS-Dollar Pfund napp Finanzierungsvolumen Welche Wörter sind laut GermaNet sinnvoll? Dollar: (meine Erwartung) Hyperonyme: Währungseinheit, Währung, … Kohyponyme: DM, Pesos, Yen, … … Wie viele der sinnvollen Wörter wurden in den top5, 10 oder 50 der Ergebnismenge gefunden? Realität zu Dollar (GermaNet) WS 05/06 Automatische Akquisition linguistischen Wissens

Automatische Akquisition linguistischen Wissens 4.3. Recall vs. Precision Recall ist demnach die Anzahl der wieder gefundenen Sinnvollen Items Precision ist demnach die Anzahl der sinnvollen Items von den top5, 10 oder 50. Wenn also 2 Synonyme von 20, 2 Kohyponyme von 40 und ein Antonym von 2 innerhalb der top 5 Items gefunden wurden, dann: Precision: (2+2+1)/5 = 100% absoluter Recall: (2+2+1)/(20+40+2) = 5/62 = 8.06% oder: Recall Relationsbasiert: (2/20 + 2/40 + 1/2)/3 = 21,6% Es ist aber auch möglich, pro Relation Precision und Recall anzugeben (Synonyme): Precision: 2/5 = 40%, Recall 2/20 = 10% WS 05/06 Automatische Akquisition linguistischen Wissens

4.4. Konkreter Versuchsaufbau Gerechnet wurde ein Korpus mit 100Mio laufenden Wörtern, das ergibt ca. 7 Mio Sätze Grundform reduziert Da sonst Vergleichbarkeit mit prinzipiell Grundformreduzierten Daten in GermaNet nicht gewährleistet Zum Evaluieren wurden nur Wörter genommen, die in allen Kombinationen mindestens 50 Kookkurrenzen, bzw. ähnliche Wörter besaßen, Beispiele: … Grad Graf Graffe Graffiti Grafik Grafs Grafschaft Graham Gral Gram Gramm Grammatik … Diese Bedingung wurde von 36912 Wörtern erfüllt WS 05/06 Automatische Akquisition linguistischen Wissens

4.4.1. Versuchsaufbau: Daten Als Kookkurrenzmasse wurden vergleichsweise genutzt: baseline, dice, jaccard, mutinf, poiss1, poiss2, logl Als Vergleiche jeweils wurden benutzt (200, 50, 100, minAnz. 2): anzahl, anzahl_norm, dice, jaccard, city, euklid, cos Dadurch ergibt sich Matrix (entweder total oder pro Relation): baseline logl mutinf poiss1 jaccard poiss2 dice kollok_sig anzahl anzahl_norm city cos euklid WS 05/06 Automatische Akquisition linguistischen Wissens

4.5. Ergebnisse insgesamt: Precision Precision in Prozent für alle Relationen absolut zusammengerechnet, für top5: WS 05/06 Automatische Akquisition linguistischen Wissens

4.5.1. Ergebnisse insgesamt: Recall Recall in Prozent für alle Relationen absolut zusammengerechnet, für top5: WS 05/06 Automatische Akquisition linguistischen Wissens

4.5.2. Recall und Precision im Vergleich bei wachsendem Fenster WS 05/06 Automatische Akquisition linguistischen Wissens

4.5.3. Ergebnisse: Vergleich von Relationen WS 05/06 Automatische Akquisition linguistischen Wissens

4.6. Einfluss der Fenstergröße Größere Fenster bevorzugen eher länger wirkende Abhängigkeiten, die entsprechend eher inhaltlicher Natur sind Ein Elefant, welcher gewöhnlicherweise mit anderen Tieren im Zoo zu finden ist, … Kleinere Fenster bevorzugen grammatische Eigenschaften und resultieren in Grammatischen Gemeinsamkeiten Bislang keine Tests, die dieses vergleichend aufzeigen würden WS 05/06 Automatische Akquisition linguistischen Wissens

Automatische Akquisition linguistischen Wissens Zusammenfassung Ergebnisse derzeit noch nicht für vollautomatische Zwecke ausreichend Weitere Forschung notwendig, die spezifischer auf erkennbare Strukturen eingeht Offenbar ist Vereinfachung aus bag-of-words zu stark, jedoch auch nicht sinnfrei Ergebnisse können als Baseline verwendet werden, um bessere oder feinere Methoden dagegen zu testen Außerdem diese Ergebnisse bereits für IR, IR usw. einsetzbar, da besser als simple vector space modell WS 05/06 Automatische Akquisition linguistischen Wissens

Automatische Akquisition linguistischen Wissens 5. Referat: LSA WS 05/06 Automatische Akquisition linguistischen Wissens

Automatische Akquisition linguistischen Wissens WS 05/06 Automatische Akquisition linguistischen Wissens