Automatische Akquisition linguistischen Wissens

Slides:

Advertisements

Ähnliche Präsentationen

Algorithmen und Datenstrukturen

Advertisements

Spektrale Analysen in EMU-R: eine Einführung

Martin Böhmer/Dennis Treder/Marina Schwacke Übungen zu Automatisches Zeichnen von Graphen Ausgabe: Besprechung: Gruppe 2 - Übungsblatt.

Suche in Texten (Stringsuche )

Seminar Textmining WS 06/07 Themen Übung 11 unsupervised vs. supervised Symbolfolgen, Kunstsprachen Page Rank.

WS 05/06Automatische Akquisition linguistischen Wissens1 Vollautomatisches bestimmen von Relationen 1.Anforderungen Welches Wissen und welches nicht Komplexitätsprobleme.

Automatische Akquisition linguistischen Wissens

Automatische Akquisition linguistischen Wissens

WS 05/06Automatische Akquisition linguistischen Wissens1 Partielles Wissen erweitern 1.Zusammenhang mit bisherigen Algorithmen 2.Vom offensichtlichen zum.

Automatische Akquisition linguistischen Wissens

WS 05/06Automatische Akquisition linguistischen Wissens1 Extraktion Morphologischen Wissens 1.Problemstellung - Facetten der Morphologie 2.Anwendungen.

WS 05/06Automatische Akquisition linguistischen Wissens1 Musterbasierte Extraktion spezifischer Relationen (Identifying/detecting/extracting thesaurus.

Automatische Akquisition linguistischen Wissens

Genetische Algorithmen für die Variogrammanpassung

Übersicht DIALIGN = DIagonal ALIGNment

Quellen-Filter Theorie der Sprachproduktion

Heuristiken und Kontexteinflüsse

Sortierverfahren Richard Göbel.

Sortierverfahren Richard Göbel.

Anfragesprachen – Dipl. Ing. Ulrich Borchert / FH Merseburg1/4 Manuelle Verfahren Klassifizierung Hier werden Dokumente in ein fest vorgegebenes System.

Mixed Models Jonathan Harrington library(ez) library(lme4)

Algorithmus. Ein Kochrezept, zum Beispiel: Kartoffelbrei.

WS Algorithmentheorie 02 - Polynomprodukt und Fast Fourier Transformation Prof. Dr. Th. Ottmann.

Vorlesung Informatik 2 Algorithmen und Datenstrukturen Halbzeit: Was haben wir bisher gelernt? Prof. Th. Ottmann.

Vorlesung Informatik 2 Algorithmen und Datenstrukturen (27 – Kürzeste Wege) Prof. Th. Ottmann.

Informatik II, SS 2008 Algorithmen und Datenstrukturen Vorlesung 4 Prof. Dr. Thomas Ottmann Algorithmen & Datenstrukturen, Institut für Informatik Fakultät.

1 Vorlesung Informatik 2 Algorithmen und Datenstrukturen (21 – Kürzeste Wege) T. Lauer.

Union-Find-Strukturen

Information Retrieval Modelle: Vektor-Modell

Minimum Spanning Tree: MST

Hauptseminar Automaten und Formale Sprachen

Heute: Scherenzange zeichnen

Tutorium Aufgabe 1 Informationen in Designmatrix in: - Darin sind die Prädiktoren enthalten - Aber sagt uns noch mehr! Untersuchungsdesign darin.

Kakuro Regeln und Strategien

Kurzformaufgaben Wie groß ist der Winkel, den der Minutenzeiger einer Uhr in der Zeit von 8:45 bis 9:05 Uhr überstreicht? 120°

Histogramm/empirische Verteilung Verteilungen

Sortieralgorithmen Sortieren von Arrays.

Effiziente Algorithmen

Chaos und Fraktale M. Bostelmann Michael Bostelmann.

Computational Thinking Online Algorithmen [Was ist es wert, die Zukunft zu kennen?] Kurt Mehlhorn Konstantinos Panagiotou.

Black Box Algorithmen Hartmut Klauck Universität Frankfurt SS

Quantum Computing Hartmut Klauck Universität Frankfurt WS 05/

Effiziente Algorithmen

Black Box Algorithmen Hartmut Klauck Universität Frankfurt SS

Effiziente Algorithmen Hartmut Klauck Universität Frankfurt SS

Effiziente Algorithmen

Quantum Computing Hartmut Klauck Universität Frankfurt WS 05/

Quantum Computing Hartmut Klauck Universität Frankfurt WS 05/

Black Box Algorithmen Hartmut Klauck Universität Frankfurt SS

Quantum Computing Hartmut Klauck Universität Frankfurt WS 04/

Effiziente Algorithmen Hartmut Klauck Universität Frankfurt SS

Effiziente Algorithmen Hartmut Klauck Universität Frankfurt SS

Effiziente Algorithmen Hartmut Klauck Universität Frankfurt SS

Effiziente Algorithmen Hartmut Klauck Universität Frankfurt SS

Hartmut Klauck Universität Frankfurt SS

Information und Kommunikation Hartmut Klauck Universität Frankfurt SS

Polynome und schnelle Fourier-Transformation

Einführung in die Programmierung Wintersemester 2013/14 Prof. Dr. Günter Rudolph Lehrstuhl für Algorithm Engineering Fakultät für Informatik TU Dortmund.

Wahrscheinlichkeitsrechnung

Formale Sprachen Grammatiken und die Chomsky-Hierarchie

Resultate Umfrage Partizipation Arbeitsgruppe DeLL Befragt wurden im Dezember 2010 alle 3., 4. und 5. Klassen Es wurde differenziert nach Ebenen: Schule,

ENDLICHE KÖRPER RSA – VERFAHREN.

Information Retrieval, Vektorraummodell

Analyse der Laufzeit von Algorithmen

HEINZ NIXDORF INSTITUT Universität Paderborn Fachbereich Mathematik/Informatik Algorithmische Probleme in Funknetzwerken VIII Christian Schindelhauer

Niko Zenker1 Besondere Aspekte in Multimedia-Datenbanken Methoden zur iterativen Anfrageverfeinerung (Relevanz Feedback)

Vorstellen und Herleiten der Horner Schemas

Programmiersprachen II Fortsetzung Datenstrukturen Balancierte Bäume 3 Prof. Dr. Reiner Güttler Fachbereich GIS HTW.

Programmiersprachen II Fortsetzung Datenstrukturen Balancierte Bäume 1 Prof. Dr. Reiner Güttler Fachbereich GIS HTW.

Präsentation transkript:

Automatische Akquisition linguistischen Wissens Extraktion Morphologischen Wissens II Semantikbasierte Ansätze Letter successor variety basierte Ansätze Kombinierte Ansätze Referat: Schone und Jurafskys papers und Algorithmus Referat 2: Baronis Ansatz WS 05/06 Automatische Akquisition linguistischen Wissens

1. Allgemein Semantikbasierte Ansätze Hier ist Idee darauf basiert, dass inhaltlich ähnliche Wortformen (mit einem der vielen bereits vorgestellten Verfahren als inhaltlich ähnlich berechnet) auch grammatisch ähnlich sein sollten Das würde bedeuten, dass in der Liste der als ähnlich berechneten Wortformen Wortformen mit dem gleichen Stamm, oder Wortformen mit einer gleichen grammatischen Markierung auftreten Z.B. glücklich, witzig, unglücklich, Glück Danach ließe sich ja eine Gruppe von Wortformen, die besonders ähnlich Problematisch sind z.B. Alternationen und sehr kurze Stämme Diese Sorte von Ansätzen soll in Referaten vorgestellt werden WS 05/06 Automatische Akquisition linguistischen Wissens

1.1. Alternativ eine Art Konstituentenanalyse Konstituentenanalyse würde bedeuten, dass man heraussucht, welche andere Wörter in eine Menge von gleichartigen Kontexten passt: Beispiel Wort glückliche … war es eine glückliche/gute/traurige/schlechte Entscheidung … saß die glückliche/gute/traurige Mutter Vereinfachtes Modell davon ist Nachbarschaftskookkurrenzbasierte Ähnlichkeitsberechnung: Berechne signifikante Nachbarn Finde entsprechend den Nachbarn ähnliche Wörter Wende danach Letter Successor Variety von Harris an WS 05/06 Automatische Akquisition linguistischen Wissens

2. Letter successor variety Letter successor variety: Harris (55) where word-splitting occurs if the number of distinct letters that follows a given sequence of characters surpasses the threshold. Es soll also gemessen werden, wie viele verschiedene Buchstaben nach jedem möglichen Wortanfang folgen (und umgekehrt) Die Idee dabei ist, dass nach Wortstämmen die Anzahl von Buchstaben „explodiert“, da danach ja viele verschiedene Endungen möglich sind Hafer & Weiss 74 haben das als erste implementiert und in einem IR System verwendet, um nicht jede Wortform, sondern nur Wortstämme zu indexieren Beispiel Wortform witzige (vom Beginn und dann vom Ende): w 42 e wi 31 ge wit 17 ige witz 15 zige witzi 4 tzige witzig 6 itzige witzige 6 witzige WS 05/06 Automatische Akquisition linguistischen Wissens

Automatische Akquisition linguistischen Wissens 2.1. Probleme bei LSV Bereits bei Hafer & Weiss 74 gabe es Probleme, da die Ergebnisse nicht wie erhofft waren und LSV recht viele Fehler produziert, insbesondere an Beginnen und Enden von Wörtern, aber auch bei überrepräsentativen Wortenden Es schien auch so zu sein, dass je länger die Wortliste, umso mehr Rauschen tritt ein und Peaks schlechter erkennbar Sie experimentieren eine Weile mit verschiedenen Strategien wie z.B. plötzliches Gefälle statt Peaks oder Plateaus Schlussfolgering ist, dass Fehler nicht so schlimm, solange Indexierung besser und messen in der Tat leicht bessere Ergebnisse beim Information Retrieval task WS 05/06 Automatische Akquisition linguistischen Wissens

Automatische Akquisition linguistischen Wissens 3. Kombinierter Ansatz Überblick: Nutze kontextuelle Information und berechne Nachbarschaftskookkurrenzen pro Eingabewort Frequenz von word A and B ist nA und nB Frequenz von gemeinsamen Auftreten von A mit B ist nAB Korpus Größe ist n Signifikanzberechnung ist eine Poisson Approximation des log-likelihood (Dunning 93) (Quasthoff & Wolff 02) WS 05/06 Automatische Akquisition linguistischen Wissens

Nachbarn von “glückliche“ Signifikanteste linke Nachbarn wunschlos besonders welch sehr Lauter überaus sonderlich Kinogängern wahrhaft unendlich Signifikanteste rechte Nachbarn Fügung Hand Ehe Kindheit Gewinner Gewinnerin Figur Familie Wendung Heimkehr glückliche WS 05/06 Automatische Akquisition linguistischen Wissens

Automatische Akquisition linguistischen Wissens 3.1. Kombinierter Ansatz Überblick: Nutze kontextuelle Information und berechne Nachbarschaftskookkurrenzen pro Eingabewort Nutze berechnete Nachbarn, um mit anderen Wörtern zu vergleichen und ähnliche zu finden → sie tragen mit größter Wahrscheinlichkeit gleiche grammatische Markierung WS 05/06 Automatische Akquisition linguistischen Wissens

Ähnliche Wortformen für “glückliche“ Signifikanteste linke Nachbarn wunschlos besonders welch sehr Lauter überaus sonderlich Kinogängern wahrhaft unendlich Signifikanteste rechte Nachbarn Fügung Hand Ehe Kindheit Gewinner Gewinnerin Figur Familie Wendung Heimkehr … allmähliche unglückliche traurige glückliche glücklicher witziger gemütlicher Wirkliche WS 05/06 Automatische Akquisition linguistischen Wissens

Automatische Akquisition linguistischen Wissens 3.1. Kombinierter Ansatz Overview: Nutze kontextuelle Information und berechne Nachbarschaftskookkurrenzen pro Eingabewort Nutze berechnete Nachbarn, um mit anderen Wörtern zu vergleichen und ähnliche zu finden → sie tragen mit größter Wahrscheinlichkeit gleiche grammatische Markierung Sortiere diese nach Editierabstand und behalte nur 150 ähnlichste → weil weitere nur zusätzliches Rauschen beinhalten WS 05/06 Automatische Akquisition linguistischen Wissens

Ähnliche Wörter zu “glückliche“ nach Editierdistanz Signifikanteste linke Nachbarn wunschlos besonders welch sehr Lauter überaus sonderlich Kinogängern wahrhaft unendlich Sortierte Liste glückliche glücklichen glücklicher Glückliche unglückliche glücklich glücklichsten unglücklichen unglücklicher unglücklich schreckliche … möglichen persönlichen persönlicher Signifikanteste rechte Nachbarn Fügung Hand Ehe Kindheit Gewinner Gewinnerin Figur Familie Wendung Heimkehr WS 05/06 Automatische Akquisition linguistischen Wissens

Automatische Akquisition linguistischen Wissens 3.1. Kombinierter Ansatz Overview: Nutze kontextuelle Information und berechne Nachbarschaftskookkurrenzen pro Eingabewort Nutze berechnete Nachbarn, um mit anderen Wörtern zu vergleichen und ähnliche zu finden → sie tragen mit größter Wahrscheinlichkeit gleiche grammatische Markierung Sortiere diese nach Editierabstand und behalte nur 150 ähnlichste → weil weitere nur zusätzliches Rauschen beinhalten Berechne letter successor variety für jede Transition zwischen zwei Buchstaben Melde alle Stellen als Morphemgrenzen, wo LSV größer als Schwellwert WS 05/06 Automatische Akquisition linguistischen Wissens

3.2.2. Overlap Faktor zur Balanzierung Es gibt Problem mit plötzlichen Frequenzverschiebungen (von Teilstrings) mitten im Wort Die Frequenzverschiebung kann gemessen und als Gewichtungsfaktor genommen werden: wenn 140 von 150 mit –n# enden, dann ist Gewicht 140/150 Aber wenn (wie mit glückliche) nur 16 von 150 mit #g- beginnen, dann ist Gewicht nur 16/150 g l ü c k l i c h e 150 16 5 4 4 4 4 4 4 4 3 3 3 4 15 17 36 39 129 150 0.1 0.3 0.8 1 1 1 1 1 1 von links 1 1 3/4 0.3 0.9 0.5 0.9 0.3 0.9 von rechts WS 05/06 Automatische Akquisition linguistischen Wissens

Automatische Akquisition linguistischen Wissens 3.2.3. Beispielrechnung Berechne letter split variety: # g l ü c k l i c h e # 6 2 1 1 1 1 1 1 2 2, 1, 1, 2, 7 2 4 3 Berechne overlap factor: 150 16 5 4 4 4 4 4 4 4 3 3 3 4 15 17 36 39 129 150 also overlap faktoren: 0.1 0.3 0.8 1 1 1 1 1 1 1 1 3/4 0.3 0.9 0.5 0.9 0.3 0.9 Multipliziere LSV mit OF: 0.6 0.6 1 1 1 1 1 1 2 3 1 3/4 1.2 6 1 3 1 15 Summiere links- und rechtswerte: 0.6 3.6 2 1.8 2.2 7 2 4 3 15 Schwellwert: 7 Resultat: glück-lich-e WS 05/06 Automatische Akquisition linguistischen Wissens

3.2.4. Problem #1: Unbekannte Affixverteilungen Verteilung von Prä- und Suffixen ist unbekannt Daher bekommen frequente Endungen wie –e# besonders hohe Werte, da sie nach praktisch allem vorkommen In seltenen Fällen sind sie jedoch nicht Endungen (z.B. Junge) Daher einfach vorläufige “normalisierung” durch Multiplikation von erster und zweiter Stelle von vorne und von hinten mit Gewichten 0.3 und 0.6 jeweils: s1 s2 s3 … sn-2 sn-1 sn 0.3 0.6 1.0 … 1.0 0.6 0.3 Das benachteiligt stark kurze Affixe an Rändern von Wortformen, die Hoffnung ist aber, dass sie dennoch häufig genug vorkommen, um in einem folgenden Lernschritt hilfreich zu sein WS 05/06 Automatische Akquisition linguistischen Wissens

3.2.6. Problem #2: Multiletter Grapheme (Grenzen vorher und danach) Problem: Zwei oder mehr Buchstaben repräsentieren ein Graphem und “verschleppen” den Nenner beim overlap faktor: Letter split variety: # s c h l i m m e 7 1 7 2 1 1 2 2 1 1 1 2 4 15 Berechne overlap factor: 150 27 18 18 6 5 5 5 2 2 2 2 3 7 105 150 ^ also ist LSV 7 und OL Gewicht1 (18/18), aber weil sch ein Graphem ist, sollte es eher 18/150 sein! Lösung: Ranking von Bi- und Trigrammen, höchster bekommt Gewicht von 1.0 Overlap faktor wird als gewichtetes Mittel zwischen normalem und verschlepptem berechnet, wobei Gewicht vom Ranking das Gewicht im Mittel bestimmt: WS 05/06 Automatische Akquisition linguistischen Wissens

3.2.5. Problem #3: Multiletter Grapheme (Grenzen in der Mitte) Multiletter Grapheme sollten natürlich auch nie getrennt werden Zum Beispiel das –th– im Englischen sollte niemals getrennt werden Lösung ist wieder das Bigramrankung, welches direkt ein Gewicht für die Multiplikation mit LSV abgibt: 0.1 Gewicht für die am höchsten gerankten und 1.0 für die niedrigsten. WS 05/06 Automatische Akquisition linguistischen Wissens

Automatische Akquisition linguistischen Wissens 3.2.3. Beispielrechnung II Finales LSV mit OF von vorhergehenden Schritten: # g l ü c k l i c h e # 6 2 1 1 1 1 1 1 2 2, 1, 1, 2, 7 2 4 3 16 Berechne overlap factor: 150 16 5 4 4 4 4 4 4 4 3 3 3 4 15 17 36 39 129 150 Problem #1: Unbekannte Affixverteilung: 0.3 0.6 1.0 1.0 1.0 1.0 1.0 1.0 0.6 0.3 Problem #2: Multiletter Bi- und Trigramm Gewichte: 0.0 0.0 0.0 0.1 0.0 0.2 0.2 0.6 0.0 0.0 0.0 0.0 0.0 0.1 0.3 0.0 0.0 0.0 0.1 0.0 0.0 0.2 0.6 0.2 0.0 0.0 0.0 0.0 0.0 0.1 0.3 0.5 Problem #3: Bigrammgewicht: 1.0 1.0 1.0 0.9 1.0 0.8 0.8 0.3 0.7 Summiere Links- und Rechtswerte: 2.0 1.0 0.8 0.5 6.3 0.7 2.2 0.2 3.0 Beispiel i-c von rechts: 4*(36/39 + 0.6*36/129)/(1.0+0.6)*0.8 = 2.18 Schwellwert: 3 Finales Resultat: glück-lich-e -lich und –e# sind Suffixe, weil LSV score von rechts war WS 05/06 Automatische Akquisition linguistischen Wissens

3.3. Morphemklassifikation Simple Klassifikation von Morphemen in Präfixe, Stämme und Suffixe möglich Wenn LSV score von rechts, dann Suffix, sonst Präfix Wenn Suffix länger als die Hälfte des Wortes, dann verdopple den Schwellwert, z.B.: 40-jähr-ig-er (Stamm 40) Was zwischen Suffix und Präfix übrig bleibt, ist Stamm Probleme zum Beispiel: Komposita und verbindende Morpheme Alternationen, Löschungen usw. Da wäre ein komplexerer Ansatz nötig Könnte kombiniert werden mit Klassifikation in freie und gebundene Morpheme WS 05/06 Automatische Akquisition linguistischen Wissens

Automatische Akquisition linguistischen Wissens 3.4. Freie Parameter Es bleiben allerdings arbiträre einzustellende Parameter, die möglicherweise Sprachabhängig sind (kleine Änderungen haben allerdings kaum Effekt): 150 ähnlichste Wörter – hängt vermutlich von Flektivität der Sprache ab Schwellwert zwischen 3 und 7 Schwellwert scheint vor allem von Anzahl der möglichen Buchstaben einer Sprache abzuhängen (einschliesslich multiletter Grapheme!) Weitere weniger wichtige Parameter: cooccscue 200 nicht wirklich jedes Wort mit jedem vergleichen cooccsfeature 50 Beim vergleichen nur max 50 Wörter nehmen minsig 4 Minimum significanz 4 maxresults 70 Maximal 70 resultate aufheben minanzahl 2 Profile müssen mindestens 2 Wörter gemeinsam haben WS 05/06 Automatische Akquisition linguistischen Wissens

Automatische Akquisition linguistischen Wissens Zusammenfassung Momentan leidglich Morphemgrenzen finden Selbst dabei unklar, wie Sprachunabhängig das wirklich ist Weitere Analysen (Klassifizieren von freien vs. Gebunden Morphemen z.B.) nächster Schritt WS 05/06 Automatische Akquisition linguistischen Wissens

Automatische Akquisition linguistischen Wissens Referate Referate sollen semantikbasierte Ansätze genauer beschreiben und evtl. vorführen Erstes Referat ist über Schone & Jurafskys Idee beschreiben Zweites Referat ist über Baronis Ansatz WS 05/06 Automatische Akquisition linguistischen Wissens

Automatische Akquisition linguistischen Wissens WS 05/06 Automatische Akquisition linguistischen Wissens