Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

WS 05/06Automatische Akquisition linguistischen Wissens1 Extraktion Morphologischen Wissens 1.Problemstellung - Facetten der Morphologie 2.Anwendungen.

Ähnliche Präsentationen


Präsentation zum Thema: "WS 05/06Automatische Akquisition linguistischen Wissens1 Extraktion Morphologischen Wissens 1.Problemstellung - Facetten der Morphologie 2.Anwendungen."—  Präsentation transkript:

1 WS 05/06Automatische Akquisition linguistischen Wissens1 Extraktion Morphologischen Wissens 1.Problemstellung - Facetten der Morphologie 2.Anwendungen 3.MDL Modell Referat: Goldsmith Optionales Referat: Kazakovs 01 paper, speziell den Teil mit induktiver Logik erklären oder Creutz mit Morfessor

2 WS 05/06Automatische Akquisition linguistischen Wissens2 1. Problemstellung Um Problemstellung zu demonstrieren wird Wortform glückliche als Beispiel herangezogen Wortstamm ist glück -lich ist ein +ADJ suffix -e ist eine mehrdeutige Endung: +feminin oder +plural –Daraus folgt auch Bedeutungsmehrdeutigkeit: Die glückliche Familie Das waren glückliche Begebenheiten Weitere Wortformen des gleichen Lemmas: –glückliche glücklicher glücklichste glückte glückend Glück … Inhaltlich verwandte Wörter (Assoziationen…): –fröhlich(e), witzig(e), unglücklich(e), gemütlich(e), schrecklich(e)

3 WS 05/06Automatische Akquisition linguistischen Wissens3 1.1. Bestandteile einer morphologischen Analyse Komplette morphologische Analyse umfasst viele Einzelanalysen: –Grundformreduktion ( glückliche glücklich glück ) –Lemmatisierung (glückliche /glück/) –Derivation (Glück glücklich) –Alternation (fahren fuhren) –Komposita (Haushalt Haus-halt) –Konjugationsklassen (schrieb geschrieben schreiben) –Deklinationsklassen (er ihm) –Klassifikation von freien vs. Gebundenen Morphemen (glück vs. - lich) Analyse sollte komplett, vollständig automatisch und ohne vorheriges Wissen über die Sprache erfolgen

4 WS 05/06Automatische Akquisition linguistischen Wissens4 1.2. Prior knowledge Beispiele für Wissen über Sprache –Definition von Konsonanten und Vokalen –-lich ist ein Suffix –In dieser Sprache gibt es Grapheme aus mehreren Buchstaben (sch) –-e ist ein Suffix, aber nicht bei Schule, Junge, usw. Beispiele für sprachspezifische Hypothesen: –Sprache ist allgemein eher Suffixlastig –Sprache hat mehr Konsonanten als Vokale –Sprache hat immer Morphologie, Wörter und Sätze

5 WS 05/06Automatische Akquisition linguistischen Wissens5 1.3. Sprachunabhängige Hypothesen Sprachunabhängige Hypothesen sind etwas absolut universell, d.h. sie gelten für alle Sprachen –Momentan eher Erkenntnis bei Typologen, dass die meisten bisher gefundenen Universalien nicht wirklich universell sind –Oder so abstrakt, dass sie nichts nutzen (z.B. Jede Sprache hat eine Grammatik) –Beispiel für mögliches Universal: Es gibt in jeder Sprache Substantive, Verben und Adjektive, wenn es Wörter in dieser Sprache gibt Oder sie sind nur positiv, also sie können für eine Sorte von Sprachen gelten, damit aber nichts über andere Sorten aussagen –In manchen Sprachen gibt es Genus und in manchen von den wird er auf morphologischer Ebene ausgedrückt, in den anderen auf Wortebene –Wenn eine Sprache Morphologie hat, ist sie entweder Präfix- oder Suffixlastig

6 WS 05/06Automatische Akquisition linguistischen Wissens6 1.4. Strukturrestriktionen Konkrete Hypothesen sind in zwei Ebenen unterteilt: 1.Syntagmatische als Restriktionen zwischen Morphemen oder Wörtern Reihenfolge von Präfix, Stamm, Suffix, etc. Bei glückliche Kookkurrenz von glück mit -lich und –e Im Satz (… diese glückliche Geschichte … ) Kookkurrenz der beteiligten Wörter 2.Paradigmatische als Selektionskriterium zwischen Morphemen oder Wörtern: Statt –lich kann bei glück auch –en oder -s vorkommen, aber nicht –ung oder –ster In ähnlichen Sätzen kann statt glücklich auch traurig oder witzig vorkommen

7 WS 05/06Automatische Akquisition linguistischen Wissens7 1.5. Verwendete Allgemeine Hypothesen Sprachliche Ebenen und syntagmatische sowie paradigmatische Relationen zwischen den Einheiten auf jeder Ebene –Also können auch Einheiten einer Ebene zu Einheiten auf höherer Ebene kombiniert werden Linearität von Äußerungen –resultiert unter anderem darin, dass Regeln zur Eingrenzung des Suchraums und besseren Kodierung entstehen Prinzip des geringsten Aufwandes –Dadurch wird eine Balance angestrebt, sich nicht zuviel merken zu müssen und dennoch möglichst wenig sagen zu müssen Redundanz –Dadurch werden nicht zunächst alle Zweierkombinationen ausgenutzt, bevor Dreierkombinationen erfunden werden

8 WS 05/06Automatische Akquisition linguistischen Wissens8 1.5. Vorgehensweise Für jegliche Art der fortgeschrittenen Analyse (Clustern nach Art des Phänomens, Bestätigung von Hypothesen) müssen die einzelnen zu analysierenden Elemente zunächst beobachtbar sein. Auf dem Wortlevel für meiste Sprachen kein Problem Morpheme müssen jedoch erst getrennt werden, um beobachtbar zu werden Erstes Ziel ist daher eine möglichst präzise Trennung von Morphemen Allerdings, wie später deutlich wird, ist das in einigen Fällen nicht unabhängig von den zugrunde liegenden Hypothesen. Beispiel: Soll bei Sonne und sonnig sonn als Wortstamm genommen werden (also Sonn-e) oder Sonne (demnach kein –e)

9 WS 05/06Automatische Akquisition linguistischen Wissens9 1.6. Zusammenfassung Erster Schritt ist, Einheiten zu finden: –freie und gebundene Morpheme Zweiter Schritt ist, syntagmatische und paradigmatische Beziehungen zwischen den Einheiten zu finden: –Dabei Wörter (oder Phrasen?) als Sätze und Morpheme als Einheiten –Daraus ergeben sich Kontexte und Kontextvergleiche Dritter Schritt, syn- und paradigmatische Relationen konkretisieren (Klassifikation, Clustering, …) –syntagmatisch: Konjugation, Deklination, … –paradigmatisch: Alternation, frei oder gebunden, … Ergebnis: –Menge von abstrakten Klassen, die der von Menschen eingeführten Ordnung namens Morphologie am ehesten entspricht –Oder: Andere Ordnung, sofern sie irgend einen Nutzen hat

10 WS 05/06Automatische Akquisition linguistischen Wissens10 2. Anwendungen Erstellung von Wörterbüchern Analyse neuer Sprachen Information Retrieval –Query expansion, –bzw. besseres Indexing (dies aber nicht einfach damit zu verbessern, aber einfach zu verschlechtern!) Empirische Bestätigung oder Falsifizierung linguistischer Theorien Generierung von Unterrichtsmaterial Musterbasiertes Lernen Kompression!

11 WS 05/06Automatische Akquisition linguistischen Wissens11 3.1. MDL Ansatz Prinzipiell wird nur von Wortliste ausgegangen, Existenz von Kontextinformation wird ausgeblendet Grundlegende Idee ist auch, dass Morphologie daher kommt, dass im Gehirn Teile von Wörtern zu Wortformen kombiniert werden und diese Teile eine Art Optimum darstellen Optimum erreicht durch maximale Widerverwendbarkeit der einzelnen Teile Da Optimum dann einfach Alphabet wäre ist also Gegenfaktor die Bedingung der verlustfreien Rekonstruierbarkeit gegeben –Dadurch müssen Links gespeichert werden und je mehr verschiedene Links, umso mehr Platz wird benötigt

12 WS 05/06Automatische Akquisition linguistischen Wissens12 3.1. Kazakovs Genetische Algorithmen Der erste Ansatz erschien um das Jahr 1997 herum (Kazakov 97) und (Kazakov 00), sowie (Kazakov 01) –Genetischer Algorithmus, welcher versucht zu einer gegebenen Liste von Wörtern herauszufinden, wie jedes Wort so getrennt werden kann, damit möglichst viele Teile wiederverwendet werden witz|ig, witz|ige, witz|iger, traur|ige, traur|iger, traur|ig optimal, da nur 6 Elemente zu speichern witz, traur, ig, ige, iger –Später wurde induktive logische Programmierung verwendet, um aus gewonnen Erstdaten neue Regeln zu lernen, die dann wiederum auf alle Wörter angewendet für mehr Trennungen und bessere Performanz sorgen sollten.

13 WS 05/06Automatische Akquisition linguistischen Wissens13 3.1.1. Beispiel Kazakovs Algorithmus 0. Iteration, zufällige Initialisierung:Fitness w|itzig, witz|ige, witzige|r, tr|aurige, trauri|ger, tr|aurig1/12 witz|ig, wit|zige, witz|iger, tra|urige, tra|uriger, tra|urig1/11 witz|ig, w|itzige, wit|ziger, trau|rige, tr|auriger, trau|rig1/11 1. Iteration, beibehalten der besten Exemplare, Generierung neuer, Mutation: witz|ig, wit|zige, witz|iger, tra|urige, tra|uriger, tra|urig1/11 witz|ig, w|itzige, wit|ziger, trau|rige, tr|auriger, trau|rig1/11 witz|ig, w|itzige, witz|iger, trau|rige, tra|uriger, trau|rig1/10 witz|ig, wit|zige, wit|ziger, tra|urige, tr|auriger, trauri|g1/10 2. Iteration, beibehalten der besten Exemplare, Generierung neuer, Mutation: … bis maximale Fitness 1/6

14 WS 05/06Automatische Akquisition linguistischen Wissens14 3.2. Weitere Entwicklungen Später vor allem durch Goldmsith weitere Entwicklungen Formulierte gleiche Idee anders: Es geht darum, ein maximal eingepacktes Lexikon zu erstellen Lexikon + Linkliste + Affixliste Jedes der drei Elemente benötigt für x Elemente lnx Bits pro Element. Somit läßt sich einfach ausrechnen, dass es besser ist, –pro Liste 8 Elemente zu speichern (nur 3 Bit pro Element, also 3*8*3=72 insgesamt), –als z.B. 80 in einer Liste (also mind. 7 Bit, also 7*80*1=560Bit) Details siehe Referat

15 WS 05/06Automatische Akquisition linguistischen Wissens15 4. Evaluierungen Verwandte Wortformen (ohne Morphemgrenzen): Jeder Morphologiealgorithmus kann letztlich genutzt werden, um verwandte Wortformen zu finden. Wie viele von den richtig und wie viele überhaupt gefunden wurden lässt sich dann messen (Schone & Jurafsky 01) Verwandte Wortformen (mit Morphemgrenzen): Morphologiealgorithmus kann genutzt werden, um festzustellen, wie oft gefundene Grenzen z.B. Wortstämme und deren Gruppen eindeutig identifizieren: abol-ition/abol-ish oder aboli-tion/aboli-sh jeweils korrekt, aber nicht abol-ition/aboli-sh (Goldsmith 01) Applikationsbasiert: Messen, ob Applikation, die diese Morphologie nutzt besser funktioniert also ohne oder mit anderer Morphologie (Hafer & Weiss 74)

16 WS 05/06Automatische Akquisition linguistischen Wissens16 4.1. Evaluierungen II Morphemgrenzen messen: Für jede gefundene Morphemgrenze messen, ob sie richtig, falsch oder nicht gefunden wurde –Pro Grenze (Creutz & Lagus 05) Precision = alle richtigen vs. alle gefundenen Grenzen Recall = gefundene vs. Alle zu findenden –Oder pro Wort (ob alle Grenzen richtig sind) (Kazakov 97) Precision = alle richtig zerlegten Wörter vs. richtig + falsch (kleiner Trick: Wörter, die gar nicht zerlegt werden sollen und auch nicht zerlegt werden, gelt dann als richtig… das ist besonders toll im Englischen) Recall = alle richtig zerlegten Wörter vs. alle zu zerlegenden Wörter Affixlisten angeben, so dass Leser selbst entscheiden kann (Argamon et al. 04) Keine Evaluierung (Déjean 98) Schliesslich unterscheiden sich alle Evaluierungen darin, welche Datenquellen sie verwenden

17 WS 05/06Automatische Akquisition linguistischen Wissens17 Referate Goldsmith 01 (Implementierung auf des Autors Webseite finden und vorführen): Kazakov 97 & 01 (Für diesen gibt es an der Abteilung eine Implementierung, sollte beim Referat verwendet werden)

18 WS 05/06Automatische Akquisition linguistischen Wissens18


Herunterladen ppt "WS 05/06Automatische Akquisition linguistischen Wissens1 Extraktion Morphologischen Wissens 1.Problemstellung - Facetten der Morphologie 2.Anwendungen."

Ähnliche Präsentationen


Google-Anzeigen