WS 05/06Automatische Akquisition linguistischen Wissens1 Extraktion Morphologischen Wissens 1.Problemstellung - Facetten der Morphologie 2.Anwendungen.

Slides:



Advertisements
Ähnliche Präsentationen
Algorithmen und Datenstrukturen
Advertisements

Rekursion: Rekurrenz: Algorithmen rufen sich selbst (rekursiv) auf.
Falls Algorithmen sich selbst rekursiv aufrufen, so kann ihr Laufzeitverhalten bzw. ihr Speicherplatzbedarf in der Regel durch eine Rekursionsformel (recurrence,
Seminar Textmining WS 06/07 Themen Übung 11 unsupervised vs. supervised Symbolfolgen, Kunstsprachen Page Rank.
Seminar Textmining WS 06/07 Themen Übung 9 Multilingualität Weitere Termine: 13.7.Symbolfolgen und PageRank Findlinks mitstreiter gesucht!
WS 05/06Automatische Akquisition linguistischen Wissens1 Vollautomatisches bestimmen von Relationen 1.Anforderungen Welches Wissen und welches nicht Komplexitätsprobleme.
Automatische Akquisition linguistischen Wissens
WS 05/06Automatische Akquisition linguistischen Wissens1 Partielles Wissen erweitern 1.Zusammenhang mit bisherigen Algorithmen 2.Vom offensichtlichen zum.
Automatische Akquisition linguistischen Wissens
Automatische Akquisition linguistischen Wissens
Automatische Akquisition linguistischen Wissens
Nach dem Buch „Garantiert Schreiben lernen“ von Gabriele L. Rico
FH-Hof Extensible Markup Language Richard Göbel. FH-Hof Extensible Markup Language XML XML ist universeller Ansatz für die Strukturierung von Zeichenketten.
Anfragesprachen – Dipl. Ing. Ulrich Borchert / FH Merseburg1/8 Thesauren In gewisser Weise bilden Thesauren (Singular Thesaurus, Plural auch Thesauri)
Anfragesprachen – Dipl. Ing. Ulrich Borchert / FH Merseburg1/4 Manuelle Verfahren Klassifizierung Hier werden Dokumente in ein fest vorgegebenes System.
DOM (Document Object Model)
Philosophie der Logik nach Frege I
Algorithmentheorie 04 –Hashing
Bestimmung des Next-Arrays im KMP-Algorithmus
Vorlesung Informatik 2 Algorithmen und Datenstrukturen (27 – Kürzeste Wege) Prof. Th. Ottmann.
Präsentation des Seminararbeitsthemas
Sprachkonstruktion I Konstruktion einer neuen Sprache Einladung zu einem Sprachexperiment Sie sind eingeladen, sich an einem Sprachexperiment zu beteiligen.
Grammatik als Deduktionssystem
WAS WILL WISSENSCHAFT? - Sagen: Was WIE ist
Der Konjunktiv – Wiederholung zu Formen und Verwendung des Konjunktivs
Datenstrukturen, Algorithmen und Programmierung 2 (DAP2)
§9 Der affine Raum – Teil 2: Geraden
§9 Der affine Raum – Teil 2: Geraden
Raid 0.
Morphologiesystem MORPHY Für Deutsche Sprache:
Maschinelles Lernen und automatische Textklassifikation
Entitäten Extraktion Wichtige Schritte Petra Maier WS 05/06.
Internet ohne Barrieren - Und was ist mit der Sprache?
Lesen durch Schreiben – Erste Schritte
Einführung Ü1: Entwicklungschart Teil 1: „Freundlichkeit“
Computational Thinking Online Algorithmen [Was ist es wert, die Zukunft zu kennen?] Kurt Mehlhorn Konstantinos Panagiotou.
© Wortstellung im Deutschen Norbert Fries.
Quantum Computing Hartmut Klauck Universität Frankfurt WS 05/
Black Box Algorithmen Hartmut Klauck Universität Frankfurt SS
Quantum Computing Hartmut Klauck Universität Frankfurt WS 05/
Quantum Computing Hartmut Klauck Universität Frankfurt WS 04/
Quantum Computing Hartmut Klauck Universität Frankfurt WS 05/ /23.1.
Effiziente Algorithmen Hartmut Klauck Universität Frankfurt SS
Effiziente Algorithmen Hartmut Klauck Universität Frankfurt SS
Quantum Computing Hartmut Klauck Universität Frankfurt WS 05/
Beweissysteme Hartmut Klauck Universität Frankfurt WS 06/
Information und Kommunikation
Hartmut Klauck Universität Frankfurt WS 06/
Anspruchsmerkmale und technische Äquivalente
Abteilung für automatische Sprachverarbeitung
Black Box Algorithmen Hartmut Klauck Universität Frankfurt SS
Mergesort.
Übung zu Einführung in die LDV I
Elman-Netzwerke Wintersemester 2004/05 Seminar Kindlicher Spracherwerb C. Friedrich & R. Assadollahi vorgestellt von Christian Scharinger & Guido Heinecke.
Elternabend der Schule … vom …
Das Traveling Salesman Problem (TSP)
Grammatikalische Begriffe im Unterricht
Inhalt Einordnung und Funktion der lexikalische Analyse Grundlagen
Lexikalische Semantik
SS 2009Maschinelles Lernen und Neural Computation 133 Kapitel 7: Ensemble Methoden.
Niko Zenker1 Besondere Aspekte in Multimedia-Datenbanken Methoden zur iterativen Anfrageverfeinerung (Relevanz Feedback)
Gliederung der Vorlesung
Pool Informatik, Sj 11/12 GZG FN W.Seyboldt 1 Pool Informatik 5 GZG FN Sj. 11/12 Kopieren, Daten, Programme.
Chemie Olympiade Forschungsthema: Der Atombau.
Vorstellen und Herleiten der Horner Schemas
VO#1: Lexikologie als sprachwissenschaftliche Disziplin Lexikologie, Matej-Bel-Univeristät in Banská Bystrica, Z. Tuhárska.
1) Das Wort als sprachliche Grundeinheit; 2) Das Problem der Grundeinheit der Sprache 3) Die Definition des Wortes;
Spärliche Kodierung von Videos natürlicher Szenen Vortragender: Christian Fischer.
Vo#1:Semantik als Wissenschaft Semantik I Matej-Bel-Universität in Banská Bystrica Zuzana Tuhárska.
WISSENSREPRÄSENTATION IN ACTIVEMATH Theoretische Grundlagen – Teil 1.
 Präsentation transkript:

WS 05/06Automatische Akquisition linguistischen Wissens1 Extraktion Morphologischen Wissens 1.Problemstellung - Facetten der Morphologie 2.Anwendungen 3.MDL Modell Referat: Goldsmith Optionales Referat: Kazakovs 01 paper, speziell den Teil mit induktiver Logik erklären oder Creutz mit Morfessor

WS 05/06Automatische Akquisition linguistischen Wissens2 1. Problemstellung Um Problemstellung zu demonstrieren wird Wortform glückliche als Beispiel herangezogen Wortstamm ist glück -lich ist ein +ADJ suffix -e ist eine mehrdeutige Endung: +feminin oder +plural –Daraus folgt auch Bedeutungsmehrdeutigkeit: Die glückliche Familie Das waren glückliche Begebenheiten Weitere Wortformen des gleichen Lemmas: –glückliche glücklicher glücklichste glückte glückend Glück … Inhaltlich verwandte Wörter (Assoziationen…): –fröhlich(e), witzig(e), unglücklich(e), gemütlich(e), schrecklich(e)

WS 05/06Automatische Akquisition linguistischen Wissens Bestandteile einer morphologischen Analyse Komplette morphologische Analyse umfasst viele Einzelanalysen: –Grundformreduktion ( glückliche glücklich glück ) –Lemmatisierung (glückliche /glück/) –Derivation (Glück glücklich) –Alternation (fahren fuhren) –Komposita (Haushalt Haus-halt) –Konjugationsklassen (schrieb geschrieben schreiben) –Deklinationsklassen (er ihm) –Klassifikation von freien vs. Gebundenen Morphemen (glück vs. - lich) Analyse sollte komplett, vollständig automatisch und ohne vorheriges Wissen über die Sprache erfolgen

WS 05/06Automatische Akquisition linguistischen Wissens Prior knowledge Beispiele für Wissen über Sprache –Definition von Konsonanten und Vokalen –-lich ist ein Suffix –In dieser Sprache gibt es Grapheme aus mehreren Buchstaben (sch) –-e ist ein Suffix, aber nicht bei Schule, Junge, usw. Beispiele für sprachspezifische Hypothesen: –Sprache ist allgemein eher Suffixlastig –Sprache hat mehr Konsonanten als Vokale –Sprache hat immer Morphologie, Wörter und Sätze

WS 05/06Automatische Akquisition linguistischen Wissens Sprachunabhängige Hypothesen Sprachunabhängige Hypothesen sind etwas absolut universell, d.h. sie gelten für alle Sprachen –Momentan eher Erkenntnis bei Typologen, dass die meisten bisher gefundenen Universalien nicht wirklich universell sind –Oder so abstrakt, dass sie nichts nutzen (z.B. Jede Sprache hat eine Grammatik) –Beispiel für mögliches Universal: Es gibt in jeder Sprache Substantive, Verben und Adjektive, wenn es Wörter in dieser Sprache gibt Oder sie sind nur positiv, also sie können für eine Sorte von Sprachen gelten, damit aber nichts über andere Sorten aussagen –In manchen Sprachen gibt es Genus und in manchen von den wird er auf morphologischer Ebene ausgedrückt, in den anderen auf Wortebene –Wenn eine Sprache Morphologie hat, ist sie entweder Präfix- oder Suffixlastig

WS 05/06Automatische Akquisition linguistischen Wissens Strukturrestriktionen Konkrete Hypothesen sind in zwei Ebenen unterteilt: 1.Syntagmatische als Restriktionen zwischen Morphemen oder Wörtern Reihenfolge von Präfix, Stamm, Suffix, etc. Bei glückliche Kookkurrenz von glück mit -lich und –e Im Satz (… diese glückliche Geschichte … ) Kookkurrenz der beteiligten Wörter 2.Paradigmatische als Selektionskriterium zwischen Morphemen oder Wörtern: Statt –lich kann bei glück auch –en oder -s vorkommen, aber nicht –ung oder –ster In ähnlichen Sätzen kann statt glücklich auch traurig oder witzig vorkommen

WS 05/06Automatische Akquisition linguistischen Wissens Verwendete Allgemeine Hypothesen Sprachliche Ebenen und syntagmatische sowie paradigmatische Relationen zwischen den Einheiten auf jeder Ebene –Also können auch Einheiten einer Ebene zu Einheiten auf höherer Ebene kombiniert werden Linearität von Äußerungen –resultiert unter anderem darin, dass Regeln zur Eingrenzung des Suchraums und besseren Kodierung entstehen Prinzip des geringsten Aufwandes –Dadurch wird eine Balance angestrebt, sich nicht zuviel merken zu müssen und dennoch möglichst wenig sagen zu müssen Redundanz –Dadurch werden nicht zunächst alle Zweierkombinationen ausgenutzt, bevor Dreierkombinationen erfunden werden

WS 05/06Automatische Akquisition linguistischen Wissens Vorgehensweise Für jegliche Art der fortgeschrittenen Analyse (Clustern nach Art des Phänomens, Bestätigung von Hypothesen) müssen die einzelnen zu analysierenden Elemente zunächst beobachtbar sein. Auf dem Wortlevel für meiste Sprachen kein Problem Morpheme müssen jedoch erst getrennt werden, um beobachtbar zu werden Erstes Ziel ist daher eine möglichst präzise Trennung von Morphemen Allerdings, wie später deutlich wird, ist das in einigen Fällen nicht unabhängig von den zugrunde liegenden Hypothesen. Beispiel: Soll bei Sonne und sonnig sonn als Wortstamm genommen werden (also Sonn-e) oder Sonne (demnach kein –e)

WS 05/06Automatische Akquisition linguistischen Wissens Zusammenfassung Erster Schritt ist, Einheiten zu finden: –freie und gebundene Morpheme Zweiter Schritt ist, syntagmatische und paradigmatische Beziehungen zwischen den Einheiten zu finden: –Dabei Wörter (oder Phrasen?) als Sätze und Morpheme als Einheiten –Daraus ergeben sich Kontexte und Kontextvergleiche Dritter Schritt, syn- und paradigmatische Relationen konkretisieren (Klassifikation, Clustering, …) –syntagmatisch: Konjugation, Deklination, … –paradigmatisch: Alternation, frei oder gebunden, … Ergebnis: –Menge von abstrakten Klassen, die der von Menschen eingeführten Ordnung namens Morphologie am ehesten entspricht –Oder: Andere Ordnung, sofern sie irgend einen Nutzen hat

WS 05/06Automatische Akquisition linguistischen Wissens10 2. Anwendungen Erstellung von Wörterbüchern Analyse neuer Sprachen Information Retrieval –Query expansion, –bzw. besseres Indexing (dies aber nicht einfach damit zu verbessern, aber einfach zu verschlechtern!) Empirische Bestätigung oder Falsifizierung linguistischer Theorien Generierung von Unterrichtsmaterial Musterbasiertes Lernen Kompression!

WS 05/06Automatische Akquisition linguistischen Wissens MDL Ansatz Prinzipiell wird nur von Wortliste ausgegangen, Existenz von Kontextinformation wird ausgeblendet Grundlegende Idee ist auch, dass Morphologie daher kommt, dass im Gehirn Teile von Wörtern zu Wortformen kombiniert werden und diese Teile eine Art Optimum darstellen Optimum erreicht durch maximale Widerverwendbarkeit der einzelnen Teile Da Optimum dann einfach Alphabet wäre ist also Gegenfaktor die Bedingung der verlustfreien Rekonstruierbarkeit gegeben –Dadurch müssen Links gespeichert werden und je mehr verschiedene Links, umso mehr Platz wird benötigt

WS 05/06Automatische Akquisition linguistischen Wissens Kazakovs Genetische Algorithmen Der erste Ansatz erschien um das Jahr 1997 herum (Kazakov 97) und (Kazakov 00), sowie (Kazakov 01) –Genetischer Algorithmus, welcher versucht zu einer gegebenen Liste von Wörtern herauszufinden, wie jedes Wort so getrennt werden kann, damit möglichst viele Teile wiederverwendet werden witz|ig, witz|ige, witz|iger, traur|ige, traur|iger, traur|ig optimal, da nur 6 Elemente zu speichern witz, traur, ig, ige, iger –Später wurde induktive logische Programmierung verwendet, um aus gewonnen Erstdaten neue Regeln zu lernen, die dann wiederum auf alle Wörter angewendet für mehr Trennungen und bessere Performanz sorgen sollten.

WS 05/06Automatische Akquisition linguistischen Wissens Beispiel Kazakovs Algorithmus 0. Iteration, zufällige Initialisierung:Fitness w|itzig, witz|ige, witzige|r, tr|aurige, trauri|ger, tr|aurig1/12 witz|ig, wit|zige, witz|iger, tra|urige, tra|uriger, tra|urig1/11 witz|ig, w|itzige, wit|ziger, trau|rige, tr|auriger, trau|rig1/11 1. Iteration, beibehalten der besten Exemplare, Generierung neuer, Mutation: witz|ig, wit|zige, witz|iger, tra|urige, tra|uriger, tra|urig1/11 witz|ig, w|itzige, wit|ziger, trau|rige, tr|auriger, trau|rig1/11 witz|ig, w|itzige, witz|iger, trau|rige, tra|uriger, trau|rig1/10 witz|ig, wit|zige, wit|ziger, tra|urige, tr|auriger, trauri|g1/10 2. Iteration, beibehalten der besten Exemplare, Generierung neuer, Mutation: … bis maximale Fitness 1/6

WS 05/06Automatische Akquisition linguistischen Wissens Weitere Entwicklungen Später vor allem durch Goldmsith weitere Entwicklungen Formulierte gleiche Idee anders: Es geht darum, ein maximal eingepacktes Lexikon zu erstellen Lexikon + Linkliste + Affixliste Jedes der drei Elemente benötigt für x Elemente lnx Bits pro Element. Somit läßt sich einfach ausrechnen, dass es besser ist, –pro Liste 8 Elemente zu speichern (nur 3 Bit pro Element, also 3*8*3=72 insgesamt), –als z.B. 80 in einer Liste (also mind. 7 Bit, also 7*80*1=560Bit) Details siehe Referat

WS 05/06Automatische Akquisition linguistischen Wissens15 4. Evaluierungen Verwandte Wortformen (ohne Morphemgrenzen): Jeder Morphologiealgorithmus kann letztlich genutzt werden, um verwandte Wortformen zu finden. Wie viele von den richtig und wie viele überhaupt gefunden wurden lässt sich dann messen (Schone & Jurafsky 01) Verwandte Wortformen (mit Morphemgrenzen): Morphologiealgorithmus kann genutzt werden, um festzustellen, wie oft gefundene Grenzen z.B. Wortstämme und deren Gruppen eindeutig identifizieren: abol-ition/abol-ish oder aboli-tion/aboli-sh jeweils korrekt, aber nicht abol-ition/aboli-sh (Goldsmith 01) Applikationsbasiert: Messen, ob Applikation, die diese Morphologie nutzt besser funktioniert also ohne oder mit anderer Morphologie (Hafer & Weiss 74)

WS 05/06Automatische Akquisition linguistischen Wissens Evaluierungen II Morphemgrenzen messen: Für jede gefundene Morphemgrenze messen, ob sie richtig, falsch oder nicht gefunden wurde –Pro Grenze (Creutz & Lagus 05) Precision = alle richtigen vs. alle gefundenen Grenzen Recall = gefundene vs. Alle zu findenden –Oder pro Wort (ob alle Grenzen richtig sind) (Kazakov 97) Precision = alle richtig zerlegten Wörter vs. richtig + falsch (kleiner Trick: Wörter, die gar nicht zerlegt werden sollen und auch nicht zerlegt werden, gelt dann als richtig… das ist besonders toll im Englischen) Recall = alle richtig zerlegten Wörter vs. alle zu zerlegenden Wörter Affixlisten angeben, so dass Leser selbst entscheiden kann (Argamon et al. 04) Keine Evaluierung (Déjean 98) Schliesslich unterscheiden sich alle Evaluierungen darin, welche Datenquellen sie verwenden

WS 05/06Automatische Akquisition linguistischen Wissens17 Referate Goldsmith 01 (Implementierung auf des Autors Webseite finden und vorführen): Kazakov 97 & 01 (Für diesen gibt es an der Abteilung eine Implementierung, sollte beim Referat verwendet werden)

WS 05/06Automatische Akquisition linguistischen Wissens18