Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

1 Was ist Lemmatisierung und wie wird sie maschinell durchgeführt? Kirke Herrmann Özgür Kurtulmus-Onigkeit Datum : 24.Jan. 2007.

Ähnliche Präsentationen


Präsentation zum Thema: "1 Was ist Lemmatisierung und wie wird sie maschinell durchgeführt? Kirke Herrmann Özgür Kurtulmus-Onigkeit Datum : 24.Jan. 2007."—  Präsentation transkript:

1 1 Was ist Lemmatisierung und wie wird sie maschinell durchgeführt? Kirke Herrmann Özgür Kurtulmus-Onigkeit Datum : 24.Jan. 2007

2 2 Hauptthemen Lemmatisierung Was ist ein Lemma? Was ist ein Lemmatisierer? Wie wird sie maschinell durchgeführt? Wortformmethode Morphemmethode Allomorphmethode Probleme Quellen

3 3 altgriechisch : das Herausgenommene allgemein in der CL: normierte Grundform für alle zu einem Wort gehörenden Wortformen Beispiel: Hauses und Häuser werden zu Haus lemmatisiert Was ist ein Lemma?

4 4 Was ist Lemmatisierung ? Rückführung einer Wortform auf ihr Lemma. Oberflächenform Die grammatische Wortform (hier: lief) hat eine eindeutige morphologische Zuweisung (hier: Verb 3.Pers Sing) und wird Oberflächenform genannt. Eingabe zum Beispiel.: lief Ausgabe des Lemmatisierers: laufen

5 5 Reduktion flektierter und variierter Wortformen auf ihre Lemmata, Grundform, Lexikonseinträge durch Nachschlagen in einem (elektronischen) Wörterbuch Bsp: gibst geben In diesem Zusammenhang sind Grundformen: Unflektierte Simplizia verschiedener Wortarten Unflektierte Ableitungen und Komposita Wortbildungsmorpheme Was ist Lemmatisierung ?

6 6 Bemerkung: Wenn wir in einem Wörterbuch nach einem Wort suchen, führen wir selbst eine Mentale Lemmatisierung durch. Möchte man z. Bsp. in einem Wörterbuch die spanische Bedeutung für geht nachschlagen, so schaut man unter dem Eintrag gehen nach (und beschäftigt sich danach mit der Konjugation des Wortes). geht ist hier die Oberflächenform; gehen das Lemma. Was ist Lemmatisierung ?

7 7 Welche Lexikonarten werden für die Lemmatisierung verwendet? Vollformenlexikon: jede Wortform kann direkt im Lexikon nachgeschlagen werden Grundformenlexikon: Wortform wird durch morphologische Regeln auf eine potentielle Grundform reduziert, die dann im Lexikon nachgeschlagen wird. Vollformenlexikon ist aufwendiger hinsichtlich Speicherplatz aber effizienter bei der Verarbeitung

8 8 Lemmatisierer sind morphologische Analyseprogramme Grundlage für das Funktionieren solcher Programme ist die Morphologie, d.h. die Regel und Prozesse der Wortbildung. für jedes Element der zu untersuchenden natürlichen Sprache muss eine lexikalische Analyse definiert werden, die zum Zeitpunkt der Wortformerkennung zur Verfügung steht. Im Lexikon stehen die Lemmata mit ihren Wortklassen (Flexionsparadigmen).

9 9 Ein Tagger führt : 1.eine Lemmatisierung durch 2. weist den eingegebenen Wörtern (2) eine Wortart zu 3. bestimmt Kasus, Numerus und Genus. Ein Lemmatisierer ermittelt nur das Lemma (die Basis) des eingegebenen Wortes. Jeder Tagger beinhaltet einen Lemmatisierer. Was ist der Unterschied zwischen einem Tagger und Lemmatisierer ?

10 10 Wie wird Lemmatisierung maschinell durchgeführt? Zum Lemmatisieren braucht man also 1. ein Grundformenlexikon, in dem die Lemmata mit ihrer Flexionsklasse stehen und ein Regelapparat ( meistens Zwei-Ebenen- Morphologie) 2. oder ein Vollformenlexikon (Lexikon grammatischer Wörter) (natürlich kann man (2) aus (1) erzeugen)

11 11 Zwei-Ebenen-Morphologie Zwei-Ebenen-Morphologie ist eine Theorie zur Beschreibung morphologischer Phänomene von K. Koskenniemi (1983) : Zwei Ebenen Ausgangsform und Oberflächenform Regeln unabhängig voneinander Regeln können parallel angewendet werden Jede Regel kann in einen Transducer übersetzt werden Wie wird Lemmatisierung maschinell durchgeführt?

12 12 Beispiel: Bildung der Form 2. Sg Präsens vom Verb rasen durch einen Transducer Ausgangsform: r a s + s t Oberflächenform: r a s 0 0 t Wie wird Lemmatisierung maschinell durchgeführt?

13 13 Erkennungsalgorithmus: mit Hilfe des Lexikons muss jede unbekannte Wortform automatisch im Hinblick auf Lemmatisierung und Kategorisierung charakterisiert werden. Kategorisierung dient, um die gegebenen Wortformen hinsichtlich ihrer morphosyntaktischen Eigenschaften zu spezifizieren. Wie wird Lemmatisierung maschinell durchgeführt?

14 14 Wortformmethode Morphemmethode Allomorphmethode Wie wird Lemmatisierung maschinell erstellt?

15 15 Wortformmethode Oberflächenform wird lediglich mit Lexikoneintrag verglichen. Die Oberflächenform wird nicht segmentiert, sondern ist unanalysiert im Lexikon gespeichert. Morphosyntaktische Informationen und Basisform sind der flektierten Form fest zugeordnet.

16 16 Wortformmethode

17 17 Morphemmethode Oberflächenform wird zuerst in Allomorphe segmentiert danach können die morphosyntaktischen Eigenschaften bestimmt werden Nachteil: Alle möglichen Formen müssen produziert werden

18 18 Morphemmethode

19 19 Allomorphmethode Ähnlich Morphemmethode Unterschied: Segmentierte Allomorphe werden zuerst überprüft Dann konkateniert

20 20 Allomorphmethode Die Allomorphe werden nicht wie bei der Morphemmethode blind miteinander konkateniert und dann erst morphosyntaktisch kategorisiert. Vorteil gegenüber Morphemmethode:

21 21 Allomorphmethode

22 22 Zusammenfassung Lemmatisierer: sind morphologische Analyseprogramme, die eine grammatische Wortform auf ihre Basis zurückführen. Diese Basis bezeichnet man als Lemma. Die davon abgeleitete Form als Oberflächenform.

23 23 Zusammenfassung Komponenten der Wortformerkennung: Lexikon Erkennungsalgorithmus Kategorisierung Lemmatisierung

24 24 Lemmatisierung erfordert umfangreiches elektronisches Wörterbuch, aufwendig in der Erstellung und Wartung Relativ hohe Anforderungen an Verarbeitungszeit oder Speicherplatz Was passiert mit Wortformen, die nicht im Lexikon gefunden werden? Eigennamen Komposita im Deutschen In der Regel keine Derivationsanalyse Probleme

25 25 Probleme Homographie Gleiche Flexionsendungen bei mehreren Wortklassen (-en in laufen, Regen, Tonnen) Allomorphe Gleiche Bedeutung aber unterschiedliche Morpheme morphologische Mehrdeutigkeit Mehrere Zerlegungsmöglichkeiten (Be-inhalten vs. Bein-halten)

26 26 Das Programm Morphy Morphy ist ein Programm, welches das passende Lemma zu einer eingegebenen Oberflächenform liefert. Morphy beinhaltet ein Morphologiesystem und eine Taggingkomponente. Entwickelt wurde Morphy von Wolfgang Lezius im Rahmen eines Projektes der Paderborner Arbeitsgruppe Kognitionsforschung

27 27 Das Programm Morphy

28 28 Die Morphymethode

29 29 Quellen Anke Lüdeling: Einführung in die Korpuslinguistik, Uni Berlin Klabunde ( et al.) : Computerlinguistik und Sprachtechnologie


Herunterladen ppt "1 Was ist Lemmatisierung und wie wird sie maschinell durchgeführt? Kirke Herrmann Özgür Kurtulmus-Onigkeit Datum : 24.Jan. 2007."

Ähnliche Präsentationen


Google-Anzeigen