Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

Was ist Lemmatisierung und wie wird sie maschinell durchgeführt?

Ähnliche Präsentationen


Präsentation zum Thema: "Was ist Lemmatisierung und wie wird sie maschinell durchgeführt?"—  Präsentation transkript:

1 Was ist Lemmatisierung und wie wird sie maschinell durchgeführt?
Kirke Herrmann Özgür Kurtulmus-Onigkeit Datum : 24.Jan. 2007

2 Hauptthemen Lemmatisierung Was ist ein Lemma?
Was ist ein Lemmatisierer? Wie wird sie maschinell durchgeführt? Wortformmethode Morphemmethode Allomorphmethode Probleme Quellen

3 Was ist ein Lemma? altgriechisch : “das Herausgenommene”
allgemein in der CL: normierte Grundform für alle zu einem Wort gehörenden Wortformen Beispiel: Hauses und Häuser werden zu Haus lemmatisiert

4 Was ist Lemmatisierung ?
Rückführung einer Wortform auf ihr Lemma. Oberflächenform Die grammatische Wortform (hier: „lief“) hat eine eindeutige morphologische Zuweisung (hier: Verb 3.Pers Sing) und wird Oberflächenform genannt. Eingabe zum Beispiel.: lief Ausgabe des Lemmatisierers: laufen

5 Was ist Lemmatisierung ?
Reduktion flektierter und variierter Wortformen auf ihre Lemmata, Grundform, Lexikonseinträge durch Nachschlagen in einem (elektronischen) Wörterbuch Bsp: gibst  geben In diesem Zusammenhang sind Grundformen: Unflektierte Simplizia verschiedener Wortarten Unflektierte Ableitungen und Komposita Wortbildungsmorpheme

6 Was ist Lemmatisierung ?
Bemerkung: Wenn wir in einem Wörterbuch nach einem Wort suchen, führen wir selbst eine „Mentale Lemmatisierung“ durch. Möchte man z. Bsp. in einem Wörterbuch die spanische Bedeutung für „geht“ nachschlagen, so schaut man unter dem Eintrag „gehen“ nach (und beschäftigt sich danach mit der Konjugation des Wortes). „geht“ ist hier die Oberflächenform; „gehen“ das Lemma.

7 Welche Lexikonarten werden für die Lemmatisierung verwendet?
Vollformenlexikon: jede Wortform kann direkt im Lexikon nachgeschlagen werden Grundformenlexikon: Wortform wird durch morphologische Regeln auf eine potentielle Grundform reduziert, die dann im Lexikon nachgeschlagen wird. Vollformenlexikon ist aufwendiger hinsichtlich Speicherplatz aber effizienter bei der Verarbeitung

8 Lemmatisierer sind morphologische Analyseprogramme
Grundlage für das Funktionieren solcher Programme ist die Morphologie, d.h. die Regel und Prozesse der Wortbildung. für jedes Element der zu untersuchenden natürlichen Sprache muss eine lexikalische Analyse definiert werden, die zum Zeitpunkt der Wortformerkennung zur Verfügung steht. Im Lexikon stehen die Lemmata mit ihren Wortklassen (Flexionsparadigmen).

9 Was ist der Unterschied zwischen einem Tagger und Lemmatisierer ?
Ein Tagger führt : 1.eine Lemmatisierung durch 2. weist den eingegebenen Wörtern (2) eine Wortart zu 3. bestimmt Kasus, Numerus und Genus. Ein Lemmatisierer ermittelt nur das Lemma (die Basis) des eingegebenen Wortes. Jeder Tagger beinhaltet einen Lemmatisierer.

10 Wie wird Lemmatisierung maschinell durchgeführt?
Zum Lemmatisieren braucht man also 1. ein Grundformenlexikon, in dem die Lemmata mit ihrer Flexionsklasse stehen und ein Regelapparat ( meistens Zwei-Ebenen-Morphologie) 2. oder ein Vollformenlexikon (Lexikon grammatischer Wörter) (natürlich kann man (2) aus (1) erzeugen)

11 Wie wird Lemmatisierung maschinell durchgeführt?
Zwei-Ebenen-Morphologie Zwei-Ebenen-Morphologie ist eine Theorie zur Beschreibung morphologischer Phänomene von K. Koskenniemi (1983) : Zwei Ebenen Ausgangsform und Oberflächenform Regeln unabhängig voneinander Regeln können parallel angewendet werden Jede Regel kann in einen Transducer übersetzt werden

12 Wie wird Lemmatisierung maschinell durchgeführt?
Beispiel: Bildung der Form 2. Sg Präsens vom Verb rasen durch einen Transducer Ausgangsform: r a s + s t    Oberflächenform: r a s 0 0 t

13 Wie wird Lemmatisierung maschinell durchgeführt?
Erkennungsalgorithmus: mit Hilfe des Lexikons muss jede unbekannte Wortform automatisch im Hinblick auf Lemmatisierung und Kategorisierung charakterisiert werden. Kategorisierung dient, um die gegebenen Wortformen hinsichtlich ihrer morphosyntaktischen Eigenschaften zu spezifizieren.

14 Wie wird Lemmatisierung maschinell erstellt?
Wortformmethode Morphemmethode Allomorphmethode

15 Wortformmethode Oberflächenform wird lediglich mit Lexikoneintrag verglichen. Die Oberflächenform wird nicht segmentiert, sondern ist unanalysiert im Lexikon gespeichert. Morphosyntaktische Informationen und Basisform sind der flektierten Form fest zugeordnet.

16 Wortformmethode

17 Morphemmethode Oberflächenform wird zuerst in Allomorphe segmentiert
danach können die morphosyntaktischen Eigenschaften bestimmt werden Nachteil: Alle möglichen Formen müssen produziert werden

18 Morphemmethode

19 Allomorphmethode Ähnlich Morphemmethode Unterschied:
Segmentierte Allomorphe werden zuerst überprüft Dann konkateniert

20 Vorteil gegenüber Morphemmethode:
Allomorphmethode Vorteil gegenüber Morphemmethode: Die Allomorphe werden nicht wie bei der Morphemmethode „blind“ miteinander konkateniert und dann erst morphosyntaktisch kategorisiert.

21 Allomorphmethode

22 Zusammenfassung Lemmatisierer:
sind morphologische Analyseprogramme, die eine grammatische Wortform auf ihre Basis zurückführen. Diese Basis bezeichnet man als Lemma. Die davon abgeleitete Form als Oberflächenform.

23 Zusammenfassung Komponenten der Wortformerkennung: Lexikon
Erkennungsalgorithmus Kategorisierung Lemmatisierung

24 Probleme Lemmatisierung erfordert umfangreiches elektronisches Wörterbuch, aufwendig in der Erstellung und Wartung Relativ hohe Anforderungen an Verarbeitungszeit oder Speicherplatz Was passiert mit Wortformen, die nicht im Lexikon gefunden werden? Eigennamen Komposita im Deutschen In der Regel keine Derivationsanalyse

25 Probleme Homographie Gleiche Flexionsendungen bei mehreren Wortklassen
(-en in laufen, Regen, Tonnen) Allomorphe Gleiche Bedeutung aber unterschiedliche Morpheme morphologische Mehrdeutigkeit Mehrere Zerlegungsmöglichkeiten (Be-inhalten vs. Bein-halten)

26 Das Programm Morphy Morphy ist ein Programm, welches das passende
Lemma zu einer eingegebenen Oberflächenform liefert. Morphy beinhaltet ein Morphologiesystem und eine Taggingkomponente. Entwickelt wurde Morphy von Wolfgang Lezius im Rahmen eines Projektes der Paderborner Arbeitsgruppe Kognitionsforschung

27 Das Programm Morphy

28 Die Morphymethode

29 Quellen Anke Lüdeling: Einführung in die Korpuslinguistik, Uni Berlin
Klabunde ( et al.) : Computerlinguistik und Sprachtechnologie


Herunterladen ppt "Was ist Lemmatisierung und wie wird sie maschinell durchgeführt?"

Ähnliche Präsentationen


Google-Anzeigen