Was ist Lemmatisierung und wie wird sie maschinell durchgeführt?

Slides:



Advertisements
Ähnliche Präsentationen
Programmieren im Großen von Markus Schmidt und Benno Kröger.
Advertisements

Eulerscher Polyedersatz
Algebraische Zahlen: Exaktes Rechnen mit Wurzeln
On the Criteria to Be Used in Decomposing Systems into Modules
Zusammenfassung der Vorwoche
Seniorenbefragung zum Thema: Wohnen im Alter
Default Logiken Zhao Li
Verifizieren versus Berechnen
Übung zu Einführung in die LDV I
Standortfaktoren INTERN - Ausdrucksstark präsentieren.
Java: Objektorientierte Programmierung
Anfragesprachen – Dipl. Ing. Ulrich Borchert / FH Merseburg1/4 Manuelle Verfahren Klassifizierung Hier werden Dokumente in ein fest vorgegebenes System.
Algorithmentheorie 04 –Hashing
Prof. Dr. S. Albers Prof. Dr. Th. Ottmann
Algorithmentheorie 7 – Bin Packing
Grundkurs Theoretische Informatik, Folie 3.1 © 2004 G. Vossen,K.-U. Witt Grundkurs Theoretische Informatik Kapitel 3 Gottfried Vossen Kurt-Ulrich Witt.
Fakten, Regeln und Anfragen
Parsing regulärer Ausdrücke
SYSTRAN Information and translation technologies.
Selbstverständnis der Mathematik
Kursleitung: Hier ist Platz für Ihren Namen
Betreuerin: Kathleen Jerchel
Kapitel 19 Astronomie Autor: Bennett et al. Unsere Galaxis, die Milchstraße Kapitel 19 Unsere Galaxis, die Milchstraße © Pearson Studium 2010 Folie: 1.
Christian Schindelhauer
Christian Schindelhauer
Wie arbeitet der Brill-Tagger und warum macht er Fehler? Der Brill-Tagger basiert auf der Kombination von regelbasierten und statistischen Verfahren. Er.
Wir suchen ‘ mit m = m    ‘ c  ‘ mod 26
Spree SoSe 2007 Titel Lexikographie und Metalexikographie Lexikonproduktion und Lexikontheorie Dank an Franziskus Geeb, der mir seine Unterrichtsmaterialien.
Inhalte und Maßnahmen eingegeben haben,
Spree SoSe 2010 Optimierung von Volltextinvertierung durch den Einsatz von Indexierungswörterbüchern Artikelstrecke ab BUTTERBLUME im Deutschen Wörterbuch.
Ralf KüstersDagstuhl 2008/11/30 2 Ralf KüstersDagstuhl 2008/11/30 3.
Mehrsprachigkeit aus psycholinguistischer Sicht
Morphologiesystem MORPHY Für Deutsche Sprache:
1. 2 Schreibprojekt Zeitung 3 Überblick 1. Vorstellung ComputerLernWerkstatt 2. Schreibprojekt: Zeitung 2.1 Konzeption des Kurses 2.2 Projektverlauf.
Knowledge Discovery mit Wordnet und Alembic Workbench
...ich seh´es kommen !.
HORIZONT 1 XINFO ® Das IT - Informationssystem Java Scanner HORIZONT Software für Rechenzentren Garmischer Str. 8 D München Tel ++49(0)89 / 540.
Polynome und schnelle Fourier-Transformation
Präsentation läuft auch vollautomatisch ab … wie du möchtest
Werkzeugmaschinen Einführung © Prof. Dr. H.-J. Weber 10.11
Auslegung eines Vorschubantriebes
Analyse von Ablaufdiagrammen
Wohlgeformtheit und Gültigkeit Grundlagen der Datenmodellierung Anke Jackschina.
Ganzheitliches Projekt-, Ressourcen- und Qualitätsmanagement 1 Reports und AddOns Auf den folgenden Seiten wird Ihnen die Funktionsweise der Reports und.
Formale Sprachen Reguläre Sprachen Rudolf FREUND, Marian KOGLER.
Wortbildung: Grundlagen, Klassen von Affixen
PARTENARIAT ÉDUCATIF GRUNDTVIG PARTENARIAT ÉDUCATIF GRUNDTVIG REPERES KULTURELLER ZUSAMMENHALT UND AUSDEHNUNG DER IDEEN AUF EUROPÄISCHEM.
Übung zu Einführung in die LDV I
Analyseprodukte numerischer Modelle
2014 Januar 2014 So Mo Di Mi Do Fr Sa So
Meldungen über Ethernet mit FINS/UDP
1 Albert-Ludwigs-Universität Freiburg Rechnernetze und Telematik Prof. Dr. Christian Schindelhauer Informatik III Christian Schindelhauer Wintersemester.
1 Albert-Ludwigs-Universität Freiburg Rechnernetze und Telematik Prof. Dr. Christian Schindelhauer Informatik III Christian Schindelhauer Wintersemester.
Formulare in HTML.
Der Erotik Kalender 2005.
31 Verben im Perfekt: 1) Sind die Verben schwach, stark, oder unregelmäßig? 2) Wie ist das Partizip? 3) Wie ist die Perfekt-Form für das gegebene Subjekt?
CSS Cascading Style Sheets
Familie Beutner, Konrad-Voelckerstrasse, Edenkoben/Pfalz, Tel:
Theoretischer Hintergrund Systematische Wortschatzarbeit –
Übung zu Einführung in die LDV I
7. Formale Sprachen und Grammatiken
EINFÜHRUNG IN DIE MORPHOLOGIE Morphologie = Formenlehre
IB+IA Anfänger Structura limbii Sommersemester 2015 Dr. Ileana-Maria Ratcu.
Lexikalische Semantik
Dr. Wolfram Amme, Semantik funktionaler Programme, Informatik II, FSU Jena, SS Semantik funktionaler Programme.
Arbeiten mit WordSmith 4. Inhalt 1. Arbeiten mit der Funktion Wortliste (im getaggten Korpus) 1. Arbeiten mit der Funktion Wortliste (im getaggten Korpus)
VO#1: Lexikologie als sprachwissenschaftliche Disziplin Lexikologie, Matej-Bel-Univeristät in Banská Bystrica, Z. Tuhárska.
VORLESUNG 1 Sprachbau Sememe Sätze Redeteilen Wortformen Wortgruppe Morpheme (Begriffe)
 Präsentation transkript:

Was ist Lemmatisierung und wie wird sie maschinell durchgeführt? Kirke Herrmann Özgür Kurtulmus-Onigkeit Datum : 24.Jan. 2007

Hauptthemen Lemmatisierung Was ist ein Lemma? Was ist ein Lemmatisierer? Wie wird sie maschinell durchgeführt? Wortformmethode Morphemmethode Allomorphmethode Probleme Quellen

Was ist ein Lemma? altgriechisch : “das Herausgenommene” allgemein in der CL: normierte Grundform für alle zu einem Wort gehörenden Wortformen Beispiel: Hauses und Häuser werden zu Haus lemmatisiert

Was ist Lemmatisierung ? Rückführung einer Wortform auf ihr Lemma. Oberflächenform Die grammatische Wortform (hier: „lief“) hat eine eindeutige morphologische Zuweisung (hier: Verb 3.Pers Sing) und wird Oberflächenform genannt. Eingabe zum Beispiel.: lief Ausgabe des Lemmatisierers: laufen

Was ist Lemmatisierung ? Reduktion flektierter und variierter Wortformen auf ihre Lemmata, Grundform, Lexikonseinträge durch Nachschlagen in einem (elektronischen) Wörterbuch Bsp: gibst  geben In diesem Zusammenhang sind Grundformen: Unflektierte Simplizia verschiedener Wortarten Unflektierte Ableitungen und Komposita Wortbildungsmorpheme

Was ist Lemmatisierung ? Bemerkung: Wenn wir in einem Wörterbuch nach einem Wort suchen, führen wir selbst eine „Mentale Lemmatisierung“ durch. Möchte man z. Bsp. in einem Wörterbuch die spanische Bedeutung für „geht“ nachschlagen, so schaut man unter dem Eintrag „gehen“ nach (und beschäftigt sich danach mit der Konjugation des Wortes). „geht“ ist hier die Oberflächenform; „gehen“ das Lemma.

Welche Lexikonarten werden für die Lemmatisierung verwendet? Vollformenlexikon: jede Wortform kann direkt im Lexikon nachgeschlagen werden Grundformenlexikon: Wortform wird durch morphologische Regeln auf eine potentielle Grundform reduziert, die dann im Lexikon nachgeschlagen wird. Vollformenlexikon ist aufwendiger hinsichtlich Speicherplatz aber effizienter bei der Verarbeitung

Lemmatisierer sind morphologische Analyseprogramme Grundlage für das Funktionieren solcher Programme ist die Morphologie, d.h. die Regel und Prozesse der Wortbildung. für jedes Element der zu untersuchenden natürlichen Sprache muss eine lexikalische Analyse definiert werden, die zum Zeitpunkt der Wortformerkennung zur Verfügung steht. Im Lexikon stehen die Lemmata mit ihren Wortklassen (Flexionsparadigmen).

Was ist der Unterschied zwischen einem Tagger und Lemmatisierer ? Ein Tagger führt : 1.eine Lemmatisierung durch 2. weist den eingegebenen Wörtern (2) eine Wortart zu 3. bestimmt Kasus, Numerus und Genus. Ein Lemmatisierer ermittelt nur das Lemma (die Basis) des eingegebenen Wortes. Jeder Tagger beinhaltet einen Lemmatisierer.

Wie wird Lemmatisierung maschinell durchgeführt? Zum Lemmatisieren braucht man also 1. ein Grundformenlexikon, in dem die Lemmata mit ihrer Flexionsklasse stehen und ein Regelapparat ( meistens Zwei-Ebenen-Morphologie) 2. oder ein Vollformenlexikon (Lexikon grammatischer Wörter) (natürlich kann man (2) aus (1) erzeugen)

Wie wird Lemmatisierung maschinell durchgeführt? Zwei-Ebenen-Morphologie Zwei-Ebenen-Morphologie ist eine Theorie zur Beschreibung morphologischer Phänomene von K. Koskenniemi (1983) : Zwei Ebenen Ausgangsform und Oberflächenform Regeln unabhängig voneinander Regeln können parallel angewendet werden Jede Regel kann in einen Transducer übersetzt werden

Wie wird Lemmatisierung maschinell durchgeführt? Beispiel: Bildung der Form 2. Sg Präsens vom Verb rasen durch einen Transducer Ausgangsform: r a s + s t    Oberflächenform: r a s 0 0 t

Wie wird Lemmatisierung maschinell durchgeführt? Erkennungsalgorithmus: mit Hilfe des Lexikons muss jede unbekannte Wortform automatisch im Hinblick auf Lemmatisierung und Kategorisierung charakterisiert werden. Kategorisierung dient, um die gegebenen Wortformen hinsichtlich ihrer morphosyntaktischen Eigenschaften zu spezifizieren.

Wie wird Lemmatisierung maschinell erstellt? Wortformmethode Morphemmethode Allomorphmethode

Wortformmethode Oberflächenform wird lediglich mit Lexikoneintrag verglichen. Die Oberflächenform wird nicht segmentiert, sondern ist unanalysiert im Lexikon gespeichert. Morphosyntaktische Informationen und Basisform sind der flektierten Form fest zugeordnet.

Wortformmethode

Morphemmethode Oberflächenform wird zuerst in Allomorphe segmentiert danach können die morphosyntaktischen Eigenschaften bestimmt werden Nachteil: Alle möglichen Formen müssen produziert werden

Morphemmethode

Allomorphmethode Ähnlich Morphemmethode Unterschied: Segmentierte Allomorphe werden zuerst überprüft Dann konkateniert

Vorteil gegenüber Morphemmethode: Allomorphmethode Vorteil gegenüber Morphemmethode: Die Allomorphe werden nicht wie bei der Morphemmethode „blind“ miteinander konkateniert und dann erst morphosyntaktisch kategorisiert.

Allomorphmethode

Zusammenfassung Lemmatisierer: sind morphologische Analyseprogramme, die eine grammatische Wortform auf ihre Basis zurückführen. Diese Basis bezeichnet man als Lemma. Die davon abgeleitete Form als Oberflächenform.

Zusammenfassung Komponenten der Wortformerkennung: Lexikon Erkennungsalgorithmus Kategorisierung Lemmatisierung

Probleme Lemmatisierung erfordert umfangreiches elektronisches Wörterbuch, aufwendig in der Erstellung und Wartung Relativ hohe Anforderungen an Verarbeitungszeit oder Speicherplatz Was passiert mit Wortformen, die nicht im Lexikon gefunden werden? Eigennamen Komposita im Deutschen In der Regel keine Derivationsanalyse

Probleme Homographie Gleiche Flexionsendungen bei mehreren Wortklassen (-en in laufen, Regen, Tonnen) Allomorphe Gleiche Bedeutung aber unterschiedliche Morpheme morphologische Mehrdeutigkeit Mehrere Zerlegungsmöglichkeiten (Be-inhalten vs. Bein-halten)

Das Programm Morphy Morphy ist ein Programm, welches das passende Lemma zu einer eingegebenen Oberflächenform liefert. Morphy beinhaltet ein Morphologiesystem und eine Taggingkomponente. Entwickelt wurde Morphy von Wolfgang Lezius im Rahmen eines Projektes der Paderborner Arbeitsgruppe Kognitionsforschung

Das Programm Morphy

Die Morphymethode

Quellen Anke Lüdeling: Einführung in die Korpuslinguistik, Uni Berlin www.spinfo.uni-koeln.de www.ifi.unizh.ch/cl/Glossar/Lemma.html www.wolfganglezius.de Klabunde ( et al.) : Computerlinguistik und Sprachtechnologie