Wie arbeitet der Brill-Tagger und warum macht er Fehler? Der Brill-Tagger basiert auf der Kombination von regelbasierten und statistischen Verfahren. Er.

Slides:



Advertisements
Ähnliche Präsentationen
... für alle, die mal Ihren IQ testen wollen!
Advertisements

Relativsätze in Dialekten
Eine dynamische Menge, die diese Operationen unterstützt,
WR + WS ZEIGEN Neues aus der Mathematik.
Der Mut wächst, je größer die Hindernisse sind
Die wichtigste Frage des Lebens!
WS 05/06Automatische Akquisition linguistischen Wissens1 Partielles Wissen erweitern 1.Zusammenhang mit bisherigen Algorithmen 2.Vom offensichtlichen zum.
Heuristiken und Kontexteinflüsse
Bestimmung des Next-Arrays im KMP-Algorithmus
1 Automatische Klassifikation von Nomen nach Begriffstyp Christof Rumpf Heinrich-Heine-Universität
Struktur und Funktion von Biopolymeren Elmar Lang
NP-Bewegung & wh-Bewegung
Was ist Lemmatisierung und wie wird sie maschinell durchgeführt?
- Die wichtigsten Wortarten im Überblick -
Wie macht man ein Sudoku? Transformations-Methode:
Kakuro Regeln und Strategien
Komma zwischen Sätzen – nochmals von vorn!
Externe Bewertung in IB-Biologie
Kausalsätze: Weil-Sätze Da-Sätze Denn-Sätze
Zu wenig Sport für dicke Kinder
alle Nomen haben einen Artikel und werden groß geschrieben
Liebe Marla,   es hat lange Zeit gedauert, Dir diesen Brief zu schreiben, so wie es oft lange dauert, sich für etwas zu entscheiden.Als mir Antje die Frage.
Lesen durch Schreiben – Erste Schritte
Relativsätze.
Nebensätze IRAPI Inhaltssätze Infinitivsätze Relativsätze
Moin. Ich benutze PPT 2002 und möchte drei Bilder nacheinander 1
Die 5 schwierigen Fragen
Powerpoint 2010 Start Funker Panorama: Zuschauer auf der Elbbrücke beim Weinfest 2011 in Meißen.
DEUTSCH Hauptsatz Prädikat  nächste Seite
Programmierte Übersetzungsübung „Helenam adeptus...“
Regeländerungen Saison 2011 / 2012 Gültig ab 01. Juli 2011.
Nehm dir Zeit, um die Botschaft zu lesen.
Geniesse das Leben, denn es ist das Einzige, das du hast !!!
100 kg Wie wird’s gemacht?! Klick.
Gibt es „kurze“ und „lange“ Vokale?
Ärger an den schönsten Tagen
Grammatik auf Deutsch.
Lernprogramm zur Bestimmung der Wortarten
Sind Sie intelligent ? Diese Frage ist wichtig (da man ja denkt, dass man intelligenter ist als der Idiot von einem Nachbarn) Hier nun vier Fragen, die.
ENDLICHE KÖRPER RSA – VERFAHREN.
Management, Führung & Kommunikation
Da ist was dran!.
DSD I Trainingsstunde 1 LESEVERSTEHEN Teil 1.
Da ist was dran! „Wenn es mir besser gehen würde,
Nehm dir Zeit, um die Botschaft zu lesen.
Da ist was dran! „Wenn es mir besser gehen würde,
Willkommen in meiner kleinen bescheidenen Hexenkammer... Hier geht’s weiter... Zur Hexe selbst... PixXx Hexenkochbuch (noch in Arbeit... Kommt bald) FriendZz.
Prüfungstraining Leseverstehen Teil 2
Die 5 schwierigsten Fragen
Grammatikalische Begriffe im Unterricht
Jedem angehenden Ingenieur wird schon zu Beginn beigebracht, zum Beispiel die Summe von zwei Größen nicht etwa in der Form darzustellen. Diese Form ist.
Grundzüge der Morphologie des Deutschen Hilke Elsen ISBN: © 2014 Walter de Gruyter GmbH, Berlin/Boston Abbildungsübersicht / List of.
Aufgaben zur Kombinatorik
Wortarten Verben - veränderbare (flektierbare) Wortart, die eine Tätigkeit, ein Geschehen, einen Vorgang oder einen Zustand bezeichnet - konjugierbar.
Eine Fotoreportage über junge Flüchtlinge in Deutschland
Ihr Stimmzettel sieht z.B. so aus:
Reihenfolge der Operatoren
Wenn die Haifische Menschen wären Bertolt Brecht
Deutsch in unserem Leben
Arbeiten mit WordSmith 4. Inhalt 1. Arbeiten mit der Funktion Wortliste (im getaggten Korpus) 1. Arbeiten mit der Funktion Wortliste (im getaggten Korpus)
Academic writing in German Deutsche Wissenschaftssprache Transition Module 5a developed by Elisabeth Wielander.
Übungsart: Seite: Bearbeitet von: Siegbert Rudolph Lesemotivationstraining Titel: Quelle: Nächste Folie 1 Bedienungshinweise: Makros müssen freigeschaltet.
Leseverstehen Strategien für das erfolgreiche Lesen Transition Module 3 developed by Elisabeth Wielander.
Trainingscamp Hörverstehen Katharina Leiss  In Teil 1 gibt es 6 Punkte.  In Teil 2 gibt es 7 Punkte.  In Teil 3 gibt es 7 Punkte. A2 bekommst.
Wortarten Übersicht Scheicher 2009.
Leseverstehen Strategien für das erfolgreiche Lesen
Referat von Anna Schotterer, Julia Zeller und Lisa Breis
Das kann ich schon. Selbsttest A2 mit kurzen Erklärungen
 Präsentation transkript:

Wie arbeitet der Brill-Tagger und warum macht er Fehler? Der Brill-Tagger basiert auf der Kombination von regelbasierten und statistischen Verfahren. Er betreibt keine Satzanalyse, sondern betrachtet nur das zu taggende Wort und dessen nahe Umgebung um zu entscheiden, welche Wortklasse am wahrscheinlichsten sein wird. Die Regeln und statistischen Werte lernt der Tagger selbständig aus einem manuell korrigierten sog. Trainingscorpus.

1. Das Vorgehen des Taggers 1.1. Nachschlagen im Lexikon 1.2. Lexikalische Regeln 1.3. Bigramregeln 1.4. Kontextregeln 1.1. Nachschlagen im Lexikon 1.2. Lexikalische Regeln 1.3. Bigramregeln 1.4. Kontextregeln

1.1. Nachschlagen im Lexikon Das Lexikon besteht aus einer Liste von Wörtern, gefolgt von ihren möglichen Tags, wobei das im Trainingscorpus wahrscheinlichste zuerst steht. Falls der Kandidat im Lexikon steht, so wird ihm das im Trainingscorpus wahrscheinlichste Tag provisorisch zugewiesen. Falls der Kandidat nicht im Lexikon steht, so wird großgeschriebenen Kandidaten (das gilt natürlich nur im Deutschen) provisorisch das Tag Nomen (NN) zugeteilt, während für kleingeschriebene Kandidaten unbekannt (XX) provisorisch festgelegt wird. Daraufhin wird mittels der folgenden Regeln versucht, die Wortklasse zu präzisieren.

1.2. Lexikalische Regeln Kleingeschriebene, nicht im Lexikon vorhandene Kandidaten werden auf ihre interne Struktur wie Präfixe und Suffixe untersucht. Die folgende selbstgelernte lexikalische Regel besagt beispielsweise, dass ein Wort mit dem 3-buchstabigen Suffix -bar wahrscheinlich (Wahrscheinlichkeitswert=5) ein Adjektiv in prädikativer Position (ADJD) ist:

1.3. Bigramregeln Nur für nicht im Lexikon (1.) gefundene Kandidaten zieht der Tagger eine Sammlung von Bigrammen zu Rate, die aus einem beliebig großen, im Genre dem Trainingscorpus verwandten, aber ungetaggten Corpus gewonnen wird. Aus dieser Bigrammsammlung findet der Tagger heraus, welche Worte häufig unmittelbar vor oder hinter dem Kandidaten zu pflegen stehen (adjacant pairs). Je nach deren Wortart entschließt sich der Tagger dazu, das provisorische Tag des Kandidaten zu belassen oder in eine anderes zu transformieren.

1.4. Kontextregeln Kontextregeln gelten für bekannte Wörter und können über den Bigrammrahmen hinausgreifen. Sie transformieren ein provisorisch dem Kandidaten zugewiesenes Tag in ein anderes im Lexikon aufgeführtes, falls die Wortumgebung dies opportun macht. Die folgende selbstgelernte Regel besagt beispielsweise, dass flektierteVollverben (VVFIN) in flektierte Hilfsverben (VAFIN) transformiert werden sollen, falls in den nächsten 3 Wörtern ein Partizip (VVPP) auftaucht. VVFIN VAFIN NEXT1OR2OR3TAG VVPP Diese Regel kommt bei Verben zum Einsatz, die gemäßs Lexikon sowohl Voll- als auch Hilfsverben sein können, also vor allem bei sein und haben. Kontextregeln gelten für bekannte Wörter und können über den Bigrammrahmen hinausgreifen. Sie transformieren ein provisorisch dem Kandidaten zugewiesenes Tag in ein anderes im Lexikon aufgeführtes, falls die Wortumgebung dies opportun macht. Die folgende selbstgelernte Regel besagt beispielsweise, dass flektierteVollverben (VVFIN) in flektierte Hilfsverben (VAFIN) transformiert werden sollen, falls in den nächsten 3 Wörtern ein Partizip (VVPP) auftaucht. VVFIN VAFIN NEXT1OR2OR3TAG VVPP Diese Regel kommt bei Verben zum Einsatz, die gemäßs Lexikon sowohl Voll- als auch Hilfsverben sein können, also vor allem bei sein und haben.

2. Typische Fehler 2.1. Faule und übereifrige Kontextregeln 2.2. Eifrige lexikalische Regeln 2.3. Zu kleines Lexikon 2.1. Faule und übereifrige Kontextregeln 2.2. Eifrige lexikalische Regeln 2.3. Zu kleines Lexikon

2.1. Faule und übereifrige Kontextregeln Schon aus dem obigen Beispiel ist ersichtlich, dass diese Regeln, die zwar in der Mehrzahl der Fälle richtige Resultate liefern, auch Fehler machen. Steht ein Partizip weiter weg als drei Tags vom provisorisch als Vollverb getaggten Kandidaten, was leicht der Fall sein kann, so vermag obige Regel das Vollverb nicht mehr in ein Hilfsverb zu verwandeln. Umgekehrt kann diese Regel auch echte Vollverben fälschlicherweise in Hilfsverben überführen. Während der Satz Der Brief ist lang. richtig getaggt wird, verwandelt obige Regel das ist im folgenden Satz zu unrecht in ein Hilfsverb: Der Brief ist lang, erreicht hat er aber nichts. Eine richtige Syntaxanalyse könnte hier Abhilfe schaffen, wäre aber rechnerisch wesentlich aufwendiger. Schon aus dem obigen Beispiel ist ersichtlich, dass diese Regeln, die zwar in der Mehrzahl der Fälle richtige Resultate liefern, auch Fehler machen. Steht ein Partizip weiter weg als drei Tags vom provisorisch als Vollverb getaggten Kandidaten, was leicht der Fall sein kann, so vermag obige Regel das Vollverb nicht mehr in ein Hilfsverb zu verwandeln. Umgekehrt kann diese Regel auch echte Vollverben fälschlicherweise in Hilfsverben überführen. Während der Satz Der Brief ist lang. richtig getaggt wird, verwandelt obige Regel das ist im folgenden Satz zu unrecht in ein Hilfsverb: Der Brief ist lang, erreicht hat er aber nichts. Eine richtige Syntaxanalyse könnte hier Abhilfe schaffen, wäre aber rechnerisch wesentlich aufwendiger.

Ohne Syntaxregeln hat der Tagger beispielsweise auch große Schwierigkeiten, die Relativpronomen der, die, den etc. von Artikeln zu unterscheiden. Aufzählungen von Nomen, getrennt durch Kommata, sind nämlich in unserem Trainingscorpus etwa gleich häufig wie Relativsätze. Deshalb kommt der Tagger erst gar nicht auf die Idee, diese Artikel nach Kommata in Relativpronomina zu transformieren. In einigen Fällen schafft es der Tagger aber trotzdem, Relativpronomina richtig zu erkennen, z. B. durch folgende Kontextregel: ARTDEF PRELS SURROUNDTAG C PPER Diese Regel besagt, dass ein definitiver Artikel (natürlich nur falls er gemäßs Lexikoneintrag auch ein Relativpronomen sein könnte) nach einem Komma und vor einem Personalpronomen in ein Relativpronomen transformiert werden soll. Ohne Syntaxregeln hat der Tagger beispielsweise auch große Schwierigkeiten, die Relativpronomen der, die, den etc. von Artikeln zu unterscheiden. Aufzählungen von Nomen, getrennt durch Kommata, sind nämlich in unserem Trainingscorpus etwa gleich häufig wie Relativsätze. Deshalb kommt der Tagger erst gar nicht auf die Idee, diese Artikel nach Kommata in Relativpronomina zu transformieren. In einigen Fällen schafft es der Tagger aber trotzdem, Relativpronomina richtig zu erkennen, z. B. durch folgende Kontextregel: ARTDEF PRELS SURROUNDTAG C PPER Diese Regel besagt, dass ein definitiver Artikel (natürlich nur falls er gemäßs Lexikoneintrag auch ein Relativpronomen sein könnte) nach einem Komma und vor einem Personalpronomen in ein Relativpronomen transformiert werden soll.

Tatsächlich ist ein Satzelement wie Der Brief, den ich lese wesentlich häufiger als ein Satzelement wie Der Brief, die mir zugestellte Postkarte, und alle Postsendungen sonst... Tatsächlich ist ein Satzelement wie Der Brief, den ich lese wesentlich häufiger als ein Satzelement wie Der Brief, die mir zugestellte Postkarte, und alle Postsendungen sonst...

2.2. Eifrige lexikalische Regeln Mit Worten, die nicht im Lexikon stehen, stellen lexikalische Regeln allerlei sinnvolles und sinnloses an. Während die weiter oben zitierte Regel bar hassuf 3 ADJD 5 meist sinnvoll ist, wird durch sie das unbekannte Wort Privatbar auch zu einem Adjektiv gemacht. Da viele Adverbien in -ch enden, wird der unbekannte Hirsch durch eine ähnlich fleissige Regel Mit Worten, die nicht im Lexikon stehen, stellen lexikalische Regeln allerlei sinnvolles und sinnloses an. Während die weiter oben zitierte Regel bar hassuf 3 ADJD 5 meist sinnvoll ist, wird durch sie das unbekannte Wort Privatbar auch zu einem Adjektiv gemacht. Da viele Adverbien in -ch enden, wird der unbekannte Hirsch durch eine ähnlich fleissige Regel

2.3. Zu kleines Lexikon Viele der allerhäufigsten Wörter in einem kleineren Trainingscorpus erscheinen nie oder nur in einer Wortart. Dieser Punkt ist vorläufig der Hauptgrund für viele seltsam anmutende Fehler. Hier wird sich die Situation auch rasch bessern durch das Anwachsen des Taggers und den Einbau externer Wortlisten.