Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

17.06.2002Beata Kouchnir1 Part-of-Speech Tagging Eine Übersicht über verschiedene Ansätze sowie eine theoretische Beschreibung des TnT-Taggers von Thorsten.

Ähnliche Präsentationen


Präsentation zum Thema: "17.06.2002Beata Kouchnir1 Part-of-Speech Tagging Eine Übersicht über verschiedene Ansätze sowie eine theoretische Beschreibung des TnT-Taggers von Thorsten."—  Präsentation transkript:

1 Beata Kouchnir1 Part-of-Speech Tagging Eine Übersicht über verschiedene Ansätze sowie eine theoretische Beschreibung des TnT-Taggers von Thorsten Brants (2000) Beata Kouchnir

2 Beata Kouchnir2 Was ist Tagging? Die Aufgabe des Tagging ist es, jedes Wort in einem Satz mit der entsprechenden Wortart (engl. part of speech) zu kennzeichnen Da viele Wörter mehr als einer Wortart angehören, muss ein Tagger das Wort seinem syntaktischen Kontext entsprechend disambiguiren Bei dem heutigen Wissensstand haben die erfolgreichsten Tagger eine Trefferquote von ca %

3 Beata Kouchnir3 Verwendungszweck In der Sprachverarbeitung wird ein Tagger für gewöhnlich dazu genutzt, einen Text für einen Parser zu präparieren Aber auch für die Korpuslinguistik ist Part-of- Speech Tagging von großem Interesse: die einzelnen Tokens von großen Textkorpora werden mit Hilfe von Taggern annotiert

4 Beata Kouchnir4 Die Methoden Mit welchem Ansatz lässt sich die optimale Erfolgsquote erzielen? Folgende Methoden werden erläutert: Der deterministische Ansatz Der statistische Ansatz Der syntagmatische Ansatz Der lexikalische Ansatz

5 Beata Kouchnir5 Der deterministische Ansatz Bei einem deterministischen Ansatz kann man nur sagen, dass ein Wort z.B. ein Verb sein kann oder nicht. Wenn das Wort nur selten als Verb vorkommt, wird diese Möglichkeit weg gelassen, um die Qualität des Taggers aufrecht zu erhalten Bsp.: flour kennt man vorwiegend als Nomen, es kann aber auch als Verb gebraucht werden (to flour the pan).

6 Beata Kouchnir6 Der statistische Ansatz Dieser Ansatz läßt im Gegensatz zu der deter- ministischen Methode quantitative Informationen über die verschiedenen Wortarten eines Wortes zu. Dadurch dass jedem Tag ein Wahrscheinlich- keitswert zugeordnet wird, kann die Qualität beibehalten werden, ohne dass man gewisse Möglichkeiten eliminieren muss. Dieser Ansatz wird favorisiert

7 Beata Kouchnir7 Der syntagmatische Ansatz Das zu taggende Wort wird in seinem Kontext betrachtet (n-gramme) Es wird von der Wahrscheinlichkeit der ganzen Sequenz ausgegangen. Sequenzen, die extrem unwahrscheinlich oder gar unmöglich sind, werden verworfen Für sich alleine ist dieser Ansatz in der Praxis bei einer Erfolgsquote von 77% unzureichend

8 Beata Kouchnir8 Der lexikalische Ansatz dumb tagging - jedes einzelne Wort wird mit dem entsprechend wahrscheinlichsten Tag versehen, dabei lässt man die Sequenzwahrschein- lichkeit ausser Acht Trotz des simplen Ansatzes eine Erfolgsquote von 90% Um gute Ergebnisse zu erzielen, müssen beide Ansätze miteinander kombiniert werden

9 Beata Kouchnir9 Der TnT-Tagger Entwickelt von Thorsten Brants an der Universität Saarbrücken

10 Beata Kouchnir10 Der Anspruch Höhere Erfolgsquote im Vergleich zu anderen aktuellen Taggern Einfaches Trainieren auf verschiedene Sprachen und fast jeden Tagset Gute Methode zum Erkennen von unbekannten Wörtern Leichte Installation und Bedienung

11 Beata Kouchnir11 Das Konzept Implementierung des Viterbi-Algorithmus für Markov Models 2. Ordnung Smoothing durch lineare Interpolation Suffixanalyse zum taggen unbekannter Wörter Klein- und Großschreibung einbeziehen (nicht bei allen Sprachen hilfreich)

12 Beata Kouchnir12 Markov Models 2. Ordnung I Eine Sequenz von Tags wird wie eine Markov-Kette behandelt, die folgende Eigenschaften hat Begrenzter Horizont: ein Tag hängt nur von den zwei vorhergehenden Tags ab Zeitinvarianz: diese Abhängigkeit verändert sich nicht über einen bestimmten Zeitpunkt hinaus

13 Beata Kouchnir13 Markov Models 2. Ordnung II Zunächst werden die maximalen Wahrscheinlich- keiten ^P ausgerechnet: Unigramme: ^P(t 3 ) = f(t 3 ) / N Bigramme: ^P(t 3 |t 2 ) = f(t 2, t 3 ) / f(t 2 ) Trigramme ^P(t 3 |t 1, t 2 ) = f(t 1, t 2, t 3 ) / f(t 1, t 2 ) N ist die Anzahl aller Tokens im Trainigskorpus

14 Beata Kouchnir14 Smoothing I Trigramme kommen nicht häufig genug in Korpora vor, also kann man deren Wahrschein- lichkeit schlecht einschätzen. Setzt man die Wahr- scheinlichkeit gleich Null, kann man verschiedene Trigramme nicht miteinander vergleichen. Der TnT-Tagger verwendet in solchen Fällen die Methode der linearen Interpolation.

15 Beata Kouchnir15 Smoothing II Die Trigramm-Wahrscheinlichkeit P wird folgendermaßen berechnet: P(t 3 |t 1, t 2 ) = 1 ^P(t 3 ) + 2 ^P(t 3 |t 2 ) + 3 ^P(t 3 |t 1, t 2 ) wobei = 1

16 Beata Kouchnir16 Smoothing III Um die s zu bestimmen, wird der folgende Algorithmus verwendet set 1 = 2 = 3 = 0 foreach trigram t 1, t 2, t 3 with f(t 1, t 2, t 3 ) > 0 depending on the maximum of the following three values: case f(t 1, t 2, t 3 )-1 / f(t 1, t 2 )-1: increment 3 by f(t 1, t 2, t 3 ) case f(t 2, t 3 )-1 / f(t 2 )-1: increment 2 by f(t 1, t 2, t 3 ) case f(t 3 )-1 / N-1: increment 1 by f(t 1, t 2, t 3 ) end normalize 1, 2, 3

17 Beata Kouchnir17 Unbekannte Wörter Bei analytischen (flexionsreichen) Sprachen, ist der beste Weg, ein unbekanntes Wort zu taggen, dessen Endung zu analysieren. Im WSJ-Korpus sind z.B. 98% der Wörter, die auf able enden, Adjektive (fashionable, variable), die restlichen 2% sind Nomen (cable). Dabei werden nur die Endungen der selten vorkommenden Wörter untersucht.

18 Beata Kouchnir18 Klein- und Großschreibung I In vielen Sprachen werden (außer am Satzanfang) nur Eigennamen groß geschrieben. Um diese richtig zu taggen und eventuelle Ambiguitäten mit Homonymen aufzulösen, wird der Parameter c i verwendet, der wahr ist wenn w i groß geschrieben ist und ansonsten falsch. aus P(t 3 |t 1, t 2 ) wirdP(t 3, c 3 |t 1, c 1, t 2, c 2 ) alle bisherigen Formeln werden entspr. geändert

19 Beata Kouchnir19 Klein- und Großschreibung II Bei diesem Vorgang wird das Tagset verdoppelt und es werden, in Abhängigkeit von Groß- oder Kleinschreibung verschiedene Tagsets verwendet.

20 Beata Kouchnir20 Literatur T. Brants. TnT - A Statistical Part-of-Speech Tagger. Proceedings of the Sixth Applied Natural Language Processing Conference ANLP-2000, Seattle, WA, 2000.


Herunterladen ppt "17.06.2002Beata Kouchnir1 Part-of-Speech Tagging Eine Übersicht über verschiedene Ansätze sowie eine theoretische Beschreibung des TnT-Taggers von Thorsten."

Ähnliche Präsentationen


Google-Anzeigen