17.06.2002Beata Kouchnir1 Part-of-Speech Tagging Eine Übersicht über verschiedene Ansätze sowie eine theoretische Beschreibung des TnT-Taggers von Thorsten.

Slides:



Advertisements
Ähnliche Präsentationen
Stochastik und Markovketten
Advertisements

Vorlesung Programmieren II
Statistische Aspekte der PSG
Simulation komplexer technischer Anlagen
Dr. Helmuth Sagawe WS 2010/11 Universität Heidelberg
Seminar Textmining WS 06/07 Themen Übung 11 unsupervised vs. supervised Symbolfolgen, Kunstsprachen Page Rank.
Seminar Textmining WS 06/07 Themen Übung 9 Multilingualität Weitere Termine: 13.7.Symbolfolgen und PageRank Findlinks mitstreiter gesucht!
WS 05/06Automatische Akquisition linguistischen Wissens1 Partielles Wissen erweitern 1.Zusammenhang mit bisherigen Algorithmen 2.Vom offensichtlichen zum.
Seminar „Extrapolationsmethoden für zufällige Felder“
Nach dem Buch „Garantiert Schreiben lernen“ von Gabriele L. Rico
Algorithmen und Komplexität
Übersicht DIALIGN = DIagonal ALIGNment
Parser generieren Yet Another Compiler – Compiler YACC.
Zeitliches probabilistisches Schließen
Diese Fragen sollten Sie beantworten können
C- Syntax. Bestandteile der Sprache C: Ausdrücke Anweisungen.
Kapitel 4 Geometrische Abbildungen
1 Automatische Klassifikation von Nomen nach Begriffstyp Christof Rumpf Heinrich-Heine-Universität
Grundbegriffe der Wahrscheinlichkeitstheorie
Beispiele für Gleichungssysteme
Struktur und Funktion von Biopolymeren Elmar Lang
PG 520 Intelligence Service – gezielte Informationen aus dem Internet
Wie arbeitet der Brill-Tagger und warum macht er Fehler? Der Brill-Tagger basiert auf der Kombination von regelbasierten und statistischen Verfahren. Er.
Relevanz Ranking Bisher: Sind wir davon ausgegangen, dass das Ergebnis des Rankings des statistischen Verfahrens in den Index geschrieben wird und dem.
Relevanz Ranking Bisher:
F FnFn z Prof. Dr. Johann Graf Lambsdorff Universität Passau SS a. Anhang zur Bestimmung der optimalen Taylor-Regel.
Mathematische Grundlagen und Rechnen mit algebraischen Zahlen
Intelligentes Crawling im WWW mit Hilfe intuitiver Suchbedingungen
Erwartungswert und Varianz I Der endliche Fall Erwartungswert Varianz.
Tutorium
Titelmasterformat durch Klicken bearbeiten Formatvorlage des Untertitelmasters durch Klicken bearbeiten Die formalen Sprachen bei ETAP Teil II.
Nützlichkeit statistischer Phrasen in der Textklassifikation
Eigenschaften der OLS-Schätzer
Multikollinearität Wann spricht man von Multikollinearität?
Wiederholung: Einfache Regressionsgleichung
Knowledge Discovery mit Wordnet und Alembic Workbench
1 Knowledge Discovery mit Wordnet und Alembic Workbench (Julia Faion) (Markus Reiter)
Effiziente Algorithmen
Ausgleich von Sterbetafeln
Einführung in die beurteilende Statistik
Wortarten-Tagging für Nomen
Effiziente Algorithmen
Splay Trees Von Projdakov Benjamin.
Black Box Algorithmen Hartmut Klauck Universität Frankfurt SS
Black Box Algorithmen Hartmut Klauck Universität Frankfurt SS
Effiziente Algorithmen
Quantum Computing Hartmut Klauck Universität Frankfurt WS 05/
Effiziente Algorithmen Hartmut Klauck Universität Frankfurt SS
Hartmut Klauck Universität Frankfurt SS
Beweissysteme Hartmut Klauck Universität Frankfurt WS 06/
Information und Kommunikation Hartmut Klauck Universität Frankfurt SS
Hartmut Klauck Universität Frankfurt WS 06/
Gleichungen und Gleichungssysteme
Korpuslinguistik für und mit Computerlinguistik
Bernd-Kristian Kaczenski Humboldt-Universität zu Berlin
Aufgabenstellung Aufgabenstellung: What do the following terms (formulae) express? Which of these terms characterize all sequences of real numbers , x_n.
Generalisiertes Vektorraummodell (Generalized Vector Space Model, GSVM) Karin Haenelt
Lernprogramm zur Bestimmung der Wortarten
Wir sind das Volk Die Arbeit mit Spielfilmen rückt die Inhalte in den Vordergrund, motiviert die Lerner zur Anwendung der ihnen zur Verfügung stehenden.
Using latent semantic analysis to find different names for the same entity in free text Präsentation und Diskussion des Papers Im Rahmen des PS Web-Information.
Statistik – Regression - Korrelation
Messergebnis Das Messergebnis ist der Näherungswert für den wahren Wert der Messgröße, der durch Auswertung der mit einer Messeinrichtung gewonnenen Messwerte.
Wortarten Verben - veränderbare (flektierbare) Wortart, die eine Tätigkeit, ein Geschehen, einen Vorgang oder einen Zustand bezeichnet - konjugierbar.
Anfang Präsentation 3. November, 2004 Tarjan’s Schleifenaufbrechalgorithmus In dieser Vorlesung wird ein Verfahren vorgestellt, welches in der Lage ist,
Lineare Gleichungen Allgemeine Einführung Äquivalenzumformungen
Der Wiener Prozess und seltene Ereignisse
Wortschatz und Grammatik sind integraler Bestandteil aller sprachlichen Aktivitaeten: Lesen, Hören, Sprechen, Schreiben – Wortschatz und Grammatik sind.
Programmiersprachen II Fortsetzung Datenstrukturen Balancierte Bäume 3 Prof. Dr. Reiner Güttler Fachbereich GIS HTW.
Arbeiten mit WordSmith 4. Inhalt 1. Arbeiten mit der Funktion Wortliste (im getaggten Korpus) 1. Arbeiten mit der Funktion Wortliste (im getaggten Korpus)
Lineare Optimierung Nakkiye Günay, Jennifer Kalywas & Corina Unger Jetzt erkläre ich euch die einzelnen Schritte und gebe Tipps!
 Präsentation transkript:

Beata Kouchnir1 Part-of-Speech Tagging Eine Übersicht über verschiedene Ansätze sowie eine theoretische Beschreibung des TnT-Taggers von Thorsten Brants (2000) Beata Kouchnir

Beata Kouchnir2 Was ist Tagging? Die Aufgabe des Tagging ist es, jedes Wort in einem Satz mit der entsprechenden Wortart (engl. part of speech) zu kennzeichnen Da viele Wörter mehr als einer Wortart angehören, muss ein Tagger das Wort seinem syntaktischen Kontext entsprechend disambiguiren Bei dem heutigen Wissensstand haben die erfolgreichsten Tagger eine Trefferquote von ca %

Beata Kouchnir3 Verwendungszweck In der Sprachverarbeitung wird ein Tagger für gewöhnlich dazu genutzt, einen Text für einen Parser zu präparieren Aber auch für die Korpuslinguistik ist Part-of- Speech Tagging von großem Interesse: die einzelnen Tokens von großen Textkorpora werden mit Hilfe von Taggern annotiert

Beata Kouchnir4 Die Methoden Mit welchem Ansatz lässt sich die optimale Erfolgsquote erzielen? Folgende Methoden werden erläutert: Der deterministische Ansatz Der statistische Ansatz Der syntagmatische Ansatz Der lexikalische Ansatz

Beata Kouchnir5 Der deterministische Ansatz Bei einem deterministischen Ansatz kann man nur sagen, dass ein Wort z.B. ein Verb sein kann oder nicht. Wenn das Wort nur selten als Verb vorkommt, wird diese Möglichkeit weg gelassen, um die Qualität des Taggers aufrecht zu erhalten Bsp.: flour kennt man vorwiegend als Nomen, es kann aber auch als Verb gebraucht werden (to flour the pan).

Beata Kouchnir6 Der statistische Ansatz Dieser Ansatz läßt im Gegensatz zu der deter- ministischen Methode quantitative Informationen über die verschiedenen Wortarten eines Wortes zu. Dadurch dass jedem Tag ein Wahrscheinlich- keitswert zugeordnet wird, kann die Qualität beibehalten werden, ohne dass man gewisse Möglichkeiten eliminieren muss. Dieser Ansatz wird favorisiert

Beata Kouchnir7 Der syntagmatische Ansatz Das zu taggende Wort wird in seinem Kontext betrachtet (n-gramme) Es wird von der Wahrscheinlichkeit der ganzen Sequenz ausgegangen. Sequenzen, die extrem unwahrscheinlich oder gar unmöglich sind, werden verworfen Für sich alleine ist dieser Ansatz in der Praxis bei einer Erfolgsquote von 77% unzureichend

Beata Kouchnir8 Der lexikalische Ansatz dumb tagging - jedes einzelne Wort wird mit dem entsprechend wahrscheinlichsten Tag versehen, dabei lässt man die Sequenzwahrschein- lichkeit ausser Acht Trotz des simplen Ansatzes eine Erfolgsquote von 90% Um gute Ergebnisse zu erzielen, müssen beide Ansätze miteinander kombiniert werden

Beata Kouchnir9 Der TnT-Tagger Entwickelt von Thorsten Brants an der Universität Saarbrücken

Beata Kouchnir10 Der Anspruch Höhere Erfolgsquote im Vergleich zu anderen aktuellen Taggern Einfaches Trainieren auf verschiedene Sprachen und fast jeden Tagset Gute Methode zum Erkennen von unbekannten Wörtern Leichte Installation und Bedienung

Beata Kouchnir11 Das Konzept Implementierung des Viterbi-Algorithmus für Markov Models 2. Ordnung Smoothing durch lineare Interpolation Suffixanalyse zum taggen unbekannter Wörter Klein- und Großschreibung einbeziehen (nicht bei allen Sprachen hilfreich)

Beata Kouchnir12 Markov Models 2. Ordnung I Eine Sequenz von Tags wird wie eine Markov-Kette behandelt, die folgende Eigenschaften hat Begrenzter Horizont: ein Tag hängt nur von den zwei vorhergehenden Tags ab Zeitinvarianz: diese Abhängigkeit verändert sich nicht über einen bestimmten Zeitpunkt hinaus

Beata Kouchnir13 Markov Models 2. Ordnung II Zunächst werden die maximalen Wahrscheinlich- keiten ^P ausgerechnet: Unigramme: ^P(t 3 ) = f(t 3 ) / N Bigramme: ^P(t 3 |t 2 ) = f(t 2, t 3 ) / f(t 2 ) Trigramme ^P(t 3 |t 1, t 2 ) = f(t 1, t 2, t 3 ) / f(t 1, t 2 ) N ist die Anzahl aller Tokens im Trainigskorpus

Beata Kouchnir14 Smoothing I Trigramme kommen nicht häufig genug in Korpora vor, also kann man deren Wahrschein- lichkeit schlecht einschätzen. Setzt man die Wahr- scheinlichkeit gleich Null, kann man verschiedene Trigramme nicht miteinander vergleichen. Der TnT-Tagger verwendet in solchen Fällen die Methode der linearen Interpolation.

Beata Kouchnir15 Smoothing II Die Trigramm-Wahrscheinlichkeit P wird folgendermaßen berechnet: P(t 3 |t 1, t 2 ) = 1 ^P(t 3 ) + 2 ^P(t 3 |t 2 ) + 3 ^P(t 3 |t 1, t 2 ) wobei = 1

Beata Kouchnir16 Smoothing III Um die s zu bestimmen, wird der folgende Algorithmus verwendet set 1 = 2 = 3 = 0 foreach trigram t 1, t 2, t 3 with f(t 1, t 2, t 3 ) > 0 depending on the maximum of the following three values: case f(t 1, t 2, t 3 )-1 / f(t 1, t 2 )-1: increment 3 by f(t 1, t 2, t 3 ) case f(t 2, t 3 )-1 / f(t 2 )-1: increment 2 by f(t 1, t 2, t 3 ) case f(t 3 )-1 / N-1: increment 1 by f(t 1, t 2, t 3 ) end normalize 1, 2, 3

Beata Kouchnir17 Unbekannte Wörter Bei analytischen (flexionsreichen) Sprachen, ist der beste Weg, ein unbekanntes Wort zu taggen, dessen Endung zu analysieren. Im WSJ-Korpus sind z.B. 98% der Wörter, die auf able enden, Adjektive (fashionable, variable), die restlichen 2% sind Nomen (cable). Dabei werden nur die Endungen der selten vorkommenden Wörter untersucht.

Beata Kouchnir18 Klein- und Großschreibung I In vielen Sprachen werden (außer am Satzanfang) nur Eigennamen groß geschrieben. Um diese richtig zu taggen und eventuelle Ambiguitäten mit Homonymen aufzulösen, wird der Parameter c i verwendet, der wahr ist wenn w i groß geschrieben ist und ansonsten falsch. aus P(t 3 |t 1, t 2 ) wirdP(t 3, c 3 |t 1, c 1, t 2, c 2 ) alle bisherigen Formeln werden entspr. geändert

Beata Kouchnir19 Klein- und Großschreibung II Bei diesem Vorgang wird das Tagset verdoppelt und es werden, in Abhängigkeit von Groß- oder Kleinschreibung verschiedene Tagsets verwendet.

Beata Kouchnir20 Literatur T. Brants. TnT - A Statistical Part-of-Speech Tagger. Proceedings of the Sixth Applied Natural Language Processing Conference ANLP-2000, Seattle, WA, 2000.