Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

MBT: A Memory-Based Part of Speech Tagger-Generator Konstanze Pfüll UdS 16.06.2011.

Ähnliche Präsentationen


Präsentation zum Thema: "MBT: A Memory-Based Part of Speech Tagger-Generator Konstanze Pfüll UdS 16.06.2011."—  Präsentation transkript:

1 MBT: A Memory-Based Part of Speech Tagger-Generator Konstanze Pfüll UdS

2 Überblick POS-Tagger IGTree Experimente

3 Tagger-Architektur (1) Konstruktion eines POS-Taggers: Gegeben: neues annotiertes Korpus 3 Datenstrukturen werden automatisch extrahiert: Lexikon Fallbasierung für known words Fallbasierung für unknown words (beide Fallbasierungen als IGTree implementiert)

4 Tagger-Architektur (2) Ablauf des Taggen: Jedes Wort wird im Lexikon nachgeschaut Wird es gefunden: lexikalische Repräsentation wird abgefragt Kontext wird bestimmt resultierendes Muster wird in der known words - Fallbasierung nachgeschlagen

5 Tagger-Architektur (3) Wird es nicht gefunden: lexikalische Repräsentation wird auf Grundlage seiner Form berechnet Kontext wird bestimmt resultierendes Muster wird in der unknown words Fallbasierung nachgeschlagen.

6 Erstellung des Lexikons (1) Für jedes Wort in T wird die Anzahl der Auftreten mit jeder Kategorie berechnet.

7 Beispiel Wall Street Journal Corpus Ersten 2 Mio Wörter = T Wort: once RB = 330(330 mal als Adverb getaggt) IN = 77 ( 77 mal als Präposition) Alle Kategorien mit weniger als 10% der Wörter wurden ignoriert Wert wurde benutzt um Generalisierungs accuracy zu maximieren

8 Erstellung des Lexikons (2) Für jedes Wort in T wird die Anzahl der Auftreten mit jeder Kategorie berechnet. Unter Verwendung der erhaltenen lexikalischen Definierung, wird ein neuer (möglicherweise ambiger) Tag für jede Wortart erstellt

9 Beispiel Once: Kategorie, die alle Wörter repräsentiert, die sowohl Adverbien als auch Präpositionen sein können (RB-IN) Frequentieller Ablauf wird berücksichtigt: Below:sowohl RB als auch IN aber häufiger IN als RB -> (IN-RB)

10 Known Words Ein Fall besteht aus Information über ein Wort das getaggt werden soll, seinem linken und rechten Kontext und einer dazugehörigen Kategorie für das Wort in diesem Kontext Es gibt verschiedene Typen von Information: vom Wort selbst Bis zu den komplexen lexikalischen Repräsentationen

11 Beispiel Fallbasierung für den ersten Satz im Korpus Pierre Vinken, 61 years old, will join the board as a non execuive director nov. 29

12 Beispiel Pierre Vinken, 61 years old, will join the board as a non execuive director nov. 29

13 Problem: Speicherbasierte Ansätze sehr teuer Warum? Jedes neue Wort im Kontext, das getaggt werden soll, muss mit jedem Muster, das im Speicher ist, verglichen werden Durch Verwendung von IGTree wird der Ansatz … rechnerisch billiger schneller

14 Was ist IGTree? IGTree = eine effiziente Repräsentation von Trainingsdaten für Memory-based Learning großer Vorteil: optimale Kontextgröße für Disambiguierung wird dynamisch berechnet

15 Wie funktionierts? (1) IGTree kombiniert 2 Algorithmen: Einen für das Komprimieren von Fallunterscheidungen in Bäumen Einen für das Zurückholen von Klassifikationsinformationen aus diesen Bäumen Während der Konstruktion von IG- Entscheidungsbäumen, werden Fälle als Wege von verbundenen Knoten gespeichert. Alle Knoten beinhalten einen Test und ein Klassenlabel (repräsentiert die Default-Klasse an diesem Punkt)

16 Wie funktionierts? (2) Mithilfe des Information Gain wird die Reihenfolge, in der die Eigenschaften als Test im Baum genutzt werden, bestimmt.

17 Information Gain size : 0,75 shape : 0,9 number of holes : 1,10

18 Komprimierung ähnliche Fälle teilen sich teilweise Wege nur die Eigenschaftswerte, die seine Klassifikation eindeutig machen, werden im Baum abgespeichert Pruning (Entfernung von Redundanz) (Komprimierung beeinflusst Performance der IGTrees nicht)

19 Wie funktionierts? (4) Blätterknoten: umfassen das eindeutige Klassenlabel, das mit einem Weg im Baum übereinstimmt. Nicht-Terminale Knoten: umfassen Infos über Wahrscheinlichste Klassifikation oder Default-Klassifikation die vom Weg bis jetzt durch den Baum Konstruktions-Algorithmus gegeben wird.

20 Wie funktionierts? (5) Finden der Klassifikation eines neuen Falls bedingt Durchlaufen des Baumes und entweder... Das Abfragen einer Klassifikation wenn ein Blatt erreicht ist, oder Das Verwenden der Default-Klassifikation des letzten abgefragten nicht-terminierenden Knotens, falls eine feature-value-Abfrage fehlschlägt

21 Algorithmus (1)

22 Algorithmus (2)

23 Komplexität (1) Suchen eines Abfragemusters im Baum ist proportional zuF*log(V) (F= Anz. von features, V= das Mittel der Anzahl von Werten pro feature, d.h. das Mittel der Verzweigungszahl des Baumes)

24 Komplexität (2) Suche im Baum ist unabhängig von Anzahl der Trainingsfälle besonders nützlich für große Fallbasierungen In der Praxis: Für die durchgeführten Part-of-Speech-tagging- Experimente ist die IGTree-Abfrage mal schneller als eine normale speicherbasierte Abfrage und nutzt über 95% weniger Speicher

25 Architektur eines Tagger-Generators

26 Experiment 1 Vergleich von 3 speicherbasierten Lernalgorithmen: IB1 IB1-IG IG-Tree Verwendung eines ddfat-Musters Wörter im Trainingsset Wörter im Testset Accuracy nur auf known words getestet

27 Experiment 1 IGTree: Besser bzw. gleich gut bezüglich Generalisierungs- accuracy 100 mal schneller im Tagger von neuen Wörtern Komprimiert die Fallbasierung auf 4% der ursprünglichen Fallbasierung

28 Experiment 2 - Lernkurve

29 Experiment 3 - Gesamtgenauigkeit Trainingsset: 2 Mio Wörter Testset: Wörter

30 Vorteile beim speicherbasierten Taggen mit IGTree Performance von kleinen getaggten Korpora ( getaggten Wörter): gut Erklärung des Klassifikationsverhaltens des Systems Flexible Einbindung der Informationsquellen

31 Vorteile beim speicherbasierten Taggen mit IGTree Automatische Auswahl des Kontextes Relativ gute Auswirkungen auf unknown words ohne morphologische Analyse Schnelles Lernen und Taggen (Tagging-Geschwindigkeit in der derzeitigen Implementierung: über 1000 Wörter pro Sekunde)

32 Referenzen MBT: A Memory-Based Part of Speech Tagger-Generator Walter Daelemans, Jakub Zavrel Peter Berck, Steven Gillis Workshop On Very Large Corpora (1996) IGTree: Using Trees for Compression and Classification in Lazy Learning Algorithms Walter Daelemans, Antal van den Bosch, Ton Weijters Artificial Intelligence Review 11, , part-of-speech-labels

33 Vielen Dank für Eure Aufmerksamkeit!


Herunterladen ppt "MBT: A Memory-Based Part of Speech Tagger-Generator Konstanze Pfüll UdS 16.06.2011."

Ähnliche Präsentationen


Google-Anzeigen