MBT: A Memory-Based Part of Speech Tagger-Generator

Slides:

Advertisements

Ähnliche Präsentationen

Präsentiert von Torben Pastuch

Advertisements

Grundlagen des A*-Algorithmus und Anwendung in der Routenplanung

Kohonennetze für Information Retrieval mit User Feedback

NER Named Entity Recognition

Indizierung von Graphen durch häufige Subgraphen (2)

SST - Sequence Search Tree

Konstruktion sehr großer Suffixbäume

TECHNISCHE UNIVERSITÄT DARMSTADT Naive Bayes for Ranking

7. Natürliche Binärbäume

Durchlaufen eines Binärbaumes

Suche in Texten (Stringsuche )

Seminar Textmining WS 06/07 Themen Übung 11 unsupervised vs. supervised Symbolfolgen, Kunstsprachen Page Rank.

Seminar Textmining WS 06/07 Themen Übung 8 Diskussion über Erkennung von Eigennamen Question Answering Stemming.

Seminar Textmining WS 06/07 Themen Übung 9 Multilingualität Weitere Termine: 13.7.Symbolfolgen und PageRank Findlinks mitstreiter gesucht!

WS 05/06Automatische Akquisition linguistischen Wissens1 Partielles Wissen erweitern 1.Zusammenhang mit bisherigen Algorithmen 2.Vom offensichtlichen zum.

R. Der - Vorlesung Algorithmen und Datenstrukturen (Magister)

5. Sortier-Algorithmen Vorbemerkungen:

Übung 6.6Schranken 1.Angenommen, Ihr Algorithmus habe einen Aufwand von g(n) = 5n 3 + n für alle n a)Geben sie eine obere Schranke O(g(n)) an. b)Beweisen.

Sortierverfahren Richard Göbel.

Effizienz: Indexstrukturen

Internetstruktur Das Internet besteht aus vielen Computern, die weltweit untereinander vernetzt sind.

WS Algorithmentheorie 05 - Treaps Prof. Dr. Th. Ottmann.

Vorlesung Informatik 2 Algorithmen und Datenstrukturen (15 Hashverfahren: Verkettung der Überläufer) Prof. Th. Ottmann.

Agenda Einführung Haskell QuickCheck Zusammenfassung

1 Automatische Klassifikation von Nomen nach Begriffstyp Christof Rumpf Heinrich-Heine-Universität

Verteilte Algorithmen

Intelligentes Crawling im WWW mit Hilfe intuitiver Suchbedingungen

Hauptseminar Automaten und Formale Sprachen

Classification of Credit Applicants Using Data Mining. Thema.

Titelmasterformat durch Klicken bearbeiten Formatvorlage des Untertitelmasters durch Klicken bearbeiten Die formalen Sprachen bei ETAP Teil II.

Bayes‘sche Verfahren (Mitchell Kap. 6), Teil 1

Machine Learning KNN und andere (Kap. 8).

Machine Learning Decision Trees (2).

Maschinelles Lernen und automatische Textklassifikation

Maschinelles Lernen Bayessche Verfahren (Mitchell Kap. 6), Teil 1.

BSP Binary Space Partitioning

Christian Schulz, Marc Thielbeer, Sebastian Boldt

Machine Learning & Spiele: Probleme und Ideen von Samuel bis heute Giuliana Sabbatini

Ideen der Informatik Suchen und Sortieren [Ordnung muss sein…]

Knowledge Discovery mit Wordnet und Alembic Workbench

1 Knowledge Discovery mit Wordnet und Alembic Workbench (Julia Faion) (Markus Reiter)

Effiziente Algorithmen

Effiziente Algorithmen

Computational Thinking Suchen und Sortieren [Ordnung muss sein…]

Effiziente Algorithmen

Black Box Algorithmen Hartmut Klauck Universität Frankfurt SS

Effiziente Algorithmen Hartmut Klauck Universität Frankfurt SS

Effiziente Algorithmen

Black Box Algorithmen Hartmut Klauck Universität Frankfurt SS

Effiziente Algorithmen Hartmut Klauck Universität Frankfurt SS

Effiziente Algorithmen Hartmut Klauck Universität Frankfurt SS

Effiziente Algorithmen

K-SAT: Ein heuristischer Algorithmen- Vergleich Kann man den Brute Force Search Algorithmus schlagen?

Suchen In Texten Von Adriano Feola & Marc Draschl.

Algorithmen und Datenstrukturen Übungsmodul 8

Elman-Netzwerke Wintersemester 2004/05 Seminar Kindlicher Spracherwerb C. Friedrich & R. Assadollahi vorgestellt von Christian Scharinger & Guido Heinecke.

Using latent semantic analysis to find different names for the same entity in free text Präsentation und Diskussion des Papers Im Rahmen des PS Web-Information.

Das Traveling Salesman Problem (TSP)

K-SAT: Ein heuristischer Algorithmen- Vergleich Kann man den ‚Brute Force Search‘ Algorithmus schlagen?

Algorithmen und Datenstrukturen Prof. Dr. Ralf Möller Universität zu Lübeck Institut für Informationssysteme Stefan Werner (Übungen) sowie viele Tutoren.

Programmiersprachen II Vorbesprechung Klausur Prof. Dr. Reiner Güttler Fachbereich GIS HTW.

EIN NEUES ENSEMBLE- KLASSIFIKATIONSVERFAHREN Tim Schneider Rotation Forest.

Programmiersprachen II Fortsetzung Datenstrukturen Balancierte Bäume 3 Prof. Dr. Reiner Güttler Fachbereich GIS HTW.

CL Tree MW 31.1 Business Intelligence Wintersemester 2015 / 2016 Stanislav Prokupetz.

Arbeiten mit WordSmith 4. Inhalt 1. Arbeiten mit der Funktion Wortliste (im getaggten Korpus) 1. Arbeiten mit der Funktion Wortliste (im getaggten Korpus)

Vorlesung AVL-Bäume/Algorithmen-

Algorithmen und Datenstrukturen

Vorlesung AVL-Bäume/Algorithmen-

Computing orthogonal drawings with the minimum number of bends

Präsentation transkript:

MBT: A Memory-Based Part of Speech Tagger-Generator Konstanze Pfüll UdS 16.06.2011

Überblick POS-Tagger IGTree Experimente

Tagger-Architektur (1) Konstruktion eines POS-Taggers: Gegeben: neues annotiertes Korpus 3 Datenstrukturen werden automatisch extrahiert: Lexikon Fallbasierung für known words Fallbasierung für unknown words (beide Fallbasierungen als IGTree implementiert)

Tagger-Architektur (2) Ablauf des Taggen: Jedes Wort wird im Lexikon nachgeschaut Wird es gefunden: lexikalische Repräsentation wird abgefragt Kontext wird bestimmt resultierendes Muster wird in der known words - Fallbasierung nachgeschlagen Wird später nochmal drauf eingegangen

Tagger-Architektur (3) Wird es nicht gefunden: lexikalische Repräsentation wird auf Grundlage seiner Form berechnet Kontext wird bestimmt resultierendes Muster wird in der unknown words Fallbasierung nachgeschlagen.

Erstellung des Lexikons (1) Für jedes Wort in T wird die Anzahl der Auftreten mit jeder Kategorie berechnet.

Beispiel Wall Street Journal Corpus Ersten 2 Mio Wörter = T Wort: once RB = 330 (330 mal als Adverb getaggt) IN = 77 ( 77 mal als Präposition) Alle Kategorien mit weniger als 10% der Wörter wurden ignoriert Wert wurde benutzt um Generalisierungs accuracy zu maximieren

Erstellung des Lexikons (2) Für jedes Wort in T wird die Anzahl der Auftreten mit jeder Kategorie berechnet. Unter Verwendung der erhaltenen lexikalischen Definierung, wird ein neuer (möglicherweise ambiger) Tag für jede Wortart erstellt

Beispiel Once: Kategorie, die alle Wörter repräsentiert, die sowohl Adverbien als auch Präpositionen sein können (RB-IN) Frequentieller Ablauf wird berücksichtigt: Below:sowohl RB als auch IN aber häufiger IN als RB -> (IN-RB)

Known Words Ein Fall besteht aus Information über ein Wort das getaggt werden soll, seinem linken und rechten Kontext und einer dazugehörigen Kategorie für das Wort in diesem Kontext Es gibt verschiedene Typen von Information: vom Wort selbst Bis zu den komplexen lexikalischen Repräsentationen

Beispiel Fallbasierung für den ersten Satz im Korpus Pierre Vinken, 61 years old, will join the board as a non execuive director nov. 29

Beispiel Pierre Vinken, 61 years old, will join the board as a non execuive director nov. 29

Problem: Speicherbasierte Ansätze sehr teuer Warum? Jedes neue Wort im Kontext, das getaggt werden soll, muss mit jedem Muster, das im Speicher ist, verglichen werden Durch Verwendung von IGTree wird der Ansatz … rechnerisch billiger schneller

Was ist IGTree? IGTree = eine effiziente Repräsentation von Trainingsdaten für Memory-based Learning großer Vorteil: optimale Kontextgröße für Disambiguierung wird dynamisch berechnet

Wie funktioniert‘s? (1) IGTree kombiniert 2 Algorithmen: Einen für das Komprimieren von Fallunterscheidungen in Bäumen Einen für das Zurückholen von Klassifikationsinformationen aus diesen Bäumen Während der Konstruktion von IG-Entscheidungsbäumen, werden Fälle als Wege von verbundenen Knoten gespeichert. Alle Knoten beinhalten einen Test und ein Klassenlabel (repräsentiert die Default-Klasse an diesem Punkt)

Wie funktioniert‘s? (2) Mithilfe des Information Gain wird die Reihenfolge, in der die Eigenschaften als Test im Baum genutzt werden, bestimmt.

Information Gain ‚size‘ : 0,75 ‚shape‘ : 0,9 ‚number of holes‘ : 1,10

Komprimierung ähnliche Fälle teilen sich teilweise Wege nur die Eigenschaftswerte, die seine Klassifikation eindeutig machen, werden im Baum abgespeichert Pruning (Entfernung von Redundanz) (Komprimierung beeinflusst Performance der IGTrees nicht) Extrem komprimierte Form der Decision Trees ABER sie haben natürlich einen etwas anderen Zweck, d.h. hauptsächlich Komprimierung des Trainingsset, um schneller klassifizieren zu können. Im Gegensatz zu DTs wird nicht abstrahiert und keine Information fällt komplett unter den Tisch.

Wie funktioniert‘s? (4) die vom Weg bis jetzt durch den Baum Blätterknoten: umfassen das eindeutige Klassenlabel, das mit einem Weg im Baum übereinstimmt. Nicht-Terminale Knoten: umfassen Infos über Wahrscheinlichste Klassifikation oder Default-Klassifikation die vom Weg bis jetzt durch den Baum Konstruktions-Algorithmus gegeben wird. Extrainfo notwendig wenn man den Baum zur Klassifikation nutzt

Wie funktioniert‘s? (5) Finden der Klassifikation eines neuen Falls bedingt Durchlaufen des Baumes und entweder... Das Abfragen einer Klassifikation wenn ein Blatt erreicht ist, oder Das Verwenden der Default-Klassifikation des letzten abgefragten nicht-terminierenden Knotens, falls eine feature-value-Abfrage fehlschlägt

Algorithmus (1)

Algorithmus (2)

Komplexität (1) Suchen eines Abfragemusters im Baum ist proportional zu F*log(V) (F= Anz. von features, V= das Mittel der Anzahl von Werten pro feature, d.h. das Mittel der Verzweigungszahl des Baumes) F= Anz. von features= max. Tiefe des Baums

Komplexität (2) Suche im Baum ist unabhängig von Anzahl der Trainingsfälle besonders nützlich für große Fallbasierungen In der Praxis: Für die durchgeführten Part-of-Speech-tagging- Experimente ist die IGTree-Abfrage 100-200 mal schneller als eine normale speicherbasierte Abfrage und nutzt über 95% weniger Speicher

Architektur eines Tagger-Generators Infos mündlich

Experiment 1 Vergleich von 3 speicherbasierten Lernalgorithmen: IB1 IB1-IG IG-Tree Verwendung eines ddfat-Musters 100.000 Wörter im Trainingsset 10.000 Wörter im Testset Accuracy nur auf known words getestet

Experiment 1 IGTree: Besser bzw. gleich gut bezüglich Generalisierungs-accuracy 100 mal schneller im Tagger von neuen Wörtern Komprimiert die Fallbasierung auf 4% der ursprünglichen Fallbasierung Langsamer beim Bauen der Fallbasierungen wg. Bau des Baumes statt reiner Abspeicherung der Muster Zeit und schnelligkeitsvorteil wächst mit größeren Trainingssets Experiment zeigt, dass IGTree verwendet werden kann ohne Verlust in der accuracy zu machen.

Experiment 2 - Lernkurve

Experiment 3 - Gesamtgenauigkeit Trainingsset: 2 Mio Wörter Testset: 200.000 Wörter

Vorteile beim speicherbasierten Taggen mit IGTree Performance von kleinen getaggten Korpora (300.000 - 400.000 getaggten Wörter): gut Erklärung des Klassifikationsverhaltens des Systems Flexible Einbindung der Informationsquellen ein Weg im IGTree kann als Erklärung, sowie nächsten Nachbar zur Verfügung gestellt werden, von denen die Entscheidung hochgerechnet wurde

Vorteile beim speicherbasierten Taggen mit IGTree Automatische Auswahl des Kontextes Relativ gute Auswirkungen auf unknown words ohne morphologische Analyse Schnelles Lernen und Taggen (Tagging-Geschwindigkeit in der derzeitigen Implementierung: über 1000 Wörter pro Sekunde)

Referenzen MBT: A Memory-Based Part of Speech Tagger-Generator Walter Daelemans, Jakub Zavrel Peter Berck, Steven Gillis Workshop On Very Large Corpora (1996) IGTree: Using Trees for Compression and Classification in Lazy Learning Algorithms Walter Daelemans, Antal van den Bosch, Ton Weijters Artificial Intelligence Review 11, 407-423, 1997 www.stackoverflow.com/questions/1833252/java-stanford-nlp-part-of-speech-labels

Vielen Dank für Eure Aufmerksamkeit!