1/27 Ein Framework zur automatischen Klassifikation von Begriffstypen Christof Rumpf Heinrich-Heine-Universität FFF-Seminar, 13.12.2006.

Slides:



Advertisements
Ähnliche Präsentationen
Algorithmen und Datenstrukturen
Advertisements

Fast Fourier Transformation
Matrixmultiplikation
Anzahl der ausgefüllten und eingesandten Fragebögen: 211
Motivation Bisher: Codes mit möglichst kurzer Codelänge.
Rekursion: Rekurrenz: Algorithmen rufen sich selbst (rekursiv) auf.
Eine dynamische Menge, die diese Operationen unterstützt,
Algebraische Zahlen: Exaktes Rechnen mit Wurzeln
Vorlesung: 1 Betriebliche Informationssysteme 2003 Prof. Dr. G. Hellberg Studiengang Informatik FHDW Vorlesung: Betriebliche Informationssysteme Teil3.
TECHNISCHE UNIVERSITÄT DARMSTADT Naive Bayes for Ranking
Strukturlösung mit Hilfe der Patterson-Funktion
Suche in Texten (Stringsuche )
Genetische Algorithmen für die Variogrammanpassung
Verifizieren versus Berechnen
Kapitel 4 Syntaktische Analyse: LR Parsing.
Christof Rumpf Heinrich-Heine-Universität Düsseldorf 10. Dezember 2008
Java: Objektorientierte Programmierung
Algorithmentheorie 04 –Hashing
WS Algorithmentheorie 02 - Polynomprodukt und Fast Fourier Transformation Prof. Dr. Th. Ottmann.
WS Algorithmentheorie 05 - Treaps Prof. Dr. Th. Ottmann.
1 Vorlesung Informatik 2 Algorithmen und Datenstrukturen (03 – Verschiedene Algorithmen für dasselbe Problem) Prof. Dr. Th. Ottmann.
Vorlesung Informatik 2 Algorithmen und Datenstrukturen (19 - Analyse natürlicher Bäume) Prof. Th. Ottmann.
1 Vorlesung Informatik 2 Algorithmen und Datenstrukturen (03 – Verschiedene Algorithmen für dasselbe Problem) Prof. Dr. Th. Ottmann.
WS Algorithmentheorie 08 – Dynamische Programmierung (2) Matrixkettenprodukt Prof. Dr. Th. Ottmann.
Informatik II, SS 2008 Algorithmen und Datenstrukturen Vorlesung 4 Prof. Dr. Thomas Ottmann Algorithmen & Datenstrukturen, Institut für Informatik Fakultät.
1 Vorlesung Informatik 2 Algorithmen und Datenstrukturen (03 – Verschiedene Algorithmen für dasselbe Problem) Prof. Dr. Th. Ottmann.
Fakten, Regeln und Anfragen
1/17 Ein Computermodell zur Bestimmung von Begriffstypen Christof Rumpf Heinrich-Heine-Universität Tag der Forschung
1 Ein Computermodell zur Bestimmung von Begriffstypen Christof Rumpf Heinrich-Heine-Universität Tag der Forschung
1 Automatische Klassifikation von Nomen nach Begriffstyp Christof Rumpf Heinrich-Heine-Universität
© Karin Haenelt 2006, Operationen auf Akzeptoren und Transduktoren, ( ) 1 Operationen auf endlichen Akzeptoren und Transduktoren.
Vorlesung: 1 Betriebliche Informationssysteme 2003 Prof. Dr. G. Hellberg Studiengang Informatik FHDW Vorlesung: Betriebliche Informationssysteme Teil2.
PG 520 Intelligence Service – gezielte Informationen aus dem Internet
Christian Schindelhauer
Christian Schindelhauer
Lexikalisch-Funktionale Grammatik
Wir suchen ‘ mit m = m    ‘ c  ‘ mod 26
Intelligentes Crawling im WWW mit Hilfe intuitiver Suchbedingungen
Datenstrukturen, Algorithmen und Programmierung 2 (DAP2)
Ralf KüstersDagstuhl 2008/11/30 2 Ralf KüstersDagstuhl 2008/11/30 3.
Vorlesung: Biometrie für Studierende der Veterinärmedizin
Vorlesung Biometrie für Studierende der Veterinärmedizin Begriff der Zufallsgröße Ergebnisse von Zufallsexperimenten werden als Zahlen dargestellt:
Bayes‘sche Verfahren (Mitchell Kap. 6), Teil 1
Maschinelles Lernen Bayessche Verfahren (Mitchell Kap. 6), Teil 1.
Vielstoffthermodynamik
Daten auswerten Boxplots
Effiziente Algorithmen
1.3. Kombinatorische Zählprobleme Zählstrategien
Syntaxanalyse Bottom-Up und LR(0)
Black Box Algorithmen Hartmut Klauck Universität Frankfurt SS
Effiziente Algorithmen
Quantum Computing Hartmut Klauck Universität Frankfurt WS 05/ /23.1.
Quantum Computing Hartmut Klauck Universität Frankfurt WS 05/
Information und Kommunikation Hartmut Klauck Universität Frankfurt SS
Information und Kommunikation Hartmut Klauck Universität Frankfurt SS
Information und Kommunikation
Information und Kommunikation
Information und Kommunikation Hartmut Klauck Universität Frankfurt SS
Kennwerte und Boxplots
Ich habe mir mal die Mühe gemacht, aus dem
Bestimmen von Prozentwert, Grundwert und Prozentsatz
STATISIK LV Nr.: 0028 SS Mai 2005.
Formale Sprachen Reguläre Sprachen Rudolf FREUND, Marian KOGLER.
MINDREADER Ein magisch - interaktives Erlebnis mit ENZO PAOLO
1 (C)2006, Hermann Knoll, HTW Chur, FHO Quadratische Reste Definitionen: Quadratischer Rest Quadratwurzel Anwendungen.
Analyseprodukte numerischer Modelle
Pflanzenlernkartei 3 Autor: Rudolf Arnold. Pflanze 1 Gattung Merkmale Schädigung Bekämpfung.
Pflanzenlernkartei 2 Autor: Rudolf Arnold. Pflanze 1 Gattung Merkmale Schädigung Bekämpfung.
Christian Schindelhauer Wintersemester 2006/07 2. Vorlesung
1 Albert-Ludwigs-Universität Freiburg Rechnernetze und Telematik Prof. Dr. Christian Schindelhauer Informatik III Christian Schindelhauer Wintersemester.
 Präsentation transkript:

1/27 Ein Framework zur automatischen Klassifikation von Begriffstypen Christof Rumpf Heinrich-Heine-Universität FFF-Seminar,

2/27 Überblick Gegenstand des Projekts A5 (1) Vorstellung des Frameworks (21) Erste experimentelle Befunde (4) Ausblick: was noch zu tun ist (1)

3/27 Gegenstand des Projekts A5 Problem –Automatische Klassifikation von Nomen nach Begriffstyp aufgrund morphosyntaktischer Kontextmerkmale. Methode –Erlernen eines statistischen Modells für die Klassifikation mit annotierten Texten, in denen Begriffstyp und Kontextmerkmale vermerkt (annotiert) sind. Folgeproblem (vieleicht auch eigentliches Problem) –Wie bekommen wir Texte, in denen Begrifftsypen nach Verwendungstyp (intellektuell) annotiert sind?

4/27 Architektur des Frameworks Morphosyntaktische Analyse Trainingskorpus Trainingssample Maximum-Entropie-Modell msyn: Dependenz- grammatik-Parser Extraktion relevanter Kontextmerkmale Morphosyntaktische Analyse Testkorpus Testsample manuelle Annotierung von Begriffstypen Lernen Anwenden Generalized Iterative Scaling Annotierter Testkorpus Klassifikator lernen / anwenden

5/27 Trainingskorpus Morphosyntaktische Analyse Trainingskorpus Trainingssample Maximum-Entropie-Modell msyn: Dependenz- grammatik-Parser Extraktion relevanter Kontextmerkmale Morphosyntaktische Analyse Testkorpus Testsample manuelle Annotierung von Begriffstypen Lernen Anwenden Generalized Iterative Scaling Annotierter Testkorpus Klassifikator lernen / anwenden

6/27 Trainingskorpus Handannotierte Version von Löbner (2003) Semantik Zur Zeit sind lediglich die lexikalisch zugrundeliegenden Klassen annotiert, nicht der Verwendungstyp (kommt noch…) Die Semantik ist das Teilgebiet der Linguistik, das sich mit Bedeutung befasst. Diese Art von Definition mag vielleicht ihrem Freund genügen, der Sie zufällig mit diesem Buch in der Hand sieht und Sie fragt, was denn nun schon wieder sei, aber als Autor einer solchen Einführung muss ich natürlich präziser erklären, was der Gegenstand dieser Wissenschaft ist.

7/27 Trainingskororpa: Erfordernisse Wir brauchen mehrere intellektuelle Annotatoren. Wir brauchen Stylebooks zur Anleitung intellektueller Annotatoren. Es müssen Evaluationskriterien zur Ermittlung von Übereinstimmungen bzw. Abweichungen intellektueller Annotatoren ermittelt werden.

8/27 Morphosyntaktische Analyse Trainingskorpus Trainingssample Maximum-Entropie-Modell msyn: Dependenz- grammatik-Parser Extraktion relevanter Kontextmerkmale Morphosyntaktische Analyse Testkorpus Testsample manuelle Annotierung von Begriffstypen Lernen Anwenden Generalized Iterative Scaling Annotierter Testkorpus Klassifikator lernen / anwenden

9/27 Morphosyntaktische Analyse Die die DET Def FEM SG NOM Semantik semantik N FEM SG NOM ist sein V IND PRES SG P3 das das DET Def NEU SG NOM Teilgebiet teil#gebiet N NEU SG NOM der die DET Def FEM SG GEN Linguistik linguistik N FEM SG GEN

10/27 Dependenz-Baum main - ist subj - Semantik det - Die Def comp - Teilgebiet det - das Def det - der Def mod - Linguistik Gen Possessor Die Semantik ist das Teilgebiet der Linguistik, …

11/27 Trainingssample Morphosyntaktische Analyse Trainingskorpus Trainingssample Maximum-Entropie-Modell msyn: Dependenz- grammatik-Parser Extraktion relevanter Kontextmerkmale Morphosyntaktische Analyse Testkorpus Testsample manuelle Annotierung von Begriffstypen Lernen Anwenden Generalized Iterative Scaling Annotierter Testkorpus Klassifikator lernen / anwenden

12/27 Trainingssample Extraktion relevanter Kontextmerkmale über reguläre Ausdrücke mit Perl- Skripten. Ergebnis: t(f1, [tnr=2, tok=semantik, suff=ik, num=sg, art=def]). t(r2, [tnr=5, tok=teil#gebiet, num=sg, art=def, poss=rgen]). t(f1, [tnr=7, tok=linguistik, suff=ik, num=sg, art=def]). t(f2, [tnr=12, tok=bedeutung, suff=ung, num=sg, art=none]). t(r2, [tnr=16, tok=art, num=sg, art=indef, poss=von]). t(f2, [tnr=18, tok=definition, num=sg, art=none]). t(r2, [tnr=22, tok=freund, num=sg, art=def]). t(so, [tnr=30, tok=buch, num=sg, art=indef]). t(r2, [tnr=33, tok=hand, num=sg, art=def]). t(f2, [tnr=49, tok=autor, num=sg, art=none]). t(r2, [tnr=52, tok=einführung, suff=ung, num=sg, art=indef]). t(f2, [tnr=61, tok=gegenstand, num=sg, art=def]). t(so, [tnr=63, tok=wissenschaft, num=sg, poss=lgen, art=none]).

13/27 Klassifikator lernen Morphosyntaktische Analyse Trainingskorpus Trainingssample Maximum-Entropie-Modell msyn: Dependenz- grammatik-Parser Extraktion relevanter Kontextmerkmale Morphosyntaktische Analyse Testkorpus Testsample manuelle Annotierung von Begriffstypen Lernen Anwenden Generalized Iterative Scaling Annotierter Testkorpus Klassifikator lernen / anwenden

14/27 Automatische Klassifikation Gegeben: –Trainingssample = {(a 1,b 1 ),…,(a n,b n )} –Klassen a i {f 1, f 2, f 3, r 1, r 2, r 3 } –Kontexte b i = {m 1,…,m m } –Merkmale m i {art=def, art=indef, poss=lgen, …} Gesucht: –Klassifikator p(a|b) Wie wahrscheinlich ist Klasse a gegeben Kontext b ? –Maximales Argument a = arg max a p(a|b) Welche ist die wahrscheinlichste Klasse a gegeben Kontext b ?

15/27 Klassifikator berechnen Einfachste Möglichkeit: Nachteile: –Es werden nur die Kontexte in gelernt. –Unterschiedliche Evidenz einzelner Merkmale bleibt unberücksichtigt. Ausweg: Berechnung des Klassifikators im Rahmen eines Maximimum Entropie Modells

16/27 Maximum Entropie Modelle Grundlegendes –Entropie: Anzahl der benötigten Bits zur Darstellung von Ereignissen eines bestimmten Typs (Münze werfen: 1 Bit, Würfeln: 2 ½ Bit). –Prinzip der maximalen Entropie: Stecke nur die Information ins Modell, die sicher ist, d.h. beobachtet werden kann. Besonderheiten –Dekompositon der Kontexte in einzelne Merkmale oder deren (Re)- Kombination. –Möglichkeit der Kombination von Merkmalen aus heterogenen Quellen (Syntax, Semantik, Morphologie, …). –Berechnung der Gewichte (Evidenz) einzelner Merkmale oder deren (Re-)Kombination für jede Klasse über alle Kontexte.

17/27 Kontextuelle und binäre Merkmale Die Gewichte für kontextuelle Merkmale werden in ME-Modellen über binäre Merkmale bestimmt. Diese setzen die kontextuellen Merkmale mit den Klassen in Beziehung. –Einfache binäre MerkmaleBeispiel –Komplexe binäre MerkmaleBeispiel

18/27 Maximum Entropie Framework Wobei j > 0 das Gewicht für Merkmal f j ist, k die Gesamtzahl der binären Merkmale und Z(b) eine Normalisierungskonstante, die sicherstellt, dass a p(a|b) = 1 bzw. 100% vgl. Ratnaparkhi 1998

19/27 Generalized Iterative Scaling Es gibt kein analytisches Verfahren zur Bestimmung der Gewichte. Es gibt mehrere iterative Näherungsverfahren zur Bestimmung der Gewichte, die zu einer korrekten Verteilung p(a|b) konvergieren und dabei das Prinzip der maximalen Entropie einhalten. Wir verwenden Generalized Iterative Scaling (GIS): ist der Erwartungswert für Merkmal f j im Trainingskorpus ist der Erwartungswert für Merkmal f j in der letzten Iteration Die Konstante C ist die Gesamtzahl der aktiven binären Merkmale über alle Kontexte Initialisierung Iteration

20/27 Berechnung der Erwartungswerte Erwartungswert von f j im Trainingskorpus Erwartungswert von f j in der letzten Iteration wobei N die Anzahl der Kontexte im Trainingskorpus ist. Dieser Erwartungswert ist konstant über alle Iterationen. Dieser Erwartungswert muss in jeder Iteration aufwändig neu berechnet werden

21/27 Berechnung der Konstanten C Allgemein kann die Konstante C wie folgt berechnet werden: wobei B die Potenzmenge der Kontextmerkmale ist. Diese Art der Berech- nung ist aber in den meisten Anwendungsszenarien nicht praktikabel. Insbesondere gilt: Je grösser der Wert der Konstanten C, desto zögerlicher die Konvergenz von GIS. Es gibt den Ausweg, C über die Kontexte des Trainingskopus zu berechnen: Dies erfordert das Hinzufügen eines Korrekturmerkmals f l, mit l = k+1 : Was ist die maximale Anzahl, mit der ein binäres Merkmal in den Kontexten des Trainingskorpus aktiv sein kann?

22/27 Merkmale als Bitvektoren Wir haben eine Implementierung des Maximum Entropie Frameworks in der Programmiersprache Prolog, bei der die kontextuellen, als auch die binären Merkmale als Bitvektoren dargestellt werden. Jedem Kontextmerkmal entspricht eine Position im Vektor: cf i = 2 i-1 Sei die Bitvektorrepräsentation von Merkmal f j und die Bitvektorrepräsentation von Kontext b i, dann gilt Es ist damit sehr einfach und effizient festzustellen, ob ein Merkmal in einem Kontext aktiv ist, oder nicht.

23/27 Erste experimentelle Befunde Input: Ein Trainingssample mit 645 Tokens Klassen fe, f1, f2, so, r2, r3 23 verschiedene Kontexte mit Merkmalen art={def, indef, none}, poss={rgen, lgen, von}, suff={ik, ung, heit, keit, in, nis}

24/27 -Gewichte -Gewichte J A BV Alpha CF 1 f [suff=ik] 2 f [art=none] 3 f [art=def] 4 f [suff=ung] 5 f [suff=in] 6 f [suff=ik] 7 f [poss=von] 8 f [poss=rgen] 9 f [poss=lgen] 10 f [art=none] 11 f [art=indef] 12 f [art=def] J A BV Alpha CF 13 fe [art=none] 14 r [suff=ung] 15 r [suff=keit] 16 r [suff=ik] 17 r [poss=von] 18 r [poss=rgen] 19 r [art=none] 20 r [art=indef] 21 r [art=def] 22 r [suff=ung] 23 so [art=none]

25/27 Klassifikatoren I (A|B) p~(A|B) p^100(A|B) B (f1| 1) def (f2| 1) def (fe| 1) def (r2| 1) def (r3| 1) def (so| 1) def (f1| 2) ind (f2| 2) ind (fe| 2) ind (r2| 2) ind (r3| 2) ind (so| 2) ind (f1| 4) noa (f2| 4) noa (fe| 4) noa (r2| 4) noa (r3| 4) noa (so| 4) noa (A|B) p~(A|B) p^100(A|B) B (f1|66) ind heit (f2|66) ind heit (fe|66) ind heit (r2|66) ind heit (r3|66) ind heit (so|66) ind heit (f1|68) noa heit (f2|68) noa heit (fe|68) noa heit (r2|68) noa heit (r3|68) noa heit (so|68) noa heit (so, [art=none]) = (f1, [art=none]) = heit hat kein feature, weil es zu selten vorkommt p~(A|B) ensteht durch Auszählen der Kontexte p^100(A|B) ist der GIS-Klassifikator der 100sten Iteration

26/27 Klassifikatoren II (A|B) p~(A|B) p^100(A|B) B (f1|2060) noa lgen ung (f2|2060) noa lgen ung (fe|2060) noa lgen ung (r2|2060) noa lgen ung (r3|2060) noa lgen ung (so|2060) noa lgen ung (f1|2065) def rgen ung (f2|2065) def rgen ung (fe|2065) def rgen ung (r2|2065) def rgen ung (r3|2065) def rgen ung (so|2065) def rgen ung (f1|2081) def von ung (f2|2081) def von ung (fe|2081) def von ung (r2|2081) def von ung (r3|2081) def von ung (so|2081) def von ung (f1|2084) noa von ung (f2|2084) noa von ung (fe|2084) noa von ung (r2|2084) noa von ung (r3|2084) noa von ung (so|2084) noa von ung Alle Kontexte der Länge 3:

27/27 Fazit und Ausblick Das Maximum Entropie Framework erlaubt eine feine Analyse der Evidenz, die ein einzelnes Kontextmerkmal für die Klassifikation liefert. Die Auswahl der richtigen Merkmale ist essentiell für den Erfolg der automatischen Klassifikation. Unser Forschungsgegenstand besteht in erster Linie in der Untersuchung dieser Merkmale. Es werden Experimente mit kombinierten Merkmalen folgen, um die kombinierte Evidenz zu modellieren. Unerlässlich ist natürlich auch die Existenz von handannotierten Trainingskorpora, in denen die Verwendungstypen vermerkt sind, die wir leider noch nicht haben.