1 Automatische Erweiterung eines semantikbasierten Lexikons durch Bootstrapping auf großen Korpora 1. April 2005 GLDV-05 Frühjahrstagung, Bonn Chris Biemann Universität Leipzig Rainer Osswald FernUniversität Hagen
2 Gliederung Motivation: Lexikonerweiterung für semantisches Parsen Von Kookkurrenzen zu Adjektivprofilen von Nomen Verebungsmechanismus für semantische Eigenschaften Ergebnisse: komplexe semantische Klassen Ergebnisse: Kombination von binären Einzelmerkmalen Diskussion
3 Motivation Semantisches Parsen versucht, eine semantische Repräsentation für geparste Sätze zu finden Notwendig hierzu sind semantische Eigenschaften von Wörtern Diese semantischen Eigenschaften werden manuell in ein Lexikon codiert (zeitaufwändig und teuer) Hypothese: Gegeben ein manuell erstelltes Lexikon mittlerer Größe sollte es möglich sein, Klassifizierer zu trainieren, die neue Einträge findne können.
4 HaGenLex: Semantisches Lexikon semantic class Größe: Lemmas davon: Nomen, 6700 Verben WORTSEMANTISCHE KLASSE Aggressivitätnonment-dyn-abs-situation Agonienonment-stat-abs-situation Agrarproduktnat-discrete Ägypterhuman-object Ahnhuman-object Ahndungnonment-dyn-abs-situation Ähnlichkeitrelation Airbagnonax-mov-art-discrete Airbusmov-nonanimate-con-potag Airportart-con-geogr Ajatollahhuman-object Akademikerhuman-object Akademisierungnonment-dyn-abs-situation Akkordeonnonax-mov-art-discrete Akkreditierungnonment-dyn-abs-situation Akkuax-mov-art-discrete Akquisitionnonment-dyn-abs-situation Akrobathuman-object...
5 Semantische Klassen in HaGenLex Insgesamt 50 semantische Klassen für Nomen werden gebildet aus erlaubten Kombinationen von 16 semantischen Features (binär): HUMAN+, ARTIFICIAL- 17 ontologischen Sorten, z.B. concrete, abstract-situation... Sorte (Hierarchie) semantische Features semantische Klassen
6 Anwendung: WOCADI-Parser Welche Bücher von Peter Jackson über Expertensysteme wurden bei Addison-Wesley seit 1985 veröffentlicht?
7 Annahmen Harris 1968: Distributional Hypothesis Semantische Ähnlichkeit ist eine Funktion über globale Kontexte von Wörtern. Je ähnlicher die Kontexte, desto ähnlicher die Wörter Dies projiziert auf Nomen und Adjektive: Nomen mit denselben semantischen Klassen werden typischerweise von denselben Adjektiven modifiziert Die Nachbarschaftskookkurrenzbeziehung zwischen Adjektiven (links) und Nomen (rechts) approximiert typische Head-Modifier-Strukturen
8 Nachbarschaftskookkurrenzen und -profile Signifikante Kookkurrenzen spiegeln Relationen zwischen Wörtern wieder. Um zu ermitteln, welche Kookkurrenzen (gemeinsame Auftreten) signifikant sind, wird ein Signifikanzmaß benötigt (hier log-likelihood) Im Folgenden werden Adjektive, die signifikant häufig (sprich typischerweise) links von Nomen auftreten, sowie Nomen, die signifikant rechts von Adjektiven auftreten Die Menge on Adjektiven, die signifikant häufig links von Nomen beobachtet werden, heisst Adjektivprofil des Nomens (Analog: Nomenprofil für Adjektive) Für Experimente benutzen wir den Deutschen Korpus Version 2003 des Projekt Deutscher Wortschatz, 500 Millionen Tokens
9 Beispiel Nachbarschaftsprofile... von ganz erlegten Käsebüchern Datenbasis: grundformreduzierte Nachbarschaftskookkurrenzen. Umfang: Substantive, Adjektive WortAdjektiv- bzw. Substantivprofil Buchneu, erschienen, erst, neuest, jüngst, gut, geschrieben, letzt, zweit, vorliegend, gleichnamig, herausgegeben, nächst, dick, veröffentlicht,... Käsegerieben, überbacken, kleinkariert, fett, französisch, fettarm, löchrig, holländisch, handgemacht, grün, würzig, selbstgemacht, produziert, schimmelig, Camembertgebacken, fettarm, reif überbackenSchweinesteak, Aubergine, Blumenkohl, Käse erlegtTier, Wild, Reh, Stück, Beute, Großwild, Wildkatzen, Büffel, Rehbock, Beutetier, Wal, Hirsch, Hase, Grizzly, Wildschwein, Thier, Eber, Bär, Mücke, ganzLeben, Bündel, Stück, Volk, Wesen, Vermögen, Herz, Heer, Arsenal, Dorf, Land, Können, Berufsleben, Paket, Kapitel, Stadtviertel, Rudel, Jahrzehnt,...
10 Vererbungsmechanismus Algorithmus: Initialisieren der Adjektiv- und Substantivprofile; Initialisieren der Startmenge; Solange noch neue Substantive klassifiziert werden { Berechnung der Klassenwahrscheinlichkeiten der Adjektive; Für alle noch unklassifizierten Substantive s { Multipliziere die Klassenwahrscheinlichkeit für jede Klasse; Weise die Klasse mit der höchsten Wahrscheinlichkeit s zu; } Welche Klasse bekommt S4 im nächsten Schritt? Klassenwahrscheinlichkeiten pro Adjektiv: Zähle Klassenanzahlen Normiere auf Anteil der Klasse in bekannten Substantiven Normiere auf 1
11 Beispiel: Topf Klassenanzahlen für Adjektive: angebrannt: {nat-substance=1, art-substance=1, ax-mov-art-discrete=1} Suppeart_substance Zigaretteax-mov-art-discrete Milchnat-substance zerbeult:{nonmov-art-discrete=1, mov-nonanimate-con-potag=2, nonax-mov-art-discrete=1, ax-mov-art-discrete=3} Wagen, Automov-nonanimate-con-potag Fahrzeug, Mountainbike, Posaune ax-mov-art-discrete Mantelnonax-mov-art-discrete Dachnonmov-art-discrete irden:{art-con-geogr=1, nonax-mov-art-discrete=1, ax-mov-art-discrete=9} Schalnonax-mov-art-discrete Hafenart-con-geogr Teller, Flasche, Schüssel, Becher, Geschirr, Vase, Krug, Gefäß, Napfax-mov-art-discrete tönern: {ax-mov-art-discrete=1, prot-discrete=1} Fußprot-discrete Gefäßax-mov-art-discrete übervoll: {nonmov-art-discrete=3, art-con-geogr=1, nonment-dyn-abbs-situation=1, nonax-mov-art-discrete=1} Zimmer, Saal, Lagernonmov-art-discrete Stallart-con-geogr Vorlesungnonment-dyn-abs-situation Tablettnonax-mov-art-discrete Adjektivprofil von Topf = ax-mov-art-discrete: angebrannt(X) heiß(-) ehern(-) fremd(-) divers(-) zerbeult(X) brodelnd(-) staatlich(-) gußeisern(-) tönern(X) gemeinsam(-) groß(-) irden(X) verschieden(-) verschlossen(-) anonym(-) rund(-) flach(-) Bremer(-) geschlossen(-) passend(-) gesondert(-) andere(-) riesig(-) Golden(-) eisern(-) europäisch(-) viel(-) öffentlich(-) mehr(-) golden(-) leer(-) klein(-) getrennt(-) möglich(-) speziell(-) übervoll(X) dampfend(-) gleich(-) gefüllt(-) Klassenwahrscheinlichkeiten (unnormiert): {mov-nonanimate-con-potag=2.8E-25, ax-mov-art-discrete=5.8E-8, art-con-geogr=1.5E-20, nonax-mov-art-discrete=2.1E-15, nat-substance=3.3E-25, nonment-dyn-abs-situation=1.6E-25, prot-discrete=5.0E-25, art-substance=3.3E-25, nonmov-art-discrete=7.1E-20}
12 Parameter Mindestanzahl Adjektive: minAdj Ein Substantiv wird erst dann klassifiziert, wenn mindestens minAdj klassifizierende Adjektive vorhanden sind Vermeidung von statistischem Rauschen und Häufigkeitsschwelle. Maximalanzahl Klassen für Adjektive: maxClass Ein Adjektiv wird nur dann zum Klassifizieren verwendet, wenn es für höchstens maxClass verschiedene Klassen spricht unspezifische Adjektive können Ergebnis nicht verzerren
13 Datenbasis Experimente Davon erfüllen 4726 Substantive minAdj=5, d.h. maximaler Recall=78,2%
14 Ergebnisse globaler Klassifikator Klassifiziert wurde direkt nach semantischer Klasse Verschiedene Messpunkte entsprechen Parameterbelegungen minAdj in {5,10,15,20}, maxClass in {2, 5, 50} Ergebnisse zu schlecht
15 Einzelklassifikatoren Architektur: Binäre Klassifikatoren für Einzelmerkmale, dann zusammenführen. Parameter: minAdj=5, maxClass=2 ANIMAL +/- ANIMATE +/- ARTIF +/- AXIAL +/-... (16 Stück)... (17 Stück) ab +/- abs +/- ad +/- as +/- Auswahl: Kompatible semantische Klassen, die minimal bzgl. Hierarchie sind, sowie eindeutig. Ergebnisklasse oder Verweigern
16 Evaluation semantische Features Für Bias >0,05 gute bis sehr gute Precision Precision gesamt: 93,8% (86,8% für Eigenschaft +) Recall gesamt: 70,7% (69,2% für Eigenschaft +) NameAnzahl+ -Bias method ,0020 instit ,0065 mental ,0180 info ,0198 animal ,0239 geogr ,0313 thconc ,0859 instru ,1634 human ,2190 legper ,2250 animate ,2504 potag ,2766 artif ,3759 axial ,3836 movable ,4024 spatial ,4823
17 Evaluation ontologische Sorten Für Bias >0,10 gute bis sehr gute Precision Precision gesamt: 94,1% (89,5% für Eigenschaft +) Recall gesamt: 73,6% (69,6% für Eigenschaft +) NameAnzahl+ -Bias re ,0012 mo ,0013 o ,0065 oa ,0068 me ,0068 qn ,0068 ta ,0177 s ,0373 as ,0602 na ,0681 at ,0746 io ,1101 ad ,2456 abs ,3060 d ,4431 co ,4823 ab ,4891
18 Eval. komplexe sem. Klassen Aussage für Bias schwierig Precision gesamt: 80,2% Recall gesamt: 34,2%, es wurden 6649 neue Substantive klassifiziert Klasse Anz.PrecRec nonment-dyn-abs-situation ,1934,27 human-object ,8269,54 prot-theor-concept516 53,7118,22 nonoper-attribute411 0,00 ax-mov-art-discrete362 55,6440,88 nonment-stat-abs-situation226 36,846,19 animal-object ,026,57 nonmov-art-discrete133 57,4123,31 ment-stat-abs-situation126 51,2815,87 nonax-mov-art-discrete108 31,4815,74 tem-abstractum107 96,7728,04 mov-nonanimate-con-potag98 70,4531,63 art-con-geogr96 58,7028,12 abs-info94 42,3111,70 art-substance88 60,4729,55 nat-discrete88 100,031,82 nat-substance86 57,149,30 prot-discrete73 100,057,53 nat-con-geogr63 65,0020,63 prot-substance50 100,040,00 mov-art-discrete45 100,037,78 meas-unit41 90,9124,39 oper-attribute39 0,00 Institution39 0,00 ment-dyn-abs-situation36 0,00 plant-object34 100,08,82 mov-nat-discrete27 22,22 con-info25 40,008,00 Rest157 39,2419,75
19 Einige Fehler Pflanze animal-object anstatt plant-object zart, fleischfressend, fressend, verändert, genmanipuliert, transgen, exotisch, selten, giftig, stinkend, wachsend... Nachwuchs human-object anstatt animal-object wissenschaftlich, qualifiziert, akademisch, eigen, talentiert, weiblich, hoffnungsvoll, geeignet, begabt, journalistisch... Café art-con-geogr anstatt nonmov-art-discrete (vgl. Restaurant) Wiener, klein, türkisch, kurdisch, romanisch, cyber, philosophisch, besucht, traditionsreich, schnieke, gutbesucht,... Neger animal-object anstatt human-object weiß, dreckig, gefangen, faul, alt, schwarz, nackt, lieb, gut, brav aber: Skinhead human-object (richtig) {16,17,18,19,20,21,22,23,30}ährig, gleichaltrig, zusammengeprügelt, rechtsradikal, brutal Wegen zu weniger Adjektive zurückgewiesen: Leberkäse human-object bayerisch, warm
20 Ausblicke Schwierigste semantische Klasse: nonoper-attribute z.B. Anfälligkeit, Angemessenheit, Ängstlichkeit, Beiläufigkeit, da typische Adjektive zu unspezifisch: erhöht, besonders, gering, hoch, extrem, größer, notorisch, gewisse, übertrieben, völlig, stärker, übergroß, scheinbar, bedingt...., jedoch enden die meisten auf {k|h}eit.... Andere syntaktische Beziehungen ausnutzen Polyseme Wörter behandeln: - Disambiguierung: Mehrere Adjektivprofile pro Substantiv - Vereinigung von Substantivnachbarn eigenschaftsspezifischer Adjektive können Hinweise auf mehrere Klassen liefern
21 Fragen? Danke für die Aufmerksamkeit!