Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

1 Automatische Erweiterung eines semantikbasierten Lexikons durch Bootstrapping auf großen Korpora 1. April 2005 GLDV-05 Frühjahrstagung, Bonn Chris Biemann.

Ähnliche Präsentationen


Präsentation zum Thema: "1 Automatische Erweiterung eines semantikbasierten Lexikons durch Bootstrapping auf großen Korpora 1. April 2005 GLDV-05 Frühjahrstagung, Bonn Chris Biemann."—  Präsentation transkript:

1 1 Automatische Erweiterung eines semantikbasierten Lexikons durch Bootstrapping auf großen Korpora 1. April 2005 GLDV-05 Frühjahrstagung, Bonn Chris Biemann Universität Leipzig Rainer Osswald FernUniversität Hagen

2 2 Gliederung Motivation: Lexikonerweiterung für semantisches Parsen Von Kookkurrenzen zu Adjektivprofilen von Nomen Verebungsmechanismus für semantische Eigenschaften Ergebnisse: komplexe semantische Klassen Ergebnisse: Kombination von binären Einzelmerkmalen Diskussion

3 3 Motivation Semantisches Parsen versucht, eine semantische Repräsentation für geparste Sätze zu finden Notwendig hierzu sind semantische Eigenschaften von Wörtern Diese semantischen Eigenschaften werden manuell in ein Lexikon codiert (zeitaufwändig und teuer) Hypothese: Gegeben ein manuell erstelltes Lexikon mittlerer Größe sollte es möglich sein, Klassifizierer zu trainieren, die neue Einträge findne können.

4 4 HaGenLex: Semantisches Lexikon semantic class Größe: 22700 Lemmas davon: 11300 Nomen, 6700 Verben WORTSEMANTISCHE KLASSE Aggressivitätnonment-dyn-abs-situation Agonienonment-stat-abs-situation Agrarproduktnat-discrete Ägypterhuman-object Ahnhuman-object Ahndungnonment-dyn-abs-situation Ähnlichkeitrelation Airbagnonax-mov-art-discrete Airbusmov-nonanimate-con-potag Airportart-con-geogr Ajatollahhuman-object Akademikerhuman-object Akademisierungnonment-dyn-abs-situation Akkordeonnonax-mov-art-discrete Akkreditierungnonment-dyn-abs-situation Akkuax-mov-art-discrete Akquisitionnonment-dyn-abs-situation Akrobathuman-object...

5 5 Semantische Klassen in HaGenLex Insgesamt 50 semantische Klassen für Nomen werden gebildet aus erlaubten Kombinationen von 16 semantischen Features (binär): HUMAN+, ARTIFICIAL- 17 ontologischen Sorten, z.B. concrete, abstract-situation... Sorte (Hierarchie) semantische Features semantische Klassen

6 6 Anwendung: WOCADI-Parser Welche Bücher von Peter Jackson über Expertensysteme wurden bei Addison-Wesley seit 1985 veröffentlicht?

7 7 Annahmen Harris 1968: Distributional Hypothesis Semantische Ähnlichkeit ist eine Funktion über globale Kontexte von Wörtern. Je ähnlicher die Kontexte, desto ähnlicher die Wörter Dies projiziert auf Nomen und Adjektive: Nomen mit denselben semantischen Klassen werden typischerweise von denselben Adjektiven modifiziert Die Nachbarschaftskookkurrenzbeziehung zwischen Adjektiven (links) und Nomen (rechts) approximiert typische Head-Modifier-Strukturen

8 8 Nachbarschaftskookkurrenzen und -profile Signifikante Kookkurrenzen spiegeln Relationen zwischen Wörtern wieder. Um zu ermitteln, welche Kookkurrenzen (gemeinsame Auftreten) signifikant sind, wird ein Signifikanzmaß benötigt (hier log-likelihood) Im Folgenden werden Adjektive, die signifikant häufig (sprich typischerweise) links von Nomen auftreten, sowie Nomen, die signifikant rechts von Adjektiven auftreten Die Menge on Adjektiven, die signifikant häufig links von Nomen beobachtet werden, heisst Adjektivprofil des Nomens (Analog: Nomenprofil für Adjektive) Für Experimente benutzen wir den Deutschen Korpus Version 2003 des Projekt Deutscher Wortschatz, 500 Millionen Tokens

9 9 Beispiel Nachbarschaftsprofile... von ganz erlegten Käsebüchern Datenbasis: grundformreduzierte Nachbarschaftskookkurrenzen. Umfang: 125000 Substantive, 25000 Adjektive WortAdjektiv- bzw. Substantivprofil Buchneu, erschienen, erst, neuest, jüngst, gut, geschrieben, letzt, zweit, vorliegend, gleichnamig, herausgegeben, nächst, dick, veröffentlicht,... Käsegerieben, überbacken, kleinkariert, fett, französisch, fettarm, löchrig, holländisch, handgemacht, grün, würzig, selbstgemacht, produziert, schimmelig, Camembertgebacken, fettarm, reif überbackenSchweinesteak, Aubergine, Blumenkohl, Käse erlegtTier, Wild, Reh, Stück, Beute, Großwild, Wildkatzen, Büffel, Rehbock, Beutetier, Wal, Hirsch, Hase, Grizzly, Wildschwein, Thier, Eber, Bär, Mücke, ganzLeben, Bündel, Stück, Volk, Wesen, Vermögen, Herz, Heer, Arsenal, Dorf, Land, Können, Berufsleben, Paket, Kapitel, Stadtviertel, Rudel, Jahrzehnt,...

10 10 Vererbungsmechanismus Algorithmus: Initialisieren der Adjektiv- und Substantivprofile; Initialisieren der Startmenge; Solange noch neue Substantive klassifiziert werden { Berechnung der Klassenwahrscheinlichkeiten der Adjektive; Für alle noch unklassifizierten Substantive s { Multipliziere die Klassenwahrscheinlichkeit für jede Klasse; Weise die Klasse mit der höchsten Wahrscheinlichkeit s zu; } Welche Klasse bekommt S4 im nächsten Schritt? Klassenwahrscheinlichkeiten pro Adjektiv: Zähle Klassenanzahlen Normiere auf Anteil der Klasse in bekannten Substantiven Normiere auf 1

11 11 Beispiel: Topf Klassenanzahlen für Adjektive: angebrannt: {nat-substance=1, art-substance=1, ax-mov-art-discrete=1} Suppeart_substance Zigaretteax-mov-art-discrete Milchnat-substance zerbeult:{nonmov-art-discrete=1, mov-nonanimate-con-potag=2, nonax-mov-art-discrete=1, ax-mov-art-discrete=3} Wagen, Automov-nonanimate-con-potag Fahrzeug, Mountainbike, Posaune ax-mov-art-discrete Mantelnonax-mov-art-discrete Dachnonmov-art-discrete irden:{art-con-geogr=1, nonax-mov-art-discrete=1, ax-mov-art-discrete=9} Schalnonax-mov-art-discrete Hafenart-con-geogr Teller, Flasche, Schüssel, Becher, Geschirr, Vase, Krug, Gefäß, Napfax-mov-art-discrete tönern: {ax-mov-art-discrete=1, prot-discrete=1} Fußprot-discrete Gefäßax-mov-art-discrete übervoll: {nonmov-art-discrete=3, art-con-geogr=1, nonment-dyn-abbs-situation=1, nonax-mov-art-discrete=1} Zimmer, Saal, Lagernonmov-art-discrete Stallart-con-geogr Vorlesungnonment-dyn-abs-situation Tablettnonax-mov-art-discrete Adjektivprofil von Topf = ax-mov-art-discrete: angebrannt(X) heiß(-) ehern(-) fremd(-) divers(-) zerbeult(X) brodelnd(-) staatlich(-) gußeisern(-) tönern(X) gemeinsam(-) groß(-) irden(X) verschieden(-) verschlossen(-) anonym(-) rund(-) flach(-) Bremer(-) geschlossen(-) passend(-) gesondert(-) andere(-) riesig(-) Golden(-) eisern(-) europäisch(-) viel(-) öffentlich(-) mehr(-) golden(-) leer(-) klein(-) getrennt(-) möglich(-) speziell(-) übervoll(X) dampfend(-) gleich(-) gefüllt(-) Klassenwahrscheinlichkeiten (unnormiert): {mov-nonanimate-con-potag=2.8E-25, ax-mov-art-discrete=5.8E-8, art-con-geogr=1.5E-20, nonax-mov-art-discrete=2.1E-15, nat-substance=3.3E-25, nonment-dyn-abs-situation=1.6E-25, prot-discrete=5.0E-25, art-substance=3.3E-25, nonmov-art-discrete=7.1E-20}

12 12 Parameter Mindestanzahl Adjektive: minAdj Ein Substantiv wird erst dann klassifiziert, wenn mindestens minAdj klassifizierende Adjektive vorhanden sind Vermeidung von statistischem Rauschen und Häufigkeitsschwelle. Maximalanzahl Klassen für Adjektive: maxClass Ein Adjektiv wird nur dann zum Klassifizieren verwendet, wenn es für höchstens maxClass verschiedene Klassen spricht unspezifische Adjektive können Ergebnis nicht verzerren

13 13 Datenbasis Experimente Davon erfüllen 4726 Substantive minAdj=5, d.h. maximaler Recall=78,2%

14 14 Ergebnisse globaler Klassifikator Klassifiziert wurde direkt nach semantischer Klasse Verschiedene Messpunkte entsprechen Parameterbelegungen minAdj in {5,10,15,20}, maxClass in {2, 5, 50} Ergebnisse zu schlecht

15 15 Einzelklassifikatoren Architektur: Binäre Klassifikatoren für Einzelmerkmale, dann zusammenführen. Parameter: minAdj=5, maxClass=2 ANIMAL +/- ANIMATE +/- ARTIF +/- AXIAL +/-... (16 Stück)... (17 Stück) ab +/- abs +/- ad +/- as +/- Auswahl: Kompatible semantische Klassen, die minimal bzgl. Hierarchie sind, sowie eindeutig. Ergebnisklasse oder Verweigern

16 16 Evaluation semantische Features Für Bias >0,05 gute bis sehr gute Precision Precision gesamt: 93,8% (86,8% für Eigenschaft +) Recall gesamt: 70,7% (69,2% für Eigenschaft +) NameAnzahl+ -Bias method60041259920,0020 instit60323959930,0065 mental900816288460,0180 info601511958960,0198 animal599514358520,0239 geogr601518858270,0313 thconc602851855100,0859 instru593296949630,1634 human5995131346820,2190 legper6009135246570,2250 animate6010150545050,2504 potag6015166443510,2766 artif5864220436600,3759 axial5892226036320,3836 movable5827234534820,4024 spatial6033291031230,4823

17 17 Evaluation ontologische Sorten Für Bias >0,10 gute bis sehr gute Precision Precision gesamt: 94,1% (89,5% für Eigenschaft +) Recall gesamt: 73,6% (69,6% für Eigenschaft +) NameAnzahl+ -Bias re6033760260,0012 mo6033860250,0013 o-60335994390,0065 oa60454160040,0068 me60454160040,0068 qn60454160040,0068 ta603310759260,0177 s601022457860,0373 as603136356680,0602 na603341156220,0681 at603345055830,0746 io603366453690,1101 ad6031148145500,2456 abs6033184641870,3060 d6010266333470,4431 co6033291031230,4823 ab-6033308229510,4891

18 18 Eval. komplexe sem. Klassen Aussage für Bias schwierig Precision gesamt: 80,2% Recall gesamt: 34,2%, es wurden 6649 neue Substantive klassifiziert Klasse Anz.PrecRec nonment-dyn-abs-situation1421 89,1934,27 human-object1313 96,8269,54 prot-theor-concept516 53,7118,22 nonoper-attribute411 0,00 ax-mov-art-discrete362 55,6440,88 nonment-stat-abs-situation226 36,846,19 animal-object143 100,026,57 nonmov-art-discrete133 57,4123,31 ment-stat-abs-situation126 51,2815,87 nonax-mov-art-discrete108 31,4815,74 tem-abstractum107 96,7728,04 mov-nonanimate-con-potag98 70,4531,63 art-con-geogr96 58,7028,12 abs-info94 42,3111,70 art-substance88 60,4729,55 nat-discrete88 100,031,82 nat-substance86 57,149,30 prot-discrete73 100,057,53 nat-con-geogr63 65,0020,63 prot-substance50 100,040,00 mov-art-discrete45 100,037,78 meas-unit41 90,9124,39 oper-attribute39 0,00 Institution39 0,00 ment-dyn-abs-situation36 0,00 plant-object34 100,08,82 mov-nat-discrete27 22,22 con-info25 40,008,00 Rest157 39,2419,75

19 19 Einige Fehler Pflanze animal-object anstatt plant-object zart, fleischfressend, fressend, verändert, genmanipuliert, transgen, exotisch, selten, giftig, stinkend, wachsend... Nachwuchs human-object anstatt animal-object wissenschaftlich, qualifiziert, akademisch, eigen, talentiert, weiblich, hoffnungsvoll, geeignet, begabt, journalistisch... Café art-con-geogr anstatt nonmov-art-discrete (vgl. Restaurant) Wiener, klein, türkisch, kurdisch, romanisch, cyber, philosophisch, besucht, traditionsreich, schnieke, gutbesucht,... Neger animal-object anstatt human-object weiß, dreckig, gefangen, faul, alt, schwarz, nackt, lieb, gut, brav aber: Skinhead human-object (richtig) {16,17,18,19,20,21,22,23,30}ährig, gleichaltrig, zusammengeprügelt, rechtsradikal, brutal Wegen zu weniger Adjektive zurückgewiesen: Leberkäse human-object bayerisch, warm

20 20 Ausblicke Schwierigste semantische Klasse: nonoper-attribute z.B. Anfälligkeit, Angemessenheit, Ängstlichkeit, Beiläufigkeit, da typische Adjektive zu unspezifisch: erhöht, besonders, gering, hoch, extrem, größer, notorisch, gewisse, übertrieben, völlig, stärker, übergroß, scheinbar, bedingt...., jedoch enden die meisten auf {k|h}eit.... Andere syntaktische Beziehungen ausnutzen Polyseme Wörter behandeln: - Disambiguierung: Mehrere Adjektivprofile pro Substantiv - Vereinigung von Substantivnachbarn eigenschaftsspezifischer Adjektive können Hinweise auf mehrere Klassen liefern

21 21 Fragen? Danke für die Aufmerksamkeit!


Herunterladen ppt "1 Automatische Erweiterung eines semantikbasierten Lexikons durch Bootstrapping auf großen Korpora 1. April 2005 GLDV-05 Frühjahrstagung, Bonn Chris Biemann."

Ähnliche Präsentationen


Google-Anzeigen