1 Automatische Erweiterung eines semantikbasierten Lexikons durch Bootstrapping auf großen Korpora 1. April 2005 GLDV-05 Frühjahrstagung, Bonn Chris Biemann.

Slides:



Advertisements
Ähnliche Präsentationen
Algorithmen und Datenstrukturen
Advertisements

Anzahl der ausgefüllten und eingesandten Fragebögen: 211
Vorlesung: 1 Betriebliche Informationssysteme 2003 Prof. Dr. G. Hellberg Studiengang Informatik FHDW Vorlesung: Betriebliche Informationssysteme Teil3.
LS 2 / Informatik Datenstrukturen, Algorithmen und Programmierung 2 (DAP2)
Projekt zur Evaluation, Reaktivierung vorhandener Kenntnisse und Festigung des Arbeitens mit Größen im Mathematikunterricht mit Schülern der 7. Klassen.
WS 05/06Automatische Akquisition linguistischen Wissens1 Partielles Wissen erweitern 1.Zusammenhang mit bisherigen Algorithmen 2.Vom offensichtlichen zum.
= = = = 47 = 47 = 48 = =
Quantitative RT-PCR an nativen Prostatakarzinom-Biopsien: Etablierung der Technik und erste vergleichende Ergebnisse Medizinische Fakultät Universitätsklinikum.
Sortierverfahren Richard Göbel.
Rechneraufbau & Rechnerstrukturen, Folie 2.1 © W. Oberschelp, G. Vossen W. Oberschelp G. Vossen Kapitel 2.
Internet facts 2008-II Graphiken zu dem Berichtsband AGOF e.V. September 2008.
Internet facts 2006-II Graphiken zu dem Berichtsband AGOF e.V. November 2006.
Vorlesung: 1 Betriebliche Informationssysteme 2003 Prof. Dr. G. Hellberg Studiengang Informatik FHDW Vorlesung: Betriebliche Informationssysteme Teil2.
PKJ 2005/1 Stefan Dissmann Zusammenfassung Bisher im Kurs erarbeitete Konzepte(1): Umgang mit einfachen Datentypen Umgang mit Feldern Umgang mit Referenzen.
Differentielles Paar UIN rds gm UIN
Prof. Dr. Bernhard Wasmayr
Studienverlauf im Ausländerstudium
Classification of Credit Applicants Using Data Mining. Thema.
Univariate Statistik M. Kresken.
Grundschutztools
Prof. Dr. Bernhard Wasmayr VWL 2. Semester
Ergebnisse aus der Umfrage im Rahmen des Interkommunalen Altenhilfe- und Mehrgenerationenkonzeptes für Schönwald Ergebnisse.
Ergebnisse aus der Umfrage im Rahmen des Interkommunalen Altenhilfe- und Mehrgenerationenkonzeptes für Sparneck Ergebnisse.
AWA 2007 Natur und Umwelt Natürlich Leben
Rechneraufbau & Rechnerstrukturen, Folie 12.1 © W. Oberschelp, G. Vossen W. Oberschelp G. Vossen Kapitel 12.
20:00.
Zusatzfolien zu B-Bäumen
WIRTSCHAFTSLAGE NOCH SCHWIERIG
Einführung in die beurteilende Statistik
Eine Einführung in die CD-ROM
Dokumentation der Umfrage
QS- Dekubitusprophylaxe Klinikstatistik 2007 BAQ
für Weihnachten oder als Tischdekoration für das ganze Jahr
Wir üben die Malsätzchen
Syntaxanalyse Bottom-Up und LR(0)
Hartmut Klauck Universität Frankfurt SS
Addieren und Subtrahieren von Dezimalzahlen
Mehr zum Testen von Hypothesen
PROCAM Score Alter (Jahre)
Ertragsteuern, 5. Auflage Christiana Djanani, Gernot Brähler, Christian Lösel, Andreas Krenzin © UVK Verlagsgesellschaft mbH, Konstanz und München 2012.
L.O.C. Mehrzweckreiniger 1 l Konzentrat 9,00 € ( GP 6,91 €)
Geometrische Aufgaben
Symmetrische Blockchiffren DES – der Data Encryption Standard
Das ABC der Statistik DIE SÄULENDIAGRAMME 1
Szenisches Lernen Wie Theaterelemente den Unterricht bereichern
Großer Altersunterschied bei Paaren fällt nicht auf!
Zahlentheorie und Zahlenspiele Hartmut Menzer, Ingo Althöfer ISBN: © 2014 Oldenbourg Wissenschaftsverlag GmbH Abbildungsübersicht / List.
MINDREADER Ein magisch - interaktives Erlebnis mit ENZO PAOLO
Bevölkerungsentwicklung und –struktur der Stadt Bozen
1 (C)2006, Hermann Knoll, HTW Chur, FHO Quadratische Reste Definitionen: Quadratischer Rest Quadratwurzel Anwendungen.
Parkplatz-Orga Diese Version ist vom finale Version!
Die Sternenuhr Wir entdecken die Wissenschaften LTAM Steffen M. 2003/04 Kneip R.
% +0,8% -7,9% -9,5% +1,1% +0,6% +1,5% +0,45% -5,5% -17,7% VRG 15-ORF -17,7% % -10,85% -2,4%
Wie groß ist jeder Winkel der Figur ?
Kamin- und Kachelöfen in Oberösterreich
Zusammengestellt von OE3DSB
Folie Beispiel für eine Einzelauswertung der Gemeindedaten (fiktive Daten)
PERUANISCHER BERGBAU 2006.
QUIPS 2011 Qualitätsverbesserung in der postoperativen Schmerztherapie.
Dokumentation der Umfrage BR P2.t Ergebnisse in Prozent n= 502 telefonische CATI-Interviews, repräsentativ für die Linzer Bevölkerung ab 18 Jahre;
Forschungsprojekt Statistik 2013 „Jugend zählt“ – Folie 1 Statistik 2013 „Jugend zählt“: Daten zur Arbeit mit Kindern und Jugendlichen.
Orientierung im Zahlenraum 100
AGOF facts & figures: Branchenpotenziale im Internet Q2 2014: Parfum & Kosmetik Basis: internet facts / mobile facts 2014-I.
Bürgermeister Absolute Stimmen Gesamt. Bürgermeister Prozentuale Aufteilung Gesamt.
Folie Einzelauswertung der Gemeindedaten
ÖGB BÜRO CHANCEN NUTZEN
Datum:17. Dezember 2014 Thema:IFRS Update zum Jahresende – die Neuerungen im Überblick Referent:Eberhard Grötzner, EMA ® Anlass:12. Arbeitskreis Internationale.
1 10 pt 15 pt 20 pt 25 pt 5 pt 10 pt 15 pt 20 pt 25 pt 5 pt 10 pt 15 pt 20 pt 25 pt 5 pt 10 pt 15 pt 20 pt 25 pt 5 pt 10 pt 15 pt 20 pt 25 pt 5 pt Wie.
1 Medienpädagogischer Forschungsverbund Südwest KIM-Studie 2014 Landesanstalt für Kommunikation Baden-Württemberg (LFK) Landeszentrale für Medien und Kommunikation.
March 10, th Annual Conference of Gfkl, 2005
 Präsentation transkript:

1 Automatische Erweiterung eines semantikbasierten Lexikons durch Bootstrapping auf großen Korpora 1. April 2005 GLDV-05 Frühjahrstagung, Bonn Chris Biemann Universität Leipzig Rainer Osswald FernUniversität Hagen

2 Gliederung Motivation: Lexikonerweiterung für semantisches Parsen Von Kookkurrenzen zu Adjektivprofilen von Nomen Verebungsmechanismus für semantische Eigenschaften Ergebnisse: komplexe semantische Klassen Ergebnisse: Kombination von binären Einzelmerkmalen Diskussion

3 Motivation Semantisches Parsen versucht, eine semantische Repräsentation für geparste Sätze zu finden Notwendig hierzu sind semantische Eigenschaften von Wörtern Diese semantischen Eigenschaften werden manuell in ein Lexikon codiert (zeitaufwändig und teuer) Hypothese: Gegeben ein manuell erstelltes Lexikon mittlerer Größe sollte es möglich sein, Klassifizierer zu trainieren, die neue Einträge findne können.

4 HaGenLex: Semantisches Lexikon semantic class Größe: Lemmas davon: Nomen, 6700 Verben WORTSEMANTISCHE KLASSE Aggressivitätnonment-dyn-abs-situation Agonienonment-stat-abs-situation Agrarproduktnat-discrete Ägypterhuman-object Ahnhuman-object Ahndungnonment-dyn-abs-situation Ähnlichkeitrelation Airbagnonax-mov-art-discrete Airbusmov-nonanimate-con-potag Airportart-con-geogr Ajatollahhuman-object Akademikerhuman-object Akademisierungnonment-dyn-abs-situation Akkordeonnonax-mov-art-discrete Akkreditierungnonment-dyn-abs-situation Akkuax-mov-art-discrete Akquisitionnonment-dyn-abs-situation Akrobathuman-object...

5 Semantische Klassen in HaGenLex Insgesamt 50 semantische Klassen für Nomen werden gebildet aus erlaubten Kombinationen von 16 semantischen Features (binär): HUMAN+, ARTIFICIAL- 17 ontologischen Sorten, z.B. concrete, abstract-situation... Sorte (Hierarchie) semantische Features semantische Klassen

6 Anwendung: WOCADI-Parser Welche Bücher von Peter Jackson über Expertensysteme wurden bei Addison-Wesley seit 1985 veröffentlicht?

7 Annahmen Harris 1968: Distributional Hypothesis Semantische Ähnlichkeit ist eine Funktion über globale Kontexte von Wörtern. Je ähnlicher die Kontexte, desto ähnlicher die Wörter Dies projiziert auf Nomen und Adjektive: Nomen mit denselben semantischen Klassen werden typischerweise von denselben Adjektiven modifiziert Die Nachbarschaftskookkurrenzbeziehung zwischen Adjektiven (links) und Nomen (rechts) approximiert typische Head-Modifier-Strukturen

8 Nachbarschaftskookkurrenzen und -profile Signifikante Kookkurrenzen spiegeln Relationen zwischen Wörtern wieder. Um zu ermitteln, welche Kookkurrenzen (gemeinsame Auftreten) signifikant sind, wird ein Signifikanzmaß benötigt (hier log-likelihood) Im Folgenden werden Adjektive, die signifikant häufig (sprich typischerweise) links von Nomen auftreten, sowie Nomen, die signifikant rechts von Adjektiven auftreten Die Menge on Adjektiven, die signifikant häufig links von Nomen beobachtet werden, heisst Adjektivprofil des Nomens (Analog: Nomenprofil für Adjektive) Für Experimente benutzen wir den Deutschen Korpus Version 2003 des Projekt Deutscher Wortschatz, 500 Millionen Tokens

9 Beispiel Nachbarschaftsprofile... von ganz erlegten Käsebüchern Datenbasis: grundformreduzierte Nachbarschaftskookkurrenzen. Umfang: Substantive, Adjektive WortAdjektiv- bzw. Substantivprofil Buchneu, erschienen, erst, neuest, jüngst, gut, geschrieben, letzt, zweit, vorliegend, gleichnamig, herausgegeben, nächst, dick, veröffentlicht,... Käsegerieben, überbacken, kleinkariert, fett, französisch, fettarm, löchrig, holländisch, handgemacht, grün, würzig, selbstgemacht, produziert, schimmelig, Camembertgebacken, fettarm, reif überbackenSchweinesteak, Aubergine, Blumenkohl, Käse erlegtTier, Wild, Reh, Stück, Beute, Großwild, Wildkatzen, Büffel, Rehbock, Beutetier, Wal, Hirsch, Hase, Grizzly, Wildschwein, Thier, Eber, Bär, Mücke, ganzLeben, Bündel, Stück, Volk, Wesen, Vermögen, Herz, Heer, Arsenal, Dorf, Land, Können, Berufsleben, Paket, Kapitel, Stadtviertel, Rudel, Jahrzehnt,...

10 Vererbungsmechanismus Algorithmus: Initialisieren der Adjektiv- und Substantivprofile; Initialisieren der Startmenge; Solange noch neue Substantive klassifiziert werden { Berechnung der Klassenwahrscheinlichkeiten der Adjektive; Für alle noch unklassifizierten Substantive s { Multipliziere die Klassenwahrscheinlichkeit für jede Klasse; Weise die Klasse mit der höchsten Wahrscheinlichkeit s zu; } Welche Klasse bekommt S4 im nächsten Schritt? Klassenwahrscheinlichkeiten pro Adjektiv: Zähle Klassenanzahlen Normiere auf Anteil der Klasse in bekannten Substantiven Normiere auf 1

11 Beispiel: Topf Klassenanzahlen für Adjektive: angebrannt: {nat-substance=1, art-substance=1, ax-mov-art-discrete=1} Suppeart_substance Zigaretteax-mov-art-discrete Milchnat-substance zerbeult:{nonmov-art-discrete=1, mov-nonanimate-con-potag=2, nonax-mov-art-discrete=1, ax-mov-art-discrete=3} Wagen, Automov-nonanimate-con-potag Fahrzeug, Mountainbike, Posaune ax-mov-art-discrete Mantelnonax-mov-art-discrete Dachnonmov-art-discrete irden:{art-con-geogr=1, nonax-mov-art-discrete=1, ax-mov-art-discrete=9} Schalnonax-mov-art-discrete Hafenart-con-geogr Teller, Flasche, Schüssel, Becher, Geschirr, Vase, Krug, Gefäß, Napfax-mov-art-discrete tönern: {ax-mov-art-discrete=1, prot-discrete=1} Fußprot-discrete Gefäßax-mov-art-discrete übervoll: {nonmov-art-discrete=3, art-con-geogr=1, nonment-dyn-abbs-situation=1, nonax-mov-art-discrete=1} Zimmer, Saal, Lagernonmov-art-discrete Stallart-con-geogr Vorlesungnonment-dyn-abs-situation Tablettnonax-mov-art-discrete Adjektivprofil von Topf = ax-mov-art-discrete: angebrannt(X) heiß(-) ehern(-) fremd(-) divers(-) zerbeult(X) brodelnd(-) staatlich(-) gußeisern(-) tönern(X) gemeinsam(-) groß(-) irden(X) verschieden(-) verschlossen(-) anonym(-) rund(-) flach(-) Bremer(-) geschlossen(-) passend(-) gesondert(-) andere(-) riesig(-) Golden(-) eisern(-) europäisch(-) viel(-) öffentlich(-) mehr(-) golden(-) leer(-) klein(-) getrennt(-) möglich(-) speziell(-) übervoll(X) dampfend(-) gleich(-) gefüllt(-) Klassenwahrscheinlichkeiten (unnormiert): {mov-nonanimate-con-potag=2.8E-25, ax-mov-art-discrete=5.8E-8, art-con-geogr=1.5E-20, nonax-mov-art-discrete=2.1E-15, nat-substance=3.3E-25, nonment-dyn-abs-situation=1.6E-25, prot-discrete=5.0E-25, art-substance=3.3E-25, nonmov-art-discrete=7.1E-20}

12 Parameter Mindestanzahl Adjektive: minAdj Ein Substantiv wird erst dann klassifiziert, wenn mindestens minAdj klassifizierende Adjektive vorhanden sind Vermeidung von statistischem Rauschen und Häufigkeitsschwelle. Maximalanzahl Klassen für Adjektive: maxClass Ein Adjektiv wird nur dann zum Klassifizieren verwendet, wenn es für höchstens maxClass verschiedene Klassen spricht unspezifische Adjektive können Ergebnis nicht verzerren

13 Datenbasis Experimente Davon erfüllen 4726 Substantive minAdj=5, d.h. maximaler Recall=78,2%

14 Ergebnisse globaler Klassifikator Klassifiziert wurde direkt nach semantischer Klasse Verschiedene Messpunkte entsprechen Parameterbelegungen minAdj in {5,10,15,20}, maxClass in {2, 5, 50} Ergebnisse zu schlecht

15 Einzelklassifikatoren Architektur: Binäre Klassifikatoren für Einzelmerkmale, dann zusammenführen. Parameter: minAdj=5, maxClass=2 ANIMAL +/- ANIMATE +/- ARTIF +/- AXIAL +/-... (16 Stück)... (17 Stück) ab +/- abs +/- ad +/- as +/- Auswahl: Kompatible semantische Klassen, die minimal bzgl. Hierarchie sind, sowie eindeutig. Ergebnisklasse oder Verweigern

16 Evaluation semantische Features Für Bias >0,05 gute bis sehr gute Precision Precision gesamt: 93,8% (86,8% für Eigenschaft +) Recall gesamt: 70,7% (69,2% für Eigenschaft +) NameAnzahl+ -Bias method ,0020 instit ,0065 mental ,0180 info ,0198 animal ,0239 geogr ,0313 thconc ,0859 instru ,1634 human ,2190 legper ,2250 animate ,2504 potag ,2766 artif ,3759 axial ,3836 movable ,4024 spatial ,4823

17 Evaluation ontologische Sorten Für Bias >0,10 gute bis sehr gute Precision Precision gesamt: 94,1% (89,5% für Eigenschaft +) Recall gesamt: 73,6% (69,6% für Eigenschaft +) NameAnzahl+ -Bias re ,0012 mo ,0013 o ,0065 oa ,0068 me ,0068 qn ,0068 ta ,0177 s ,0373 as ,0602 na ,0681 at ,0746 io ,1101 ad ,2456 abs ,3060 d ,4431 co ,4823 ab ,4891

18 Eval. komplexe sem. Klassen Aussage für Bias schwierig Precision gesamt: 80,2% Recall gesamt: 34,2%, es wurden 6649 neue Substantive klassifiziert Klasse Anz.PrecRec nonment-dyn-abs-situation ,1934,27 human-object ,8269,54 prot-theor-concept516 53,7118,22 nonoper-attribute411 0,00 ax-mov-art-discrete362 55,6440,88 nonment-stat-abs-situation226 36,846,19 animal-object ,026,57 nonmov-art-discrete133 57,4123,31 ment-stat-abs-situation126 51,2815,87 nonax-mov-art-discrete108 31,4815,74 tem-abstractum107 96,7728,04 mov-nonanimate-con-potag98 70,4531,63 art-con-geogr96 58,7028,12 abs-info94 42,3111,70 art-substance88 60,4729,55 nat-discrete88 100,031,82 nat-substance86 57,149,30 prot-discrete73 100,057,53 nat-con-geogr63 65,0020,63 prot-substance50 100,040,00 mov-art-discrete45 100,037,78 meas-unit41 90,9124,39 oper-attribute39 0,00 Institution39 0,00 ment-dyn-abs-situation36 0,00 plant-object34 100,08,82 mov-nat-discrete27 22,22 con-info25 40,008,00 Rest157 39,2419,75

19 Einige Fehler Pflanze animal-object anstatt plant-object zart, fleischfressend, fressend, verändert, genmanipuliert, transgen, exotisch, selten, giftig, stinkend, wachsend... Nachwuchs human-object anstatt animal-object wissenschaftlich, qualifiziert, akademisch, eigen, talentiert, weiblich, hoffnungsvoll, geeignet, begabt, journalistisch... Café art-con-geogr anstatt nonmov-art-discrete (vgl. Restaurant) Wiener, klein, türkisch, kurdisch, romanisch, cyber, philosophisch, besucht, traditionsreich, schnieke, gutbesucht,... Neger animal-object anstatt human-object weiß, dreckig, gefangen, faul, alt, schwarz, nackt, lieb, gut, brav aber: Skinhead human-object (richtig) {16,17,18,19,20,21,22,23,30}ährig, gleichaltrig, zusammengeprügelt, rechtsradikal, brutal Wegen zu weniger Adjektive zurückgewiesen: Leberkäse human-object bayerisch, warm

20 Ausblicke Schwierigste semantische Klasse: nonoper-attribute z.B. Anfälligkeit, Angemessenheit, Ängstlichkeit, Beiläufigkeit, da typische Adjektive zu unspezifisch: erhöht, besonders, gering, hoch, extrem, größer, notorisch, gewisse, übertrieben, völlig, stärker, übergroß, scheinbar, bedingt...., jedoch enden die meisten auf {k|h}eit.... Andere syntaktische Beziehungen ausnutzen Polyseme Wörter behandeln: - Disambiguierung: Mehrere Adjektivprofile pro Substantiv - Vereinigung von Substantivnachbarn eigenschaftsspezifischer Adjektive können Hinweise auf mehrere Klassen liefern

21 Fragen? Danke für die Aufmerksamkeit!