Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

Lernen paradigmatischer Relationen auf iterierten Kollokationen

Ähnliche Präsentationen


Präsentation zum Thema: "Lernen paradigmatischer Relationen auf iterierten Kollokationen"—  Präsentation transkript:

1 Lernen paradigmatischer Relationen auf iterierten Kollokationen
Biemann, C. Bordag, S., Quasthoff, U. Universität Leipzig GermaNet Workshop 2004 Tübingen

2 Wortmengen Ziel ist das automatische Erweitern von homogenen Wortmengen, z.B. GermaNet-Synsets oder Teilbäume der Hyponymhierarchie Wir sammeln Verfahren und wenden diese evtl. in Kombination an Vorstellung: Der Rechner als „Assoziator“ Eingabe: wenige Beispiele - Erkennen der Relation - Ausgabe weiterer Instanzen Dies kann auch semi-supervized geschehen Dazu nötig: - großer Korpus - Features - Lernverfahren

3 Kollokationen Linguistische Kollokationen Idiome im Sprachgebrauch, wie z.B. den Löffel abgeben, ins Gras beißen, das A und O Statistische Kollokationen Wörter, die signifikant öfter miteinander auftreten als bei unabhängigem Auftreten zu erwarten Hund – Katze, Herrchen, Leine Schwanz, gebissen,... Blume – blaue, Knopfloch, Justizsprecherin, blüht, Rose, Duft, ... In diesem Vortrag geht es um statistische Kollokationen.

4 Kollokationen im www.Wortschatz.uni-leipzig.de
Berechnung für 500 Millionen Tokens Kollokationen auf Satzebene und Nachbarschaftsebene Common-birthday-Maß Ordnung nach Signifikanz Visualisierung über Simulated Annealing Signifikante Satzkollokationen für Hund: Katze (1367), Balto (518), Herrchen (514), Leine (393), Schwanz (378), gebissen (365), bellt (354), Tier (348), beißt (302), du (293), Halter (273), harter (260), seinem (259), Mann (242), Gassi (242), tgl (224), Hunde (214), bellte (204), Katz (204), Frauchen (198), Herzen (189), Tierheim (180), Frau (175), Mensch (169), bellen (168), Helden (163), Prokyon (155), spazieren (150), mich (146), ...

5 Phänomene im Kollokationsgraphen
Cluster Mehrdeutigkeit

6 Iterieren von Kollokationen
(Satz)kollokationen erster Stufe: Wörter, die sig. häufig miteinander im Satz auftreten Kollokationen zweiter Stufe: Wörter, die sig. häufig miteinander in Kollokationsmengen erster Stufe auftreten Kollokationen n-ter Stufe: Wörter, die sig. häufig miteinander in Kollokationsmengen (n-1)ter Stufe auftreten Bei der Berechnung der nächsten Stufe sind die Signifikanzen der vorherigen Stufe irrelevant  Schwellwert oder Abschneiden

7 Idealisiertes Beispiel für Kollokationen höherer Stufe
Ord 1 Hund Spaniel Katze Maus bellen beißen kläffen - x Ord 2 Hund Spaniel Katze Maus bellen beißen kläffen 3 1 - 2

8 Idealisiertes Beispiel für Kollokationen höherer Stufe II
Ord 2 Hund Spaniel Katze Maus bellen beißen kläffen x - Ord 3 Hund Spaniel Katze Maus bellen beißen kläffen - 1

9 Eigenschaften von iterierten Kollokationen
Intuitives Verständnis: NB-Kollokationen 1. Stufe ~ syntagmatische Relationen Satzkollokationen 1. Stufe ~ syntagmatische,paradigmatische Relationen Kollokationen 2. Stufe ~ paradigmatische Relationen Kollokationen höherer Stufe ~ ? Iteration bewahrt Cluster ab Größe 3. Manche Wortmengen erweisen sich gegenüber Iteration stabil i.a. gibt es weniger Kollokationen n-ter Stufe als (n-1)-ter Stufe. Berechnungen bis Stufe 10 liegen vor Beispiel für TOP 20 NB-Kollokationen 10. Stufe für „erklärte“: sagte, schwärmte, lobt, schimpfte, meinte, jubelte, lobte, resümierte, schwärmt, Reinhard Heß, ärgerte, kommentierte, urteilte, analysierte, bilanzierte, freute, freute sich, Bundestrainer, freut ,gefreut

10 Filtern von Kollokationsmengen
Bei der Suche von Synonymen, Hyponymen oder Kohyponymen interessieren i.d.R. nur Wörter derselben Wortart Kollokationen zu Wörtern können nach Wortart gefiltert werden. Einfacher Filter für Wortarten: - POS-Tagging des Korpus - Ermitteln möglicher Tags zu Wortform - Kollokate nach gleichen Tags filtern Vorsicht: Berechnung muss auf allen Kollokaten erfolgen

11 Schnitt von Kollokationsmengen
Herz-Bube Becker bedient - folgenden - gereizt - Karo-Buben - Karo-Dame - Karo-König - Karte - Karten - Kreuz-Ass - Kreuz-Dame - Kreuz-Hand - Kreuz-König - legt - Mittelhand - Null ouvert - Pik - Pik-Ass - Pik-Dame - schmiert - Skat - spielt - Spielverlauf - sticht - übernimmt - zieht - Agassi - Australian Open - Bindewald - Boris - Break - Chang - Dickhaut - - gewann - Ivanisevic - Kafelnikow - Kiefer - Komljenovic - Leimen - Matchball - Michael Stich - Monte Carlo - Prinosil - Sieg - Spiel - spielen - Steeb - Teamchef - Tiria Stich Achtelfinale - Aufschlag - Boris Becker - Daviscup - Doppel - DTB - Edberg - Finale - Graf - Haas - Halbfinale - Match - Pilic - Runde - Sampras - Satz - Tennis - Turnier - Viertelfinale - Weltrangliste - Wimbledon Alleinspieler - Herz - Herz-Dame - Herz-König - Hinterhand - Karo - Karo-As - Karo-Bube - Kreuz-As - Kreuz-Bube - Pik-As - Pik-Bube - Pik-König - Vorhand - Becker - Courier - Einzel - Elmshorn - French Open - Herz-As - ins - Kafelnikow - Karbacher - Krajicek - Kreuz-As - Kreuz-Bube - Michael Stich - Mittelhand - Pik-As - Pik-Bube - Pik-König Stich

12 Beispiel: NBKollokationen Stufe2 warm, kühl, kalt
Schnitt der nach ADJ gefilterten Kollokationen für warm, kühl, kalt ergibt: abgekühlt, aufgeheizt, eingefroren, erhitzt, erwärmt, gebrannt, gelagert, heiß, heruntergekühlt, verbrannt, wärmer Emotionale Lesart „abgeklärt“ für kühl, kalt wird eliminiert

13 Auffinden von Xonymen Synonyme, Antonyme, (Ko)-Hyponyme...
Idee: Schnitt der Kollokationsmengen zweier Xonyme enthält Xonyme Lexikalische Ambiguität eines Eingabewortes verunreinigt nicht die Ergebnismenge Vorgehen: - Ermittle Wortart für Eingabewörter - Ermittle Kollokationen für Eingabewörter - Filtere diese nach Wortarten der Eingabewörter - Schneide die Kollokationen - Ausgabe des Ergebnisses Ranking über Signifikanzstärken der Kollokate Evaluation für Nachbarschaftskollokationen zweiter und dritter Stufe

14 Beispiele für Schnitt+Filter
Ackerbau [Gerste, Hanf] [NN] [Sonnenblumen, Getreide, Raps, Weizen, Böden, Gemüse, Früchte, Obst, Kaffee, Nahrungsmittel, Tabak, Pflanzen, Kartoffeln, Trauben, Wein, Bananen, Hirse, Kakao, Opium, Soja, Tomaten, Baumwolle, Heu, Reis, Cannabis, Futter, ... Berufe [Maler, Handwerker] [NN] [Künstler, Architekt, Architekten, Schauspieler, Journalist, Wissenschaftler, Musiker, Arzt, Politiker, Jurist, Ingenieur, Physiker, Kaufmann, Trainer, Lehrer, Mann, Sänger, Unternehmer, Manager, Journalisten, Studenten, Kollegen, Frauen] Kleidungsstücke und Sachen, die wehen oder fliegen und so [Socken, Unterhosen] [NN] [Fahne, Schuhe, Flecken, Hose, Jacke, Fahnen, Rosen, Uniform, Bluse, Blumen, Mantel, Pullover, Hemd, Farbe, Haut, Weste, Kleidung, Hosen, Handschuhe, Ritter, Schal, Anzug, Jeans, Mütze, Riese, Wolke, Blätter, Sonne, Tücher, Vogel, Wolken, Strich, T-Shirts, Kasten, Engel, Kleider, Trikot, Zettel, Hai, Krawatte, Flaggen, Perücke, T-Shirt, Hut, Farben, Pracht, Schilder, Linien, Schwan]

15 Mini-Evaluation Durchführung für verschiedene Datenquellen, NB-Kollokationen zweiter und dritter Stufe Anteile in TOP 5 höher als in TOP 10  Rankingmethode ist geeignet Schnitt zwischen Kollokaten zweiter und dritter Stufe fast immer leer  mehrere Stufen machen Sinn Quantität zufriedenstellend, durch größere Korpora erhöhbar Qualität zum vollautomatischen Erweitern noch nicht ausreichend

16 Unterscheidung von Kohyponymen und Hyperonymen
Ausgangspunkt: Wort A und Kollokate B1, B2,...,Bn Satzkollokationen 1. Stufe Zwei Kennwerte: - Kollokationsstärke zwischen A und B - Ähnlichkeit der Kollokationsmengen von A und B Beobachtung: - Kohyponyme haben hohe Kollokationsstärke, da sie (z.B. in Aufzählungen) häufig in einem Satz auftreten, sowie ähnliche Kollokationsmengen (Kontexte) - Hyperonyme haben geringe Kollokationsstärke, und ähnliche Kontexte - linguistische Kollokationen besitzen hohe Kollokationsstärke, unähnliche Kontexte Qualität: Funktioniert für einige Wörter gut, für einige nicht.

17 Beispiel: Elefant

18 Pendeln auf Kollokationen
Gegeben: mittelgroße Wortmenge ( Wörter) einer Sachgruppe Gesucht: weitere Wörter aus dieser Sachgruppe Quelle z.B. Dornseiff (Neuauflage 2003) über 1000 Sachgruppen, weiter in Untergruppen geteilt, nach Wortart sortiert Annahme: - Kollokationen von bekannten Wörter einer Sachgruppe enthalten unbekannte Wörter bilden Kandidaten - Kandidaten sind dann gut, falls deren Kollokationen schon bekannte Wörter enthalten

19 Pendeln: Suche und Verifikation
Algorithmus: Wortmenge W Solange neue Wörter w gefunden werden Kandidaten K = Kollokate von w anderer Wortart für alle K aus k falls Kollokate von k genug Wörter aus W anderer Wortart beinhalten: füge k zu W hinzu 19.23 Hieb- und Stichwaffe (DORNSEIFF 2003) Waffe • Stichwaffe · Bajonett · Damaszener · Degen · Dolch · Florett · Lanze · Säbel · Schwert · Sense · Speer · Spieß • Messer · Fahrtenmesser · Jagdmesser · Klinge · Stilett • Hiebwaffe · Baseballschläger · Faustkeil · Keule · Knüppel · Morgenstern · Prügel · Schlagring · Schlagstock · Stock · Totschläger • Bumerang · Hellebarde · Streitaxt · Tomahawk • Armatur · Bewaffnung · Rüstung · Wehr • Arsenal · Rüstkammer · Waffenkammer · Waffenlager · Zeughaus • bewaffnen · rüsten · wappnen • einprügeln · einschlagen · einstechen · erschlagen · erstechen · prügeln · schlagen · stechen · verprügeln · zuschlagen · zustechen Neues zu 19.23 Abrißbirne · Axt · Drahtesel · Eisenstange · Fäuste · Golfschläger · Hüften · Lüfte · Peitsche · Pendel · Racket · Sattel · Schläger · Skins · Takt · Tanzbein · Unterleib · Zepter · einschlug · ersticht · fechten · ficht · kreuzen · rammt · schwang · schwangen · schwingen · schwingt · traktiert · zückt · zückte

20 Zusammenfassung Diverse Verfahren, um homogene Wortmengen zu finden, können schnell Kandidaten zur Erweiterung von GermaNet generieren Entscheidung über die Aufnahme muss manuell geschehen Automatisches Einordnen wegen verschiedener Granularität innerhalb GermaNets schwierig Manche Synsets nicht geeignet, da Wörter zu niederfrequent Unterscheidung zwischen den Xonymen teilweise statistisch möglich. Für feinere Unterscheidung sind evtl. patternbasierte Verfahren nötig


Herunterladen ppt "Lernen paradigmatischer Relationen auf iterierten Kollokationen"

Ähnliche Präsentationen


Google-Anzeigen