Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

1 Lernen paradigmatischer Relationen auf iterierten Kollokationen Biemann, C. Bordag, S., Quasthoff, U. Universität Leipzig GermaNet Workshop 2004 Tübingen.

Ähnliche Präsentationen


Präsentation zum Thema: "1 Lernen paradigmatischer Relationen auf iterierten Kollokationen Biemann, C. Bordag, S., Quasthoff, U. Universität Leipzig GermaNet Workshop 2004 Tübingen."—  Präsentation transkript:

1 1 Lernen paradigmatischer Relationen auf iterierten Kollokationen Biemann, C. Bordag, S., Quasthoff, U. Universität Leipzig GermaNet Workshop 2004 Tübingen

2 2 Wortmengen Ziel ist das automatische Erweitern von homogenen Wortmengen, z.B. GermaNet-Synsets oder Teilbäume der Hyponymhierarchie Wir sammeln Verfahren und wenden diese evtl. in Kombination an Vorstellung: Der Rechner als Assoziator Eingabe: wenige Beispiele - Erkennen der Relation - Ausgabe weiterer Instanzen Dies kann auch semi-supervized geschehen Dazu nötig: - großer Korpus - Features - Lernverfahren

3 3 Kollokationen Linguistische Kollokationen Idiome im Sprachgebrauch, wie z.B. den Löffel abgeben, ins Gras beißen, das A und O Statistische Kollokationen Wörter, die signifikant öfter miteinander auftreten als bei unabhängigem Auftreten zu erwarten Hund – Katze, Herrchen, Leine Schwanz, gebissen,... Blume – blaue, Knopfloch, Justizsprecherin, blüht, Rose, Duft,... In diesem Vortrag geht es um statistische Kollokationen.

4 4 Kollokationen im www. Wortschatz. uni-leipzig.de Berechnung für 500 Millionen Tokens Kollokationen auf Satzebene und Nachbarschaftsebene Common-birthday-Maß Ordnung nach Signifikanz Visualisierung über Simulated Annealing Signifikante Satzkollokationen für Hund: Katze (1367), Balto (518), Herrchen (514), Leine (393), Schwanz (378), gebissen (365), bellt (354), Tier (348), beißt (302), du (293), Halter (273), harter (260), seinem (259), Mann (242), Gassi (242), tgl (224), Hunde (214), bellte (204), Katz (204), Frauchen (198), Herzen (189), Tierheim (180), Frau (175), Mensch (169), bellen (168), Helden (163), Prokyon (155), spazieren (150), mich (146),...

5 5 Phänomene im Kollokationsgraphen Cluster Mehrdeutigkeit

6 6 Iterieren von Kollokationen ( Satz)kollokationen erster Stufe: Wörter, die sig. häufig miteinander im Satz auftreten Kollokationen zweiter Stufe: Wörter, die sig. häufig miteinander in Kollokationsmengen erster Stufe auftreten Kollokationen n-ter Stufe: Wörter, die sig. häufig miteinander in Kollokationsmengen (n-1)ter Stufe auftreten Bei der Berechnung der nächsten Stufe sind die Signifikanzen der vorherigen Stufe irrelevant Schwellwert oder Abschneiden

7 7 Idealisiertes Beispiel für Kollokationen höherer Stufe Ord 1HundSpanielKatzeMausbellenbeißenkläffen Hund---xxx Spaniel---xxx Katze--x-x- Maus--x-x- bellenxx---- beißenxxxx-- kläffenxx---- Ord 2HundSpanielKatzeMausbellenbeißenkläffen Hund Spaniel Katze Maus bellen beißen kläffen----22

8 8 Idealisiertes Beispiel für Kollokationen höherer Stufe II Ord 3HundSpanielKatzeMausbellenbeißenkläffen Hund Spaniel----- Katze Maus bellen beißen kläffen Ord 2HundSpanielKatzeMausbellenbeißenkläffen Hundx----- Spanielx----- Katze Maus bellen----xx beißen----xx kläffen----xx

9 9 Eigenschaften von iterierten Kollokationen Intuitives Verständnis: NB-Kollokationen 1. Stufe ~ syntagmatische Relationen Satzkollokationen 1. Stufe ~ syntagmatische,paradigmatische Relationen Kollokationen 2. Stufe ~ paradigmatische Relationen Kollokationen höherer Stufe ~ ? Iteration bewahrt Cluster ab Größe 3. Manche Wortmengen erweisen sich gegenüber Iteration stabil i.a. gibt es weniger Kollokationen n-ter Stufe als (n-1)-ter Stufe. Berechnungen bis Stufe 10 liegen vor Beispiel für TOP 20 NB-Kollokationen 10. Stufe für erklärte: sagte, schwärmte, lobt, schimpfte, meinte, jubelte, lobte, resümierte, schwärmt, Reinhard Heß, ärgerte, kommentierte, urteilte, analysierte, bilanzierte, freute, freute sich, Bundestrainer, freut,gefreut

10 10 Filtern von Kollokationsmengen Bei der Suche von Synonymen, Hyponymen oder Kohyponymen interessieren i.d.R. nur Wörter derselben Wortart Kollokationen zu Wörtern können nach Wortart gefiltert werden. Einfacher Filter für Wortarten: - POS-Tagging des Korpus - Ermitteln möglicher Tags zu Wortform - Kollokate nach gleichen Tags filtern Vorsicht: Berechnung muss auf allen Kollokaten erfolgen

11 11 Schnitt von Kollokationsmengen Herz- Bube Stich Becker Achtelfinale - Aufschlag - Boris Becker - Daviscup - Doppel - DTB - Edberg - Finale - Graf - Haas - Halbfinale - Match - Pilic - Runde - Sampras - Satz - Tennis - Turnier - Viertelfinale - Weltrangliste - Wimbledon Alleinspieler - Herz - Herz-Dame - Herz-König - Hinterhand - Karo - Karo-As - Karo-Bube - Kreuz-As - Kreuz-Bube - Pik-As - Pik-Bube - Pik-König - Vorhand - Becker - Courier - Einzel - Elmshorn - French Open - Herz-As - ins - Kafelnikow - Karbacher - Krajicek - Kreuz-As - Kreuz-Bube - Michael Stich - Mittelhand - Pik-As - Pik-Bube - Pik-König bedient - folgenden - gereizt - Karo-Buben - Karo-Dame - Karo-König - Karte - Karten - Kreuz-Ass - Kreuz-Dame - Kreuz-Hand - Kreuz-König - legt - Mittelhand - Null ouvert - Pik - Pik-Ass - Pik- Dame - schmiert - Skat - spielt - Spielverlauf - sticht - übernimmt - zieht - Agassi - Australian Open - Bindewald - Boris - Break - Chang - Dickhaut - - gewann - Ivanisevic - Kafelnikow - Kiefer - Komljenovic - Leimen - Matchball - Michael Stich - Monte Carlo - Prinosil - Sieg - Spiel - spielen - Steeb - Teamchef - Tiria Stich

12 12 Beispiel: NBKollokationen Stufe2 warm, kühl, kalt Schnitt der nach ADJ gefilterten Kollokationen für warm, kühl, kalt ergibt: abgekühlt, aufgeheizt, eingefroren, erhitzt, erwärmt, gebrannt, gelagert, heiß, heruntergekühlt, verbrannt, wärmer Emotionale Lesart abgeklärt für kühl, kalt wird eliminiert

13 13 Auffinden von Xonymen Synonyme, Antonyme, (Ko)-Hyponyme... Idee: Schnitt der Kollokationsmengen zweier Xonyme enthält Xonyme Lexikalische Ambiguität eines Eingabewortes verunreinigt nicht die Ergebnismenge Vorgehen: - Ermittle Wortart für Eingabewörter - Ermittle Kollokationen für Eingabewörter - Filtere diese nach Wortarten der Eingabewörter - Schneide die Kollokationen - Ausgabe des Ergebnisses Ranking über Signifikanzstärken der Kollokate Evaluation für Nachbarschaftskollokationen zweiter und dritter Stufe

14 14 Beispiele für Schnitt+Filter Ackerbau [Gerste, Hanf] [NN] [Sonnenblumen, Getreide, Raps, Weizen, Böden, Gemüse, Früchte, Obst, Kaffee, Nahrungsmittel, Tabak, Pflanzen, Kartoffeln, Trauben, Wein, Bananen, Hirse, Kakao, Opium, Soja, Tomaten, Baumwolle, Heu, Reis, Cannabis, Futter,... Berufe [Maler, Handwerker] [NN] [Künstler, Architekt, Architekten, Schauspieler, Journalist, Wissenschaftler, Musiker, Arzt, Politiker, Jurist, Ingenieur, Physiker, Kaufmann, Trainer, Lehrer, Mann, Sänger, Unternehmer, Manager, Journalisten, Studenten, Kollegen, Frauen] Kleidungsstücke und Sachen, die wehen oder fliegen und so [Socken, Unterhosen] [NN] [Fahne, Schuhe, Flecken, Hose, Jacke, Fahnen, Rosen, Uniform, Bluse, Blumen, Mantel, Pullover, Hemd, Farbe, Haut, Weste, Kleidung, Hosen, Handschuhe, Ritter, Schal, Anzug, Jeans, Mütze, Riese, Wolke, Blätter, Sonne, Tücher, Vogel, Wolken, Strich, T-Shirts, Kasten, Engel, Kleider, Trikot, Zettel, Hai, Krawatte, Flaggen, Perücke, T-Shirt, Hut, Farben, Pracht, Schilder, Linien, Schwan]

15 15 Mini-Evaluation Durchführung für verschiedene Datenquellen, NB-Kollokationen zweiter und dritter Stufe Anteile in TOP 5 höher als in TOP 10 Rankingmethode ist geeignet Schnitt zwischen Kollokaten zweiter und dritter Stufe fast immer leer mehrere Stufen machen Sinn Quantität zufriedenstellend, durch größere Korpora erhöhbar Qualität zum vollautomatischen Erweitern noch nicht ausreichend

16 16 Unterscheidung von Kohyponymen und Hyperonymen Ausgangspunkt: Wort A und Kollokate B 1, B 2,...,B n Satzkollokationen 1. Stufe Zwei Kennwerte: - Kollokationsstärke zwischen A und B - Ähnlichkeit der Kollokationsmengen von A und B Beobachtung: - Kohyponyme haben hohe Kollokationsstärke, da sie (z.B. in Aufzählungen) häufig in einem Satz auftreten, sowie ähnliche Kollokationsmengen (Kontexte) - Hyperonyme haben geringe Kollokationsstärke, und ähnliche Kontexte - linguistische Kollokationen besitzen hohe Kollokationsstärke, unähnliche Kontexte Qualität: Funktioniert für einige Wörter gut, für einige nicht.

17 17 Beispiel: Elefant

18 18 Gegeben: mittelgroße Wortmenge ( Wörter) einer Sachgruppe Gesucht: weitere Wörter aus dieser Sachgruppe Quelle z.B. Dornseiff (Neuauflage 2003) über 1000 Sachgruppen, weiter in Untergruppen geteilt, nach Wortart sortiert Annahme: - Kollokationen von bekannten Wörter einer Sachgruppe enthalten unbekannte Wörter bilden Kandidaten - Kandidaten sind dann gut, falls deren Kollokationen schon bekannte Wörter enthalten Pendeln auf Kollokationen

19 19 Pendeln: Suche und Verifikation Algorithmus: Wortmenge W Solange neue Wörter w gefunden werden Kandidaten K = Kollokate von w anderer Wortart für alle K aus k falls Kollokate von k genug Wörter aus W anderer Wortart beinhalten: füge k zu W hinzu Hieb- und Stichwaffe (DORNSEIFF 2003) Waffe Stichwaffe · Bajonett · Damaszener · Degen · Dolch · Florett · Lanze · Säbel · Schwert · Sense · Speer · Spieß Messer · Fahrtenmesser · Jagdmesser · Klinge · Stilett Hiebwaffe · Baseballschläger · Faustkeil · Keule · Knüppel · Morgenstern · Prügel · Schlagring · Schlagstock · Stock · Totschläger Bumerang · Hellebarde · Streitaxt · Tomahawk Armatur · Bewaffnung · Rüstung · Wehr Arsenal · Rüstkammer · Waffenkammer · Waffenlager · Zeughaus bewaffnen · rüsten · wappnen einprügeln · einschlagen · einstechen · erschlagen · erstechen · prügeln · schlagen · stechen · verprügeln · zuschlagen · zustechen Neues zu Abrißbirne · Axt · Drahtesel · Eisenstange · Fäuste · Golfschläger · Hüften · Lüfte · Peitsche · Pendel · Racket · Sattel · Schläger · Skins · Takt · Tanzbein · Unterleib · Zepter · einschlug · ersticht · fechten · ficht · kreuzen · rammt · schwang · schwangen · schwingen · schwingt · traktiert · zückt · zückte

20 20 Zusammenfassung Diverse Verfahren, um homogene Wortmengen zu finden, können schnell Kandidaten zur Erweiterung von GermaNet generieren Entscheidung über die Aufnahme muss manuell geschehen Automatisches Einordnen wegen verschiedener Granularität innerhalb GermaNets schwierig Manche Synsets nicht geeignet, da Wörter zu niederfrequent Unterscheidung zwischen den Xonymen teilweise statistisch möglich. Für feinere Unterscheidung sind evtl. patternbasierte Verfahren nötig


Herunterladen ppt "1 Lernen paradigmatischer Relationen auf iterierten Kollokationen Biemann, C. Bordag, S., Quasthoff, U. Universität Leipzig GermaNet Workshop 2004 Tübingen."

Ähnliche Präsentationen


Google-Anzeigen