Lernen paradigmatischer Relationen auf iterierten Kollokationen

Slides:



Advertisements
Ähnliche Präsentationen
Was tragen die Leute in den Fotos?
Advertisements

D I e K l i u n g.
KLEIDUNG Hier klicken.
Kapitel 7: Kleidungsstücke
Kleider, Kleider, Kleider.
WS 05/06Automatische Akquisition linguistischen Wissens1 Partielles Wissen erweitern 1.Zusammenhang mit bisherigen Algorithmen 2.Vom offensichtlichen zum.
der Stinger Was Trägt man?
Kleider - Klamotten.
Der Stinger 19. September Use the following modal verbs in a sentence with “ich” mögen, sollen, wollen, möchten, müssen, dürfen, können Modals are on page.
Der Deutschunterricht Übungen zur Wiederholung
„Die Jahreszeiten“ Урок немецкого языка в 5 классе Н.И.Широкая
Gut schlecht.
Erwartungswerte Erwartungswerte berechnen (bis 7 Trumpf anwendbar)
Mgr. Katarína Ružičková
Die Kleidung.
Die Kleider.
Was tragen wir? Was ziehen wir uns an?.
der / die / das Kleid das Kleid das Kleid dress.
Supermann Deutsch 1 Kapitel 5.
Sommer.
Adjektive.
Erwartungswerte Erwartungswerte berechnen (bis 7 Trumpf anwendbar)
Die Kleidung The clothes La ropa
Die Kleidung Kontakte Einführung A.
Assesolo Asse anzeigen und Erwartungswerte Quellen: Essener System: Seite 54ff.
„HERBSTFEST… BLÄTTERFALL“
4.Klasse 1.Stunde Allgemeine Wiederholung.
Abteilung für automatische Sprachverarbeitung
Adjektive nach der-Wӧrtern: mündliche Übung
Erwartungswerte Verliererrechnung (ab 8 Trumpf anwendbar) Quellen:
Mode - Kleidung Was ziehen die Leute an.
Assesolo Asse anzeigen und Erwartungswerte Quellen: Essener System: Seite 54ff.

Mgr. Katarína Ružičková
Was ist das? Bratwurst Fondue Sachertorte Ich komme!
Die Kleidung Clothes der Kleiderschrank der Koffer.
Wir werden die Kleider Vokabel von K1 Zweite Stufe (Seite 17) lernen.
grün Das Kleid Das grüne Kleid Mir gefällt das grüne Kleid.
geben sehen trinken gratulieren anziehen waschen helfen schenken lesen bekommen erzählen erklären telefonieren einen Rat geben anrufen gefallen.
Herzlich Willkommen beim Deutschunterricht
Die Kleider und Klamotten
Was haben die Personen an?
Modenschau.
Kapitel 7: Kleidungsstücke
Modenschau.
Rätsel über Tiere Wollen wir raten!.
Kleider. Der Pulli Die Pullis Der Badeanzug Die Badeanzüge Der Bikini Die Bikinis Der Mantel Die Mäntel.
Kleider - Klamotten.
Die Kleidung.
Wir haben 100 Schüler gefragt…. Was ist dein Lieblingsfach? 1.Kunst 2.Sport 3.Musik 4.Englisch.
Übungsart: Seite: Bearbeitet von: Siegbert Rudolph Lesemotivationstraining Titel: Quelle: Nächste Folie 1 Bedienungshinweise: Makros müssen freigeschaltet.
Kleidung und Farben Zu Team Deutsch A1.1 Lektion 4.
Was trägst du? H.M.Boddy.
Wir lernen Kleider Wie schreibt man das? 1. der Pulli.
Die Kleidungsstücke. die Bluse -n der Gürtel - die Shorts -
Bucharaer Institut fu’r Fort- und Weiterbildung Lehrer/ Pa’dagogen Abder teilung fu’r Fremdsprachen Das Konzept des Lehrers fu’r das Bezirk.allgemeinbildende.
Welche Farbe haben die Kleider? Kleider machen Leute und Farben machen Kleider Material realizat de Daniela Mihaela Nistor Engleza-Germana, Anul al III-lea.
Die Kleidung Was trägst du?.
Kinderkleidung.
MODENSCHAU.
MODE, KLEIDUNG EINKÄUFE
Die Kleider DIE KLEIDUNG.
C a b e f d Die Kleidung.
In der Stadt … Wer wohnt hier ?
Die Kleidung.
Die Kleider.
Wertigkeit innerhalb einer Farbe
Die Kleidung (Clothing) Was sind diese Kleidungsstücke?
Lernen paradigmatischer Relationen auf iterierten Kollokationen
 Präsentation transkript:

Lernen paradigmatischer Relationen auf iterierten Kollokationen Biemann, C. Bordag, S., Quasthoff, U. Universität Leipzig GermaNet Workshop 2004 Tübingen 10.10.2003

Wortmengen Ziel ist das automatische Erweitern von homogenen Wortmengen, z.B. GermaNet-Synsets oder Teilbäume der Hyponymhierarchie Wir sammeln Verfahren und wenden diese evtl. in Kombination an Vorstellung: Der Rechner als „Assoziator“ Eingabe: wenige Beispiele - Erkennen der Relation - Ausgabe weiterer Instanzen Dies kann auch semi-supervized geschehen Dazu nötig: - großer Korpus - Features - Lernverfahren

Kollokationen Linguistische Kollokationen Idiome im Sprachgebrauch, wie z.B. den Löffel abgeben, ins Gras beißen, das A und O Statistische Kollokationen Wörter, die signifikant öfter miteinander auftreten als bei unabhängigem Auftreten zu erwarten Hund – Katze, Herrchen, Leine Schwanz, gebissen,... Blume – blaue, Knopfloch, Justizsprecherin, blüht, Rose, Duft, ... In diesem Vortrag geht es um statistische Kollokationen.

Kollokationen im www.Wortschatz.uni-leipzig.de Berechnung für 500 Millionen Tokens Kollokationen auf Satzebene und Nachbarschaftsebene Common-birthday-Maß Ordnung nach Signifikanz Visualisierung über Simulated Annealing Signifikante Satzkollokationen für Hund: Katze (1367), Balto (518), Herrchen (514), Leine (393), Schwanz (378), gebissen (365), bellt (354), Tier (348), beißt (302), du (293), Halter (273), harter (260), seinem (259), Mann (242), Gassi (242), tgl (224), Hunde (214), bellte (204), Katz (204), Frauchen (198), Herzen (189), Tierheim (180), Frau (175), Mensch (169), bellen (168), Helden (163), Prokyon (155), spazieren (150), mich (146), ...

Phänomene im Kollokationsgraphen Cluster Mehrdeutigkeit

Iterieren von Kollokationen (Satz)kollokationen erster Stufe: Wörter, die sig. häufig miteinander im Satz auftreten Kollokationen zweiter Stufe: Wörter, die sig. häufig miteinander in Kollokationsmengen erster Stufe auftreten Kollokationen n-ter Stufe: Wörter, die sig. häufig miteinander in Kollokationsmengen (n-1)ter Stufe auftreten Bei der Berechnung der nächsten Stufe sind die Signifikanzen der vorherigen Stufe irrelevant  Schwellwert oder Abschneiden

Idealisiertes Beispiel für Kollokationen höherer Stufe Ord 1 Hund Spaniel Katze Maus bellen beißen kläffen - x Ord 2 Hund Spaniel Katze Maus bellen beißen kläffen 3 1 - 2

Idealisiertes Beispiel für Kollokationen höherer Stufe II Ord 2 Hund Spaniel Katze Maus bellen beißen kläffen x - Ord 3 Hund Spaniel Katze Maus bellen beißen kläffen - 1

Eigenschaften von iterierten Kollokationen Intuitives Verständnis: NB-Kollokationen 1. Stufe ~ syntagmatische Relationen Satzkollokationen 1. Stufe ~ syntagmatische,paradigmatische Relationen Kollokationen 2. Stufe ~ paradigmatische Relationen Kollokationen höherer Stufe ~ ? Iteration bewahrt Cluster ab Größe 3. Manche Wortmengen erweisen sich gegenüber Iteration stabil i.a. gibt es weniger Kollokationen n-ter Stufe als (n-1)-ter Stufe. Berechnungen bis Stufe 10 liegen vor Beispiel für TOP 20 NB-Kollokationen 10. Stufe für „erklärte“: sagte, schwärmte, lobt, schimpfte, meinte, jubelte, lobte, resümierte, schwärmt, Reinhard Heß, ärgerte, kommentierte, urteilte, analysierte, bilanzierte, freute, freute sich, Bundestrainer, freut ,gefreut

Filtern von Kollokationsmengen Bei der Suche von Synonymen, Hyponymen oder Kohyponymen interessieren i.d.R. nur Wörter derselben Wortart Kollokationen zu Wörtern können nach Wortart gefiltert werden. Einfacher Filter für Wortarten: - POS-Tagging des Korpus - Ermitteln möglicher Tags zu Wortform - Kollokate nach gleichen Tags filtern Vorsicht: Berechnung muss auf allen Kollokaten erfolgen

Schnitt von Kollokationsmengen Herz-Bube Becker bedient - folgenden - gereizt - Karo-Buben - Karo-Dame - Karo-König - Karte - Karten - Kreuz-Ass - Kreuz-Dame - Kreuz-Hand - Kreuz-König - legt - Mittelhand - Null ouvert - Pik - Pik-Ass - Pik-Dame - schmiert - Skat - spielt - Spielverlauf - sticht - übernimmt - zieht - Agassi - Australian Open - Bindewald - Boris - Break - Chang - Dickhaut - - gewann - Ivanisevic - Kafelnikow - Kiefer - Komljenovic - Leimen - Matchball - Michael Stich - Monte Carlo - Prinosil - Sieg - Spiel - spielen - Steeb - Teamchef - Tiria Stich Achtelfinale - Aufschlag - Boris Becker - Daviscup - Doppel - DTB - Edberg - Finale - Graf - Haas - Halbfinale - Match - Pilic - Runde - Sampras - Satz - Tennis - Turnier - Viertelfinale - Weltrangliste - Wimbledon Alleinspieler - Herz - Herz-Dame - Herz-König - Hinterhand - Karo - Karo-As - Karo-Bube - Kreuz-As - Kreuz-Bube - Pik-As - Pik-Bube - Pik-König - Vorhand - Becker - Courier - Einzel - Elmshorn - French Open - Herz-As - ins - Kafelnikow - Karbacher - Krajicek - Kreuz-As - Kreuz-Bube - Michael Stich - Mittelhand - Pik-As - Pik-Bube - Pik-König Stich

Beispiel: NBKollokationen Stufe2 warm, kühl, kalt Schnitt der nach ADJ gefilterten Kollokationen für warm, kühl, kalt ergibt: abgekühlt, aufgeheizt, eingefroren, erhitzt, erwärmt, gebrannt, gelagert, heiß, heruntergekühlt, verbrannt, wärmer Emotionale Lesart „abgeklärt“ für kühl, kalt wird eliminiert

Auffinden von Xonymen Synonyme, Antonyme, (Ko)-Hyponyme... Idee: Schnitt der Kollokationsmengen zweier Xonyme enthält Xonyme Lexikalische Ambiguität eines Eingabewortes verunreinigt nicht die Ergebnismenge Vorgehen: - Ermittle Wortart für Eingabewörter - Ermittle Kollokationen für Eingabewörter - Filtere diese nach Wortarten der Eingabewörter - Schneide die Kollokationen - Ausgabe des Ergebnisses Ranking über Signifikanzstärken der Kollokate Evaluation für Nachbarschaftskollokationen zweiter und dritter Stufe

Beispiele für Schnitt+Filter Ackerbau [Gerste, Hanf] [NN] [Sonnenblumen, Getreide, Raps, Weizen, Böden, Gemüse, Früchte, Obst, Kaffee, Nahrungsmittel, Tabak, Pflanzen, Kartoffeln, Trauben, Wein, Bananen, Hirse, Kakao, Opium, Soja, Tomaten, Baumwolle, Heu, Reis, Cannabis, Futter, ... Berufe [Maler, Handwerker] [NN] [Künstler, Architekt, Architekten, Schauspieler, Journalist, Wissenschaftler, Musiker, Arzt, Politiker, Jurist, Ingenieur, Physiker, Kaufmann, Trainer, Lehrer, Mann, Sänger, Unternehmer, Manager, Journalisten, Studenten, Kollegen, Frauen] Kleidungsstücke und Sachen, die wehen oder fliegen und so [Socken, Unterhosen] [NN] [Fahne, Schuhe, Flecken, Hose, Jacke, Fahnen, Rosen, Uniform, Bluse, Blumen, Mantel, Pullover, Hemd, Farbe, Haut, Weste, Kleidung, Hosen, Handschuhe, Ritter, Schal, Anzug, Jeans, Mütze, Riese, Wolke, Blätter, Sonne, Tücher, Vogel, Wolken, Strich, T-Shirts, Kasten, Engel, Kleider, Trikot, Zettel, Hai, Krawatte, Flaggen, Perücke, T-Shirt, Hut, Farben, Pracht, Schilder, Linien, Schwan]

Mini-Evaluation Durchführung für verschiedene Datenquellen, NB-Kollokationen zweiter und dritter Stufe Anteile in TOP 5 höher als in TOP 10  Rankingmethode ist geeignet Schnitt zwischen Kollokaten zweiter und dritter Stufe fast immer leer  mehrere Stufen machen Sinn Quantität zufriedenstellend, durch größere Korpora erhöhbar Qualität zum vollautomatischen Erweitern noch nicht ausreichend

Unterscheidung von Kohyponymen und Hyperonymen Ausgangspunkt: Wort A und Kollokate B1, B2,...,Bn Satzkollokationen 1. Stufe Zwei Kennwerte: - Kollokationsstärke zwischen A und B - Ähnlichkeit der Kollokationsmengen von A und B Beobachtung: - Kohyponyme haben hohe Kollokationsstärke, da sie (z.B. in Aufzählungen) häufig in einem Satz auftreten, sowie ähnliche Kollokationsmengen (Kontexte) - Hyperonyme haben geringe Kollokationsstärke, und ähnliche Kontexte - linguistische Kollokationen besitzen hohe Kollokationsstärke, unähnliche Kontexte Qualität: Funktioniert für einige Wörter gut, für einige nicht.

Beispiel: Elefant

Pendeln auf Kollokationen Gegeben: mittelgroße Wortmenge (10-100 Wörter) einer Sachgruppe Gesucht: weitere Wörter aus dieser Sachgruppe Quelle z.B. Dornseiff (Neuauflage 2003) über 1000 Sachgruppen, weiter in Untergruppen geteilt, nach Wortart sortiert Annahme: - Kollokationen von bekannten Wörter einer Sachgruppe enthalten unbekannte Wörter bilden Kandidaten - Kandidaten sind dann gut, falls deren Kollokationen schon bekannte Wörter enthalten

Pendeln: Suche und Verifikation Algorithmus: Wortmenge W Solange neue Wörter w gefunden werden Kandidaten K = Kollokate von w anderer Wortart für alle K aus k falls Kollokate von k genug Wörter aus W anderer Wortart beinhalten: füge k zu W hinzu 19.23 Hieb- und Stichwaffe (DORNSEIFF 2003)   Waffe • Stichwaffe · Bajonett · Damaszener · Degen · Dolch · Florett · Lanze · Säbel · Schwert · Sense · Speer · Spieß • Messer · Fahrtenmesser · Jagdmesser · Klinge · Stilett • Hiebwaffe · Baseballschläger · Faustkeil · Keule · Knüppel · Morgenstern · Prügel · Schlagring · Schlagstock · Stock · Totschläger • Bumerang · Hellebarde · Streitaxt · Tomahawk • Armatur · Bewaffnung · Rüstung · Wehr • Arsenal · Rüstkammer · Waffenkammer · Waffenlager · Zeughaus • bewaffnen · rüsten · wappnen • einprügeln · einschlagen · einstechen · erschlagen · erstechen · prügeln · schlagen · stechen · verprügeln · zuschlagen · zustechen Neues zu 19.23 Abrißbirne · Axt · Drahtesel · Eisenstange · Fäuste · Golfschläger · Hüften · Lüfte · Peitsche · Pendel · Racket · Sattel · Schläger · Skins · Takt · Tanzbein · Unterleib · Zepter · einschlug · ersticht · fechten · ficht · kreuzen · rammt · schwang · schwangen · schwingen · schwingt · traktiert · zückt · zückte

Zusammenfassung Diverse Verfahren, um homogene Wortmengen zu finden, können schnell Kandidaten zur Erweiterung von GermaNet generieren Entscheidung über die Aufnahme muss manuell geschehen Automatisches Einordnen wegen verschiedener Granularität innerhalb GermaNets schwierig Manche Synsets nicht geeignet, da Wörter zu niederfrequent Unterscheidung zwischen den Xonymen teilweise statistisch möglich. Für feinere Unterscheidung sind evtl. patternbasierte Verfahren nötig