Lernen paradigmatischer Relationen auf iterierten Kollokationen

Slides:



Advertisements
Ähnliche Präsentationen
Was tragen die Leute in den Fotos?
Advertisements

D I e K l i u n g.
KLEIDUNG Hier klicken.
Kleider, Kleider, Kleider.
Lernen paradigmatischer Relationen auf iterierten Kollokationen
der Stinger Was Trägt man?
Kleider - Klamotten.
Die Kleider.
Was tragen wir? Was ziehen wir uns an?.
der / die / das Kleid das Kleid das Kleid dress.
Adjektive.
Die Kleidung The clothes La ropa
Die Kleidung Kontakte Einführung A.
Die Kleidung Clothes der Kleiderschrank der Koffer.
grün Das Kleid Das grüne Kleid Mir gefällt das grüne Kleid.
geben sehen trinken gratulieren anziehen waschen helfen schenken lesen bekommen erzählen erklären telefonieren einen Rat geben anrufen gefallen.
Die Kleider und Klamotten
Was haben die Personen an?
Modenschau.
Kapitel 7: Kleidungsstücke
Modenschau.
Kleider - Klamotten.
Die Kleidung.
Rätsel über Tiere Wollen wir raten!. die Kuh Sie gibt uns Milch und Butter, wir geben ihr das Futter.
Übungsart: Seite: Bearbeitet von: Siegbert Rudolph Lesemotivationstraining Titel: Quelle: Nächste Folie 1 Bedienungshinweise: Mit einem Klick geht es immer.
Kleidung und Farben Zu Team Deutsch A1.1 Lektion 4.
Was trägst du? H.M.Boddy.
Wir lernen Kleider Wie schreibt man das? 1. der Pulli.
Burberry Schal und Burberry Schal Sind für Winterkleidung Warm.
Welche Farbe haben die Kleider? Kleider machen Leute und Farben machen Kleider Material realizat de Daniela Mihaela Nistor Engleza-Germana, Anul al III-lea.
Übungsart: Seite: Bearbeitet von: Siegbert Rudolph Lesemotivationstraining Titel: Quelle: Nächste Seite 1 Bedienungshinweise: Mit einem Klick geht es immer.
Übungsart: Seite: Bearbeitet von: Siegbert Rudolph Lesemotivationstraining Titel: Quelle: Nächste Seite 1 Übungsart: Titel: Textquelle: Witz lesen Klimaanlage.
Übungsart: Seite: Bearbeitet von: Siegbert Rudolph Lesemotivationstraining Titel: Quelle: Nächste Seite 1 Bedienungshinweise: Mit einem Klick geht es immer.
Die Kleidung Was trägst du?.
Kinderkleidung.
Titel: Quelle: Übungsart: Titel: Quelle: Buchstaben u/ü Einstiegsübung
MODENSCHAU.
MODE, KLEIDUNG EINKÄUFE
Die Kleider DIE KLEIDUNG.
C a b e f d Die Kleidung.
die Farben Mgr. Ivana Chvalníková Nemecký jazyk – 5.ročník
Silben mit Umlauten üben
Die Kleidung.
in Zusammenarbeit mit Ute Eberlein,
Die Kleider.
Wertigkeit innerhalb einer Farbe
Titel: Quelle: Übungsart: Titel: Textquelle: Leseübungen:
Titel: Quelle: Übungsart: Titel: Quelle: Buchstaben o/ö Einstiegsübung
Pimpinelle und Pimpinele
Rätsel über die Tiere.
Titel: Quelle: Übungsart: Titel: Quelle: Silben Tierquatschreime 4
Titel: Quelle: Übungsart: Titel: Quelle: Silbenübung Nina lernt lesen
Die Nomen lernen mit der Raupe Nimmersatt
Start Verben und Adjektive lernen Mit Vera und Ali
Titel: Quelle: Übungsart: Titel: Textquelle: Leseübungen: Gedicht
Schrift und Musik koordiniert vom Wolle
Titel: Quelle: Übungsart: Titel: Quelle: Leicht zu verwechseln a-e 1
Draußen ist Blätterfall
Die Kleidung (Clothing) Was sind diese Kleidungsstücke?
T I G E R I G E L E L E F A N T R O B B E P A P A G E I A F F E R Ü S
Titel: Quelle: Übungsart: Titel: Quelle: Buchstaben
Titel: Quelle: Übungsart: Titel: Textquelle: Leseübungen:
Paul Klee - Früchte auf Blau 1938
So schreiben Sie eine klare, verständliche Sprache
Titel: Quelle: Übungsart: Titel: Quelle: Buchstaben o/ö Einstiegsübung
Titel: Quelle: Übungsart: Titel: Textquelle: Wortarten bestimmen
Das sieht gut aus.
So schreiben Sie eine klare, verständliche Sprache
Rätsel über Tiere Wollen wir raten!.
 Präsentation transkript:

Lernen paradigmatischer Relationen auf iterierten Kollokationen Biemann, C. Bordag, S., Quasthoff, U. Universität Leipzig GermaNet Workshop 2004 Tübingen 10.10.2003

Wortmengen Ziel ist das automatische Erweitern von homogenen Wortmengen, z.B. GermaNet-Synsets oder Teilbäume der Hyponymhierarchie Wir sammeln Verfahren und wenden diese evtl. in Kombination an Vorstellung: Der Rechner als „Assoziator“ Eingabe: wenige Beispiele - Erkennen der Relation - Ausgabe weiterer Instanzen Dies kann auch semi-supervized geschehen Dazu nötig: - großer Korpus - Features - Lernverfahren

Kollokationen Linguistische Kollokationen Idiome im Sprachgebrauch, wie z.B. den Löffel abgeben, ins Gras beißen, das A und O Statistische Kollokationen Wörter, die signifikant öfter miteinander auftreten als bei unabhängigem Auftreten zu erwarten Hund – Katze, Herrchen, Leine Schwanz, gebissen,... Blume – blaue, Knopfloch, Justizsprecherin, blüht, Rose, Duft, ... In diesem Vortrag geht es um statistische Kollokationen.

Kollokationen im www.Wortschatz.uni-leipzig.de Berechnung für 500 Millionen Tokens Kollokationen auf Satzebene und Nachbarschaftsebene Common-birthday-Maß Ordnung nach Signifikanz Visualisierung über Simulated Annealing Signifikante Satzkollokationen für Hund: Katze (1367), Balto (518), Herrchen (514), Leine (393), Schwanz (378), gebissen (365), bellt (354), Tier (348), beißt (302), du (293), Halter (273), harter (260), seinem (259), Mann (242), Gassi (242), tgl (224), Hunde (214), bellte (204), Katz (204), Frauchen (198), Herzen (189), Tierheim (180), Frau (175), Mensch (169), bellen (168), Helden (163), Prokyon (155), spazieren (150), mich (146), ...

Phänomene im Kollokationsgraphen Cluster Mehrdeutigkeit

Iterieren von Kollokationen (Satz)kollokationen erster Stufe: Wörter, die sig. häufig miteinander im Satz auftreten Kollokationen zweiter Stufe: Wörter, die sig. häufig miteinander in Kollokationsmengen erster Stufe auftreten Kollokationen n-ter Stufe: Wörter, die sig. häufig miteinander in Kollokationsmengen (n-1)ter Stufe auftreten Bei der Berechnung der nächsten Stufe sind die Signifikanzen der vorherigen Stufe irrelevant  Schwellwert oder Abschneiden

Idealisiertes Beispiel für Kollokationen höherer Stufe Ord 1 Hund Spaniel Katze Maus bellen beißen kläffen - x Ord 2 Hund Spaniel Katze Maus bellen beißen kläffen 3 1 - 2

Idealisiertes Beispiel für Kollokationen höherer Stufe II Ord 2 Hund Spaniel Katze Maus bellen beißen kläffen x - Ord 3 Hund Spaniel Katze Maus bellen beißen kläffen - 1

Eigenschaften von iterierten Kollokationen Intuitives Verständnis: NB-Kollokationen 1. Stufe ~ syntagmatische Relationen Satzkollokationen 1. Stufe ~ syntagmatische,paradigmatische Relationen Kollokationen 2. Stufe ~ paradigmatische Relationen Kollokationen höherer Stufe ~ ? Iteration bewahrt Cluster ab Größe 3. Manche Wortmengen erweisen sich gegenüber Iteration stabil i.a. gibt es weniger Kollokationen n-ter Stufe als (n-1)-ter Stufe. Berechnungen bis Stufe 10 liegen vor Beispiel für TOP 20 NB-Kollokationen 10. Stufe für „erklärte“: sagte, schwärmte, lobt, schimpfte, meinte, jubelte, lobte, resümierte, schwärmt, Reinhard Heß, ärgerte, kommentierte, urteilte, analysierte, bilanzierte, freute, freute sich, Bundestrainer, freut ,gefreut

Filtern von Kollokationsmengen Bei der Suche von Synonymen, Hyponymen oder Kohyponymen interessieren i.d.R. nur Wörter derselben Wortart Kollokationen zu Wörtern können nach Wortart gefiltert werden. Einfacher Filter für Wortarten: - POS-Tagging des Korpus - Ermitteln möglicher Tags zu Wortform - Kollokate nach gleichen Tags filtern Vorsicht: Berechnung muss auf allen Kollokaten erfolgen

Schnitt von Kollokationsmengen Herz-Bube Becker bedient - folgenden - gereizt - Karo-Buben - Karo-Dame - Karo-König - Karte - Karten - Kreuz-Ass - Kreuz-Dame - Kreuz-Hand - Kreuz-König - legt - Mittelhand - Null ouvert - Pik - Pik-Ass - Pik-Dame - schmiert - Skat - spielt - Spielverlauf - sticht - übernimmt - zieht - Agassi - Australian Open - Bindewald - Boris - Break - Chang - Dickhaut - - gewann - Ivanisevic - Kafelnikow - Kiefer - Komljenovic - Leimen - Matchball - Michael Stich - Monte Carlo - Prinosil - Sieg - Spiel - spielen - Steeb - Teamchef - Tiria Stich Achtelfinale - Aufschlag - Boris Becker - Daviscup - Doppel - DTB - Edberg - Finale - Graf - Haas - Halbfinale - Match - Pilic - Runde - Sampras - Satz - Tennis - Turnier - Viertelfinale - Weltrangliste - Wimbledon Alleinspieler - Herz - Herz-Dame - Herz-König - Hinterhand - Karo - Karo-As - Karo-Bube - Kreuz-As - Kreuz-Bube - Pik-As - Pik-Bube - Pik-König - Vorhand - Becker - Courier - Einzel - Elmshorn - French Open - Herz-As - ins - Kafelnikow - Karbacher - Krajicek - Kreuz-As - Kreuz-Bube - Michael Stich - Mittelhand - Pik-As - Pik-Bube - Pik-König Stich

Beispiel: NBKollokationen Stufe2 warm, kühl, kalt Schnitt der nach ADJ gefilterten Kollokationen für warm, kühl, kalt ergibt: abgekühlt, aufgeheizt, eingefroren, erhitzt, erwärmt, gebrannt, gelagert, heiß, heruntergekühlt, verbrannt, wärmer Emotionale Lesart „abgeklärt“ für kühl, kalt wird eliminiert

Auffinden von Xonymen Synonyme, Antonyme, (Ko)-Hyponyme... Idee: Schnitt der Kollokationsmengen zweier Xonyme enthält Xonyme Lexikalische Ambiguität eines Eingabewortes verunreinigt nicht die Ergebnismenge Vorgehen: - Ermittle Wortart für Eingabewörter - Ermittle Kollokationen für Eingabewörter - Filtere diese nach Wortarten der Eingabewörter - Schneide die Kollokationen - Ausgabe des Ergebnisses Ranking über Signifikanzstärken der Kollokate Evaluation für Nachbarschaftskollokationen zweiter und dritter Stufe

Beispiele für Schnitt+Filter Ackerbau [Gerste, Hanf] [NN] [Sonnenblumen, Getreide, Raps, Weizen, Böden, Gemüse, Früchte, Obst, Kaffee, Nahrungsmittel, Tabak, Pflanzen, Kartoffeln, Trauben, Wein, Bananen, Hirse, Kakao, Opium, Soja, Tomaten, Baumwolle, Heu, Reis, Cannabis, Futter, ... Berufe [Maler, Handwerker] [NN] [Künstler, Architekt, Architekten, Schauspieler, Journalist, Wissenschaftler, Musiker, Arzt, Politiker, Jurist, Ingenieur, Physiker, Kaufmann, Trainer, Lehrer, Mann, Sänger, Unternehmer, Manager, Journalisten, Studenten, Kollegen, Frauen] Kleidungsstücke und Sachen, die wehen oder fliegen und so [Socken, Unterhosen] [NN] [Fahne, Schuhe, Flecken, Hose, Jacke, Fahnen, Rosen, Uniform, Bluse, Blumen, Mantel, Pullover, Hemd, Farbe, Haut, Weste, Kleidung, Hosen, Handschuhe, Ritter, Schal, Anzug, Jeans, Mütze, Riese, Wolke, Blätter, Sonne, Tücher, Vogel, Wolken, Strich, T-Shirts, Kasten, Engel, Kleider, Trikot, Zettel, Hai, Krawatte, Flaggen, Perücke, T-Shirt, Hut, Farben, Pracht, Schilder, Linien, Schwan]

Mini-Evaluation Durchführung für verschiedene Datenquellen, NB-Kollokationen zweiter und dritter Stufe Anteile in TOP 5 höher als in TOP 10  Rankingmethode ist geeignet Schnitt zwischen Kollokaten zweiter und dritter Stufe fast immer leer  mehrere Stufen machen Sinn Quantität zufriedenstellend, durch größere Korpora erhöhbar Qualität zum vollautomatischen Erweitern noch nicht ausreichend

Unterscheidung von Kohyponymen und Hyperonymen Ausgangspunkt: Wort A und Kollokate B1, B2,...,Bn Satzkollokationen 1. Stufe Zwei Kennwerte: - Kollokationsstärke zwischen A und B - Ähnlichkeit der Kollokationsmengen von A und B Beobachtung: - Kohyponyme haben hohe Kollokationsstärke, da sie (z.B. in Aufzählungen) häufig in einem Satz auftreten, sowie ähnliche Kollokationsmengen (Kontexte) - Hyperonyme haben geringe Kollokationsstärke, und ähnliche Kontexte - linguistische Kollokationen besitzen hohe Kollokationsstärke, unähnliche Kontexte Qualität: Funktioniert für einige Wörter gut, für einige nicht.

Beispiel: Elefant

Pendeln auf Kollokationen Gegeben: mittelgroße Wortmenge (10-100 Wörter) einer Sachgruppe Gesucht: weitere Wörter aus dieser Sachgruppe Quelle z.B. Dornseiff (Neuauflage 2003) über 1000 Sachgruppen, weiter in Untergruppen geteilt, nach Wortart sortiert Annahme: - Kollokationen von bekannten Wörter einer Sachgruppe enthalten unbekannte Wörter bilden Kandidaten - Kandidaten sind dann gut, falls deren Kollokationen schon bekannte Wörter enthalten

Pendeln: Suche und Verifikation Algorithmus: Wortmenge W Solange neue Wörter w gefunden werden Kandidaten K = Kollokate von w anderer Wortart für alle K aus k falls Kollokate von k genug Wörter aus W anderer Wortart beinhalten: füge k zu W hinzu 19.23 Hieb- und Stichwaffe (DORNSEIFF 2003)   Waffe • Stichwaffe · Bajonett · Damaszener · Degen · Dolch · Florett · Lanze · Säbel · Schwert · Sense · Speer · Spieß • Messer · Fahrtenmesser · Jagdmesser · Klinge · Stilett • Hiebwaffe · Baseballschläger · Faustkeil · Keule · Knüppel · Morgenstern · Prügel · Schlagring · Schlagstock · Stock · Totschläger • Bumerang · Hellebarde · Streitaxt · Tomahawk • Armatur · Bewaffnung · Rüstung · Wehr • Arsenal · Rüstkammer · Waffenkammer · Waffenlager · Zeughaus • bewaffnen · rüsten · wappnen • einprügeln · einschlagen · einstechen · erschlagen · erstechen · prügeln · schlagen · stechen · verprügeln · zuschlagen · zustechen Neues zu 19.23 Abrißbirne · Axt · Drahtesel · Eisenstange · Fäuste · Golfschläger · Hüften · Lüfte · Peitsche · Pendel · Racket · Sattel · Schläger · Skins · Takt · Tanzbein · Unterleib · Zepter · einschlug · ersticht · fechten · ficht · kreuzen · rammt · schwang · schwangen · schwingen · schwingt · traktiert · zückt · zückte

Zusammenfassung Diverse Verfahren, um homogene Wortmengen zu finden, können schnell Kandidaten zur Erweiterung von GermaNet generieren Entscheidung über die Aufnahme muss manuell geschehen Automatisches Einordnen wegen verschiedener Granularität innerhalb GermaNets schwierig Manche Synsets nicht geeignet, da Wörter zu niederfrequent Unterscheidung zwischen den Xonymen teilweise statistisch möglich. Für feinere Unterscheidung sind evtl. patternbasierte Verfahren nötig