Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

WS 05/06Automatische Akquisition linguistischen Wissens1 Berechnung von Wortassoziationen, Verallgemeinerung der Berechnung von Redewendungen 1.Was genau.

Ähnliche Präsentationen


Präsentation zum Thema: "WS 05/06Automatische Akquisition linguistischen Wissens1 Berechnung von Wortassoziationen, Verallgemeinerung der Berechnung von Redewendungen 1.Was genau."—  Präsentation transkript:

1 WS 05/06Automatische Akquisition linguistischen Wissens1 Berechnung von Wortassoziationen, Verallgemeinerung der Berechnung von Redewendungen 1.Was genau sind Assoziationen? 2.Wozu sind sie gut? 3.Einschub: Lexikalische Wortnetze 4.Wie kann man sie erkennen? Wie könnte man ein Programm schreiben, welches sie erkennt? Wie erkennt man, wie viele man schon gefunden hat? 4.Referat: Church 89 und 91, sowie Terra & Clarke 03 5.Referat: Wortnetz basiert: Resnik 99, Budanitsky 99

2 WS 05/06Automatische Akquisition linguistischen Wissens2 1. Definition von Assoziation Aristoteles: [Der Lauf unserer Erinnerung wird bestimmt] von Ähnlichem oder Gegenteiligem, oder von dem, was nah zusammen ist: durch all das entsteht Erinnerung. Experimentelle Bestimmung und anschließend Kategorisierung: Jung & Ricklins folgendes Experiment: Versuchsperson bekommt Reizwort und soll so schnell wie möglich das erste ihr dazu einfallende Wort sagen. Anschließend werden gerankte Häufigkeitslisten angefertigt, welches Wort am Häufigsten ist. Anschließend Kategorisierung in Ursachen

3 WS 05/06Automatische Akquisition linguistischen Wissens Beispiel für Assoziationsexperiment Auffällig ist –dass auch hier wieder Zipfverteilung zum tragen kommt –Dass verschiedene Relationen zum Vorschein kommen StimulusAntwort VPAnz. VPs ButterBrot60 weich40 Milch32 Margarine27 Käse20 Fett(e)16 gelb14 Butterbrot8 Dose6 essen6

4 WS 05/06Automatische Akquisition linguistischen Wissens Jung & Ricklins Tabelle der Assoziationen Einordnung prozentuale Häufigkeit Beispiel I Innere Assoziationen Koordination zwischen Reiz und Antwort –Beiordnung –Unterordnung –Überordnung –Kontrast Prädikative Beziehung – Substantiv und Adjektiv – Substantiv und Verb – Bestimmung von Ort, Zeit, – Mittel und Zweck, Definitionen oder Erklärungen Kausale Abhängigkeit Kirsche – Apfel Baum – Buche Katze – Tier süß – sauer Schlange – giftig Harz – klebt Essen – Mittag Türe - Hauptwort Schmerz - Tränen II Äußere Assoziationen Koexistenz Identität Sprachlich-motorische Formen –eingeübte sprachliche Verbindung –Sprichwörter und Zitate –Wortzusammensetzungen und -veränderungen Schüler – Lehrer großartig – prächtig dunkel - hell Glück – Glas Tisch – Bein

5 WS 05/06Automatische Akquisition linguistischen Wissens Jung & Ricklins Tabelle der Assoziationen II –vorzeitige Reaktion (die Antwort bezieht sich lediglich auf den ersten Teil des Reizwortes) –Interjektionen Dunkelrot – hell Stinken – pfui III Klangreaktionen Wortergänzung Klang Reim Wunderbar – bar rosten – Roastbeef Herz – Schmerz IV Restgruppe Mittelbare Assoziationen (Die Beziehung zw. Reiz und Antwort ist durch ein drittes Wort vermittelt) Sinnlose Reaktion Fehlende Reaktion Wiederholung des Reizwortes weiß - weit V Egozenttrische Reaktion1.7Tanzen – mag ich nicht VI Perseveration (Die Antwort steht in Beziehung zu einem bereits früher gegebenen Reizwort) (heutzutage unter Priming bekannt) 1.2Deckel – Kiste Ratte - Korb VII Wiederholung einer früher gegebenen Antwort9.1

6 WS 05/06Automatische Akquisition linguistischen Wissens Kontiguitätsprinzip Früher Mutmaßungen darüber wie Assoziationen funktionieren Hartley 1749, Mill 1869: Verknüpfung einander ähnelnder Objekte basiert auf dem Kontiguitätsprinzip: Ähnliche Objekte werden häufig gleichzeitig oder in unmittelbarer Folge wahrgenommen W. James 1890 Kontiguitätsprinzip: Objects once experienced together tend to become associated in the imagination, so that when any one of them is thought of, the others are likely to be thought of also, in the same order of sequence or coexistence as before. This statement we may name the law of mental association by contiguity

7 WS 05/06Automatische Akquisition linguistischen Wissens Widerlegung des Kontiguitätsprinzips In heutiger Psychologie allerdings Ansicht, dass Kontiguitätsprinzip allein nicht ausreicht, um Wortassoziationen zu erklären Angriffspunkt ist Experiment, bei welchem sinnlose Folgen von Silben präsentiert werden und anschließend tatsächlich aufeinander folgende Folgen als solche wieder erkannt werden Jenkins (1974) kommt zur Ansicht, dass Assozitationstheorie keine brauchbaren Ergebnisse geliefert hat. (uminterpretation des sinnlos-Silbenexperiments – dass dieser Mechanismus in Wirlkichkeit nicht vorkommt) Clark 1970 findet, dass freie Assoziationen Ergebnis von symbolverarbeitenden Prozessen sind

8 WS 05/06Automatische Akquisition linguistischen Wissens Zusammenfassung Assoziationen und Berechnung von Assoziationen sind eine Verallgemeinerung der Berechnung von Redewendungen. Es gibt deshalb aber noch weniger klare Definition was Assoziiert sein soll und was nicht. Ebenfalls unklar, ob es verschiedene Sorten von Assoziationen geben soll oder nicht und ob diese überhaupt automatisch unterscheidbar sein können.

9 WS 05/06Automatische Akquisition linguistischen Wissens9 2. Anwendungen Lexikographen – Welche Umgebung für gegebenes Wort relevant Design von Grammatiken, bzw. syntaktische Disambiguierungsregeln für Wörter entdecken und nach Wichtigkeit sortieren Information Retrieval – query expansion, bessere Indexierungen Shvaneveldts knowledge organization programm Sprechhilfen Kontrollfaktor bei Psycholinguistischen Experimenten Fremdsprachunterricht Werbung…

10 WS 05/06Automatische Akquisition linguistischen Wissens Semantic talk Ein Tool, welches beim freien Assoziieren im Gespräch behilflich sein kann … und protokollierend einen roten Faden durch die angeschnittenen Themen zeichnet Georgien Afghanistan Irak

11 WS 05/06Automatische Akquisition linguistischen Wissens Zitationsvisualisierung

12 WS 05/06Automatische Akquisition linguistischen Wissens12 3. Einschub Lexikalische Wortnetze Wortnetze umfassen den am häufigsten gebrauchten Wortschatz einer Sprache und enthalten grundlegende semantische Beziehungen zwischen Vokabeln: –Synonymie, Antonymie –Hyponymie –Meronymie –… Ziel ist es dabei, eine nicht nur nach Wortform, sondern auch nach Wortbedeutung navigierbare Ressource zu schaffen. Weiterhin soll ein Modell geschaffen werden, welches vernünftig mit Polysemie und Synonymie umgehen kann, sowie erweiterbar um andere Relationen ist.

13 WS 05/06Automatische Akquisition linguistischen Wissens Anordnung der Wortnetze Synsets (set of synonyms) sind ausreichend für differenzierende Repräsentation von Bedeutungen –Lexeme mit gleicher Bedeutung sind zu Konzepten zusammengefasst, den sog. Synsets, welche als zentrale Repräsentationseinheiten fungieren –Die Realisierungen (Wortformen) eines gegebenen Konzeptes sind synonym zueinander. –board schon mit plank oder committee disambiguiert (daher unterscheidend) Zusätzlich Unterscheidung verschiedener Relationstypen: –lexikalische Relationen (Synonymie, Antonymie) gelten zwischen individuellen Realisierungen von Konzepten –konzeptuelle Relationen (Hyponymie, Hyperonymie, Meronymie, kausale Relation) gelten zwischen Konzepten (und somit für alle Realisierungen)

14 WS 05/06Automatische Akquisition linguistischen Wissens Relationen in Wortnetzen Die wichtigsten üblicherweise in Wortnetzen abgebildeten Relationen sind folgende: –Synonyme: Bedeutungsähnlichkeit (Abfall - Müll) –Antonyme: Gegenteiligkeit (hoch - tief) –Hyperonyme: Begriffshierarchie, Über- und Unterbegriffe (Katze – Säugetier – Tier – Lebewesen) –Meronyme: Teil-von Beziehung (Radkappe – Rad – Auto) Ständige Probleme –Vollständigkeit –Polysemie –Aktualität

15 WS 05/06Automatische Akquisition linguistischen Wissens Wortnetze für Deutsch und Englisch Für Englisch entstand mit Rogets Thesaurus Anfang des 20sten Jahrhunderts ein erstes Wortnetz, welches in vielen Dingen Pionierarbeit leistete, die Beziehungen aber noch nicht explizit waren Anfang der 90er Jahre entstand in Princeton University durch George A. Miller ein großes neues und später online frei verfügbares Wortnetz mit explizit annotierten Relationen Für Deutsch entstand einige Jahre später das auf Lizenz verfügbare GermaNet Wortnetz, welches äquivalent zu WordNet sein sollte, allerdings wurden einige Relationen anders gehandhabt und der Umfang von WordNet wurde mangels Finanzierung nie erreicht. Andere Projekte wie EuroWordNet erreichten nie annähernd den Umfang dieser zwei Projekte

16 WS 05/06Automatische Akquisition linguistischen Wissens16 4. Berechnung von Assoziationen 2 Mögliche Vorgehen –Benutzen von Ressourcen wie WordNet, um Abstand zweier Wörter zum messen. Hauptproblem hier, Abstand zu definieren (Resnik, Budanitsky) –Wie bei Redewendungen über Kookkurrenzen verschiedener Sorten (Weeds 04, Terra &Clarke 03, Dagan et al. 95, Shvaneveld 89) Textkorpus zusammenstellen Lokal für jedes Wort stärkste Assoziationen berechnen –Eher größere Fenster oder Satzgrenzen statt Nachbarschaftskookkurrenzen Evtl. in die verschiedenen Kategorien einordnen Verifizieren Theoretische Frameworks (Lehr, Rieger) Evaluierungsprobleme: Geringe Übereinstimmung zwischen menschlichen Annotatoren, kaum Gold-standard Daten verfügbar, speziell wenn Gold-standard bereits zur Berechnung verwendet wurde

17 WS 05/06Automatische Akquisition linguistischen Wissens Ähnlichkeit durch Abstand Wiederkehrende Begriffe: –Terminologischer Abstand: Wie gut ein Begriff ein Konzept ausdrückt –Semantischer Abstand wie konzeptueller Abstand, wie Unterschiedlich zwei Konzepte (ausgedrückt durch evtl. mehrere Termini jeweils) sind. Idee ist, die hierarchische Struktur eines Wortnetzes auszunutzen (Resniks 99) und (Budanitsky 00) –Wenn zwei Wörter Synonyme sind oder einen gemeinsamen Oberbegriff besitzen, sind sie sehr ähnlich –Andere Möglichkeit ist, kürzesten Pfad im Synonymgrafen (oder Allgemein alle Beziehungen als Kanten aufzufassen) zu berechnen und Länge dieses Pfades

18 WS 05/06Automatische Akquisition linguistischen Wissens Berechnen über Kookkurrenzen Idee der Kontiguität praktisch angewandt bedeutet messen, welche Wörter mit welchen auffällig oft auftreten Wie bei Redewendungen Kookkurrenzen berechnen, allerdings mit größerem Kontextfenster –Übliche Fenstergrößen von 2 oder 5 oder Satzkookkurrenzen In Statistik gibt es Begriff der Assoziiertheit z.B. des Auftretens zweier Entitäten in einer Stichprobe. Assoziiert bedeutet ebenfalls korreliert. Allerdings hat dieser Begriff dazu geführt, dass einige Wissenschaftler das gemeinsame Auftreten zweier Wörter mit einem Assoziationsmaß nachgewiesen haben und dadurch

19 WS 05/06Automatische Akquisition linguistischen Wissens Maße Nachdem sich Idee mit p(A,B)=p(A)*p(B) und daraus folgenden Mutual Information als schlecht herausstellte, begann Suche nach perfektem Maß Welche durch Dunning 93 auch mit log-likelihood eigentlich beendet sein sollte Aber durch weitere Ideen (poisson Approximierung des log- likelihood), Unabhängigkeitstests t-score, dice und jaccard Koeffizient usw. Es kristallisiert sich jedoch zunehmend heraus, dass optimal log- likelihood oder Poisson Approximationen sind Subjektiv ist es allerdings oft schwierig zu entscheiden, ob ein Maß besser oder schlechter ist, als ein anderes

20 WS 05/06Automatische Akquisition linguistischen Wissens Beispiele Logl gegen dice, baseline (reine Frequenz) und MI – Bei baseline wird die Wichtigkeit von Signifikanz versus reiner Frequenz deutlich Eingabe logl dice baseline MI | Abfall | radioaktiv | radioaktiv | d- | Abklingzeit | Abfall | Tonne | entsorgen | und | Bodenwurzel | Abfall | entsorgen | Endlager | in | Chemie-Praktikum | Abfall | Endlager | Entsorgung | werden | Dosenbier-Trinker | Abfall | werden | hochradioaktiv | ein | STAWA | Zink | Kupfer | Blei | d- | Verzinken | Zink | Blei | Kupfer | und | Eisengegenstand | Zink | und | Cadmium | %N% | Hartlot | Zink | Cadmium | Zinn | ein | Bismut | Zink | Silber | Nickel | in | stolberger | Montag | am | am | d- | VHS-Öffnungszeit | Montag | %N% | abend | am | Focus-Tag | Montag | Uhr | Uhr | %N% | Einzelhandlesverband | Montag | abend | Freitag | in | FIS-Sicherheitsexperte | Montag | in | kommend | ein | Freischützstras

21 WS 05/06Automatische Akquisition linguistischen Wissens Theoretische Frameworks Andrea Lehr : Aus soziologischer Sichtweise betrachtet, welche Phänomäne in Sprache wirklich auftreten und beobtachtbar sind. –So ist z.B. klare Trennung zwischen Alltagssprache und nicht- Alltagssprache kaum beobachtbar –Kollokationen und Redewendungen stellen einen wichtigen Bestandteil der Deutschen Gegenwartssprache dar –Experimente mit Probanden, die tatsächlich beobachtbare Unterschiede (auch Sorten von Assoziationen) be- oder widerlegen Rieger –Stellte Bedeutungsraumtheorie auf, welche zwischen syntagmatischen und paradigmatischen Relationen unterscheidet, aber auch mathematisch berechenbar bleibt –Letzteres durch konsequente Akzepanz der Unschärfe von Bedeutung, d.h. Katze ist nicht einfach Tier, sondern auch in unsere Gehirn z.B. zu 0.8 Tier –Mehrere Strata, Sprache als Struktur, Kognition

22 WS 05/06Automatische Akquisition linguistischen Wissens Evaluierungsmöglichkeiten Experiment, bei welchem Versuchspersonen zu einer Reihe von Wörtern –erstes Wort nennen sollen, welches ihnen einfällt –Eine Liste von passendsten Wörtern anfertigen sollen –Oder von Algorithmus generierte Liste bewerten soll StimulusAntwort VPAnz. VPsKollokationSignifikanz ButterBrot60Brot51 weich40Käse49 Milch32Zucker29 Margarine27Milch23 Käse20Margarine22 Fett(e)16Mehl18 gelb14Eier16 Butterbrot8Pfund14 Dose6zerlassener13 essen6Fleisch13

23 WS 05/06Automatische Akquisition linguistischen Wissens Evaluieren gegen Gold-Standards Im Gold-standard in beliebiger Relation zu Eingabewort stehende Wörter als richtig gezählt Precision: Wieviele der top x (z.B. 50) Wörter, die der Algorithmus berechnet/gerankt hat sind im Gold-standard verlinkt? –lion: sea mountain MGM Durkovitz Singh tamarin Punjabi … animal –lion: cub panther lioness cougar puma catamount –Precision 1/50 Recall: Wenn y der Wörter der top x Treffer waren, wie viele der direkt mit Eingabewort in Relation stehenden sind das? –Mit lion stehen in Goldstandard 100 in Relation, also bei lion Recall 1/100 Beispiele: WordNet, GermaNet, Rogets Thesaurus, TOEFL

24 WS 05/06Automatische Akquisition linguistischen Wissens Indirekte Evaluierungen Künstliche Synonyme einführen, indem zufällige Hälfte der Vorkommen des zu testenden Wortes durch lion1 und lion2 ersetzt wird, danach messen, ob lion2 durch Algorithmus als ähnlichstes zu lion1 berechnet wurde. –Funktioniert nur mit Synonymen –Ungenaue Messung Wenn Applikation und Umgebung vorhanden, in welcher derartige Daten genutzt werden, kann mittels Feedbackmechanismen getestet werden, ob Zufriedenheit der Benutzer mit neuen Daten gestiegen ist –Sehr unzuverlässig und Störfaktoren sind schwer aus Statistik eliminierbar –Aufwändig, da Applikation und Testumgebung selten vorhanden

25 WS 05/06Automatische Akquisition linguistischen Wissens25 Referat Church 89, 91 und Terra & Clarke 03 Tagger auf Testkorpus anwenden und Churches Algorithmus nachempfinden An ein paar Beispielen vorführen, wie Schiff und Boot, stark und mächtig, wie sein Algorithmus genutzt werden kann, um diese Unterschiede zu verdeutlichen

26 WS 05/06Automatische Akquisition linguistischen Wissens26 Referat Resnik und Budanitsky

27 WS 05/06Automatische Akquisition linguistischen Wissens27 Quellen Reinhard Rapps Dissertation: mainz.de/user/rapp/papers/disshtml/main/main.html


Herunterladen ppt "WS 05/06Automatische Akquisition linguistischen Wissens1 Berechnung von Wortassoziationen, Verallgemeinerung der Berechnung von Redewendungen 1.Was genau."

Ähnliche Präsentationen


Google-Anzeigen