Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

Automatische Akquisition linguistischen Wissens

Ähnliche Präsentationen


Präsentation zum Thema: "Automatische Akquisition linguistischen Wissens"—  Präsentation transkript:

1 Automatische Akquisition linguistischen Wissens
Berechnung von Wortassoziationen, Verallgemeinerung der Berechnung von Redewendungen Was genau sind Assoziationen? Wozu sind sie gut? Einschub: Lexikalische Wortnetze Wie kann man sie erkennen? Wie könnte man ein Programm schreiben, welches sie erkennt? Wie erkennt man, wie viele man schon gefunden hat? Referat: Church 89 und 91, sowie Terra & Clarke 03 Referat: Wortnetz basiert: Resnik 99, Budanitsky 99 WS 05/06 Automatische Akquisition linguistischen Wissens

2 1. Definition von Assoziation
Aristoteles: [Der Lauf unserer Erinnerung wird bestimmt] von Ähnlichem oder Gegenteiligem, oder von dem, was nah zusammen ist: durch all das entsteht Erinnerung. Experimentelle Bestimmung und anschließend Kategorisierung: Jung & Ricklins folgendes Experiment: Versuchsperson bekommt Reizwort und soll so schnell wie möglich das erste ihr dazu einfallende Wort sagen. Anschließend werden gerankte Häufigkeitslisten angefertigt, welches Wort am Häufigsten ist. Anschließend Kategorisierung in Ursachen WS 05/06 Automatische Akquisition linguistischen Wissens

3 1.1. Beispiel für Assoziationsexperiment
Stimulus Antwort VP Anz. VPs Butter Brot 60 weich 40 Milch 32 Margarine 27 Käse 20 Fett(e) 16 gelb 14 Butterbrot 8 Dose 6 essen Auffällig ist dass auch hier wieder Zipfverteilung zum tragen kommt Dass verschiedene Relationen zum Vorschein kommen WS 05/06 Automatische Akquisition linguistischen Wissens

4 1.2. Jung & Ricklins Tabelle der Assoziationen
Einordnung prozentuale Häufigkeit Beispiel I Innere Assoziationen Koordination zwischen Reiz und Antwort Beiordnung Unterordnung Überordnung Kontrast Prädikative Beziehung Substantiv und Adjektiv Substantiv und Verb Bestimmung von Ort, Zeit, Mittel und Zweck, Definitionen oder Erklärungen Kausale Abhängigkeit 19.6 18.7 1.0 Kirsche – Apfel Baum – Buche Katze – Tier süß – sauer Schlange – giftig Harz – klebt Essen – Mittag Türe - Hauptwort Schmerz - Tränen II Äußere Assoziationen Koexistenz Identität Sprachlich-motorische Formen eingeübte sprachliche Verbindung Sprichwörter und Zitate Wortzusammensetzungen und -veränderungen 16.0 6.3 26.5 Schüler – Lehrer großartig – prächtig dunkel - hell Glück – Glas Tisch – Bein WS 05/06 Automatische Akquisition linguistischen Wissens

5 1.3. Jung & Ricklins Tabelle der Assoziationen II
vorzeitige Reaktion (die Antwort bezieht sich lediglich auf den ersten Teil des Reizwortes) Interjektionen Dunkelrot – hell Stinken – pfui III Klangreaktionen Wortergänzung Klang Reim 1.1 2.2 0.8 Wunderbar – bar rosten – Roastbeef Herz – Schmerz IV Restgruppe Mittelbare Assoziationen (Die Beziehung zw. Reiz und Antwort ist durch ein drittes Wort vermittelt) Sinnlose Reaktion Fehlende Reaktion Wiederholung des Reizwortes 1.2 0.3 1.5 0.1 weiß - weit V Egozenttrische Reaktion 1.7 Tanzen – mag ich nicht VI Perseveration (Die Antwort steht in Beziehung zu einem bereits früher gegebenen Reizwort) (heutzutage unter Priming bekannt) Deckel – Kiste Ratte - Korb VII Wiederholung einer früher gegebenen Antwort 9.1 WS 05/06 Automatische Akquisition linguistischen Wissens

6 Automatische Akquisition linguistischen Wissens
1.4. Kontiguitätsprinzip Früher Mutmaßungen darüber wie Assoziationen funktionieren Hartley 1749, Mill 1869: Verknüpfung einander ähnelnder Objekte basiert auf dem Kontiguitätsprinzip: Ähnliche Objekte werden häufig gleichzeitig oder in unmittelbarer Folge wahrgenommen W. James 1890 Kontiguitätsprinzip: Objects once experienced together tend to become associated in the imagination, so that when any one of them is thought of, the others are likely to be thought of also, in the same order of sequence or coexistence as before. This statement we may name the law of mental association by contiguity WS 05/06 Automatische Akquisition linguistischen Wissens

7 1.5. „Widerlegung“ des Kontiguitätsprinzips
In heutiger Psychologie allerdings Ansicht, dass Kontiguitätsprinzip allein nicht ausreicht, um Wortassoziationen zu erklären Angriffspunkt ist Experiment, bei welchem sinnlose Folgen von Silben präsentiert werden und anschließend tatsächlich aufeinander folgende Folgen als solche wieder erkannt werden Jenkins (1974) kommt zur Ansicht, dass Assozitationstheorie keine brauchbaren Ergebnisse geliefert hat. (uminterpretation des sinnlos-Silbenexperiments – dass dieser Mechanismus in Wirlkichkeit nicht vorkommt) Clark 1970 findet, dass freie Assoziationen Ergebnis von symbolverarbeitenden Prozessen sind WS 05/06 Automatische Akquisition linguistischen Wissens

8 Automatische Akquisition linguistischen Wissens
1.6. Zusammenfassung Assoziationen und Berechnung von Assoziationen sind eine Verallgemeinerung der Berechnung von Redewendungen. Es gibt deshalb aber noch weniger klare Definition was Assoziiert sein soll und was nicht. Ebenfalls unklar, ob es verschiedene Sorten von Assoziationen geben soll oder nicht und ob diese überhaupt automatisch unterscheidbar sein können. WS 05/06 Automatische Akquisition linguistischen Wissens

9 Automatische Akquisition linguistischen Wissens
2. Anwendungen Lexikographen – Welche Umgebung für gegebenes Wort relevant Design von Grammatiken, bzw. syntaktische Disambiguierungsregeln für Wörter entdecken und nach Wichtigkeit sortieren Information Retrieval – query expansion, bessere Indexierungen Shvaneveldts knowledge organization programm Sprechhilfen Kontrollfaktor bei Psycholinguistischen Experimenten Fremdsprachunterricht Werbung… WS 05/06 Automatische Akquisition linguistischen Wissens

10 Automatische Akquisition linguistischen Wissens
2.1. Semantic talk Ein Tool, welches beim freien Assoziieren im Gespräch behilflich sein kann … und protokollierend einen „roten Faden“ durch die angeschnittenen Themen zeichnet Georgien Afghanistan Irak WS 05/06 Automatische Akquisition linguistischen Wissens

11 2.2. Zitationsvisualisierung
WS 05/06 Automatische Akquisition linguistischen Wissens

12 3. Einschub Lexikalische Wortnetze
Wortnetze umfassen den am häufigsten gebrauchten Wortschatz einer Sprache und enthalten grundlegende semantische Beziehungen zwischen Vokabeln: Synonymie, Antonymie Hyponymie Meronymie Ziel ist es dabei, eine nicht nur nach Wortform, sondern auch nach Wortbedeutung navigierbare Ressource zu schaffen. Weiterhin soll ein Modell geschaffen werden, welches vernünftig mit Polysemie und Synonymie umgehen kann, sowie erweiterbar um andere Relationen ist. WS 05/06 Automatische Akquisition linguistischen Wissens

13 3.1. Anordnung der Wortnetze
Synsets (set of synonyms) sind ausreichend für differenzierende Repräsentation von Bedeutungen Lexeme mit gleicher Bedeutung sind zu Konzepten zusammengefasst, den sog. Synsets, welche als zentrale Repräsentationseinheiten fungieren Die Realisierungen (Wortformen) eines gegebenen Konzeptes sind synonym zueinander. board schon mit plank oder committee disambiguiert (daher unterscheidend) Zusätzlich Unterscheidung verschiedener Relationstypen: lexikalische Relationen (Synonymie, Antonymie) gelten zwischen individuellen Realisierungen von Konzepten konzeptuelle Relationen (Hyponymie, Hyperonymie, Meronymie, kausale Relation) gelten zwischen Konzepten (und somit für alle Realisierungen) WS 05/06 Automatische Akquisition linguistischen Wissens

14 3.2. Relationen in Wortnetzen
Die wichtigsten üblicherweise in Wortnetzen abgebildeten Relationen sind folgende: Synonyme: Bedeutungsähnlichkeit (Abfall - Müll) Antonyme: Gegenteiligkeit (hoch - tief) Hyperonyme: Begriffshierarchie, Über- und Unterbegriffe (Katze – Säugetier – Tier – Lebewesen) Meronyme: Teil-von Beziehung (Radkappe – Rad – Auto) Ständige Probleme Vollständigkeit Polysemie Aktualität WS 05/06 Automatische Akquisition linguistischen Wissens

15 3.3. Wortnetze für Deutsch und Englisch
Für Englisch entstand mit Roget’s Thesaurus Anfang des 20sten Jahrhunderts ein erstes Wortnetz, welches in vielen Dingen Pionierarbeit leistete, die Beziehungen aber noch nicht explizit waren Anfang der 90er Jahre entstand in Princeton University durch George A. Miller ein großes neues und später online frei verfügbares Wortnetz mit explizit annotierten Relationen Für Deutsch entstand einige Jahre später das auf Lizenz verfügbare GermaNet Wortnetz, welches äquivalent zu WordNet sein sollte, allerdings wurden einige Relationen anders gehandhabt und der Umfang von WordNet wurde mangels Finanzierung nie erreicht. Andere Projekte wie EuroWordNet erreichten nie annähernd den Umfang dieser zwei Projekte WS 05/06 Automatische Akquisition linguistischen Wissens

16 4. Berechnung von Assoziationen
2 Mögliche Vorgehen Benutzen von Ressourcen wie WordNet, um Abstand zweier Wörter zum messen. Hauptproblem hier, Abstand zu definieren (Resnik, Budanitsky) Wie bei Redewendungen über Kookkurrenzen verschiedener Sorten (Weeds 04, Terra &Clarke 03, Dagan et al. 95, Shvaneveld 89) Textkorpus zusammenstellen Lokal für jedes Wort stärkste Assoziationen berechnen Eher größere Fenster oder Satzgrenzen statt Nachbarschaftskookkurrenzen Evtl. in die verschiedenen Kategorien einordnen Verifizieren Theoretische Frameworks (Lehr, Rieger) Evaluierungsprobleme: Geringe Übereinstimmung zwischen menschlichen Annotatoren, kaum Gold-standard Daten verfügbar, speziell wenn Gold-standard bereits zur Berechnung verwendet wurde WS 05/06 Automatische Akquisition linguistischen Wissens

17 4.1. Ähnlichkeit durch Abstand
Wiederkehrende Begriffe: Terminologischer Abstand: Wie gut ein Begriff ein Konzept ausdrückt Semantischer Abstand wie konzeptueller Abstand, wie Unterschiedlich zwei Konzepte (ausgedrückt durch evtl. mehrere Termini jeweils) sind. Idee ist, die hierarchische Struktur eines Wortnetzes auszunutzen (Resniks 99) und (Budanitsky 00) Wenn zwei Wörter Synonyme sind oder einen gemeinsamen Oberbegriff besitzen, sind sie sehr ähnlich Andere Möglichkeit ist, kürzesten Pfad im Synonymgrafen (oder Allgemein alle Beziehungen als Kanten aufzufassen) zu berechnen und Länge dieses Pfades WS 05/06 Automatische Akquisition linguistischen Wissens

18 4.2. Berechnen über Kookkurrenzen
Idee der Kontiguität praktisch angewandt bedeutet messen, welche Wörter mit welchen auffällig oft auftreten Wie bei Redewendungen Kookkurrenzen berechnen, allerdings mit größerem Kontextfenster Übliche Fenstergrößen von 2 oder 5 oder Satzkookkurrenzen In Statistik gibt es Begriff der „Assoziiertheit“ z.B. des Auftretens zweier Entitäten in einer Stichprobe. Assoziiert bedeutet ebenfalls korreliert. Allerdings hat dieser Begriff dazu geführt, dass einige Wissenschaftler das gemeinsame Auftreten zweier Wörter mit einem Assoziationsmaß nachgewiesen haben und dadurch WS 05/06 Automatische Akquisition linguistischen Wissens

19 Automatische Akquisition linguistischen Wissens
Maße Nachdem sich Idee mit p(A,B)=p(A)*p(B) und daraus folgenden Mutual Information als schlecht herausstellte, begann Suche nach perfektem Maß Welche durch Dunning 93 auch mit log-likelihood eigentlich beendet sein sollte Aber durch weitere Ideen (poisson Approximierung des log-likelihood), Unabhängigkeitstests t-score, dice und jaccard Koeffizient usw. Es kristallisiert sich jedoch zunehmend heraus, dass optimal log-likelihood oder Poisson Approximationen sind Subjektiv ist es allerdings oft schwierig zu entscheiden, ob ein Maß besser oder schlechter ist, als ein anderes WS 05/06 Automatische Akquisition linguistischen Wissens

20 Automatische Akquisition linguistischen Wissens
Beispiele Logl gegen dice, baseline (reine Frequenz) und MI – Bei baseline wird die Wichtigkeit von Signifikanz versus reiner Frequenz deutlich Eingabe logl dice baseline MI | Abfall | radioaktiv | radioaktiv | d | Abklingzeit | Abfall | Tonne | entsorgen | und | Bodenwurzel | Abfall | entsorgen | Endlager | in | Chemie-Praktikum | Abfall | Endlager | Entsorgung | werden | Dosenbier-Trinker | Abfall | werden | hochradioaktiv | ein | STAWA | Zink | Kupfer | Blei | d | Verzinken | Zink | Blei | Kupfer | und | Eisengegenstand | Zink | und | Cadmium | %N% | Hartlot | Zink | Cadmium | Zinn | ein | Bismut | Zink | Silber | Nickel | in | stolberger | Montag | am | am | d | VHS-Öffnungszeit | Montag | %N% | abend | am | Focus-Tag | Montag | Uhr | Uhr | %N% | Einzelhandlesverband | Montag | abend | Freitag | in | FIS-Sicherheitsexperte | Montag | in | kommend | ein | Freischützstras WS 05/06 Automatische Akquisition linguistischen Wissens

21 4.4. Theoretische Frameworks
Andrea Lehr : Aus soziologischer Sichtweise betrachtet, welche Phänomäne in Sprache wirklich auftreten und beobtachtbar sind. So ist z.B. klare Trennung zwischen Alltagssprache und nicht-Alltagssprache kaum beobachtbar Kollokationen und Redewendungen stellen einen wichtigen Bestandteil der Deutschen Gegenwartssprache dar Experimente mit Probanden, die tatsächlich beobachtbare Unterschiede (auch Sorten von Assoziationen) be- oder widerlegen Rieger Stellte Bedeutungsraumtheorie auf, welche zwischen syntagmatischen und paradigmatischen Relationen unterscheidet, aber auch mathematisch berechenbar bleibt Letzteres durch konsequente Akzepanz der Unschärfe von Bedeutung, d.h. Katze ist nicht einfach Tier, sondern auch in unsere Gehirn z.B. zu 0.8 Tier Mehrere Strata, Sprache als Struktur, Kognition WS 05/06 Automatische Akquisition linguistischen Wissens

22 4.5. Evaluierungsmöglichkeiten
Experiment, bei welchem Versuchspersonen zu einer Reihe von Wörtern erstes Wort nennen sollen, welches ihnen einfällt Eine Liste von passendsten Wörtern anfertigen sollen Oder von Algorithmus generierte Liste bewerten soll Stimulus Antwort VP Anz. VPs Kollokation Signifikanz Butter Brot 60 51 weich 40 Käse 49 Milch 32 Zucker 29 Margarine 27 23 20 22 Fett(e) 16 Mehl 18 gelb 14 Eier Butterbrot 8 Pfund Dose 6 zerlassener 13 essen Fleisch WS 05/06 Automatische Akquisition linguistischen Wissens

23 4.5.1. Evaluieren gegen Gold-Standards
Im Gold-standard in beliebiger Relation zu Eingabewort stehende Wörter als richtig gezählt Precision: Wieviele der top x (z.B. 50) Wörter, die der Algorithmus berechnet/gerankt hat sind im Gold-standard verlinkt? lion: sea mountain MGM Durkovitz Singh tamarin Punjabi … animal lion: cub panther lioness cougar puma catamount Precision 1/50 Recall: Wenn y der Wörter der top x Treffer waren, wie viele der direkt mit Eingabewort in Relation stehenden sind das? Mit lion stehen in Goldstandard 100 in Relation, also bei lion Recall 1/100 Beispiele: WordNet, GermaNet, Rogets Thesaurus, TOEFL WS 05/06 Automatische Akquisition linguistischen Wissens

24 4.5.2. Indirekte Evaluierungen
Künstliche Synonyme einführen, indem zufällige Hälfte der Vorkommen des zu testenden Wortes durch lion1 und lion2 ersetzt wird, danach messen, ob lion2 durch Algorithmus als ähnlichstes zu lion1 berechnet wurde. Funktioniert nur mit Synonymen Ungenaue Messung Wenn Applikation und Umgebung vorhanden, in welcher derartige Daten genutzt werden, kann mittels Feedbackmechanismen getestet werden, ob Zufriedenheit der Benutzer mit neuen Daten gestiegen ist Sehr unzuverlässig und Störfaktoren sind schwer aus Statistik eliminierbar Aufwändig, da Applikation und Testumgebung selten vorhanden WS 05/06 Automatische Akquisition linguistischen Wissens

25 Referat Church 89, 91 und Terra & Clarke 03
Tagger auf Testkorpus anwenden und Churches Algorithmus nachempfinden An ein paar Beispielen vorführen, wie Schiff und Boot, stark und mächtig, wie sein Algorithmus genutzt werden kann, um diese Unterschiede zu verdeutlichen WS 05/06 Automatische Akquisition linguistischen Wissens

26 Referat Resnik und Budanitsky
WS 05/06 Automatische Akquisition linguistischen Wissens

27 Automatische Akquisition linguistischen Wissens
Quellen Reinhard Rapps Dissertation: WS 05/06 Automatische Akquisition linguistischen Wissens


Herunterladen ppt "Automatische Akquisition linguistischen Wissens"

Ähnliche Präsentationen


Google-Anzeigen