Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

WS 05/06Automatische Akquisition linguistischen Wissens1 Webseite: wortschatz.uni-leipzig.de/~sbordag/aalw05 Prof. Dr. Gerhard Heyer HG 1-53

Ähnliche Präsentationen


Präsentation zum Thema: "WS 05/06Automatische Akquisition linguistischen Wissens1 Webseite: wortschatz.uni-leipzig.de/~sbordag/aalw05 Prof. Dr. Gerhard Heyer HG 1-53"—  Präsentation transkript:

1 WS 05/06Automatische Akquisition linguistischen Wissens1 Webseite: wortschatz.uni-leipzig.de/~sbordag/aalw05 Prof. Dr. Gerhard Heyer HG Dipl. Inf. Stefan Bordag HG

2 WS 05/06Automatische Akquisition linguistischen Wissens2 Aufbau des Seminars Begleitend zum Seminar soll ein kleiner Testkorpus aufgebaut werden Jedes Seminar ist einem eigenen Thema gewidmet –Es wird in Problemstellung eingeführt –Kurz auf Anwendungen eingegangen –Überblick über Algorithmische Lösungen Zu manchen gibt es Paper (siehe auf Webseite) und Implementierungen Nach einer Übersicht vom Vorlesenden gibt es evtl. ein Kurzreferat eines Studenten Der referierte Algorithmus soll dann vom Vortragenden auf dem Testkorpus funktionierend vorgeführt werden (oder eine vereinfachte Version davon)

3 WS 05/06Automatische Akquisition linguistischen Wissens3 Anforderungen für Scheinvergabe Präsentation des vergebenen Themas (meist basierend auf ein bis drei Papers) in angemessener Qualität, d.h. –Zeitvorgabe eingehalten –Verständlich, vollständig und wohlstrukturiert –flüssig Präsentation des/eines vorgestellten Algorithmus –gute Beispiele für Erfolge und Misserfolge ausgewählt –auf Probleme und prinzipielle Schwächen hingewiesen Dafür keine Ausarbeitung/Hausarbeit, außer Referat entsprach nicht den Qualitätskriterien

4 WS 05/06Automatische Akquisition linguistischen Wissens4 Hinweise für Referate Das Referat soll nicht in das jeweilige Thema einführen – eine Einführung wird zum Zeitpunkt des Referats bereits stattgefunden haben Das Referat soll die originelle Idee des papers/ der paper herausfiltern und verständlich und anschaulich beschreiben Es sind eigenständig gute und schlechte Beispiele anzugeben Vorführung entweder auf eigenem Notebook oder zwei(!) Tage vorher an Stefan Bordag zur Installation schicken Der Referierende erhält im Vorfeld die Folien mit der Einführung, damit es einen nahtlosen Übergang geben kann

5 WS 05/06Automatische Akquisition linguistischen Wissens5 Struktur des Seminars 1.Einführung 2.Theoretische Grundlagen, historische Entwicklung 3.Erste Assoziationsalgorithmen, Extraktion von Redewendungen 4.Berechnung von Kookkurrenzen, aktuelle Entwicklungen 5.Musterbasierte Berechnung von Wortähnlichkeiten und Relationen zw. Wörtern 6.Vollautomatische Berechnung von Wortähnlichkeiten als Grundlage späterer Algorithmen 7.Unterscheidung von Wortbedeutungen 8.Extraktion Morphologischen Wissens I 9.Extraktion Morphologischen Wissens II 10.Erkennung/Unterscheidung von Wortklassen 11.Mining konkreter Wortrelationen 12.Partielles Wissen erweitern, auf Graphen schließen 13.Muster lernen, Named Entity recognition

6 WS 05/06Automatische Akquisition linguistischen Wissens6 2. Theoretische Grundlagen Zielstellung im allgemeinen Welches linguistische Wissen soll extrahiert werden Empirischer Ansatz, was Empirie umfasst und was nicht, einzelne Definitionen im Vergleich Bedeutung von Bedeutung und welche Rolle es bei der Akquisition linguistischen Wissens spielt Relevanz der Unterscheidung zwischen syntagmatischen und paradigmatischen Abhängigkeiten und anderen relevanten Hypothesen Samplen, Erstellungen von Korpora, Balanciertheit, Repräsentativität

7 WS 05/06Automatische Akquisition linguistischen Wissens7 3. Extraktion von Redewendungen Historische Wurzeln von Firth bis Harris distribtional hypothesis Von der Erkenntnis, dass Verteilung von Wörtern in Sätzen nicht zufällig ist bis zu ersten Versuchen auf Computer Erste Algorithmen zur Berechnung von linguistischen Kollokationen Problematik der Unschärfe der Definitionen und Unklarheit über Ziele Klassische Algorithmen und aktuelle Entwicklungen (Lehr, Krenn), Mutual Information usw. Evaluierungsmethoden

8 WS 05/06Automatische Akquisition linguistischen Wissens8 4. Berechnungen von Wortassoziationen Teil1: Berechnung auf Thesauri, Grafabstände usw. Problematik der Abhängigkeit von den Taxonomien Teil2: Berechnung über Masse Weeds, Terra &Clarke, Dagan et al. 95, Shvaneveld Satz- Fenster- und Nachbarschaftskookkurrenzen, viele diverse Masse Theoretische Frameworks (Lehr, Rieger)

9 WS 05/06Automatische Akquisition linguistischen Wissens9 5. Musterbasierte Berechnung von Wortähnlichkeiten und Relationen Halbautomatische Berechnung (hier thematisiert, weil menschliche Vorgaben durch andere Algorithmen produziert werden könnten) von Wortähnlichkeiten Relevanz von Information Extraction Relationen wie –Antonyme –Synonyme –Meronyme

10 WS 05/06Automatische Akquisition linguistischen Wissens10 6. Wortähnlichkeiten vollautomatisch Fenstermethoden für Kontextbestimmung Trennung von syntagmatischer und paradigmatischer Stufe Grundlage für weitere Algorithmen Evaluierungsmethode auf Wortnetzen

11 WS 05/06Automatische Akquisition linguistischen Wissens11 7. Unterscheidung von Wortbedeutungen Überblick über Word Sense Disambiguation (WSD) und Word Sense Induction (WSI) im Allgemeinen Wie WSD eine Weile als die Zukunftstechnologie für IR gehandelt wurde und wie die Hoffnungen gar nicht erfüllt wurden Vor- und Nachteile von WSI

12 WS 05/06Automatische Akquisition linguistischen Wissens12 8. Extraktion Morphologischen Wissens I Klassifizierung der Ansätze Vorstellen der MDL/Genetische Algorithmen Ansätze Vorstellen der Semantik basierten Evaluierungsmethoden

13 WS 05/06Automatische Akquisition linguistischen Wissens13 9. Extraktion Morphologischen Wissens II Ursprüngliche letter successor variety (LSV) Idee von (Harris 55) und Implementierung (Hafer & Weiss 74) Nachbarschaftskookkurrenzen mit LSV verbinden oder umgekehrt Leipziger Ansatz

14 WS 05/06Automatische Akquisition linguistischen Wissens Erkennung/Unterscheidung von Wortklassen Frühere und derzeitige Methoden Schwierigkeit der Evaluierung Problemstellung evtl. nicht korrekt definiert (siehe Chinesisch) Nachbarschaftskookkurrenzbasierte Methode, erste Erfolge

15 WS 05/06Automatische Akquisition linguistischen Wissens Mining konkreter Wortrelationen Kohyponymidee, auch von Thomas Wittig Clustertechniken Koordinatensystemidee Auch Weeds04 Idee, wie man Hyperonyme berechnen könnte. Dass nämlich Unterbegriff viele der ähnlichen Wörter des Oberbegriffs haben würde, aber nicht umgekehrt Synonyme und Antonyme Abstoßung im Graphen oder Sätzen

16 WS 05/06Automatische Akquisition linguistischen Wissens Partielles Wissen erweitern, auf Graphen schließen Lexikalisches Wissen kann in hierarchischen Bäumen oder allgemeiner Graphen abgebildet werden Ableiten (nicht im Sinner der Logik) als Färbungsproblem verwandter Algorithmus zur Erweiterung des Wissens Annotationsgraph

17 WS 05/06Automatische Akquisition linguistischen Wissens Muster lernen, Named Entity recognition Eher experimentelles Seminar, hier soll umgekehrt von bekannten Relationen die sie typischerweise ausdrückenden Muster gelernt werden Grefenstettes Algorithmus + TNT Biemanns Algorithmus Wenn Ideen von Studenten im Verlauf des Seminars geäußert werden, könnten die an dieser Stelle getestet werden

18 WS 05/06Automatische Akquisition linguistischen Wissens18 Testkorpus Bis nächste Woche soll jeder Student Sätze in Deutsch gesammelt haben Bedingungen: –Jeder Student sammelt andere Sätze –Format: 1 Satz pro Zeile, keine HTML Tags oder sonstiges Mögliche Ausgangspunkte: –Gutenberg projekt (http://gutenberg.spiegel.de/) –Negra Korpus 20K Sätze (http://www.coli.uni- saarland.de/projects/sfb378/negra-corpus/) –Findlinks plugin und web crawlen –Oder s ;-) Der Gesamtkorpus wird dann für Demonstrationen bei Referaten genutzt

19 WS 05/06Automatische Akquisition linguistischen Wissens19 Ziele des Seminars Jeder Student sollten anschließend über den aktuellen Forschungsstand in der Forschung informiert sein Etwas Erfahrung im Umgang mit einfachen Korpora haben Realistische Einschätzung der wirklichen Performanz eines neuen Algorithmus aus einer wissenschaftlichen Publikation In der Lage sein, einen Algorithmus aus einer unvollständigen Beschreibung zu verstehen

20 WS 05/06Automatische Akquisition linguistischen Wissens20 Terminplan der Referate DatumThemaReferent Redewendungen (Krenn, Evert) Assoziationen (Church) XAssoziationen (Budanitsky,Resnik) Musterbasiert (Berland,Charniak) LSA (Deerwester) Disambiguierung (ClusterSuite) XDisambiguierung (SenseClusters, Pedersen) Morphologie (Goldsmith) XMorphologie (Kazakov) Morphologie (Schone) XMorphologie (Baroni) Wortklassen Statistikbasierte Relationen (Weeds) XEvaluierung Relationen (WSA) Partielles Wissen erweitern Muster lernen, Named Entity Recognition


Herunterladen ppt "WS 05/06Automatische Akquisition linguistischen Wissens1 Webseite: wortschatz.uni-leipzig.de/~sbordag/aalw05 Prof. Dr. Gerhard Heyer HG 1-53"

Ähnliche Präsentationen


Google-Anzeigen