Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

Automatische Akquisition linguistischen Wissens

Ähnliche Präsentationen


Präsentation zum Thema: "Automatische Akquisition linguistischen Wissens"—  Präsentation transkript:

1 Automatische Akquisition linguistischen Wissens
Webseite: wortschatz.uni-leipzig.de/~sbordag/aalw05 Prof. Dr. Gerhard Heyer HG 1-53 Dipl. Inf. Stefan Bordag HG 5-20 WS 05/06 Automatische Akquisition linguistischen Wissens

2 Automatische Akquisition linguistischen Wissens
Aufbau des Seminars Begleitend zum Seminar soll ein kleiner Testkorpus aufgebaut werden Jedes Seminar ist einem eigenen Thema gewidmet Es wird in Problemstellung eingeführt Kurz auf Anwendungen eingegangen Überblick über Algorithmische Lösungen Zu manchen gibt es Paper (siehe auf Webseite) und Implementierungen Nach einer Übersicht vom Vorlesenden gibt es evtl. ein Kurzreferat eines Studenten Der referierte Algorithmus soll dann vom Vortragenden auf dem Testkorpus funktionierend vorgeführt werden (oder eine vereinfachte Version davon) WS 05/06 Automatische Akquisition linguistischen Wissens

3 Anforderungen für Scheinvergabe
Präsentation des vergebenen Themas (meist basierend auf ein bis drei Papers) in angemessener Qualität, d.h. Zeitvorgabe eingehalten Verständlich, vollständig und wohlstrukturiert flüssig Präsentation des/eines vorgestellten Algorithmus gute Beispiele für Erfolge und Misserfolge ausgewählt auf Probleme und prinzipielle Schwächen hingewiesen Dafür keine Ausarbeitung/Hausarbeit, außer Referat entsprach nicht den Qualitätskriterien WS 05/06 Automatische Akquisition linguistischen Wissens

4 Automatische Akquisition linguistischen Wissens
Hinweise für Referate Das Referat soll nicht in das jeweilige Thema einführen – eine Einführung wird zum Zeitpunkt des Referats bereits stattgefunden haben Das Referat soll die originelle Idee des papers/ der paper herausfiltern und verständlich und anschaulich beschreiben Es sind eigenständig gute und schlechte Beispiele anzugeben Vorführung entweder auf eigenem Notebook oder zwei(!) Tage vorher an Stefan Bordag zur Installation schicken Der Referierende erhält im Vorfeld die Folien mit der Einführung, damit es einen nahtlosen Übergang geben kann WS 05/06 Automatische Akquisition linguistischen Wissens

5 Automatische Akquisition linguistischen Wissens
Struktur des Seminars Einführung Theoretische Grundlagen, historische Entwicklung Erste Assoziationsalgorithmen, Extraktion von Redewendungen Berechnung von Kookkurrenzen, aktuelle Entwicklungen Musterbasierte Berechnung von Wortähnlichkeiten und Relationen zw. Wörtern Vollautomatische Berechnung von Wortähnlichkeiten als Grundlage späterer Algorithmen Unterscheidung von Wortbedeutungen Extraktion Morphologischen Wissens I Extraktion Morphologischen Wissens II Erkennung/Unterscheidung von Wortklassen Mining konkreter Wortrelationen Partielles Wissen erweitern, auf Graphen schließen Muster lernen, Named Entity recognition WS 05/06 Automatische Akquisition linguistischen Wissens

6 2. Theoretische Grundlagen
Zielstellung im allgemeinen Welches linguistische Wissen soll extrahiert werden Empirischer Ansatz, was Empirie umfasst und was nicht, einzelne Definitionen im Vergleich Bedeutung von „Bedeutung“ und welche Rolle es bei der Akquisition linguistischen Wissens spielt Relevanz der Unterscheidung zwischen syntagmatischen und paradigmatischen Abhängigkeiten und anderen relevanten Hypothesen Samplen, Erstellungen von Korpora, Balanciertheit, Repräsentativität WS 05/06 Automatische Akquisition linguistischen Wissens

7 3. Extraktion von Redewendungen
Historische Wurzeln von Firth bis Harris’ distribtional hypothesis Von der Erkenntnis, dass Verteilung von Wörtern in Sätzen nicht zufällig ist bis zu ersten Versuchen auf Computer Erste Algorithmen zur Berechnung von linguistischen Kollokationen Problematik der Unschärfe der Definitionen und Unklarheit über Ziele „Klassische“ Algorithmen und aktuelle Entwicklungen (Lehr, Krenn), Mutual Information usw. Evaluierungsmethoden WS 05/06 Automatische Akquisition linguistischen Wissens

8 4. Berechnungen von Wortassoziationen
Teil1: Berechnung auf Thesauri, Grafabstände usw. Problematik der Abhängigkeit von den Taxonomien Teil2: Berechnung über Masse Weeds, Terra &Clarke, Dagan et al. 95, Shvaneveld Satz- Fenster- und Nachbarschaftskookkurrenzen, viele diverse Masse Theoretische Frameworks (Lehr, Rieger) WS 05/06 Automatische Akquisition linguistischen Wissens

9 5. Musterbasierte Berechnung von Wortähnlichkeiten und Relationen
Halbautomatische Berechnung (hier thematisiert, weil menschliche Vorgaben durch andere Algorithmen produziert werden könnten) von Wortähnlichkeiten Relevanz von Information Extraction Relationen wie Antonyme Synonyme Meronyme WS 05/06 Automatische Akquisition linguistischen Wissens

10 6. Wortähnlichkeiten vollautomatisch
„Fenstermethoden“ für Kontextbestimmung Trennung von syntagmatischer und paradigmatischer Stufe Grundlage für weitere Algorithmen Evaluierungsmethode auf Wortnetzen WS 05/06 Automatische Akquisition linguistischen Wissens

11 7. Unterscheidung von Wortbedeutungen
Überblick über Word Sense Disambiguation (WSD) und Word Sense Induction (WSI) im Allgemeinen Wie WSD eine Weile als die Zukunftstechnologie für IR gehandelt wurde und wie die Hoffnungen gar nicht erfüllt wurden Vor- und Nachteile von WSI WS 05/06 Automatische Akquisition linguistischen Wissens

12 8. Extraktion Morphologischen Wissens I
Klassifizierung der Ansätze Vorstellen der MDL/Genetische Algorithmen Ansätze Vorstellen der „Semantik“ basierten Evaluierungsmethoden WS 05/06 Automatische Akquisition linguistischen Wissens

13 9. Extraktion Morphologischen Wissens II
Ursprüngliche letter successor variety (LSV) Idee von (Harris 55) und Implementierung (Hafer & Weiss 74) Nachbarschaftskookkurrenzen mit LSV verbinden oder umgekehrt Leipziger Ansatz WS 05/06 Automatische Akquisition linguistischen Wissens

14 10. Erkennung/Unterscheidung von Wortklassen
Frühere und derzeitige Methoden Schwierigkeit der Evaluierung Problemstellung evtl. nicht korrekt definiert (siehe Chinesisch) Nachbarschaftskookkurrenzbasierte Methode, erste Erfolge WS 05/06 Automatische Akquisition linguistischen Wissens

15 11. Mining konkreter Wortrelationen
Kohyponymidee, auch von Thomas Wittig Clustertechniken Koordinatensystemidee Auch Weeds04 Idee, wie man Hyperonyme berechnen könnte. Dass nämlich Unterbegriff viele der ähnlichen Wörter des Oberbegriffs haben würde, aber nicht umgekehrt Synonyme und Antonyme Abstoßung im Graphen oder Sätzen WS 05/06 Automatische Akquisition linguistischen Wissens

16 12. Partielles Wissen erweitern, auf Graphen schließen
Lexikalisches Wissen kann in hierarchischen Bäumen oder allgemeiner Graphen abgebildet werden „Ableiten“ (nicht im Sinner der Logik) als Färbungsproblem verwandter Algorithmus zur Erweiterung des Wissens Annotationsgraph WS 05/06 Automatische Akquisition linguistischen Wissens

17 13. Muster lernen, Named Entity recognition
Eher experimentelles Seminar, hier soll umgekehrt von bekannten Relationen die sie typischerweise ausdrückenden Muster gelernt werden Grefenstettes Algorithmus + TNT Biemanns Algorithmus Wenn Ideen von Studenten im Verlauf des Seminars geäußert werden, könnten die an dieser Stelle getestet werden WS 05/06 Automatische Akquisition linguistischen Wissens

18 Automatische Akquisition linguistischen Wissens
Testkorpus Bis nächste Woche soll jeder Student Sätze in Deutsch gesammelt haben Bedingungen: Jeder Student sammelt andere Sätze Format: 1 Satz pro Zeile, keine HTML Tags oder sonstiges Mögliche Ausgangspunkte: Gutenberg projekt ( Negra Korpus 20K Sätze ( Findlinks plugin und web crawlen Oder s ;-) Der Gesamtkorpus wird dann für Demonstrationen bei Referaten genutzt WS 05/06 Automatische Akquisition linguistischen Wissens

19 Automatische Akquisition linguistischen Wissens
Ziele des Seminars Jeder Student sollten anschließend über den aktuellen Forschungsstand in der Forschung informiert sein Etwas Erfahrung im Umgang mit einfachen Korpora haben Realistische Einschätzung der wirklichen Performanz eines neuen Algorithmus aus einer wissenschaftlichen Publikation In der Lage sein, einen Algorithmus aus einer unvollständigen Beschreibung zu verstehen WS 05/06 Automatische Akquisition linguistischen Wissens

20 Terminplan der Referate
Datum Thema Referent Redewendungen (Krenn, Evert) Assoziationen (Church) X Assoziationen (Budanitsky,Resnik) Musterbasiert (Berland,Charniak) LSA (Deerwester) Disambiguierung (ClusterSuite) Disambiguierung (SenseClusters, Pedersen) Morphologie (Goldsmith) Morphologie (Kazakov) Morphologie (Schone) Morphologie (Baroni) Wortklassen Statistikbasierte Relationen (Weeds) Evaluierung Relationen (WSA) Partielles Wissen erweitern Muster lernen, Named Entity Recognition WS 05/06 Automatische Akquisition linguistischen Wissens


Herunterladen ppt "Automatische Akquisition linguistischen Wissens"

Ähnliche Präsentationen


Google-Anzeigen