Automatische Akquisition linguistischen Wissens

Slides:



Advertisements
Ähnliche Präsentationen
Prof. Dr. Stephan Pareigis Prof. Dr. Birgit Wendholt
Advertisements

Charlotte Schubert, Gerhard Heyer Universität Leipzig
Präsentiert von Torben Pastuch
Informatik II: Algorithmen und Datenstrukturen SS 2013
Rekursion: Rekurrenz: Algorithmen rufen sich selbst (rekursiv) auf.
On the Criteria to Be Used in Decomposing Systems into Modules
Grundstudiumspraktikum “Maschinelle Übersetzung”
Gliederung der Ausführungen: Einleitung, Hauptteil, Schluss
Seminar Textmining WS 06/07 Themen Übung 11 unsupervised vs. supervised Symbolfolgen, Kunstsprachen Page Rank.
Seminar Textmining WS 06/07 Themen Übung 9 Multilingualität Weitere Termine: 13.7.Symbolfolgen und PageRank Findlinks mitstreiter gesucht!
WS 05/06Automatische Akquisition linguistischen Wissens1 Vollautomatisches bestimmen von Relationen 1.Anforderungen Welches Wissen und welches nicht Komplexitätsprobleme.
Theoretische Grundlagen
Automatische Akquisition linguistischen Wissens
Automatische Akquisition linguistischen Wissens
Automatische Akquisition linguistischen Wissens
Automatische Akquisition linguistischen Wissens
WS 05/06Automatische Akquisition linguistischen Wissens1 Partielles Wissen erweitern 1.Zusammenhang mit bisherigen Algorithmen 2.Vom offensichtlichen zum.
Automatische Akquisition linguistischen Wissens
WS 05/06Automatische Akquisition linguistischen Wissens1 Extraktion Morphologischen Wissens 1.Problemstellung - Facetten der Morphologie 2.Anwendungen.
WS 05/06Automatische Akquisition linguistischen Wissens1 Musterbasierte Extraktion spezifischer Relationen (Identifying/detecting/extracting thesaurus.
Automatische Akquisition linguistischen Wissens
Inhaltlich orientierter Zugriff auf unstrukturierte Daten
Einführung in das Komplexpraktikum Rechnernetze Wintersemester 2009 Fakultät Informatik Institut für Systemarchitektur, Professur für Rechnernetze Dresden,
Christian A. Kopf Institut für Informatik FU Berlin Episode Recognizer Framework - Rahmenwerk zur Episodenerkennung.
DEPARTMENT FÜR INFORMATIK
Seminar/Übung, SoSe 2009, 1. Sitzung
„Wissenschaftliches Arbeiten“ Was soll denn das sein?
Räumliche Orientierung Lehrveranstaltungsraum:
Grammatikentwicklung
Anfragesprachen – Dipl. Ing. Ulrich Borchert / FH Merseburg1/8 Thesauren In gewisser Weise bilden Thesauren (Singular Thesaurus, Plural auch Thesauri)
Algorithmentheorie 04 –Hashing
Standardkurs: Der europäische Integrationsprozess
Einführungssitzung Architekturen interoperabler Systeme für raumzeitliche Prozesse Einführungssitzung Lars Bernard, Udo Einspanier,
Flaches Parsing mit endlichen Automaten Referat und Implementierung Jutta Jäger
Intro_Basiswissen_ Programm heute: Assoziationen zum Thema Basiswissen Germanistik Aufriss zur Vorlesung, Programmentwurf Organisatorisches:
Grundkurs Linguistik Programm der Vorlesung Oktober
Seminar Modellgetriebene Softwareentwicklung Einführung Seminar modellgetriebene Softwareentwicklung WS 05/06 Dipl.-Inf. Nadine Fröhlich Prof. Dr.-Ing.
PG 520 Intelligence Service – gezielte Informationen aus dem Internet
Zeitgemäße Medienbildung in der Schule
Hauptseminar Grundlagen der theoretischen Physik
Aufgabenbereiche Stufe 2 – BiP
Maschinelles Lernen und automatische Textklassifikation
Entitäten Extraktion Einführung
Entitäten Extraktion Wichtige Schritte Petra Maier WS 05/06.
Spezifikation von Anforderungen
Das Wasserfallmodell - Überblick
Ideen der Informatik Suchen und Sortieren [Ordnung muss sein…]
Guete Morge! Roland Scheurer. Guete Morge! Roland Scheurer.
E-Learning in Theorie & Praxis
Binde & Wallner Engineering GmbH
Forschendes Lernen Ein Beispiel aus dem Fachbereich für Psychologie, AG Klinische Psychologie, Psychotherapie und Gesundheitspsycholgie, Ass. Prof. Dr.
Prof. Dr. Dieter Nittel „Jongleure der Wissensgesellschaft“: Organisationen und berufliche Anforderungs- und Kompetenzstrukturen in der Weiterbildung WS.
Freiheit psycho-logisch…? Wissenschaftstheorie und Psychologie Home Bewusstsein.
Erfindervon Fuzzy Logic
Räumliche Orientierung Lehrveranstaltungsraum:
Religion unterrichten – aber wie ? Einführung in die Planung und
Kompetenzen hinsichtlich der Methode der Fallunterscheidungen
Übung zu Einführung in die LDV I
Using latent semantic analysis to find different names for the same entity in free text Präsentation und Diskussion des Papers Im Rahmen des PS Web-Information.
Proseminar GMA Web Suche und Information Retrieval (SS07)
PROJEKTMANAGEMENT (Project Management)
Taxonomie der Lernziele
ERKENNTNIS THEORETISCHE DARSTELLUNG
2. Sitzung Forschungsprozess als Abfolge von Entscheidungen
Einführungsveranstaltung zum Seminar:
1 Prof. Dr. Andreas SchmietendorfWS06/07 Übung 3 Test der Möglichkeiten des JDBC-Interfaces.
SysBO an RS 2.VeranstaltungWürzburg 4. März 2015 Systematische Berufsorientierung an Realschulen in Unterfranken Gerhard Waigandt Teamleiter Berufsberatung.
DaF-Wortschatzarbeit
Prof. Dr. Andreas Voss, Hochschule für Angewandte Wissenschaften (HAW) Hamburg Präsentation am Freitag, 27. März 2009, TU Dortmund, Fakultät Erziehungswissenschaft.
Institut für Informatik Betriebliche Informationssysteme S.Dietzold, T.Riechert, J.Lehmann, A.Aslam, M.Herrmann1 Semantic Web Services and Interfaces Sebastian.
 Präsentation transkript:

Automatische Akquisition linguistischen Wissens Webseite: wortschatz.uni-leipzig.de/~sbordag/aalw05 Prof. Dr. Gerhard Heyer HG 1-53 Email: heyerasv@informatik.uni-leipzig.de Dipl. Inf. Stefan Bordag HG 5-20 Email: sbordag@informatik.uni-leipzig.de WS 05/06 Automatische Akquisition linguistischen Wissens

Automatische Akquisition linguistischen Wissens Aufbau des Seminars Begleitend zum Seminar soll ein kleiner Testkorpus aufgebaut werden Jedes Seminar ist einem eigenen Thema gewidmet Es wird in Problemstellung eingeführt Kurz auf Anwendungen eingegangen Überblick über Algorithmische Lösungen Zu manchen gibt es Paper (siehe auf Webseite) und Implementierungen Nach einer Übersicht vom Vorlesenden gibt es evtl. ein Kurzreferat eines Studenten Der referierte Algorithmus soll dann vom Vortragenden auf dem Testkorpus funktionierend vorgeführt werden (oder eine vereinfachte Version davon) WS 05/06 Automatische Akquisition linguistischen Wissens

Anforderungen für Scheinvergabe Präsentation des vergebenen Themas (meist basierend auf ein bis drei Papers) in angemessener Qualität, d.h. Zeitvorgabe eingehalten Verständlich, vollständig und wohlstrukturiert flüssig Präsentation des/eines vorgestellten Algorithmus gute Beispiele für Erfolge und Misserfolge ausgewählt auf Probleme und prinzipielle Schwächen hingewiesen Dafür keine Ausarbeitung/Hausarbeit, außer Referat entsprach nicht den Qualitätskriterien WS 05/06 Automatische Akquisition linguistischen Wissens

Automatische Akquisition linguistischen Wissens Hinweise für Referate Das Referat soll nicht in das jeweilige Thema einführen – eine Einführung wird zum Zeitpunkt des Referats bereits stattgefunden haben Das Referat soll die originelle Idee des papers/ der paper herausfiltern und verständlich und anschaulich beschreiben Es sind eigenständig gute und schlechte Beispiele anzugeben Vorführung entweder auf eigenem Notebook oder zwei(!) Tage vorher an Stefan Bordag zur Installation schicken Der Referierende erhält im Vorfeld die Folien mit der Einführung, damit es einen nahtlosen Übergang geben kann WS 05/06 Automatische Akquisition linguistischen Wissens

Automatische Akquisition linguistischen Wissens Struktur des Seminars Einführung Theoretische Grundlagen, historische Entwicklung Erste Assoziationsalgorithmen, Extraktion von Redewendungen Berechnung von Kookkurrenzen, aktuelle Entwicklungen Musterbasierte Berechnung von Wortähnlichkeiten und Relationen zw. Wörtern Vollautomatische Berechnung von Wortähnlichkeiten als Grundlage späterer Algorithmen Unterscheidung von Wortbedeutungen Extraktion Morphologischen Wissens I Extraktion Morphologischen Wissens II Erkennung/Unterscheidung von Wortklassen Mining konkreter Wortrelationen Partielles Wissen erweitern, auf Graphen schließen Muster lernen, Named Entity recognition WS 05/06 Automatische Akquisition linguistischen Wissens

2. Theoretische Grundlagen Zielstellung im allgemeinen Welches linguistische Wissen soll extrahiert werden Empirischer Ansatz, was Empirie umfasst und was nicht, einzelne Definitionen im Vergleich Bedeutung von „Bedeutung“ und welche Rolle es bei der Akquisition linguistischen Wissens spielt Relevanz der Unterscheidung zwischen syntagmatischen und paradigmatischen Abhängigkeiten und anderen relevanten Hypothesen Samplen, Erstellungen von Korpora, Balanciertheit, Repräsentativität WS 05/06 Automatische Akquisition linguistischen Wissens

3. Extraktion von Redewendungen Historische Wurzeln von Firth bis Harris’ distribtional hypothesis Von der Erkenntnis, dass Verteilung von Wörtern in Sätzen nicht zufällig ist bis zu ersten Versuchen auf Computer Erste Algorithmen zur Berechnung von linguistischen Kollokationen Problematik der Unschärfe der Definitionen und Unklarheit über Ziele „Klassische“ Algorithmen und aktuelle Entwicklungen (Lehr, Krenn), Mutual Information usw. Evaluierungsmethoden WS 05/06 Automatische Akquisition linguistischen Wissens

4. Berechnungen von Wortassoziationen Teil1: Berechnung auf Thesauri, Grafabstände usw. Problematik der Abhängigkeit von den Taxonomien Teil2: Berechnung über Masse Weeds, Terra &Clarke, Dagan et al. 95, Shvaneveld Satz- Fenster- und Nachbarschaftskookkurrenzen, viele diverse Masse Theoretische Frameworks (Lehr, Rieger) WS 05/06 Automatische Akquisition linguistischen Wissens

5. Musterbasierte Berechnung von Wortähnlichkeiten und Relationen Halbautomatische Berechnung (hier thematisiert, weil menschliche Vorgaben durch andere Algorithmen produziert werden könnten) von Wortähnlichkeiten Relevanz von Information Extraction Relationen wie Antonyme Synonyme Meronyme WS 05/06 Automatische Akquisition linguistischen Wissens

6. Wortähnlichkeiten vollautomatisch „Fenstermethoden“ für Kontextbestimmung Trennung von syntagmatischer und paradigmatischer Stufe Grundlage für weitere Algorithmen Evaluierungsmethode auf Wortnetzen WS 05/06 Automatische Akquisition linguistischen Wissens

7. Unterscheidung von Wortbedeutungen Überblick über Word Sense Disambiguation (WSD) und Word Sense Induction (WSI) im Allgemeinen Wie WSD eine Weile als die Zukunftstechnologie für IR gehandelt wurde und wie die Hoffnungen gar nicht erfüllt wurden Vor- und Nachteile von WSI WS 05/06 Automatische Akquisition linguistischen Wissens

8. Extraktion Morphologischen Wissens I Klassifizierung der Ansätze Vorstellen der MDL/Genetische Algorithmen Ansätze Vorstellen der „Semantik“ basierten Evaluierungsmethoden WS 05/06 Automatische Akquisition linguistischen Wissens

9. Extraktion Morphologischen Wissens II Ursprüngliche letter successor variety (LSV) Idee von (Harris 55) und Implementierung (Hafer & Weiss 74) Nachbarschaftskookkurrenzen mit LSV verbinden oder umgekehrt Leipziger Ansatz WS 05/06 Automatische Akquisition linguistischen Wissens

10. Erkennung/Unterscheidung von Wortklassen Frühere und derzeitige Methoden Schwierigkeit der Evaluierung Problemstellung evtl. nicht korrekt definiert (siehe Chinesisch) Nachbarschaftskookkurrenzbasierte Methode, erste Erfolge WS 05/06 Automatische Akquisition linguistischen Wissens

11. Mining konkreter Wortrelationen Kohyponymidee, auch von Thomas Wittig Clustertechniken Koordinatensystemidee Auch Weeds04 Idee, wie man Hyperonyme berechnen könnte. Dass nämlich Unterbegriff viele der ähnlichen Wörter des Oberbegriffs haben würde, aber nicht umgekehrt Synonyme und Antonyme Abstoßung im Graphen oder Sätzen WS 05/06 Automatische Akquisition linguistischen Wissens

12. Partielles Wissen erweitern, auf Graphen schließen Lexikalisches Wissen kann in hierarchischen Bäumen oder allgemeiner Graphen abgebildet werden „Ableiten“ (nicht im Sinner der Logik) als Färbungsproblem verwandter Algorithmus zur Erweiterung des Wissens Annotationsgraph WS 05/06 Automatische Akquisition linguistischen Wissens

13. Muster lernen, Named Entity recognition Eher experimentelles Seminar, hier soll umgekehrt von bekannten Relationen die sie typischerweise ausdrückenden Muster gelernt werden Grefenstettes Algorithmus + TNT Biemanns Algorithmus Wenn Ideen von Studenten im Verlauf des Seminars geäußert werden, könnten die an dieser Stelle getestet werden WS 05/06 Automatische Akquisition linguistischen Wissens

Automatische Akquisition linguistischen Wissens Testkorpus Bis nächste Woche soll jeder Student 10.000 Sätze in Deutsch gesammelt haben Bedingungen: Jeder Student sammelt andere 10.000 Sätze Format: 1 Satz pro Zeile, keine HTML Tags oder sonstiges Mögliche Ausgangspunkte: Gutenberg projekt (http://gutenberg.spiegel.de/) Negra Korpus 20K Sätze (http://www.coli.uni-saarland.de/projects/sfb378/negra-corpus/) Findlinks plugin und web crawlen Oder Emails ;-) Der Gesamtkorpus wird dann für Demonstrationen bei Referaten genutzt WS 05/06 Automatische Akquisition linguistischen Wissens

Automatische Akquisition linguistischen Wissens Ziele des Seminars Jeder Student sollten anschließend über den aktuellen Forschungsstand in der Forschung informiert sein Etwas Erfahrung im Umgang mit einfachen Korpora haben Realistische Einschätzung der wirklichen Performanz eines neuen Algorithmus aus einer wissenschaftlichen Publikation In der Lage sein, einen Algorithmus aus einer unvollständigen Beschreibung zu verstehen WS 05/06 Automatische Akquisition linguistischen Wissens

Terminplan der Referate Datum Thema Referent 27.10.05 Redewendungen (Krenn, Evert) 03.11.05 Assoziationen (Church) X Assoziationen (Budanitsky,Resnik) 10.11.05 Musterbasiert (Berland,Charniak) 17.11.05 LSA (Deerwester) 24.11.05 Disambiguierung (ClusterSuite) Disambiguierung (SenseClusters, Pedersen) 01.12.05 Morphologie (Goldsmith) Morphologie (Kazakov) 08.12.05 Morphologie (Schone) Morphologie (Baroni) 15.12.05 Wortklassen 12.01.06 Statistikbasierte Relationen (Weeds) Evaluierung Relationen (WSA) 19.01.06 Partielles Wissen erweitern 26.01.06 Muster lernen, Named Entity Recognition WS 05/06 Automatische Akquisition linguistischen Wissens