Automatische Akquisition linguistischen Wissens

Slides:



Advertisements
Ähnliche Präsentationen
Seminar Textmining WS 06/07 Themen Übung 11 unsupervised vs. supervised Symbolfolgen, Kunstsprachen Page Rank.
Advertisements

Seminar Textmining WS 06/07 Themen Übung 9 Multilingualität Weitere Termine: 13.7.Symbolfolgen und PageRank Findlinks mitstreiter gesucht!
WS 05/06Automatische Akquisition linguistischen Wissens1 Vollautomatisches bestimmen von Relationen 1.Anforderungen Welches Wissen und welches nicht Komplexitätsprobleme.
WS 05/06Automatische Akquisition linguistischen Wissens1 Partielles Wissen erweitern 1.Zusammenhang mit bisherigen Algorithmen 2.Vom offensichtlichen zum.
WS 05/06Automatische Akquisition linguistischen Wissens1 Extraktion Morphologischen Wissens 1.Problemstellung - Facetten der Morphologie 2.Anwendungen.
Automatische Akquisition linguistischen Wissens
Automatische Akquisition linguistischen Wissens
Finale Semantik und beobachtbares Verhalten
Wir „lieben“ unsere Unterrichtsfächer
Maschinelle Übersetzung I
Konzeption und Realisierung eines Text- Analysesystems zur Automatisierung der Bewerberauswahl von diesem Datenformat jede beliebige Anwendung adaptieren.
Übersicht DIALIGN = DIagonal ALIGNment
Sortierverfahren Richard Göbel.
Algorithmentheorie 04 –Hashing
Dynamische Programmierung (2) Matrixkettenprodukt
Vorlesung Informatik 3 Einführung in die Theoretische Informatik (05 – Reguläre Ausdrücke) Prof. Dr. Th. Ottmann.
WS Algorithmentheorie 08 – Dynamische Programmierung (2) Matrixkettenprodukt Prof. Dr. Th. Ottmann.
Vorlesung Informatik 2 Algorithmen und Datenstrukturen (27 – Kürzeste Wege) Prof. Th. Ottmann.
Informatik II, SS 2008 Algorithmen und Datenstrukturen Vorlesung 16 Prof. Dr. Thomas Ottmann Algorithmen & Datenstrukturen, Institut für Informatik Fakultät.
Kapitel 1 Das Schubfachprinzip
Reguläre Sprachen Karin Haenelt.
© Karin Haenelt 2006, Äquivalenzen Reg.Ausdrücke, Reg.Sprachen, EA ( ) 1 Reguläre Sprachen Karin Haenelt.
High Performance = Innovative Computer Systems + Efficient Algorithms Friedhelm Meyer auf der Heide 1 HEINZ NIXDORF INSTITUT Universität Paderborn Algorithmen.
Christian Schindelhauer
Titelmasterformat durch Klicken bearbeiten Formatvorlage des Untertitelmasters durch Klicken bearbeiten Die formalen Sprachen bei ETAP Teil II.
Maschinelles Lernen und automatische Textklassifikation
Kakuro Regeln und Strategien
Wiederholung: Einfache Regressionsgleichung
Chaos und Fraktale M. Bostelmann Michael Bostelmann.
Entstehung & Einflüsse Ideen, Wünsche, eigene Überlegungen bisheriges Dateisystem Einschrän- kungen: - technisch - zeitlich - fachlich Literatur, ältere.
Theorien, Methoden, Modelle und Praxis
© Wortstellung im Deutschen Norbert Fries.
Quantum Computing Hartmut Klauck Universität Frankfurt WS 05/
Black Box Algorithmen Hartmut Klauck Universität Frankfurt SS
Quantum Computing Hartmut Klauck Universität Frankfurt WS 04/
Effiziente Algorithmen
Quantum Computing Hartmut Klauck Universität Frankfurt WS 05/
Quantum Computing Hartmut Klauck Universität Frankfurt WS 05/
Black Box Algorithmen Hartmut Klauck Universität Frankfurt SS
Quantum Computing Hartmut Klauck Universität Frankfurt WS 04/
Quantum Computing Hartmut Klauck Universität Frankfurt WS 04/
Quantum Computing Hartmut Klauck Universität Frankfurt WS 04/
Quantum Computing Hartmut Klauck Universität Frankfurt WS 05/ /23.1.
Effiziente Algorithmen Hartmut Klauck Universität Frankfurt SS
Effiziente Algorithmen Hartmut Klauck Universität Frankfurt SS
Effiziente Algorithmen Hartmut Klauck Universität Frankfurt SS
Effiziente Algorithmen Hartmut Klauck Universität Frankfurt SS
Effiziente Algorithmen
Hartmut Klauck Universität Frankfurt SS
Quantum Computing Hartmut Klauck Universität Frankfurt WS 05/
Quantum Computing Hartmut Klauck Universität Frankfurt WS 05/
Beweissysteme Hartmut Klauck Universität Frankfurt WS 06/
Beweissysteme Hartmut Klauck Universität Frankfurt WS 06/
Quantum Computing Hartmut Klauck Universität Frankfurt WS 04/
Information und Kommunikation Hartmut Klauck Universität Frankfurt SS
Korpuslinguistik für und mit Computerlinguistik
Wahrscheinlichkeitsrechnung
Visionen KEP Vorhandene Kulturangebote mehr "vernetzen", so dass man unter Umständen auf andere Unterstützungen zurückgreifen kann 1.
1 Albert-Ludwigs-Universität Freiburg Rechnernetze und Telematik Prof. Dr. Christian Schindelhauer Informatik III Christian Schindelhauer Wintersemester.
Grammatikalische Begriffe im Unterricht
Institut für Softwarewissenschaft – Universität WienP.Brezany 1 Beispiele (Frist: ) Beispiel 1: Sei  = {a, b} ein Alphabet und Q = {q 0, q 1 } eine.
Institut für Kartographie und Geoinformation Prof. Dr. Lutz Plümer Diskrete Mathematik II Foliendesign: Jörg Steinrücken & Tobias Kahn Vorlesung
Wann ist eine Funktion (über den natürlichen Zahlen) berechenbar?
Gliederung der Vorlesung
Referat am Thema: Familientherapeutisch- systemische Ansätze Seminar: ADS mit und ohne Hyperaktivität.
Programmiersprachen II Fortsetzung Datenstrukturen Hashing Prof. Dr. Reiner Güttler Fachbereich GIS HTW.
Programmiersprachen II Fortsetzung Datenstrukturen Balancierte Bäume 3 Prof. Dr. Reiner Güttler Fachbereich GIS HTW.
VORLESUNG 1 Sprachbau Sememe Sätze Redeteilen Wortformen Wortgruppe Morpheme (Begriffe)
Spärliche Kodierung von Videos natürlicher Szenen Vortragender: Christian Fischer.
Grafische Darstellung von Gruppenunterschieden.
 Präsentation transkript:

Automatische Akquisition linguistischen Wissens Automatisches Taggen von Wortklassen, bzw. Part of Speech (POS) Induction Definition Wortklassen, klassischer Konstituententest (Grewendorf) Anwendungen Algorithmen Evaluierungen Referat: (Rapps Algorithmus) WS 05/06 Automatische Akquisition linguistischen Wissens

Automatische Akquisition linguistischen Wissens 1. Problemstellung Die meisten bisher behandelten halb-automatischen Algorithmen sind nur deshalb halb-automatisch, da sie Informationen über Wortklassen zum Funktionieren benötigen Wenn diese Information vollautomatisch extrahierbar wäre, würden eine Menge Algorithmen als vollautomatisch klassifizierbar sein Aus vergangenem Seminar wissen wir, dass einfache Modellierung des Konstituententests bereits sehr Wortklassenhomogene Wörter zu einem Eingabewort liefert WS 05/06 Automatische Akquisition linguistischen Wissens

1.1. Konstituententest: Ersetzungsprobe Einführung in Syntax (Dr. Tania Avgustinova): Teilketten, die in gleicher syntaktischer Position in einer gegebenen Kette austauschbar sind, ohne dass die neu entstandene Kette ungrammatisch ist, können gegebenenfalls Konstituenten sein Für sich genommen reicht der Substitutionstest nicht aus, um eine befriedigende Satzanalyse zu erzeugen. Beim Substitutionstest wird auch darauf geachtet, wie viele Syntagmen ein Paradigma umfasst und in wie vielen verschiedenen Umgebungen ein Paradigma vorkommen kann . In der tatsächlichen Anwendung muss er von der Intuition überprüft und vor allen Dingen durch andere Verfahren ergänzt werden. WS 05/06 Automatische Akquisition linguistischen Wissens

Automatische Akquisition linguistischen Wissens 1.2. Weitere Tests Woran können überhaupt Strukturkomponenten erkannt werden? Ersetzungsprobe Pronominalisierungstest Weglassprobe Hängt mit Redundanzprinzip zusammen Fragetest wer, wann, wohin, warum, … Koordinierungstest Welche Einheiten können (wie) miteinander kombiniert werden Verschiebeprobe Nur bei freier Wortstellung WS 05/06 Automatische Akquisition linguistischen Wissens

1.3. Definition Wortklasse Ergebnis der Klassifizierung der Wörter einer Sprache nach grammatischen und/oder semantischen Merkmalen; je nach den zugrunde liegenden Klassifizierungskriterien unterscheidet sich die Zahl der Wortarten in einer Sprache. (Kim Kluckhohn, Leipzig) Frage: Was sind die grammatischen und/oder semantischen Merkmale (außer wenn der Intuition entnommen) Was kennen wir bislang: Syntagm. Auftreten Paradigmatische Selektion Morphologie (Kodierung grammatischer Merkmale?) Ambiguität (lexikalische oder syntaktische?) WS 05/06 Automatische Akquisition linguistischen Wissens

Automatische Akquisition linguistischen Wissens 2. Anwendungen … es gibt keine/kaum direkte Anwendungen, aber: Automatisches Grammatiklernen, erster Schritt Wortklassen wirklich? Vielleicht gibt es auch eine Vorstufe zu Wortklassen Tagger folgen als nächstes Grammar induction (siehe nächstes Seminar) Direkte Nutznießer wären allerdings fast alle Applikationen, die mit Sprache zu tun haben, IR, Schreibhilfen, usw. WS 05/06 Automatische Akquisition linguistischen Wissens

Automatische Akquisition linguistischen Wissens 3. Algorithmen Der intuitiv erste Ansatz ist der, Features zu definieren grammatische/semantische Merkmale Oder auch praktisch Satz- oder Nachbarschaftskookkurrenzen Anschließend ein beliebiges Clusterverfahren Allerdings Komplexität problematisch: Finde ähnlichstes Paar, fasse zusammen: n^2 Wiederhole so oft, wie es Elemente gibt: n*n^2=n^3 N = Anzahl der Wörter = 500.000 für BNC, 200.000 für unseren Studentenkorpus, also 8.000.000.000.000.000 Operationen, bei 2 GHz (also grob 2Mio Operationen pro Sekunde) sind das 126 Jahre! Und nur für eine Parametereinstellung… Daher oft stark vereinfachte Clusterverfahren (Buckshot, Single Pass), so dass nicht klar, ob mangelnde Performanz nicht nur am Clusterverfahren liegt Plausibel, weil auch bei Sprachlernern Sprache nicht plötzlich auf einmal gelernt wird, sondern Stückchenweise Evaluierung Perplexität, Goldstandard (Cluster purity), coverage WS 05/06 Automatische Akquisition linguistischen Wissens

Automatische Akquisition linguistischen Wissens 3.1. Features Nutzbare Features wären idealerweise grammatische Informationen, wie sie rund um das Wort auftreten: Dass „Fisch“ als Argument von „schwimmt“ verwendet werden kann Dass „schwimmt“ mindestens ein Argument benötigt (Wer schwimmt), aber auch z.B. zwei möglich (Wer schwimmt wohin) oder drei (Wer schwimmt wie/warum wohin) Allerdings unterliegt das dem acquisition bottleneck: Wenn diese Information bereits vorliegt, brauchen wir nichts mehr zu tun Anderes Extrem: reine Nachbarschaftskookkurrenzen Keinerlei Verallgemeinerung Data sparseness, da selbst 50 maliges Vorkommen nur maximal 50 verschiedene Vorkommen, in Wirklichkeit oft viel weniger WS 05/06 Automatische Akquisition linguistischen Wissens

Automatische Akquisition linguistischen Wissens 3.2. Features optimal Optimal vermutlich: weiter gefasste Nachbarschaftskookkurrenzen mit leichten Verallgemeinerungen Vorclustern z.B. dass alle Fischrelevanten Dingen zusammen zu kleiner Gruppe und daher statt Der Hering schwimmt durch das Wasser Der Fisch schwimmt durch den Fluss Besser wäre Der <Gruppe4563> schwimmt durch <Gruppe9873> Daraus dann Nachbarschaftskookkurrenzen Evtl. nicht direkte Nachbarschaftskookkurrenzen, ein wenig mehr Struktur vermutlich hilfreich WS 05/06 Automatische Akquisition linguistischen Wissens

Automatische Akquisition linguistischen Wissens 3.3. Weitere Features Offensichtlich sollten Wörter wie glückliche, glücklicher, unglückliche, glücklichster, usw. zu einer Wortgruppe gehören, aber nicht glückte! Morphologie spielt also vermutlich eine wichtige Rolle, einfach Grundformreduzierung zur Vorclusterung reicht allerdings nicht Offenbar gibt es auch verschiedene syntaktische Bedeutungen eines Wortes: „may“ (could, would, should) oder (april, june, july) Würde Disambiguierungsalgorithmus helfen? Unterscheidet dieser denn zwischen syntaktischen Klassen? Nur dann, wenn sie sich auch thematisch unterscheiden, also bei may ja, aber bei „walk“ (to have a walk, to walk away) aber leider nicht. WS 05/06 Automatische Akquisition linguistischen Wissens

3.4. Vorhandene Algorithmen Bisher relativ wenig und verstreute Forschung zu diesem Thema (Übersicht dank C. Biemann): Finch 92, 93 (und Chater) – hierarchisches clustern 5000 Wörter Schütze 93 – heute : cosinus zw. Kontextvekt., Buckshot clustern Brown Korpus Gauch & Futrelle : mut. inf. hierarch. agglom. Clustern 1000 Wörter Clark 00 : Kullback-Leibler divergence Clark 03: Addiert auch morphologische Information Freitag 04 : Rapp 05 : SVD hierarch. Clustern 50 Wörter Verwenden oft nur 150-250 frequenteste Wörter als Features oder benutzen SVD zur Dimensionalitätsreduzierung (Rapp) WS 05/06 Automatische Akquisition linguistischen Wissens

Automatische Akquisition linguistischen Wissens 3.5. Beispiele WS 05/06 Automatische Akquisition linguistischen Wissens

3.5.1. Beispiel semantischen Einflusses Cluster #186288: (20 Wörter) A=5 · N=80 · S=10 · V=5 Arbeitslehre · Ethik · Faches · Fachs · Islamkunde · LER · Lebensgestaltung · Lebensgestaltung-Ethik-Religion · Lebensgestaltung-Ethik-Religionskunde · Lebenskunde · Lehrfach · Pflichtfach · Pflichtfaches · Pflichtfachs · Religion · Schulfach · Unterrichtsfach · Unterrichtsfaches · ordentlichen · unterrichtet Cluster #174381: (7 Wörter) A=85 · S=14 eigenständiges · freiwilliges · normales · ordentlichem · ordentliches · reguläres · verbindliches Diese beiden Cluster werden leider im nächsten Schritt vereinigt. WS 05/06 Automatische Akquisition linguistischen Wissens

Automatische Akquisition linguistischen Wissens 4. Evaluierung Goldstandard (Cluster purity) Misst wie viele Prozent eines Clusters von der am meisten vorkommenden Wortklasse sind Gewichtet das nach Clustergröße Problem, dass hohe Baseline (da unter Umständen einfach zufällig sortiert bei 80% Nomen eben 80% purity erreicht wird) Problem, dass zu viele Cluster nicht „bestraft“ werden Coverage Wie viele der Wörter wurden überhaupt insgesamt gesehen der richtigen Wortklasse zugewiesen, wenn nachträglich Clustern Wortklassen vergeben werden Oder wieviele Wörter überhaupt geclustert wurden WS 05/06 Automatische Akquisition linguistischen Wissens

4.1. Evaluierung (Perplexity) Perplexity ist das maß, wie perplex etwas ist, wenn es etwas entscheiden soll. Falls ich die Tag-Sequenz DET ADJ NN VVFIN PP vorliegt und das nächste tag DET ist, Dann prüfen, mit welcher Wahrscheinlichkeit Modell DET vorhersagt z.B. 0.2, perplexity ist dann 1/p = 5 Allerdings kann das natürlich nicht auf globale Cluster gemessen werden, sondern auf konkreten Anwendungen in Sätzen, für welche vorher ein entsprechendes Modell angelernt wurde. WS 05/06 Automatische Akquisition linguistischen Wissens

Automatische Akquisition linguistischen Wissens Referat WS 05/06 Automatische Akquisition linguistischen Wissens