Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

WS 05/06Automatische Akquisition linguistischen Wissens1 Vollautomatisches bestimmen von Relationen 1.Anforderungen Welches Wissen und welches nicht Komplexitätsprobleme.

Ähnliche Präsentationen


Präsentation zum Thema: "WS 05/06Automatische Akquisition linguistischen Wissens1 Vollautomatisches bestimmen von Relationen 1.Anforderungen Welches Wissen und welches nicht Komplexitätsprobleme."—  Präsentation transkript:

1 WS 05/06Automatische Akquisition linguistischen Wissens1 Vollautomatisches bestimmen von Relationen 1.Anforderungen Welches Wissen und welches nicht Komplexitätsprobleme 2.Syntaktische Relationen Grammar induction 3.Semantische Relationen Hyperonyme, meronyme Referat: Weeds 03 und 04 papers

2 WS 05/06Automatische Akquisition linguistischen Wissens Anforderungen Welche Art Wissen könnte überhaupt (wirklich vollautomatisch) extrahiert werden und welche nicht? Domänenunabhängig gibt es stets Synonyme, Meronyme und Hyperonyme. –Aber welche genau, ist Domänenabhängig –Welche Relationen gibt es noch? Domänenabhängig gibt es spezielle Relationen, die in anderen Domänen keinen Sinn ergeben, bzw. nicht existent sind –Chemische Stoffe in Medizin haben Relation des Reagierens oder Nicht- reagierens miteinander, welche z.B. Endo- oder Exoterm sein kann. Idealerweise Algorithmus derart allgemein, dass alle findbaren Relationen gefunden werden Findbar: Durch eigenen Sprachgebrauch, bzw. sprachl. Strukturen markiert –Beispiel die chemischen Strukturen sind einach an Morphologie erkennbar

3 WS 05/06Automatische Akquisition linguistischen Wissens Komplexitätsprobleme Theoretisch wäre es möglich, Evaluierung zu definieren und anschließend alle Möglichkeiten von Features und Clusterverfahren durchprobieren. –Analyse des generierten Verfahren ergäbe dann verstehen des erwünschten Phänomens. Demgegenüber steht allerdings, dass selbst eine der Möglichkeiten auf modernen PCs Wochen dauern kann, d.h. auch Mit Hilfe des Moorschen Gesetzes lässt sich voraussehen, dass das keine gute Lösung. –Clustern von 100K Wörtern unter Ausnutzung von Features: Nachbarschaftskookkurrenzen (nur links, nur rechts, beides) (eher syntaktisch) Mit Fenstergrösse (gemischt) Satzkookkurrenzen (eher semantisch?) Partielle Satzstrukturen (grammatische Strukturen?) Mit verschiedenen Clusterverfahren, Parametereinstellungen usw.

4 WS 05/06Automatische Akquisition linguistischen Wissens Syntaktische Strukturen Extraktion syntaktischer Strukturen (was über reines Wortklassentagging hinausgeht) schon dadurch schwierig, weil Ziel unklar –Sollen Dependenzstrukturen gefunden werden? –Oder Kontextfreie Grammatik? –Oder lediglich Subjekt- Objekt (also vereinfachte Dependenz) –Oder vielleicht das, was extrahierbar ist und Arbeit besteht dann darin, die extrahierten Strukturen zu verstehen? Ausserdem unklar, in welche Sorten von Datenstrukturen überhaupt abgebildet werden soll –Reichen bereits einfache Terminalregeln? –Oder Bäume? –Oder müssen es komplexe Graphen sein?

5 WS 05/06Automatische Akquisition linguistischen Wissens Grammar Induction Grammar Induction [..] can be formulated as the task of discovering common structures in examples which are supposed to be generated by the same process. (Pierre Dupont) –Auch genannt automata induction oder grammatical inference Allerdings wird darunter meist das Lernen von z.B. einem sehr konkreten DFA von gelabelten Daten verstanden. – (4456 String, 2 Zeichen im Alphabet) –Akzeptiert/nichtAkzepiert Laenge – – – – –Zu dem allen ist auch noch Anzahl der Zustände des DFA bekannt

6 WS 05/06Automatische Akquisition linguistischen Wissens Aktueller Stand Sehr einfache Beispiele von DFA können gelernt werden, Anwendbarkeit auf Sprache bislang jedoch sehr fragliche Forschung findet auf sehr formalem Level statt (Automatische und Sprachen, Logiktheorie) Einige andere Projekte vielversprechend –z.B. GraSp von Henrichsen, in welchem versucht wird, zunächst Kategorien herzuleiten durch Clustern und auf diesen Kategorien wieder zu clustern. Ergebinsse allerdings bislang noch etwas kryptisch

7 WS 05/06Automatische Akquisition linguistischen Wissens Semantische Strukturen Es ist fraglich, ob so genannte semantische Strukturen überhaupt Strukturen sind, in dem Sinne als dass sie in allen Sprache mehr oder weniger gleich vorkommen –Intuitiv ist es klar, dass es Antonyme wohl in jeder Sprache gibt, ebenso wie Über- und Unterbegriffe –Es gibt auch aus der formalen Semantik Formalismen, diese zu beschreiben, welche allerdings wieder ein intuitives Verständnis von Sprache oder der Welt voraussetzen Bsp. Merkmalsemantik: Mann -> +lebendig Leiche -> - lebendig Allerdings, was ist lebendig und wie findet man dieses? Semantische Strukturen könnten allerdings auch als zweiwertige Wortklassen verstanden werden: –Prädikat Substantiv(Berg)=1 –Prädikat Antonym(hoch,tief)=1

8 WS 05/06Automatische Akquisition linguistischen Wissens Beobachtbarkeit Eine andere Frage ist, ob sich diese Strukturen auch wirklich an der Oberfläche der Sprache direkt oder indirekt beobachten lassen –Woran erkennt man in dem Beispiel Ein hoher Berg und ein tiefes Tal. die Antonyme? Für Computer sieht das doch eigentlich in diesem Sinne so aus: Ein xxx Berg und ein yyy Tal. –Durch indirekte Beobachtungen Wissen dass gleiche Wortklasse –Weiterhin als modifizierer vor einer Gruppe von Wörtern, die evtl. irgend etwas gemeinsam haben Auf der einen Seite Berg, Baum, Turm, usw. Auf der anderen Seite Tal, Fluss, Meer, usw. –Vielleicht genügt das bereits, um herauszufinden, dass das zwei einander widersetzliche Adjektive sind?

9 WS 05/06Automatische Akquisition linguistischen Wissens Ober- und Unterbegriffe Idee basiert auf zwei Voraussetzungen: –Wenn ein Wort w i ein Kohyponym von w j ist, dann werden sie auffällig oft miteinander vorkommein und ähnliche globale Kontexte besitzen –Wenn ein Wort w i Oberbegriff von w j ist, dann werden sie zwar selten miteinander auftreten, jedoch ähnliche globale Kontexte besitzen Beispiel: –The cat eats the mouse. The dog hunts the cat. The cow gives milk. The cat, the dog, mouse and even the cow are all mammals. Das kann auch visualisiert werden. –X-Achse als Ähnlichkeit der globalen Kontexte –Z-Achse gemeinsames Auftreten

10 WS 05/06Automatische Akquisition linguistischen Wissens Elefantenbeispiel

11 WS 05/06Automatische Akquisition linguistischen Wissens Reales Beispiel

12 WS 05/06Automatische Akquisition linguistischen Wissens Automatisch verifizierte Beispiele InputwordHyperonymCohyponyms ElefantTierAffe, Elefant, Giraffe, Löwe, Rüssel TyphusKrankheitenGelbfieber, Hepatitis A, Tetanus, Cholera, Fleckfieber, Ruhr, Typhus GelbfieberErkrankungenGelbfieber, geimpft, Impfung, Cholera, impfen, Typhus, Malaria TschechischFremdsprachenRussisch, Französisch, Polnisch, Chinesisch, Englisch, Tschechisch HockeySportartFechten, Rugby, Turnen, Karate, Volleyball, Basketball, Sportarten SingapurAsienJakarta, Thailand, Südkorea, Indonesien, Pte, Singapur, Malaysia YenTokioGeschäftsjahr, NTT, NEC, Fujitsu, US-Währung, Sumitomo, Ortszeit

13 WS 05/06Automatische Akquisition linguistischen Wissens Probleme mit derartigen Ansätzen Semantische Strukturen sind deutlich komplexer als syntaktische oder solche auf niedrigeren sprachlichen Ebenen Offenbar sollten erst Teile des Problems gelöst werden, bevor nächstkomplexes Thema (erfolgreich) in Angriff genommen werden kann –Hier ist nicht bekannt, bei welchem Wort es überhaupt Sinn macht (Wortklassen) –Richtung unbekannt (nicht einfach Frequenz) –Morphologische Information nicht genutzt (Elefant-en, Tier-e) –Meronyme spielt ähnliche Rolle wie Kohyponymie, wird dafür aber Zoo statt Tier präferieren Ist Zoo und Elefant Teil-von? –Ambiguitätsprobleme –Wortähnlichkeit auf anderen Kontexten?

14 WS 05/06Automatische Akquisition linguistischen Wissens14

15 WS 05/06Automatische Akquisition linguistischen Wissens15

16 WS 05/06Automatische Akquisition linguistischen Wissens16


Herunterladen ppt "WS 05/06Automatische Akquisition linguistischen Wissens1 Vollautomatisches bestimmen von Relationen 1.Anforderungen Welches Wissen und welches nicht Komplexitätsprobleme."

Ähnliche Präsentationen


Google-Anzeigen