WS 05/06Automatische Akquisition linguistischen Wissens1 Vollautomatisches bestimmen von Relationen 1.Anforderungen Welches Wissen und welches nicht Komplexitätsprobleme.

Slides:



Advertisements
Ähnliche Präsentationen
... für alle, die mal Ihren IQ testen wollen!
Advertisements

Die deutsche Kommune und ein so genannter „Trust“ in den USA mit z. B
Seminar Textmining WS 06/07 Themen Übung 11 unsupervised vs. supervised Symbolfolgen, Kunstsprachen Page Rank.
Seminar Textmining WS 06/07 Themen Übung 9 Multilingualität Weitere Termine: 13.7.Symbolfolgen und PageRank Findlinks mitstreiter gesucht!
Automatische Akquisition linguistischen Wissens
Automatische Akquisition linguistischen Wissens
WS 05/06Automatische Akquisition linguistischen Wissens1 Partielles Wissen erweitern 1.Zusammenhang mit bisherigen Algorithmen 2.Vom offensichtlichen zum.
Automatische Akquisition linguistischen Wissens
WS 05/06Automatische Akquisition linguistischen Wissens1 Extraktion Morphologischen Wissens 1.Problemstellung - Facetten der Morphologie 2.Anwendungen.
WS 05/06Automatische Akquisition linguistischen Wissens1 Musterbasierte Extraktion spezifischer Relationen (Identifying/detecting/extracting thesaurus.
Automatische Akquisition linguistischen Wissens
Automatische Akquisition linguistischen Wissens
Kapitel 4 Datenstrukturen
On a Buzzword: Hierachical Structure David Parnas.
Anfragesprachen – Dipl. Ing. Ulrich Borchert / FH Merseburg1/8 Thesauren In gewisser Weise bilden Thesauren (Singular Thesaurus, Plural auch Thesauri)
Vorlesung Informatik 3 Einführung in die Theoretische Informatik (06 – Reduktion endlicher Automaten) Prof. Dr. Th. Ottmann.
Vorlesung Informatik 3 Einführung in die Theoretische Informatik (04 – Automaten mit ε-Transitionen) Prof. Dr. Th. Ottmann.
Vorlesung Informatik 3 Einführung in die Theoretische Informatik (03 – Nichtdeterminierte endliche Automaten) Prof. Dr. Th. Ottmann.
Präsentation des Seminararbeitsthemas
Grammatik als Deduktionssystem
Lexikalisch-Funktionale-Grammatik
Einführung in die Syntax
Soziale Interaktion und Alltagsleben
Die Nukleon-Nukleon Wechselwirkung
Die Entwicklung von Konzepten
Messung des pH-Wertes von Weinsäure.
Hauptseminar Automaten und Formale Sprachen
Matthias hat ein interessantes Hobby und uns seine Ausrüstung mitgebracht. Einige Kinder wissen schon sehr viel über Tennis. Trotzdem ergeben sich Fragen,
Stacks Referat im Fach Basisinformationstechnologien von Venelina Koleva.
Grundelemente der Dependenzsyntax
Titelmasterformat durch Klicken bearbeiten Formatvorlage des Untertitelmasters durch Klicken bearbeiten Die formalen Sprachen bei ETAP Teil II.
DÄMONEN Dämonen existieren nicht! Sie entstehen in unserem Kopf!
Eine Produktion von der Firma Presentations GmbH
Was Anfangs nur eine Idee war wurde am zur Wirklichkeit !! Doch welchen Namen sollte der Clan tragen? Der Name sollte etwas ausdrücken !
Eignung von Grammatik-basiertem Layout für grafische Programmiersprachen Seminar Layout-Algorithmen für Graphen Institut für Informatik Christian-Albrechts.
Knowledge Discovery mit Wordnet und Alembic Workbench
Für U2 an der FH in Bingen von Dipl. Inform. (FH) Heidi HannaH Daudistel.
? Was ist Informatik? Was ist Informatik? Alexander Lange
ZITIEREN Nietzsche ist tot!!! (Gott) … aber richtig!!! Gott ist tot!!!
Das folgende Spiel besteht aus 4 Fragen, anhand derer sich Ihre Professionalität messen lässt.   Die Fragen sind gar nicht schwer, also nicht mogeln und.
Theorien, Methoden, Modelle und Praxis
Das folgende kurze Quiz
Dr. Rolf Haenni, University of KonstanzNovember 28, 2002 Page 1/15 Aspekte eine echten Informationstheorie 1.Einführung 2.Informationsalgebren 3.Unsicherheit.
Gesundheit ist ein Geschenk
Aufgabenstellung Aufgabenstellung: What do the following terms (formulae) express? Which of these terms characterize all sequences of real numbers , x_n.
...und alle heißen Leo Der täuschende Zuruf. Hab ihn! Lass ihn! LEO!
Das folgende Fragespiel besteht aus einigen Fragen, die Ihnen etwas über Ihre geistigen Fähigkeiten verraten werden.   Die Fragen sind nicht sehr schwer,
HipHop Projekttage mit Pyranja
Übung zu Einführung in die LDV I
Automaten, formale Sprachen und Berechenbarkeit II SoSe 2004 Prof. W. Brauer Teil 1: Wiederholung (Vor allem Folien von Priv.-Doz. Dr. Kindler vom WS 2001/02.
Hier ein paar Beispiele zu Thema:
Einfach so zum Lesen und Nachdenken
Elternabend der Schule … vom …
Sind Sie intelligent ? Diese Frage ist wichtig (da man ja denkt, dass man intelligenter ist als der Idiot von einem Nachbarn) Hier nun vier Fragen, die.
Back, S.; Weigel, H.: Design for Six Sigma. Hanser, München 2014.
Das folgendes kurze Quiz besteht aus 4 Fragen und sagt aus, ob Sie sich zum Experten eignen! Die Fragen sind nicht so schwierig, also betrügen Sie sich.
Willkommen bei der Präsentation von interessanten Eigenschaften der Wörterbücher Lingea Lexicon. Unter den Seiten können Sie mit Hilfe von Tasten und Maus.
1 Strukturierung von Situationen (Strukturierung als Lernkomponente) Thomas Höpfel Seminar für Rechtstheorie und Rechtsinformatik WS 2004/05.
Grammatikalische Begriffe im Unterricht
Institut für Softwarewissenschaft – Universität WienP.Brezany 1 Beispiele (Frist: ) Beispiel 1: Sei  = {a, b} ein Alphabet und Q = {q 0, q 1 } eine.
7. Formale Sprachen und Grammatiken
Inhalt Einordnung und Funktion der lexikalische Analyse Grundlagen
„Raketen und Stationen….“ Wochenrückblick vom bis Da einige Raketen noch eine Startrampe benötigten, wurde in dieser Woche probiert und.
Sprachprodukttechnologie SS 2001G. Heyer 1 Sprachstatistik  Grundlegende Definitionen  Alphabet Sei NL eine natürliche Sprache und sei A eine Menge von.
Der Taskmanager ist Bestandteil des Betriebssystems, der als Prozessmanager Prozessmanager unter anderem die aktuell laufenden Programme und Prozesse.
Wenn die Haifische Menschen wären Bertolt Brecht
Tiraspoler medizinisches College namens L.A.Tarassewitsch Die Präsentation zum Thema “Der Verkehr des mittleren medizinischen Personals mit dem Patienten.
Vo#1:Semantik als Wissenschaft Semantik I Matej-Bel-Universität in Banská Bystrica Zuzana Tuhárska.
 Präsentation transkript:

WS 05/06Automatische Akquisition linguistischen Wissens1 Vollautomatisches bestimmen von Relationen 1.Anforderungen Welches Wissen und welches nicht Komplexitätsprobleme 2.Syntaktische Relationen Grammar induction 3.Semantische Relationen Hyperonyme, meronyme Referat: Weeds 03 und 04 papers

WS 05/06Automatische Akquisition linguistischen Wissens Anforderungen Welche Art Wissen könnte überhaupt (wirklich vollautomatisch) extrahiert werden und welche nicht? Domänenunabhängig gibt es stets Synonyme, Meronyme und Hyperonyme. –Aber welche genau, ist Domänenabhängig –Welche Relationen gibt es noch? Domänenabhängig gibt es spezielle Relationen, die in anderen Domänen keinen Sinn ergeben, bzw. nicht existent sind –Chemische Stoffe in Medizin haben Relation des Reagierens oder Nicht- reagierens miteinander, welche z.B. Endo- oder Exoterm sein kann. Idealerweise Algorithmus derart allgemein, dass alle findbaren Relationen gefunden werden Findbar: Durch eigenen Sprachgebrauch, bzw. sprachl. Strukturen markiert –Beispiel die chemischen Strukturen sind einach an Morphologie erkennbar

WS 05/06Automatische Akquisition linguistischen Wissens Komplexitätsprobleme Theoretisch wäre es möglich, Evaluierung zu definieren und anschließend alle Möglichkeiten von Features und Clusterverfahren durchprobieren. –Analyse des generierten Verfahren ergäbe dann verstehen des erwünschten Phänomens. Demgegenüber steht allerdings, dass selbst eine der Möglichkeiten auf modernen PCs Wochen dauern kann, d.h. auch Mit Hilfe des Moorschen Gesetzes lässt sich voraussehen, dass das keine gute Lösung. –Clustern von 100K Wörtern unter Ausnutzung von Features: Nachbarschaftskookkurrenzen (nur links, nur rechts, beides) (eher syntaktisch) Mit Fenstergrösse (gemischt) Satzkookkurrenzen (eher semantisch?) Partielle Satzstrukturen (grammatische Strukturen?) Mit verschiedenen Clusterverfahren, Parametereinstellungen usw.

WS 05/06Automatische Akquisition linguistischen Wissens Syntaktische Strukturen Extraktion syntaktischer Strukturen (was über reines Wortklassentagging hinausgeht) schon dadurch schwierig, weil Ziel unklar –Sollen Dependenzstrukturen gefunden werden? –Oder Kontextfreie Grammatik? –Oder lediglich Subjekt- Objekt (also vereinfachte Dependenz) –Oder vielleicht das, was extrahierbar ist und Arbeit besteht dann darin, die extrahierten Strukturen zu verstehen? Ausserdem unklar, in welche Sorten von Datenstrukturen überhaupt abgebildet werden soll –Reichen bereits einfache Terminalregeln? –Oder Bäume? –Oder müssen es komplexe Graphen sein?

WS 05/06Automatische Akquisition linguistischen Wissens Grammar Induction Grammar Induction [..] can be formulated as the task of discovering common structures in examples which are supposed to be generated by the same process. (Pierre Dupont) –Auch genannt automata induction oder grammatical inference Allerdings wird darunter meist das Lernen von z.B. einem sehr konkreten DFA von gelabelten Daten verstanden. – (4456 String, 2 Zeichen im Alphabet) –Akzeptiert/nichtAkzepiert Laenge – – – – –Zu dem allen ist auch noch Anzahl der Zustände des DFA bekannt

WS 05/06Automatische Akquisition linguistischen Wissens Aktueller Stand Sehr einfache Beispiele von DFA können gelernt werden, Anwendbarkeit auf Sprache bislang jedoch sehr fragliche Forschung findet auf sehr formalem Level statt (Automatische und Sprachen, Logiktheorie) Einige andere Projekte vielversprechend –z.B. GraSp von Henrichsen, in welchem versucht wird, zunächst Kategorien herzuleiten durch Clustern und auf diesen Kategorien wieder zu clustern. Ergebinsse allerdings bislang noch etwas kryptisch

WS 05/06Automatische Akquisition linguistischen Wissens Semantische Strukturen Es ist fraglich, ob so genannte semantische Strukturen überhaupt Strukturen sind, in dem Sinne als dass sie in allen Sprache mehr oder weniger gleich vorkommen –Intuitiv ist es klar, dass es Antonyme wohl in jeder Sprache gibt, ebenso wie Über- und Unterbegriffe –Es gibt auch aus der formalen Semantik Formalismen, diese zu beschreiben, welche allerdings wieder ein intuitives Verständnis von Sprache oder der Welt voraussetzen Bsp. Merkmalsemantik: Mann -> +lebendig Leiche -> - lebendig Allerdings, was ist lebendig und wie findet man dieses? Semantische Strukturen könnten allerdings auch als zweiwertige Wortklassen verstanden werden: –Prädikat Substantiv(Berg)=1 –Prädikat Antonym(hoch,tief)=1

WS 05/06Automatische Akquisition linguistischen Wissens Beobachtbarkeit Eine andere Frage ist, ob sich diese Strukturen auch wirklich an der Oberfläche der Sprache direkt oder indirekt beobachten lassen –Woran erkennt man in dem Beispiel Ein hoher Berg und ein tiefes Tal. die Antonyme? Für Computer sieht das doch eigentlich in diesem Sinne so aus: Ein xxx Berg und ein yyy Tal. –Durch indirekte Beobachtungen Wissen dass gleiche Wortklasse –Weiterhin als modifizierer vor einer Gruppe von Wörtern, die evtl. irgend etwas gemeinsam haben Auf der einen Seite Berg, Baum, Turm, usw. Auf der anderen Seite Tal, Fluss, Meer, usw. –Vielleicht genügt das bereits, um herauszufinden, dass das zwei einander widersetzliche Adjektive sind?

WS 05/06Automatische Akquisition linguistischen Wissens Ober- und Unterbegriffe Idee basiert auf zwei Voraussetzungen: –Wenn ein Wort w i ein Kohyponym von w j ist, dann werden sie auffällig oft miteinander vorkommein und ähnliche globale Kontexte besitzen –Wenn ein Wort w i Oberbegriff von w j ist, dann werden sie zwar selten miteinander auftreten, jedoch ähnliche globale Kontexte besitzen Beispiel: –The cat eats the mouse. The dog hunts the cat. The cow gives milk. The cat, the dog, mouse and even the cow are all mammals. Das kann auch visualisiert werden. –X-Achse als Ähnlichkeit der globalen Kontexte –Z-Achse gemeinsames Auftreten

WS 05/06Automatische Akquisition linguistischen Wissens Elefantenbeispiel

WS 05/06Automatische Akquisition linguistischen Wissens Reales Beispiel

WS 05/06Automatische Akquisition linguistischen Wissens Automatisch verifizierte Beispiele InputwordHyperonymCohyponyms ElefantTierAffe, Elefant, Giraffe, Löwe, Rüssel TyphusKrankheitenGelbfieber, Hepatitis A, Tetanus, Cholera, Fleckfieber, Ruhr, Typhus GelbfieberErkrankungenGelbfieber, geimpft, Impfung, Cholera, impfen, Typhus, Malaria TschechischFremdsprachenRussisch, Französisch, Polnisch, Chinesisch, Englisch, Tschechisch HockeySportartFechten, Rugby, Turnen, Karate, Volleyball, Basketball, Sportarten SingapurAsienJakarta, Thailand, Südkorea, Indonesien, Pte, Singapur, Malaysia YenTokioGeschäftsjahr, NTT, NEC, Fujitsu, US-Währung, Sumitomo, Ortszeit

WS 05/06Automatische Akquisition linguistischen Wissens Probleme mit derartigen Ansätzen Semantische Strukturen sind deutlich komplexer als syntaktische oder solche auf niedrigeren sprachlichen Ebenen Offenbar sollten erst Teile des Problems gelöst werden, bevor nächstkomplexes Thema (erfolgreich) in Angriff genommen werden kann –Hier ist nicht bekannt, bei welchem Wort es überhaupt Sinn macht (Wortklassen) –Richtung unbekannt (nicht einfach Frequenz) –Morphologische Information nicht genutzt (Elefant-en, Tier-e) –Meronyme spielt ähnliche Rolle wie Kohyponymie, wird dafür aber Zoo statt Tier präferieren Ist Zoo und Elefant Teil-von? –Ambiguitätsprobleme –Wortähnlichkeit auf anderen Kontexten?

WS 05/06Automatische Akquisition linguistischen Wissens14

WS 05/06Automatische Akquisition linguistischen Wissens15

WS 05/06Automatische Akquisition linguistischen Wissens16