Theoretische Grundlagen

Slides:



Advertisements
Ähnliche Präsentationen
WR + WS ZEIGEN Neues aus der Mathematik.
Advertisements

Seminar Textmining WS 06/07 Themen Übung 11 unsupervised vs. supervised Symbolfolgen, Kunstsprachen Page Rank.
Seminar Textmining WS 06/07 Themen Übung 9 Multilingualität Weitere Termine: 13.7.Symbolfolgen und PageRank Findlinks mitstreiter gesucht!
WS 05/06Automatische Akquisition linguistischen Wissens1 Partielles Wissen erweitern 1.Zusammenhang mit bisherigen Algorithmen 2.Vom offensichtlichen zum.
Automatische Akquisition linguistischen Wissens
Nach dem Buch „Garantiert Schreiben lernen“ von Gabriele L. Rico
Wissensmanagement mit semantischen Netzen – Analyse und Vergleich verschiedener Softwarelösungen Autor: Holger Wilhelm Referentin: Prof. Dr. Uta Störl.
EmPra Der Einfluss und die Verarbeitung von emotionalen Reizen
Philosophische Fakultät 3: Empirische Humanwissenschaften Fachrichtung Erziehungswissenschaft Statistik I Anja Fey, M.A.
Anfragesprachen – Dipl. Ing. Ulrich Borchert / FH Merseburg1/8 Thesauren In gewisser Weise bilden Thesauren (Singular Thesaurus, Plural auch Thesauri)
Philosophie der Logik nach Frege I
Lernende Agenten Seminar Softwareagenten Wintersemester 2001/2002 Norman Neuhaus.
Vorlesung Informatik 2 Algorithmen und Datenstrukturen Halbzeit: Was haben wir bisher gelernt? Prof. Th. Ottmann.
Vorlesung Informatik 2 Algorithmen und Datenstrukturen (27 – Kürzeste Wege) Prof. Th. Ottmann.
Kapitel 1 Die natürlichen und die ganze Zahlen. Kapitel 1: Die natürlichen und die ganzen Zahlen © Beutelspacher/Zschiegner April 2005 Seite 2 Inhalt.
WAS WILL WISSENSCHAFT? - Sagen: Was WIE ist
Qualitative Forschung
Was sind Histogramme? (1)
Konfidenzintervalle Intervallschätzung
Datenbankentwurfsprozess
Linguistik Stellen Sie Fragen zum Text (schauen Sie auf Ihre Unterlagen)! Versuchen Sie die gestellten Fragen zu beantworten!
Tutorium
Tutorium Willkommen zurück, in der wunderbaren Welt der Statistik Teil II.
Handlungsplanung und Allgemeines Spiel „Game Description Language (GDL)“ Peter Kissmann.
Entitäten Extraktion Wichtige Schritte Petra Maier WS 05/06.
Was atmet. Eine Rose. Die Haut. Ein Molekül. Holz
Deutsch als Zweitsprache: Experimentelle Methoden WS 2013/2014
Histogramm/empirische Verteilung Verteilungen
Effiziente Algorithmen
Zeichentheorie I.
Internet ohne Barrieren - Und was ist mit der Sprache?
Sprachen lernen in der Schule
Einführung in die beurteilende Statistik
Das expandierende Universum
Computational Thinking Online Algorithmen [Was ist es wert, die Zukunft zu kennen?] Kurt Mehlhorn Konstantinos Panagiotou.
Da ist was dran ! Michael war so eine Art Typ,
© Wortstellung im Deutschen Norbert Fries.
Quantum Computing Hartmut Klauck Universität Frankfurt WS 05/
Black Box Algorithmen Hartmut Klauck Universität Frankfurt SS
Black Box Algorithmen Hartmut Klauck Universität Frankfurt SS
Quantum Computing Hartmut Klauck Universität Frankfurt WS 05/ /23.1.
Effiziente Algorithmen Hartmut Klauck Universität Frankfurt SS
Hartmut Klauck Universität Frankfurt SS
Beweissysteme Hartmut Klauck Universität Frankfurt WS 06/
Beweissysteme Hartmut Klauck Universität Frankfurt WS 06/
Information und Kommunikation
Anspruchsmerkmale und technische Äquivalente
Formale Sprachen Grammatiken und die Chomsky-Hierarchie
Wahrscheinlichkeitsrechnung
Resultate Umfrage Partizipation Arbeitsgruppe DeLL Befragt wurden im Dezember 2010 alle 3., 4. und 5. Klassen Es wurde differenziert nach Ebenen: Schule,
Malcolm – 1. Teil Malcolm interpretiert Descartes mit Blick auf die Frage nach der Natur des Denkens (dem cogito) folgendermaßen: Jeder mentale oder bewusste.
Fragen und Einwände hinsichtlich der Möglichkeit einer Schöpfungsforschung Thomas Waschke
Elternabend der Schule … vom …
ENDLICHE KÖRPER RSA – VERFAHREN.
Petrinetze 1. Einführung Informatik : wesentlich Modellierung von
Gewaltfreie Kommunikation (GfK)
Lernmodelle und Experimentelle Untersuchungen
Methoden Die klassische Methode der Psycholinguistik (genauso wie der experimentellen Psychologie im Allgemeinen) ist die Messung von Reaktionszeiten.
Grammatikalische Begriffe im Unterricht
Vorbereitung einer Reflexion der Testdurchführung
HEURISTIKEN.
Unterricht vorbereiten und durchführen
Darstellung von Forschungsergebnissen mit Posterpräsentationen: Erwartungen und Möglichkeiten Jan Haut (Kontakt: Das Poster.
Kognitive Methoden  Als eine Auseinandersetzung mit der behavioristischen Lerntheorie Skinners  entsteht in den späten 60-er Jahren eine Verbindung.
ResA am Arbeitsplatz Das Vorgehen ist angelehnt an „5 S“ und bietet Ihnen die Möglichkeit das Konzept der 5 Disziplinen ressourcenschonenden Arbeitens.
Operatoren Ein Operator zeigt an, welchen Teilbereich und in welcher Tiefe der Sachverhalt dargestellt werden soll. Je nachdem, welcher Operator verwendet.
Spärliche Kodierung von Videos natürlicher Szenen Vortragender: Christian Fischer.
Vo#1:Semantik als Wissenschaft Semantik I Matej-Bel-Universität in Banská Bystrica Zuzana Tuhárska.
Folie 1 Kulturelle Vielfalt: eine ethische Reflexion Peter Schaber (Universität Zürich)
 Präsentation transkript:

Theoretische Grundlagen Ziele Empirie vs. Introspektion C. S. Peirce de Saussure L. Hjelmslev Hypothesen Sampling: Repräsentativität und Balanciertheit von Korpora WS 05/06 Automatische Akquisition linguistischen Wissens

Automatische Akquisition linguistischen Wissens 1. Ziele Erstellung und Vervollständigung von Sprachressourcen hat Tradition, die mehrere Jahrhunderte zurückreicht: Ursprünglich hauptsächlich mit normativem Charakter Vorwiegend Sammlungen von Wortlisten evtl. mit kurzen Erläuterungen Wörterbücher Ziel von Linguisten war auch die Sprache als Objekt zu beschreiben und untersuchbar zu machen Dabei rückten immer weitere Bereiche der Sprache in das Blickfeld der Forscher: Wortliste mit Belegstellen, Grammatiken, Phonologie, Textstrukturen usw. Mit dem Beginn der „Chomsky-Ära“ besonderer Augenmerk auf zunehmende umfangreichere Grammatikregelsammlungen WS 05/06 Automatische Akquisition linguistischen Wissens

1.1. Einfluss der Computerverfügbarkeit Später zunehmende Verfügbarkeit von Rechnern und ihrer Kapazität Damit Wandlung von Untersuchung von Sprache von theoretischer Übung (mit vereinzelten Applikationen wie in früher Psycholinguistik) hin zu Anwendungen Erste Anwendungen im Information Retrieval: Wortliste für Index und Grundformreduzierung für Komprimierung des Index Thesaurus für Suchanfragenerweiterungen Weitere Anwendungen folgten, wie Rechtschreibkontrolle Bibliotheksverwaltungen (Taxonomien, Stichworte) … WS 05/06 Automatische Akquisition linguistischen Wissens

Automatische Akquisition linguistischen Wissens 1.2. Großrechensysteme In den 70er und 80er Jahren Mainframes und Großrechensysteme: entsprechend gering nahmen sich die Kosten für die Erstellung von Ressourcen wie Taxonomien, Thesauri u.ä. neben den Kosten für die Konstruktion und Betrieben der Systeme aus. Die Auswahl der betreffenden Sprachen gering: Englisch und vielleicht noch Deutsch/Spanisch/Französisch Gleichzeitiger Einfluss der „Chomskianer“ führte zu einem überproportionalem Fluss der Mittel in die Erforschung von Parsern und Sprachgenerierern, die zunehmend Grammatik beherrschten, sonst aber nichts Aber auch dafür teils gigantischer Aufwand an manueller Arbeit für Trainingsmengen und/oder Regelmengen Bis dahin nur wenig alternative Forschung: Zipf 40er, Firth, Harris 50er, 60er WS 05/06 Automatische Akquisition linguistischen Wissens

Automatische Akquisition linguistischen Wissens 1.3. Personal Computers In den 90er bis zur heutigen Zeit mehrere Faktoren: Abnehmende Bedeutung von Großrechensystemen zugunsten von Personal Computers (PCs) Explosionsartig wachsende Textmengen Entsprechend wachsende Anwendungsbereiche und Bedarf für Sprachtechnologie Zunehmende Verschiedensprachlichkeit Mit neuen Sprachen kamen auch neue Probleme, die in bewährte Konzepte nicht mehr passten Ernüchterung über Sprachtechnologie (siehe Verbmobil), speziell über was sich mit einem perfekten Grammatiksystem überhaupt erreichen lässt … führten zu einem stetigen wiederaufleben Empiriebasierter, d.h. Korpusbasierter Forschung und möglichst automatischen Ansätzen zur Ressourcengewinnung WS 05/06 Automatische Akquisition linguistischen Wissens

1.4. Aktuelle Zielstellungen Erstellung von möglichst umfangreichen Sprachressourcen unter Einsatz von möglichst wenig manueller Arbeit Dafür (fast) beliebig viel Rechenleistung Auch (fast) beliebig viel Text, dieser aber größtenteils roh Art des linguistischen Wissens, bzw. Struktur der Sprache: Grammatik Wortklassen, Textstrukturen Wortbedeutungen, Redewendungen Synonyme, Meronyme, Antonyme, … auch weniger hilfreiche Ressourcen wie Merkmalsmatrizen für Dependenzgrammatiken Ziel ist also die Entwicklung von Methoden, mit den sich möglichst viele Sorten der Ressource „linguistisches Wissen“ aus dem billigen Rohstoff „Text“ extrahieren lässt WS 05/06 Automatische Akquisition linguistischen Wissens

2. Empirie vs. Introspektion Annahme der Existenz einer Universalgrammatik, die es zu entdecken gilt Basierend auf dem eigenen Verständnis von Sprache versuchen, diese umfassend zu verstehen und zu beschreiben Ergebnis: „Beschreibung“ in Form eines Regelwerks oder Algorithmus, welcher in der Lage ist, Sprache korrekt zu verarbeiten (generieren, verstehen, entscheiden ob etwas korrekt ist usw.) (und das ganze verallgemeinerbar auf andere Sprachen) Empirie: Basierend auf einer endlich großen Beobachtung versuchen, diese umfassend zu verstehen und zu beschreiben (wie Dekodierung einer chiffrierten Nachricht) Ergebnis: Komplette Beschreibung aller Strukturen einer Sprache WS 05/06 Automatische Akquisition linguistischen Wissens

Automatische Akquisition linguistischen Wissens 2.1. „Strukturalismus“ Beschreibung aller Strukturen Bedeutung von Einheiten ergeben sich aus Struktur, bzw. Benutzung oder Bezug zu anderen Einheiten und ist somit berechenbar Wittgenstein: TPL 3.326: Um das Symbol am Zeichen zu erkennen, muss man auf den sinnvollen Gebrauch achten Wie Puzzle: Jdi hfif obdi Ibvtf. Jdi tdixjnnf obdi Ibvtf. Jdi sfoof obdi Ibvtf. Mit brute force wie beim Puzzle jedoch nicht lösbar, da zu komplex und im Gegensatz zum Puzzle keine eindeutige Lösung Ich gehe nach Hause. Ich schwimme nach Hause. Ich renne nach Hause. WS 05/06 Automatische Akquisition linguistischen Wissens

2.2. Charles Sanderson Peirces Sprachwissenschaft Peirce vor allem Logiker (führte Wahrheitstabellen ein, führte Standardnotation für Wahrheitslogik erster Ordnung ein) Methode: Abduktion („Wo Rauch ist, ist Feuer“) als Vorstufe zu Induktion (Vom einzelnen auf’s Allgemeine) und Deduktion (Vom Allgemeinen auf’s einzelne) Bedeutung ist mehrschichtig: Monadische, erste Ordnung und zweite Ordnung Relationen Zeichen, existiert in einer monadischen Relation zu sich selbst Als zweite Schicht gibt es die Relationen erster Ordnung wie Zeichen-Objekt, Zeichen-Interpretant und Interpretant-Objekt, diese weiter unterteilt in ikonische Relationen Indexische Relationen Symbolische Relationen Als dritte Schicht die triadische Relation zweiter Ordnung Zeichen-Interpretant-Objekt WS 05/06 Automatische Akquisition linguistischen Wissens

Automatische Akquisition linguistischen Wissens 2.2.1. Peirce II Ein Interpretant ist unterteilt in mehrere verschiedene Typen: Unmittelbarer Interpretant: direkte Wahrnehmung, hat mit der unmittelbaren Bedeutung/Wert des z.B. Objekts zu tun Dynamischer Interpretant: Alles mögliche, was eine Person von einem Zeichen in einem spezifischen Kontext ableiten kann Logischer Interpretant: Ist die Wirkung von Zeichen, dass sie selbst wiederum für andere Zeichen stehen können Wird auch zu Strukturalisten gezählt, weil eine gegenseitige Abhängigkeit der Bedeutungen von Wörtern vorschlug „Struktur“ der Bedeutung zwischen einzelnen Wörtern Wenn die Bedeutung eines Wortes sich ändert, ändert sich geringfügig auch die Bedeutung der mit diesem in Relation stehenden Aber wird auch insb. von Chomsky gern als „Vater“ seiner UG gesehen WS 05/06 Automatische Akquisition linguistischen Wissens

2.3. Ferdinand de Saussures „Cours de Linguistique“ Sprache ist ein „Objekt“ und kann als solches untersucht werden Jede linguistische Einheit ist strukturiert und Bestandteil einer Struktur und steht in syntagmatischen (eher in konkreten Äußerungen) und assoziativen (paradigmatischen) Relationen (eher allgemein) zu anderen Es gibt sprachliche Ebenen (Phonologie, Morphologie, Wortebene, Satzebene usw.) und die syntagmatischen und paradigmatischen Prinzipien gelten für jede Ebene Ein Haus ge-geb-en Ein Gedicht ge-schrieb-en Sprache ist dynamisches System (Bedeutung eines Wortes hängt mit Bedeutungen anderer Wörter zusammen) Gleichzeitig statisches System (synchronisch) und kontinuierliche Entwicklung (diachronisch) WS 05/06 Automatische Akquisition linguistischen Wissens

Automatische Akquisition linguistischen Wissens 2.4. Louis Hjelmslevs Formulierter als erster 74! explizit das Strukturalistische Prinzip, wobei Jakobson ca. 1928 oder 1929 in den Travaux du Cercle Linguistique de Prague diesen Begriff als erster Verwendete Ziel der Linguistik ist die Exploration von Sprachlichen Systemen, welche nur indirekt beobachtbar sind. Durch derartige Explorationen sollte man ein Kalkül (Verwendung fast Synonym zu Algorithmus) erhalten, welches es erlaubt, alle Möglichkeiten von Kombinationen von sprachlichen Einheiten zu Sinnvollen Einheiten zu berechnen. Ziel ist die Erstellung der Beschreibung einer Sprache Die Beschreibung muss Widerspruchsfrei und so einfach wie möglich sein Die Vollständigkeit ist wichtiger als das Abhandensein von Widersprüchen Nur unter Verwendung der richtigen empirischen Mittel kann es möglich sein, das Kalkül zu finden. Seine Formulierungen schließen allerdings diachronische Entwicklung von Sprache im großen und ganzen aus. WS 05/06 Automatische Akquisition linguistischen Wissens

2.5. Begründer des Strukturalismus: Unterschiede Peirce De Saussure Hjelmslev Bedeutung: 3 Teile Zeichen Objekt Interpretant/ Konzept Zeichen 2 Teile, Konzepte und Laut/Zeichenbilder Bedeutung dynamisch Unterteilung von Sprache in mehrere Sprachlevels Dabei paradigmatische und syntagmatische Relationen als Grundprinzipien auf jedem Level WS 05/06 Automatische Akquisition linguistischen Wissens

2.6. Empirie: Zusammenfassung Beobachten: unabhängige Experimente, um die untersuchte Sprache auf Einzelaspekte und Zusammenhänge zu untersuchen. Ziel ist möglichst viele Effekte zu finden Mindestens so viele Beobachtungen, um Verallgemeinerungen zuverlässig zu ermöglichen – d.h. nicht alle möglichen Beobachtungen müssen erfolgen Lernen: Regelmäßigkeiten verallgemeinern, Hypothesen formulieren, um Gründe für die Zusammenhänge und Regelmäßigkeiten zu finden Verifizieren: Alle Hypothesen müssen stets verifiziert werden Ein gelerntes System kann nie als wirklich vollständig verstanden werden, höchstens aktuell WS 05/06 Automatische Akquisition linguistischen Wissens

Automatische Akquisition linguistischen Wissens E. Welche Mittel? Aufgabe: Bestimmen Sie für jede Sprache welches die korrekten Übersetzungen sind. Alphabetische Sortierung hilft gar nicht Dafür aber Wortlänge – aber nur in diesem Beispiel Welche Mittel sind universell einsetzbar? Deutsch Englisch Tschechisch Spanisch Russisch Bahnhof book já estación вокзал Buch I kniha libro книга Ich train-station nádraží yo я WS 05/06 Automatische Akquisition linguistischen Wissens

E.1. Weitere einfache Mittel: Frequenz Läßt sich vielleicht Frequenz nutzen? Fluß 7013 Flußbett 419 Flußbecken 6 Flußbebauungen 1 Oder für Übersetzungen? Deutsch 24Mio Englisch 13Mio Bahnhof 13776 book 35097 Buch 72809 I 431454 Ich 551784 train-station 15356* Dampf 2363 steam 6671 WS 05/06 Automatische Akquisition linguistischen Wissens

Automatische Akquisition linguistischen Wissens 3. Hypothesen Komplexer ist das Generieren von Hypothesen: Ausgehend von Beobachtungen Regelmäßigkeiten feststellen und versuchen, ein Modell zu konstruieren, welches korrekte Voraussagen trifft und die Regelmäßigkeiten allen erklärt Beispiel: -e Suffix im Deutschen Frage: Wann tritt es auf, wann nicht? Schule, Sonne, Plätze, Schirme, … Schule, Sonne, Platz, Schirm, … Vermutung: Es gibt ein Merkmal, welches bei manchen Wörtern dafür sorgt, dass der –e Suffix in manchen Kontexten auftritt Plural – aber warum tritt es bei manchen Wörtern immer auf? Genus Wie gelangt man zu diesen Erkenntnissen? WS 05/06 Automatische Akquisition linguistischen Wissens

3.1. Generelle vs. Spezifische Hypothesen Generelle Hypothesen, die vermutlich immer und für jede Sprache gelten, aber so generell sind, dass sie nicht unmittelbar „nützlich“ sind: Sprache ist ein System mit Struktur Prinzip der Linearität Prinzip der Arbitrarität Daraus abgeleitet syntagmatische und paradigmatische Relationen, bzw. das Prinzip der Konkatenation und Abstraktion Prinzip der Redundanz Prinzip des geringsten Aufwandes (Zipfsches Gesetz) Diachrone vs. Synchrone Sprachwissenschaft Dagegen stehen Hypothesen, die nur für eine Sprache oder Sprachfamilie gelten und die gilt es, automatisch generieren zu lassen WS 05/06 Automatische Akquisition linguistischen Wissens

Automatische Akquisition linguistischen Wissens 3.1.1. Struktur der Sprache Dass Sprache ein strukturiertes System ist, ist heute evtl. offensichtlich, war aber nicht immer so Lange Zeit bis de Saussure und den Junggrammatikern (in Leipzig!) folgende Auffassung: Wörter sind eine Liste von Zeichen, die mehr oder weniger eins zu eins mit Objekten in der Welt verbunden sind Sprachliche Äußerungen durch Grammatik definiert Alle Sprachen funktionieren alle mehr oder weniger wie die Indo-Germanischen Historische Grammatik war Hauptuntersuchungsgegenstand und man versuchte Grammatik einer jeweiligen Sprache als von ultimativ Sanskrit abstammend darzustellen, unter (mit Einhergang der Aufklärung) Beachtung von „nationalen“ Eigenheiten WS 05/06 Automatische Akquisition linguistischen Wissens

Automatische Akquisition linguistischen Wissens 3.1.2. Linearität Phoneme, Morpheme, Wörter usw. werden beim Sprechen in eine lineare Form gebracht Weil nicht mehrere gleichzeitig produziert und auch nicht verarbeitet werden können Erklärungen warum das der Fall ist uneinheitlich (Frage: Wenn unser Sprechapparat mehrere Phonome/Wörter gleichzeitig produzieren könnte, würden wir nicht-lineare Sprache sprechen?) Wahrnehmung ist jedoch nicht linearisiert – Linearität dient lediglich der Kodierung von Nachrichten. Allerdings entspricht Linearität von Nachrichten auch unserer Gedanken verkettenden Denkweise, was ein Grund für die intuitive Form von Sprache sein könnte Es gibt Hinweise oder Versuche, Abweichungen von diesem Prinzip zu finden z.B.: Linearität liegt auch den generativen Grammatiken zugrunde – etwas, was Chomsky lange nicht wahrhaben wollte (lt. Roy Harris), allerdings alle Transformationsregeln haben das Ziel, eine sog. Oberflächenstruktur zu produzieren, die linear ist. Wenn es das Ziel nicht gäbe, würden voraussichtlich auch die Regeln nicht existieren Siehe auch Good03.pdf auf Webseite WS 05/06 Automatische Akquisition linguistischen Wissens

Automatische Akquisition linguistischen Wissens 3.1.3. Arbitrarität Form von Zeichen hat im Allgemeinen nichts mit den Eigenschaften oder dem Objekt selbst zu tun, mit welchem es assoziiert wird Dass viele Sprachen ein sehr ähnliches Wort für z.B. Katze (kot, kocka, cat, kitten, …) verwenden hat lediglich historischen Ursprung! Allerdings kann in einem bestehenden System nicht eine arbiträre Änderung vorgenommen werden, bzw. sie würde nicht akzeptiert. Sie ist es unter Umständen möglich ein neues Wort einzuführen wie „nachbokatzt“, aber auf keinen Fall „sdkkflllwre“ Sprache ist ein Code, auf den sich alle Sprecher einigen und der in dem aktiven Sprachgebrauch in „Einvernehmen“ verändert werden kann. WS 05/06 Automatische Akquisition linguistischen Wissens

Automatische Akquisition linguistischen Wissens 3.1.4. Sprachliche Ebenen Struktur der Sprache setzt sich aus mehreren Ebenen zusammen und auf jeder Ebene gibt es Konkatenation, generiert lineare Struktur Regeln ermöglichen Eingrenzung von Möglichkeiten und stellen aller Wahrscheinlichkeit nach etwas wie eingeschliffene Verhaltensmuster dar: Ein Garten kann vielfältige Arten umgegraben werden, wenn man sich aber an eine gewöhnt hat, wird man immer diese benutzen Abstraktion, ermöglicht Selektion über Abstraktionsklassen Stellt alle Arten von Ähnlichkeitsassoziationen dar Katze ist etwas ähnliches wie Hund, allerdings auf andere Art und Weise als Schraubenschlüssel und Spaten, was schwächer ist, als Schraube und Mutter Die beiden Prinzipien gelten für jede einzelne sprachliche Ebene WS 05/06 Automatische Akquisition linguistischen Wissens

Automatische Akquisition linguistischen Wissens 3.1.5. Redundanz Warum reicht es nicht, „Peter Haus verl“ zu sagen, um auszusagen, dass Peter das Haus vor 5 min verlassen hat, um zur Arbeit zu gehen? Rauschen (Fahrzeuggeräusche, Türklappern, Wind, …) sorgt dafür, dass eigentlich nur Bruchstücke des gesagten beim Zuhörer ankommen Zuhörer evtl. nicht informiert über Kontext „Peter hat sein eigenes Haus vor 5 Minuten *** und ging ***, um ein Geld zu verdienen“ Obwohl in diesem Fall zwei Wörter komplett verloren gegangen sind, kann ein Zuhörer den Inhalt des Satzes rekonstruieren Der Rekonstruktionsprozess wird selbst dann erfolgreich sein, wenn Zuhörer über Kontext nicht informiert war WS 05/06 Automatische Akquisition linguistischen Wissens

3.1.6. Prinzip des geringsten Aufwandes Laut George Kingsley Zipf: Optimal für den Sprecher: Der Sprecher würde am liebsten alles mit einem Wort sagen Leider müssten sich beide Sprecher und Zuhörer unendlich viele Wörter merken Optimal für den Zuhörer: Wenn alles genauestens gesagt wird, so dass er kaum Arbeit beim Verstehen hat. Leider müssten beide ziemlich lange beschäftigt sein, zu reden und zuzuhören jeweils Jede Äußerung stellt daher Optimale Abwägung zwischen wie viel muss der Sprecher sagen, so dass der Zuhörer es gerade noch versteht Damit gehen viele Gesetzmäßigkeiten einher, wie Verteilung von Worthäufigkeiten, Strukturen, Wendungen etc. Wenn alle Wörter gleich häufig wären, müssten beide Zuhörer und Sprecher alle kennen, denn schon 10% fehlende Wörter würde ein Verständnis stark erschweren. Wenn jedoch Zipfsche Verteilung zugrunde liegt und Sprecher 100.000 Wörter kennt, während Zuhörer nur 10.000 (also 90% nicht kennt!!), ist Verständnis immer noch möglich, da die 10.000 eine über 95% Textabdeckung garantieren! WS 05/06 Automatische Akquisition linguistischen Wissens

Automatische Akquisition linguistischen Wissens 3.1.7. Diachron vs. synchron Dass Wort Fenster selbst hat historischen Ursprung im Lateinischen Dass es allerdings Fenster wie Meister und Muster heißt statt *Fenschter, *Meischter und *Muschter lässt sich eher im derzeitigen Zustand des Gesamtsystems der derzeitigen Sprache erklären Entgegen vielen Fehlinterpretationen heißt das allerdings nicht, dass wenn das synchrone System untersucht wird, dass die diachronen Faktoren keine Rolle spielen – im Gegenteil, sie sollen gerade, allerdings auch als solche beachtet werden Allerdings da ein Mensch normalerweise auch eine Sprache lernen kann, ohne Ursprünge überhaupt zu kennen, sollte es auch möglich sein, entspr. Algorithmen zu erstellen WS 05/06 Automatische Akquisition linguistischen Wissens

Automatische Akquisition linguistischen Wissens 4. Sampling Um Regelmäßigkeiten beobachten zu können und darüber Verallgemeinerungen anstellen zu können, muss die jeweilige Sprache als beobachtbarer Gegenstand vorliegen Als Erzählung, sprechen Auf Papier vor allem seit der Erfindung des Massendrucks Auf Tonband seit Erfindung von Aufnahmetechniken Elektronisch seit es Computer gibt Derzeitig am einfachsten, wenn komplett elektronisch verfügbar, am ähnlichsten den Lernumständen eines Kindes von Tonaufzeichnungen Allerdings direkt von Tonaufzeichnungen lernen zu lassen ist Unsinn, da auch das Kind zunächst Unterscheidung von Phonemen, Morphemen und Wörtern lernt WS 05/06 Automatische Akquisition linguistischen Wissens

4.1. Annotationen und Evaluation Da ein Korpus dazu verwendet werden soll, davon automatisch Algorithmen lernen zu lassen, ist Annotation (der zu lernenden Strukturen) eigentlich überflüssig. Jedoch stellt sich nach dem Lernschritt die Frage, wie gut denn das Ergebnis war. Ergebnis kann mit manuell erstellten (Teil-)Annotation verglichen werden und unter der Annahme, dass Annotationen richtig waren (nicht selbstverständlich!), kann dann bestimmt werden, ob Algorithmus „gut“ funktioniert hat Gut bedeutet dann entsprechend den Erwartungen, die in Form von Annotationen definiert wurde Allerdings gibt es auch andere indirekte Wege der Evaluierung (z.B. Applikationsbasiert oder direkte Stichprobenbasierte Bewertung d. Ergebnisse) Standard ist jedoch Grundlegende Annotation von Text-, Absatz-, Satz- und Wortgrenzen und für den Fall von Tonaufnahmen eine oder mehrere Transkriptionen WS 05/06 Automatische Akquisition linguistischen Wissens

Automatische Akquisition linguistischen Wissens 4.2. Korpusgröße Eine der ersten Fragen, die sich stellen, ist die erforderliche Korpusgröße Natürlich ist intuitiv mehr besser. Allerdings nicht immer: Korpus aus 50% Zeitungs- und 50% Literatur verdreifachen durch Zeitungstext: Balance 16% Literatur und 84% Zeitung! Wenn Algorithmus z.B. 80% Precision auf (Trainings)Korpus der Größe X erreicht, und Korpus auf 2*X verdoppelt wird, dann wird er Alg. nicht doppelt so gut (also 90% Precision, Fehlerrate halbiert). Oft eher nur logarithmische Annäherung an Maximum Die andere Frage ist nach der Zielstellung: Wenn ein Algorithmus eine Struktur erkennen soll, reicht weniger, als wenn er wenigstens 10.000 korrekte Einträge in diese Struktur finden soll (z.B. Wortklassen) Hängt mit der einfacheren Frage zusammen, wie viel Text beobachtet werden muss, um das 50.001ste verschiedene Wort zu entdecken (Zipfsches Gesetz) Generell ist hängt Antwort sowohl von Sprache als auch von der Qualität des Algorithmus an, wie auch davon, wie sehr die zu beobachtende Struktur von anderen abhängt und wie deutlich sie überhaupt ausgeprägt ist. (z.B. Genus schwächer im Deutschen als im Tschechischen) WS 05/06 Automatische Akquisition linguistischen Wissens

4.3. Balanciertheit, Repräsentativität Die zweite Frage beim Erstellen eines Korpus stellt sich nach Inhalt, bzw. dass das Korpus repräsentativ für die jeweilige Sprache sein soll und Balanciert representative: A single item of information that is representative of a type (WordNet) Somit muss nicht jedes Element eines „Typs“ vorkommen Allerdings genügend Elemente, um einen „Typ“ von allen anderen unterscheiden zu können Repräsentativität kann auch gegenüber Perzeption verstanden werden, also Zeitung vs. Fernseher vs. Radio vs. Literatur (Czech National Corpus) … oder gegenüber Textkategorien (Brown and British National Corpus) balance: harmonious arrangement or relation of parts or elements within a whole (WordNet) Versuch, einige Gesichtspunkte wie Textkategorien gegeneinander zu balancieren, so dass nicht eins über- oder unterrepräsentiert ist WS 05/06 Automatische Akquisition linguistischen Wissens

4.3.1. Einfluss von nicht-Repräsentativität Es ist wichtig, sich Gedanken über die Effekte von Nicht-repräsentativität Wenn z.B. „nur“ ein Zeitungstextkorpus genommen wird, was bedeutet das für Ergebnisse von Textklassifizierungsalgorithmen Sachgebietsklassifizierung Wortklassenerkennung Morphologiezerlegung Extraktion von Redewendungen Oft ist Domänenspezifischkeit explizit gewollt: z.B. Wenn eine Versicherungsfirma ein Emailklassifizierungsprogramm installiert ist es evtl. nicht wichtig, dass dieses genau zwischen Wirbel- und Wirbellosen Tieren unterscheiden kann Diese Domänenabhängigkeit ist mit einem Korpus von Dokumenten aus dieser Domäne automatische gegeben. Die Schwierigkeit gestaltet sich eher darin, ein Korpus zu gestalten, auf welchem Algorithmen für jedermann intuitive Resultate liefern würden da „jedermann“ durchaus unterschiedliche Individuen bezeichnet und „Badezimmersituationen“ schwer in Korpora abbildbar sind WS 05/06 Automatische Akquisition linguistischen Wissens

Automatische Akquisition linguistischen Wissens 4.4. Komplettheit Können zwei Korpora Repräsentativ für eine Sprache sein, wenn sie nicht einen einzigen Satz/Text gemeinsam haben? Streng mathematisch: Ja, wenn die Definition einer Stichprobe zugrundegelegt wird: (Eine Umfrage, die 1000 zufällig gewählte Menschen befragt wird entspr. Auch auf das gleiche Ergebnis kommen, wie eine Umfrage, die andere 1000 Menschen befragt) Ab wann ist ein Korpus „komplett“ bezüglich der gewünschten zu beobachtenden Regelmäßigkeiten? Test, ob ein Korpus bereits komplett genug ist: Wenn Algorithmus auf einer zufällig zusammengestellten Hälfte des Korpus zu vergleichbaren Ergebnissen kommen, wie auf anderer Hälfte Wenn allerdings z.B. die „gelernten“ Sachgebiete sich auf beiden Hälften stark unterscheiden, ist das (nur) ein Hinweis darauf, dass Gesamtkorpus noch nicht repräsentativ ist Ebenfalls wichtig zu wissen, ob ein Phänomen nur ein Spezifikum eines Korpus darstellt z.B. wenn alle Text mit Dear … oder Hello, beginnen, handelt es sich um einen Emailkorpus und daraus kann nicht abgeleitet werden, dass alle Text in dieser Sprache so anfangen! WS 05/06 Automatische Akquisition linguistischen Wissens

4.5. Diachronisch vs. synchronisch Gewöhnlicherweise wird bei Erstellung eines Korpus darauf geachtet, Texte aus einem möglichst engen Zeitraum auszuwählen Dadurch wird z.B. Bedeutungsänderung von Wörtern größtenteils vermieden Historische Änderungen durch Lautverschiebungen und ähnliches muß ebenfalls nicht berücksichtigt werden Andererseits ist es mitunter gerade von Interesse, historische Änderungen qualitativ und quantitativ zu erfassen z.B. Für Neuauflage des Dornseiff mussten nicht mehr gebräuchliche Wörter entfernt und neue aufgenommen werden (Schwierigkeit bestand auch darin, dass entspr. Alter Vergleichskorpus nicht vorhanden war) Oder auch direkter Nutzen siehe Wörter des Tages: http://wortschatz.uni-leipzig.de/wort-des-tages WS 05/06 Automatische Akquisition linguistischen Wissens

Automatische Akquisition linguistischen Wissens Zusammenfassung Die Erkenntnis von Sprache als strukturiertes System hat zu der Möglichkeit geführt, Sprache unabhängig von kognitiven Prozessen als auch von der Welt in der sie entstand zu untersuchen Die Verfügbarkeit von Computern ermöglicht aufwändigste Algorithmen, die den Lernprozess des Menschen teilweise simulieren Allgemeine Prinzipien von Sprache können nach und nach in ein System implementiert werden, welches idealerweise auch mit neuen, bisher ungesehenen Sprachen zurecht kommt Eventuell muss eine neue Unterscheidung eingeführt werden, bei der zunächst ein Algorithmus die Struktur entdeckt und ein darauf folgender Algorithmus diese Struktur mit (möglichst allen) Elementen befüllt WS 05/06 Automatische Akquisition linguistischen Wissens

Automatische Akquisition linguistischen Wissens WS 05/06 Automatische Akquisition linguistischen Wissens