Vorlesung: Einführung in die Computerlinguistik

Slides:



Advertisements
Ähnliche Präsentationen
Kulturtransfer und Translation Einige Begriffe – Einige Anwendungen
Advertisements

Pop Jazz C B A Jazz C A Lehrstuhl für Künstliche Intelligenz
What Computers still cant do A Critique of Artificial Reason Hubert L. Dreyfus.
:35 Architektur Moderner Internet Applikationen – Sonderthema 1 Copyright ©2003 Christian Donner. Alle Rechte vorbehalten. Architektur Moderner.
Seminar Textmining WS 06/07 Themen Übung 11 unsupervised vs. supervised Symbolfolgen, Kunstsprachen Page Rank.
Seminar Textmining WS 06/07 Themen Übung 9 Multilingualität Weitere Termine: 13.7.Symbolfolgen und PageRank Findlinks mitstreiter gesucht!
Inhaltlich orientierter Zugriff auf unstrukturierte Daten
8 Behandlung von Begriffen 8.1 Grundlagen aus Logik und Psychologie
Wir „lieben“ unsere Unterrichtsfächer
Konzeption und Realisierung eines Text- Analysesystems zur Automatisierung der Bewerberauswahl von diesem Datenformat jede beliebige Anwendung adaptieren.
Wissensmanagement mit semantischen Netzen – Analyse und Vergleich verschiedener Softwarelösungen Autor: Holger Wilhelm Referentin: Prof. Dr. Uta Störl.
Einführung.
Grundlagen der Analyse von Sprachdatenbanken
DOM (Document Object Model)
Philosophie der Logik nach Frege I
WIRTSCHAFTSINFORMATIK Westfälische Wilhelms-Universität Münster WIRTSCHAFTS INFORMATIK Seminar Software Agenten Agenten als Informationsfilter Referent.
Datenbanken vs. Markup Manfred Thaller WS 2009/2010 Humanities Computing Linda Scholz.
Sprachwissenschaftliches Institut Einführung in die HPSG Grammatiktheorie 4./11. Mai 2004.
Grundkurs Linguistik Programm der Vorlesung Oktober
SYSTRAN Information and translation technologies.
Lexikalisch-Funktionale-Grammatik
Einführung in die Syntax
Referenten: H. Bayer V. Hagemann
-> Sprachpsychologie -> Blickbewegungen
-LABORPRAKTIKUM- SOMMERSEMESTER 2005
Intelligentes Crawling im WWW mit Hilfe intuitiver Suchbedingungen
Zeitgemäßer Mathematik-unterricht mit dem Mathematikbuch
Mehrsprachigkeit aus psycholinguistischer Sicht
Maschinelles Lernen und automatische Textklassifikation
Gradierte Grammatikalität SS 2003 Einheit 1. Quelle des Übels Klassische Linguistik Korpusorientiert (Tote Sprachen/ Literatur- sprachliche Norm) Dialektforschung.
Eine Produktion von der Firma Presentations GmbH
Knowledge Discovery mit Wordnet und Alembic Workbench
? Was ist Informatik? Was ist Informatik? Alexander Lange
Unterwegs im Internet.
Tabor: KI & Sprachtechnologien Reise um die KI Turing-Spiel (Wer ist der Junge?) Turing-Test (Wer ist der Computer?) KI-Systeme simulieren künstl. Intelligenz.
Innsbrucker Rechtsinformatikseminar 10. bis 12. Oktober 2001 Elektronische Strukturierung juristischer Texte Mag. Clemens Rohrer, MAS. Onlaw Ges.m.b.H,
Entwicklung der Programmiersprachen
Project Perseus Der volle Projektname lautet Perseus Digital Library Project. Das Projekt begann in 1985 als Experiment zur Digitalisierung von Bibliotheken.
© Wortstellung im Deutschen Norbert Fries.
EMPIRISCH- KRITISCH- HISTORISCHER ANSATZ
Erfindervon Fuzzy Logic
Kompetenz -, Lern - und Prüfungsbereiche Anforderungsbereiche
ELP-TT Training teachers to use the European Language Portfolio EFSZ-Kurzprojekt ELP_TT2 Koordination: Mag. Margarete Nezbeda.
Context-awareness Andreas Bossard, Matthias Hert.
Paradigmenwechsel in der Unternehmensmodellierung Prof. Dr. Wolfgang Voigt Dipl.-Ing. Päd. Alexander Huwaldt UML Extrakt UML Seminar, Chemnitz
Übung zu Einführung in die LDV I
Elternabend der Schule … vom …
Charles Hohmann, Dr. phil., Institut Montana Zugerberg
Wolfgang Wahlster Der Weg zum sprachverstehenden Computer Deutsches Forschungszentrum für Künstliche Intelligenz GmbH Stuhlsatzenhausweg 3, Geb
1 Strukturierung von Situationen (Strukturierung als Lernkomponente) Thomas Höpfel Seminar für Rechtstheorie und Rechtsinformatik WS 2004/05.
Lernmodelle und Experimentelle Untersuchungen
Mensch – Maschine - Kommunikation
Methoden Die klassische Methode der Psycholinguistik (genauso wie der experimentellen Psychologie im Allgemeinen) ist die Messung von Reaktionszeiten.
Grammatikalische Begriffe im Unterricht
7. Formale Sprachen und Grammatiken
Semantic Web.
Digitale Annotationen. Grundlage: John Bradley “Towards a Richer Sense of Digital Annotation: Moving Beyond a Media Orientation of the Annotation of Digital.
Die Präsentation des Lehrers der 21- allgemeinbildenden Schule des Bezirks Peschkö in Gebiet Buchara von Alijor Jahjojev.
I.B.&IA Anfänger Structura limbii Sommersemester 2015 Dr. Ileana-Maria Ratcu.
Lexikalische Semantik
Vorbereitung einer Reflexion der Testdurchführung
Semantik und Wissensrepräsentation Einleitung   Sprachliches Wissen vs. Weltwissen   Voraussetzungen für Sprachverstehen.
Textproduktion
Bevölkerung in der 3. Welt
Einführung in die Phonetik und Phonologie
Sprachen lernen und erwerben: erste Begriffe und Unterscheidungen Dörthe Uphoff FLM 0640 – Februar.
Bibliotheksarbeit im Fach Natur und Technik: „Der Hund“ Beispiel für eine Unterrichtseinheit in der 5. Jahrgangsstufe des Gymnasiums Susanna Räde, Maximilian-von-Montgelas.
Spärliche Kodierung von Videos natürlicher Szenen Vortragender: Christian Fischer.
Vo#1:Semantik als Wissenschaft Semantik I Matej-Bel-Universität in Banská Bystrica Zuzana Tuhárska.
Wir begrüßen Sie zur Informationsveranstaltung über das
 Präsentation transkript:

Vorlesung: Einführung in die Computerlinguistik Wintersemester 01/02 Vorlesung: Einführung in die Computerlinguistik Hans Uszkoreit

Übersicht des ersten Teils Aufgaben und Einordnung des Faches Motivationen für die Modellierung menschlicher Sprache Computerlinguistik als eine moderne Sprachwissenschaft Repräsentationen und Verarbeitungskomponenten

EINSTIEG Faszination Wissenschaft Technologie

Faszination Mehr noch als Denken ist die Sprache eine Fähigkeit, die nur der Mensch besitzt. Es ist ein Wunder, wie wir in Sekundenschnelle komplexe Gedanken in einem Satz ausdrücken können. Es ist nicht weniger erstaunlich, wie das Kind in nur wenigen Jahren zehntausende von Wörtern und eine komplexe Gramnmatik lernt.

NACHBARWISSENSCHAFTEN Psychologie Linguistik Informatik

NACHBARWISSENSCHAFTEN Psychologie Linguistik Informatik Psycho- linguistik Computer- KI

Die Disziplin Computerlinguistik im weiteren Sinne ist ein zwischen Linguistik und Informatik liegendes interdisziplinäres Forschungsgebiet, das sich mit der maschinellen Verarbeitung natürlicher Sprachen beschäftigt. Computerlinguistik im engeren Sinne ist ein Teilgebiet der modernen Linguistik, das berechenbare Modelle menschlicher Sprache entwirft, implementiert und untersucht.

Die Disziplin Theoretische Computerlinguistik entwirft, implementiert und untersucht die Modelle mit dem Ziel, zum Verständnis, zur Verifikation und zur Verbesserung der zugrundeliegenden linguistischen und psychologischen Theorien beizutragen. Angewandte Computerlinguistik entwirft, implementiert und untersucht die Modelle mit dem Ziel, Softwareanwendungen zu ermöglichen, die über eine (eingeschränkte) Beherrschung menschlicher Sprache verfügen.

Sprachliche Kommunikation

Sprachliche Kommunikation

Sprachliche Kommunikation

Sprachliche Kommunikation

Sprachliche Kommunikation

Grammatik Schallwellen Aktivation von Konzepten

Grammatik ? Schallwellen Aktivation von Konzepten Grammatik

Grammatik Schallwellen Aktivation von Konzepten Grammatik

Grammatik Schallwellen Aktivation von Konzepten Grammatik

Grammatik Schallwellen Aktivation von Konzepten Grammatik

Grammatik Semantikkonstruktion Phonologie/Morphologie Schallwellen Aktivation von Konzepten Grammatik

Grammatik Schallwellen Aktivation von Konzepten Grammatik

Grammatik Schallwellen Aktivation von Konzepten Grammatik

Verwandte Begriffe Maschinelle Sprachverarbeitung Analyse und Generierung von natürlicher Sprache mit dem Computer. Englisch: Natural Language Processing (NLP). Sprachtechnologie(n) Übergriff für die Technologien sprachbeherrschender Systeme. Ingenieurwissenschaftliches Forschungsgebiet, in dem die Sprachtechnologien entwickelt werden. Linguistische Datenverarbeitung (LDV) Traditionell ein Teilgebiet der elektronischen Datenverarbeitung, das sich sowohl mit der Anwendung von Methoden der Datenverarbeitung für die linguistische Forschung als auch mit maschineller Sprachverarbeitung beschäftigt. Die LDV versteht sich heute als ein Gebiet, das die Computerlinguistik einschließt. Sprachdatenverarbeitung Verarbeitung von sprachlichen Daten mit dem Computer. Schließt ein: mono- und multilinguale Textverarbeitung, elektronische Wörterbücher, Konkordanzen, Terminologiebanken, maschinelle und maschinengestützte Übersetzung.

Motivationen sprachwissenschaftliches Interesse Modelle der Grammatik ingenieurwissenschaftliches Interesse sprachtechnologische Anwendungen kognitionswissenschaftliches Interesse Modelle der menschlichen Sprachfähigkeit

Motivationen ingenieur- wissenschaftliche Interessen kognitions- wissenschaftliche Interessen sprach- wissenschaftliche Interessen CL

Motivationen Modelle der Grammatik ingenieur- wissenschaftliche Interessen kognitions- wissenschaftliche Interessen sprach- wissenschaftliche Interessen sprach- technologische Anwendungen Modelle der menschlichen Sprachfähigkeit

Linguistik (H. Bußmann "Lexikon der Sprachwissenschaft") Die Linguistik ist eine "moderne", synchron orientierte, auf die interne Struktur der Sprache bezogene Wissenschaft, die sprachliche Regularitäten auf allen Beschreibungsebenen untersucht und ihre Ergebnisse in explizierter (formalisierter) Beschreibungssprache und in integrierten Modellen darlegt. (H. Bußmann "Lexikon der Sprachwissenschaft")

Teilgebiete der Linguistik Nach Beschreibungsebenen Phonetik Phonologie Morphologie Syntax Semantik Pragmatik/Text/Diskurs Andere Teildisziplinen Psycholinguistik Neurolinguistik Historische Linguistik Sozio- und Ethnolinguistik, Dialektologie Mathematische Linguistik

ASPEKTE DER SPRACHE SPRACHLICHES WISSEN Was sind die Inhalte und Strukturen dieses unbewußten Wissens? SPRACHVERARBEITUNG Wie produzieren und verstehen wir sprachliche Äußerungen? SPRACHERWERB Wie lernt das Kind seine Muttersprache? SPRACHWANDEL Wie entstehen Sprachen, Dialekte, Soziolekte?

Kompetenz und Performanz Sprachliche Kompetenz: die endliche strukturierte Wissensbasis, die es den Sprechern einer Sprache ermöglicht, die wohlgeformten Äußerungen der Sprache zu generieren und zu interpretieren. Sprachliche Performanz: die Generierung oder Interpretation realer Äußerungen, bzw. die Gesamtheit der Prozesse, die beteiligt sind, wenn der Mensch auf der Basis der sprachlichen Kompetenz reale Äußerungen generiert und interpretiert.

Kompetenzmodell Ein Kompetenzmodell sollte beinhalten: Regeln, Prinzipien, Beschränkungen auf jeder Beschreibungsebene, die in ihrem Zusammenwirken genau die wohlgeformten Sätze der Sprache charakterisieren. Es bietet für jede Sprache eine formalisierte endliche Definition einer unendlichen Menge von Paaren <Satz, Bedeutung>. (Dazu gehören: Grammatik, Lexikon, morphologische Regeln, semantische Regeln.)

Performanzmodell Ein Performanzmodell sollte erklären: warum viele ungrammatische Sätze erzeugt werden z.B. Sprechfehler, Grammatikfehler warum viele ungrammatische Sätze verstanden werden z.B. in der der Kommunikation mit Kindern oder Ausländern warum viele grammatische Sätze nicht erzeugt werden z.B. durch Präferenzen in der Generierung warum viele grammatische Sätze nicht verstanden werden z.B. Holzwegsätze wie die Verarbeitung zeitlich strukturiert ist z.B. Effizienz, Abfolge der Verarbeitungsschritte welchen Aufwand die Verarbeitungsschritte erfordern z.B. Abhängigkeiten von anderen kognitiven Belastungen

Performanzkriterien efficiency Fähigkeit, Lösungen mit geringem Zeit- und Speicherbedarf zu liefern accuracy Fähigkeit, linguistisch korrekte Lösungen zu liefern robustness Fähigkeit, mit allen möglichen Eingaben fertigzuwerden coverage größtmögliche Abdeckung der Grammatik specificity Fähigkeit, die intendierte Analyse zu selegieren

Textverstehen phonetische Verarbeitung orthographische Verarbeitung akustische Form geschriebene Form phonetische Verarbeitung orthographische Verarbeitung phonetische o. graphemische Repräsentation morphonologische Verarbeitung morphonologische Repräsentation syntaktische Verarbeitung syntaktische Repräsentation semantische Verarbeitung semantische Repräsentation pragmatische Verarbeitung - Wissensverarbeitung Repräsentation der vollen Bedeutung

Diktat phonetische Verarbeitung orthographische Verarbeitung akustische Form geschriebene Form phonetische Verarbeitung orthographische Verarbeitung phonetische o. graphemische Repräsentation morphonologische Verarbeitung morphonologische Repräsentation das Boot auf dem Main oder daß bot auf dem mein syntaktische Verarbeitung syntaktische Repräsentation semantische Verarbeitung semantische Repräsentation pragmatische Verarbeitung - Wissensverarbeitung Repräsentation der vollen Bedeutung

MaschinelleÜbersetzung akustische Form geschriebene Form phonetische Verarbeitung orthographische Verarbeitung phonetische o. graphemische Repräsentation morphonologische Verarbeitung morphonologische Repräsentation syntaktische Verarbeitung syntaktische Repräsentation semantische Verarbeitung semantische Repräsentation pragmatische Verarbeitung - Wissensverarbeitung Repräsentation der vollen Bedeutung

Beispiele Grammatikfehler und Sprechfehler: Das Verfassen der Kinderbücher und der Reiseberichte haben dem Autor viel Ruhm eingebracht. Die Poxen zum Backen... Holzwegsätze: The canoe floated down the river sank. Er bezichtigte den Vater des Schreibens unkundiger Kinder. Peter beschuldigte sie der Geheimniskrämerei ähnlichen Verhaltens.

Ambiguität phonetische Ambiguität (Homophone) Miene - Mine orthographische Ambiguität (Homographen) übersetzen - übersetzen lexikalische Ambiguität (Homonyme) Ball - Ball morphologische Ambiguität Staubecken - Staubecken Hauptpostsekretär

Ambiguität syntaktische Ambiguität Peter fuhr seinen Freund sturzbetrunken nach Hause. Visiting relatives can be boring. Ich traf den Sohn des Nachbarn mit dem Gewehr. kompositionell-semantische Ambiguität Die zwei Mitarbeiter müssen vier Sprachen beherrschen. pragmatische Ambiguität Könnten Sie die Aufgabe lösen.

Ambiguität I phonetische Ambiguität (Homophone) Miene - Mine orthographische Ambiguität (Homographen) übersetzen - übersetzen lexikalische Ambiguität (Homonyme) Ball - Ball morphologische Ambiguität Staubecken - Staubecken Hauptpostsekretär

Lexikalische Ambiguität Gewisse Lesarten sind weniger stark präferiert: Auf dem Tisch lag ein Heft. Auf der Werkbank lag ein Heft. Ich habe einen Stift gefunden. Ich habe einen jungen Stift gesucht. Die Präferenz für eine Lesart kann durch den Kontext beeinflußt werden: Der Mittelstürmer eröffnete den Ball. versus Der Präsident eröffnete den Ball. Der Gärtner sprengte das Schloß. versus Der Einbrecher sprengte das Schloß. The astronomer married a star. versus The movie director married a star.

Ambiguität II syntaktische Ambiguität Peter fuhr seinen Freund sturzbetrunken nach Hause. Visiting relatives can be boring. Ich traf den Sohn des Nachbarn mit dem Gewehr. kompositionell-semantische Ambiguität Die zwei Mitarbeiter müssen vier Sprachen beherrschen. pragmatische Ambiguität Könnten Sie die Aufgabe lösen.

Ambiguität beim Parsing In fast allen realen Situationen sind Sätze hochgradig ambig. Beispiel: Grammatik: deutsche LFG-Grammatik von Christian Rohrer Parser: XLE Parser von XEROX PARC (Kaplan, Maxwell, Shemtov,...) Korpus: Teilmenge des NEGRA Korpus Frankfurter Rundschau (Saarbrücken) Satzlänge: ca. 16 Wörter Ambiguität: >3000 Lesarten pro Satz (durch heuristische Präferenzen reduziert auf 7 Lesarten)

Ambiguität (Beispiel) „Früher stellten die Frauen der Inseln am Wochenende Kopftücher mit Blumenmotiven her, die ihre Männer an den folgenden Montagen auf dem Markt im Zentrum der Hauptinsel verkauften.“

Ambiguität (Beispiel) „Früher stellten die Frauen der Inseln am Wochenende Kopftücher mit Blumenmotiven her, die ihre Männer an den folgenden Montagen auf dem Markt im Zentrum der Hauptinsel verkauften.“ Der Satz weist lexikalische (L), syntaktische (S) und anaphorische (A) Ambiguitäten auf, die uns nicht auffallen.

258.048 Ambiguität (Beispiel) „Früher stellten die Frauen der Inseln am Wochenende Kopftücher mit Blumenmotiven her, die ihre Männer an den folgenden Montagen auf dem Markt im Zentrum der Hauptinsel verkauften.“ Der Satz weist lexikalische (L), syntaktische (S) und anaphorische (A) Ambiguitäten auf, die uns nicht auffallen. Wieviele Lesarten besitzt dieser Satz? 258.048

Ambiguität (Beispiel) „Früher stellten die Frauen der Inseln am Wochenende Kopftücher mit Blumenmotiven her, die ihre Männer an den folgenden Montagen auf dem Markt im Zentrum der Hauptinsel verkauften.“ Das berechnet sich so: L Früher kann sowohl eigenständiges Adverb als auch Komparativ von früh sein (2); L die Verbform stellten is ambig zwischen Präteritum und Konjunktiv (2); S die Nominalphrase die Frauen kann sowohl Subjekt als auch Objekt des Satzes sein (2); S am Wochenende kann die Insel, die Frauen oder das Verb modifizieren (3); S mit Blumenmotiven kann sich auf die Kopftücher beziehen, ein Instrument der Herstellung sein oder ein Adjunkt im Sinne von gemeinsam mit Blumenmotiven (3); L her hat auch eine direktionale Bedeutung (2);

Ambiguität (Beispiel) „Früher stellten die Frauen der Inseln am Wochenende Kopftücher mit Blumenmotiven her, die ihre Männer an den folgenden Montagen auf dem Markt im Zentrum der Hauptinsel verkauften.“ Und weiter: S der Relativsatz könnte jede der vier Nominalphrasen im Plural modifizieren (4); S sowohl die als auch ihre Männer kann Subjekt des Relativsatzes sein (2); A das Possessivpronomen ihre kann auf jede der Nominalphrasen referieren (4); L Montagen hat eine zweite Lesart als Nominalisierung von montieren (2); S die Hauptinsel kann im Genitiv zu der vorangegangenen NP gehören oder im Dativ die Käuferin bezeichnen (2); S die drei Präpositionalphrasen des Relativsatzes können sich in insgesamt sieben Kombinationen mit den jeweils vorhergehenden NPs oder mit dem Verb verbinden (7); L verkauften zeigt wieder die Ambiguität zwischen Präteritum und Konjunktiv auf (2).

Ambiguität (Beispiel) „Früher stellten die Frauen der Inseln am Wochenende Kopftücher mit Blumenmotiven her, die ihre Männer an den folgenden Montagen auf dem Markt im Zentrum der Hauptinsel verkauften.“ Durch Multiplikation ergibt sich die Gesamtambiguität: 2 x 2 x 2 x 3 x 3 x 2 x 4 x 2 x 4 x 2 x 2 x 7 x 2 = 258.048

warum viele ungrammatische Sätze erzeugt werden Wir wollen wissen... warum viele ungrammatische Sätze erzeugt werden z.B. Sprechfehler, Grammatikfehler warum viele ungrammatische Sätze verstanden werden z.B. in der der Kommunikation mit Kindern oder Ausländern warum viele grammatische Sätze nicht erzeugt werden z.B. durch Präferenzen in der Generierung warum viele grammatische Sätze nicht verstanden werden z.B. Holzwegsätze wie die Verarbeitung zeitlich strukturiert ist z.B. Effizienz, Abfolge der Verarbeitungsschritte welchen Aufwand die Verarbeitungsschritte erfordern z.B. Abhängigkeiten von anderen kognitiven Belastungen

Gedächtnisbelastung Der Wissenschaftler schrieb zwei Bücher über den Ursprung der menschlichen Sprache, die in vielen Fernsehsendungen diskutiert wurden, ab.

Gedächtnisbelastung Der Wissenschaftler schrieb zwei Bücher über den Ursprung der menschlichen Sprache, die in vielen Fernsehsendungen diskutiert wurden, ab.

Hauptansätze der CL statistische und konnektio- nistische Methoden in der CL deklarative linguistische Formalismen in der CL spezielle Verfahren für die CL direkte Programmierung, keine Trennung von Beschreibung und Verarbeitung 1950 1960 1970 1980 1990

Direkte Programmierung Direkte Programmierung in einer traditionellen Programmiersprache. Keine Trennung von Kompetenz und Performanz, also auch keine Trennung von Grammatik und Verarbeitung Beispiele : SYSTRAN, SHRDLU, frühe SFB 100 Systeme Kompetenzmodellierung: als Modelle theoretisch uninteressant, nicht überprüfbar, Kodierung linguistisch uninteressant, schwer erweiterbar Performanzmodellierung: als Modelle theoretisch uninteressant, weil mit der Kompetenz vermischt, keine Ansätze zur Integration psycholinguistischer Erkenntnisse Anwendungspotential: einige wenige Systeme sind zur Anwendungsreife gelangt (z.B. SYSTRAN), fast nicht mehr erweiterbar, für neue Entwicklungen nicht geeignet

Spezielle Verfahren Spezielle Verfahren und Beschreibungssprachen wurden entwickelt. Trennung von Kompetenz und Performanz, vielfach noch immer Vermischung von Wissen und Verarbeitung Beispiele: Augmented Transition Networks (ATN), Augmented Phrase Structure Grammar (APSG), EUROTRA Framework Kompetenzmodellierung: verschieden von den Modellen der Linguistik, als linguistische Modelle theoretisch wenig interessant, vielfach Vermischung mit prozeduralen Elementen Performanzmodellierung: wenige aber sehr ernsthafte Versuche, einige Gesichtspunkte der Performanzmodellierung zu berücksichtigen, Einflüsse der Psycholinguistik, Hindernis ist das Fehlen plausibler Kompetenzmodelle Anwendungspotential: fast alle der heute marktreifen Systeme gehören zu dieser Klasse (z.B. METAL, Q&A)

Deklarative Formalismen Deklarative Grammatikformalismen, in denen sich linguistische Grammatikmodelle und Einzelanalysen kodieren lassen. Dadurch Aufhebung der Trennung von theoretischer Linguistik und Computerlinguistik. Beispiele: fast alle Unifikationsgrammatikmodelle, neuere semantische Formalismen Kompetenzmodellierung: deklarative linguistisch fundierte Modelle; unabhängig von Verarbeitungsrichtung, Verarbeitungsreihenfolge und Verarbeitungsalgorithmen; logisch fundierte Semantik, transparente Modularisierung und Hierarchisierung des Wissens Performanzmodellierung: deduktive Verarbeitung; in den fortgeschrittensten Systemen erfolgt die Verarbeitung durch Typdeduktion; bisher keine plausiblen Kompetenzmodelle Anwendungspotential: noch keine marktreifen System, bisher noch mangelnde Effizienz

Statistische u. konnektionistische Verfahren Statistische Verfahren in der akustischen Spracherkennung (Hidden Markov Models), und in der maschinellen Übersetzung; massiv-paralleler Ansatz zur Modellierung der neuronalen Strukturierung des menschlichen Hirns. Beispiele: Hidden Markov Models (HMM), Parsing mit neuronalen Netzen Kompetenzmodellierung: für die Theoriebildung uninteressant, die Kompetenz ist nicht transparent modelliert, keine Verbindung zu den Theorien der Linguistik, unzureichende Darstellung der Rekursivität Performanzmodellierung: Lernverfahren, massive Parallelität könnte Schlüssel zum Effizienzproblem sein, Potential für die Modellierung linguistischer Präferenzen und anderer unscharfer Konzepte z.B. in der lexikalischen Semantik, Potential für holistische Ansätze Anwendungspotential: großes Potential in der akustischen Spracherkennung und in der akustischen Sprachsynthese, für rein statistische oder neuronale Verfahren geringes Potential in der linguistischen Verarbeitung

Exkurs: Vorzüge und Nachteile der deklarativen Ansätze

Deklarative Formalismen 2 Linguistische Grammatikmodelle: Generalized Phrase Structure Grammar (GPSG), Lexical Functional Grammar (LFG), Head-Driven Phrase Structure Grammar (HPSG), Categorial Unification Grammar (CUG), Computerlinguistische Formalismen: FUG PATR STUF TFS CUF TDL

Exkurs: Probleme des neuronalen Ansatzes Wenn ein Teil der sprachlichen Kompetenz angeboren ist, dann kann der Spracherwerb nicht alleine durch neuronale Lernverfahren modelliert werden. Der Mensch erlernt viele Arten der Sprachverwendung (Performanztypen). Er scheint jedoch die einmal erworbene Kompetenz immer weiter zu verwenden. Selbst wenn das System den Anforderungen des Erstspracherwerbs technisch gewachsen wäre, müßte die Maschine eine ähnliche Sprachsozialisation wie der Mensch durchlaufen, was aus vielen Gründen nicht möglich ist. Rekursion stellt ein Problem für neuronale Netze dar.

Mitteleinbettungen Der Mann, der die Katze beobachtete, staunte. Der Mann, der die Katze, die den Vogel jagte, beobachtete, staunte. Der Mann, der die Katze, die den Vogel, der laut schrie, jagte, beobachtete, staunte.

Mitteleinbettungen Der Hammer, mit dem der Handwerker, den Peter angerufen hatte, die Nägel einschlug, war mindestens drei Pfund schwer.

Beobachtungen Peter hat den Wagen, der seit Tagen vor der Haustür steht, gekauft. Peter hat den Wagen gekauft, der seit Tagen vor der Haustür steht. Peter hat den Wagen, der vor der Haustür steht, langsam und sorgfältig lackiert. Peter hat den Wagen langsam und sorgfältig lackiert, der vor der Haustür steht. Der Mann hat dem Jungen, der aus der Schule kam, den Ball gegeben. Der Mann hat dem Jungen den Ball gegeben, der aus der Schule kam.

Dependenzen Kleine Kinder brauchen viel Liebe Peter gab dem Jungen den Ball

Dependenzen weil Peter dem Jungen den Ball, der vor der Haustür lag, gab weil Peter dem Jungen den Ball gab , der vor der Haustür lag

Das Problem der Sprachbeherrschung ist zu komplex KEINE SPRACHBEHERRSCHUNG OHNE ALLGEMEINES WISSEN Worterkennung Morphologie Syntax Sprachtiefe Semantik Pragmatik Wissensverarbeitung Gegenstandsbereiche Sprachumfang Es gibt viele Anwendungen, die nur begrenzte Sprachbeherrschung benötigen!

Sprachtechnologie und WWW Die Sprache in der multimedialen Informationsgesellschaft Die Mehrsprachigkeit des WWW Probleme der Informationssuche Das Potential der Sprachtechnologie Multilinguale Suche und Navigation

Sprache im WWW Sprache ist nur ein Medium auf dem WWW. Aber unter den verschiedenen Medien hat die Sprache einen besonderen Status. Bücher, Filme, Bilder, Musikstücke und Computerprogramme beschreiben und finden wir am besten mit Sprache. Nur mithilfe der Sprache können wir Wissen strukturieren und sinnvoll vernetzen. Die Sprache ist das Gewebe des World Wide Web

Menschliche Sprache Die Sprache hat Seiten, die dem Menschen leichtfallen, dem Computer hingegen schwer. Insbesondere: Ambiguität: viele Wörter und Phrasen haben mehrere Bedeutungen Paraphrasen: es gibt viele Möglichkeiten, das Gleiche auszudrücken Ungenauigkeit: oft ist die Bedeutung von Ausdrücken unscharf

Heutige Suchtechnologie Wort-Index Boolsche Kombinationen verschiedene Indexierungsverfahren eingeschränkte Morphologie Sortierung nach Relevanz Suche in mehreren Sprachen More than 35 terabytes served surch the web for:  Lyca Surcha First 10 of 45.677 matches: 1. research in mutlilingual IR an easier... Order your free beer today sweat AND tears 2. Sir Winston S. Churchill homepage of... 4. 60s Rock Timeline remember the best... 3. Shinjuku Yamabuki B$h$&$3$=;%5!

Probleme für heutige Suchmaschinen Sie finden nicht genug! Andere Wortformen der Herzog, des Herzogs, die Herzöge Unter- und Überbegriffe Alfa Romeo Zagato roadster sports car car motor vehicle vehicle Paraphrasen steuerliche Gründe, Steuergründe, steuerliche Erwägungen, steuerliche Überlegungen, fiskalische Erwägungen, um Steuern zu sparen, ...

Paraphrasen: Ein kleines Experiment Nehmen wir an, Sie suchten nach Automobilfirmen und gäben daher der Suchmaschine (z.B. HOTBOT) den Suchbegriff “Automobilfirmen” Im Englischen suchten Sie nach: “automobile companies”

Paraphrasen: Ein kleines Experiment automobile companies 704 Automobilfirmen 55

Paraphrasen: Ein kleines Experiment automobile companies 704 car builders 233 car makers 1846 auto makers 2307 automobile makers 181 car companies 3046 cars companies 14 motor companies 194 auto companies 1345 car manufacturers 3056 motor manufacturers 582 automobile manufacturers 4263 manufacturers of cars 151 manufacturers of autos 15 manufacturers of automobiles 165 manufacturers of motor vehicles 55 Automobilfirmen 55 Autohersteller 320 Autobauer 131 Autoproduzenten 26 Autofabrikant 89 Autofirmen 86 Pkw Hersteller 15 Automobilunternehmen 57 Automobilhersteller 602 Kfz-Hersteller 42 Autounternehmen 9 Automobilkonzerne 83 Unternehmen der Automobilbranche 4 Hersteller von Autos 4 Hersteller von Automobilen 13 Hersteller von Kraftfahrzeugen 3

deutsch: Zug, Bahn, Leitung, Schalter englisch: terminal, line, engine Weitere Probleme Sie finden zu viel! Ambiguität deutsch: Zug, Bahn, Leitung, Schalter englisch: terminal, line, engine Polysemie Buch, Schule, printer Eigennamen Personennamen: Maurer, Washington, Chase Ortsbezeichnungen: Essen, Halle, Bismarck

Das Web ist mutlilingual Das WWW war anfangs vorherrschend monolingual (1994 - 96% aller WWW Seiten englisch) Nicht-englische Inhalte nehmen schneller zu. (1996 - 91% englisch, heute ca. 85%)

GLOBALIZATION OF THE USER BASE Share of US Web Users 100 90 80 80 70 60 65 50 US Web Users in % Source: Computer Industry Almanac Inc. January 1998 55 40 40 30 20 10 1991 1995 1998 2000

Relevante Faktoren Entwicklung vom Avantgardemedium zum Massenmedium Ausbreitung in neue Regionen (Lateinamerika, Asien, arabische Welt) Digitalisierung großer Bibliotheken in vielen Ländern Rolle des WWW als globaler Handelsplatz Rolle des WWW als Medium für politische Information und Propaganda Zunahme sozialer und kultureller Inhalte Die Zukunft des WWW ist vielsprachig.

Noch mehr Probleme! Andere Schriftsysteme müssen kodiert und dargestellt werden: Chinesisch, Japanisch, Arabisch, Griechisch,... Die Wortbildungsregeln der Sprachen geraten sich ins Gehege: Skat skating Limes lime Sprachübergreifende Ambiguität stört bei der Suche: Brief brief overview Post post messages Porto Porto travel information Haut Haut Barr cute cute girls

Multilingualität als Herausforderung Eine große Chance tut sich auf: Es wird möglich sein, durch das niedergeschriebene Wissen der Menschheit zu navigieren, ohne an der Sprachgrenze stehenbleiben zu müssen. Diese technologische Herausforderung erfordert aber Fortschritte auf den folgenden Gebieten: lexikalische Semantik konzeptuelle Strukturierung Verbesserungen in maschineller Übersetzung

Maschinelle Übersetzung Die vollautomatische maschinelle Übersetzung (fully automatic maschine translation – FAMT) beliebiger Texte ist heute nicht möglich. Das liegt nicht an der linguistischen Verarbeitung der Texte, sondern am fehlenden Wissen der Maschine über die Inhalte. Für sehr eingeschränkte Gegenstandsbereiche und Textarten können aber brauchbare Übersetzungen geliefert werden. Ansonsten dient die maschinelle Übersetzung heute erfolgreich als Vorstufe für menschliche Übersetzung (machine-assisted human translation – MAHT).

MÜ ist dennoch brauchbar Eine zufriedenstellende automatische Übersetzung beliebiger Texte ist heute also nicht möglich. Aber die Technologie liefert Übersetzungen, die den Leser sehr wohl das Thema und die wesentlichsten Inhalte erkennen lassen. Wir arbeiten mit dem Übersetzungssystem LOGOS. Andere große Übersetzungssysteme (SYSTRAN, METAL) werden ebenfalls für WWW Anwendungen eingesetzt. Die Übersetzungen nennen wir indikative Übersetzungen.

Indikative Übersetzung

Multilinguale Navigation Schnittstelle für die Navigation multilinguale Suche mehrsprachiges Angebot im Web

D A T A M A T TRADOS Das Konsortium Bertelsmann Mulinex Konsortium Deutsches Forschungszentrum für Künstliche Intelligenz GmbH TRADOS i n g e g n e r i a d e i s i s t e m i © Hans Uszkoreit 1998

mulinex: die englische Suchseite

mulinex: englische Eingabe

mulinex: Einschränkung der Suche

mulinex: Anzeige

mulinex: Anzeige (Ausschnitt)

mulinex: Zusammenfassung

Konzeptindex car

Konzeptindex car Personenauto Auto Automobil

Konzeptindex car Personenauto Auto Automobil ...Kraftfahrzeuge für Personen...

Konzeptindex automobile auto car car Personenauto Auto Automobil ...Kraftfahrzeuge für Personen...

Konzeptindex automobile auto car car Personenauto Auto Automobil ...Kraftfahrzeuge für Personen... ...location de voitures...

Konzeptindex motor vehicle automobile auto car car truck Personenauto sports car tank truck ...Kraftfahrzeuge für Personen... ...location de voitures...

BenötigteTechnologien: Konzeptindex BenötigteTechnologien: Sprachidentifikation Lexikalische Desambiguierung Flache syntaktische Analysetechniken Aufbau eines phrasalen Index multilinguale Terminologien Paraphrasen-Glossare

Informationsextraktion In der IE werden gezielt relevante Informationen aus Texten herausgesucht und strukturiert. Bremen, 14. 10. 1997, wiwo: Lagersoftware weiter im Aufwind Die Bremer Firma Trade Consult hat auf einer Pressekonferenz in Hannover die Version 2.0 ihrer erfolgreichen Lagerverwaltungssoftware Store Age vorgestellt.. Die neue Version ermöglicht jetzt auch ... Auf der Pressekonferenz gab Geschäftsführer Franz Merleback auch die Umsatzzahlen der Softwareschmiede für das 3. Quartal bekannt. Wurden im zweiten Quartal bereits über 30 Millionen Mark umgesetzt, so konnte Merleback jetzt das stolze Ergebnis von 42,5 Millionen verkünden. ...

Informationsextraktion In der IE werden gezielt relevante Informationen aus Texten herausgesucht und strukturiert. Bremen, 14. 10. 1997, wiwo: Lagersoftware weiter im Aufwind Die Bremer Firma Trade Consult hat auf einer Pressekonferenz in Hannover die Version 2.0 ihrer erfolgreichen Lagerverwaltungssoftware Store Age vorgestellt.. Die neue Version ermöglicht jetzt auch ... Auf der Pressekonferenz gab Geschäftsführer Franz Merleback auch die Umsatzzahlen der Softwareschmiede für das 3. Quartal bekannt. Wurden im zweiten Quartal bereits über 30 Millionen Mark umgesetzt, so konnte Merleback jetzt das stolze Ergebnis von 42,5 Millionen verkünden. ...

Ausgabe in tabellarischer Form Firma 96Q4 1996 97Q1 97Q2 97Q3 97Q4 1997 Diff. ComSoft 120Mio 110Mio Trade Consult 30 Mio 42,5Mio Z&M 71,0Mio

denn die Sprache ist das Gewebe des Wissens. Ausblick Die Strukturierung des digitalen menschlichen Wissens ist eine der großen Herausforderungen des nächsten Jahrhunderts. Die Sprachtechnologie ist eine Schlüsseltechnologie für dieses ehrgeizige Vorhaben, denn die Sprache ist das Gewebe des Wissens.

Sprachtechnologien im Überblick

Sprachtechnologie in der Wirtschaft