Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

© 2000 Hans Uszkoreit Vorlesung: Einführung in die Computerlinguistik Hans Uszkoreit Wintersemester 01/02.

Ähnliche Präsentationen


Präsentation zum Thema: "© 2000 Hans Uszkoreit Vorlesung: Einführung in die Computerlinguistik Hans Uszkoreit Wintersemester 01/02."—  Präsentation transkript:

1 © 2000 Hans Uszkoreit Vorlesung: Einführung in die Computerlinguistik Hans Uszkoreit Wintersemester 01/02

2 © 2001 Hans Uszkoreit Übersicht des ersten Teils Aufgaben und Einordnung des Faches Aufgaben und Einordnung des Faches Motivationen für die Modellierung menschlicher Sprache Motivationen für die Modellierung menschlicher Sprache Computerlinguistik als eine moderne Sprachwissenschaft Computerlinguistik als eine moderne Sprachwissenschaft Repräsentationen und Verarbeitungskomponenten Repräsentationen und Verarbeitungskomponenten

3 © 2001 Hans Uszkoreit EINSTIEG FaszinationWissenschaftTechnologie

4 Faszination Mehr noch als Denken ist die Sprache eine Fähigkeit, die nur der Mensch besitzt. Es ist ein Wunder, wie wir in Sekundenschnelle komplexe Gedanken in einem Satz ausdrücken können. Es ist nicht weniger erstaunlich, wie das Kind in nur wenigen Jahren zehntausende von Wörtern und eine komplexe Gramnmatik lernt.

5 © 2001 Hans Uszkoreit N ACHBARWISSENSCHAFTEN Psychologie Linguistik Informatik

6 © 2001 Hans Uszkoreit N ACHBARWISSENSCHAFTEN Psychologie Linguistik Informatik Psycho- linguistik Computer- linguistik KI

7 © 2001 Hans Uszkoreit Die Disziplin Computerlinguistik im weiteren Sinne ist ein zwischen Linguistik und Informatik liegendes interdisziplinäres Forschungsgebiet, das sich mit der maschinellen Verarbeitung natürlicher Sprachen beschäftigt. Computerlinguistik im engeren Sinne ist ein Teilgebiet der modernen Linguistik, das berechenbare Modelle menschlicher Sprache entwirft, implementiert und untersucht.

8 © 2001 Hans Uszkoreit Die Disziplin Theoretische Computerlinguistik entwirft, implementiert und untersucht die Modelle mit dem Ziel, zum Verständnis, zur Verifikation und zur Verbesserung der zugrundeliegenden linguistischen und psychologischen Theorien beizutragen. Angewandte Computerlinguistik entwirft, implementiert und untersucht die Modelle mit dem Ziel, Softwareanwendungen zu ermöglichen, die über eine (eingeschränkte) Beherrschung menschlicher Sprache verfügen.

9 © 2001 Hans Uszkoreit Sprachliche Kommunikation

10 © 2001 Hans Uszkoreit Sprachliche Kommunikation

11 © 2001 Hans Uszkoreit Sprachliche Kommunikation

12 © 2001 Hans Uszkoreit Sprachliche Kommunikation

13 © 2001 Hans Uszkoreit Sprachliche Kommunikation

14 © 2001 Hans Uszkoreit Grammatik Schallwellen Aktivation von Konzepten Schallwellen Aktivation von Konzepten

15 © 2001 Hans Uszkoreit Grammatik Schallwellen Aktivation von Konzepten Schallwellen Aktivation von KonzeptenGrammatik

16 © 2001 Hans Uszkoreit Grammatik Schallwellen Aktivation von Konzepten Schallwellen Aktivation von KonzeptenGrammatik

17 © 2001 Hans Uszkoreit Grammatik Schallwellen Aktivation von Konzepten Schallwellen Aktivation von KonzeptenGrammatik

18 © 2001 Hans Uszkoreit Grammatik Schallwellen Aktivation von Konzepten Schallwellen Aktivation von KonzeptenGrammatik

19 © 2001 Hans Uszkoreit Grammatik Schallwellen Aktivation von Konzepten Schallwellen Aktivation von Konzepten Phonologie/Morphologie Grammatik Semantikkonstruktion

20 © 2001 Hans Uszkoreit Grammatik Schallwellen Aktivation von Konzepten Schallwellen Aktivation von KonzeptenGrammatik

21 © 2001 Hans Uszkoreit Grammatik Schallwellen Aktivation von Konzepten Schallwellen Aktivation von KonzeptenGrammatik

22 © 2001 Hans Uszkoreit Maschinelle Sprachverarbeitung Analyse und Generierung von natürlicher Sprache mit dem Computer. Englisch: Natural Language Processing (NLP). Sprachtechnologie(n) Übergriff für die Technologien sprachbeherrschender Systeme. Ingenieurwissenschaftliches Forschungsgebiet, in dem die Sprachtechnologien entwickelt werden. Linguistische Datenverarbeitung (LDV) Traditionell ein Teilgebiet der elektronischen Datenverarbeitung, das sich sowohl mit der Anwendung von Methoden der Datenverarbeitung für die linguistische Forschung als auch mit maschineller Sprachverarbeitung beschäftigt. Die LDV versteht sich heute als ein Gebiet, das die Computerlinguistik einschließt. Sprachdatenverarbeitung Verarbeitung von sprachlichen Daten mit dem Computer. Schließt ein: mono- und multilinguale Textverarbeitung, elektronische Wörterbücher, Konkordanzen, Terminologiebanken, maschinelle und maschinengestützte Übersetzung. Verwandte Begriffe

23 © 2001 Hans Uszkoreit Motivationen kognitionswissenschaftliches Interesse Modelle der menschlichen Sprachfähigkeit kognitionswissenschaftliches Interesse Modelle der menschlichen Sprachfähigkeit ingenieurwissenschaftliches Interesse sprachtechnologische Anwendungen ingenieurwissenschaftliches Interesse sprachtechnologische Anwendungen sprachwissenschaftliches Interesse Modelle der Grammatik sprachwissenschaftliches Interesse Modelle der Grammatik

24 © 2001 Hans Uszkoreit CL Motivationen ingenieur- wissenschaftliche Interessen kognitions- wissenschaftliche Interessen sprach- wissenschaftliche Interessen

25 © 2001 Hans Uszkoreit Motivationen ingenieur- wissenschaftliche Interessen kognitions- wissenschaftliche Interessen sprach- wissenschaftliche Interessen Modelle der Grammatik sprach- technologische Anwendungen Modelle der menschlichen Sprachfähigkeit

26 © 2001 Hans Uszkoreit Die Linguistik ist eine "moderne", synchron orientierte, auf die interne Struktur der Sprache bezogene Wissenschaft, die sprachliche Regularitäten auf allen Beschreibungsebenen untersucht und ihre Ergebnisse in explizierter (formalisierter) Beschreibungssprache und in integrierten Modellen darlegt. Die Linguistik ist eine "moderne", synchron orientierte, auf die interne Struktur der Sprache bezogene Wissenschaft, die sprachliche Regularitäten auf allen Beschreibungsebenen untersucht und ihre Ergebnisse in explizierter (formalisierter) Beschreibungssprache und in integrierten Modellen darlegt. (H. Bußmann "Lexikon der Sprachwissenschaft") (H. Bußmann "Lexikon der Sprachwissenschaft") Linguistik

27 © 2001 Hans Uszkoreit Nach Beschreibungsebenen Nach Beschreibungsebenen PhonetikPhonetik PhonologiePhonologie MorphologieMorphologie SyntaxSyntax SemantikSemantik Pragmatik/Text/DiskursPragmatik/Text/Diskurs Andere Teildisziplinen Andere Teildisziplinen PsycholinguistikPsycholinguistik NeurolinguistikNeurolinguistik Historische LinguistikHistorische Linguistik Sozio- und Ethnolinguistik,Sozio- und Ethnolinguistik, DialektologieDialektologie Mathematische LinguistikMathematische Linguistik Teilgebiete der Linguistik

28 © 2001 Hans Uszkoreit A SPEKTE DER S PRACHE SPRACHLICHES WISSEN Was sind die Inhalte und Strukturen dieses unbewußten Wissens? SPRACHVERARBEITUNG Wie produzieren und verstehen wir sprachliche Äußerungen? SPRACHERWERB Wie lernt das Kind seine Muttersprache? SPRACHWANDEL Wie entstehen Sprachen, Dialekte, Soziolekte?

29 © 2001 Hans Uszkoreit Sprachliche Kompetenz: Sprachliche Kompetenz: die endliche strukturierte Wissensbasis, die es den Sprechern einer Sprache ermöglicht, die wohlgeformten Äußerungen der Sprache zu generieren und zu interpretieren. die endliche strukturierte Wissensbasis, die es den Sprechern einer Sprache ermöglicht, die wohlgeformten Äußerungen der Sprache zu generieren und zu interpretieren. Sprachliche Performanz: Sprachliche Performanz: die Generierung oder Interpretation realer Äußerungen, bzw. die Gesamtheit der Prozesse, die beteiligt sind, wenn der Mensch auf der Basis der sprachlichen Kompetenz reale Äußerungen generiert und interpretiert. Kompetenz und Performanz

30 © 2001 Hans Uszkoreit Ein Kompetenzmodell sollte beinhalten: Regeln, Prinzipien, Beschränkungen auf jeder Beschreibungsebene, die in ihrem Zusammenwirken genau die wohlgeformten Sätze der Sprache charakterisieren. Es bietet für jede Sprache eine formalisierte endliche Definition einer unendlichen Menge von Paaren. (Dazu gehören: Grammatik, Lexikon, morphologische Regeln, semantische Regeln.) Kompetenzmodell

31 © 2001 Hans Uszkoreit Ein Performanzmodell sollte erklären: warum viele ungrammatische Sätze erzeugt werden warum viele ungrammatische Sätze erzeugt werden z.B. Sprechfehler, Grammatikfehler z.B. Sprechfehler, Grammatikfehler warum viele ungrammatische Sätze verstanden werden warum viele ungrammatische Sätze verstanden werden z.B. in der der Kommunikation mit Kindern oder Ausländern z.B. in der der Kommunikation mit Kindern oder Ausländern warum viele grammatische Sätze nicht erzeugt werden warum viele grammatische Sätze nicht erzeugt werden z.B. durch Präferenzen in der Generierung z.B. durch Präferenzen in der Generierung warum viele grammatische Sätze nicht verstanden werden warum viele grammatische Sätze nicht verstanden werden z.B. Holzwegsätze z.B. Holzwegsätze wie die Verarbeitung zeitlich strukturiert ist wie die Verarbeitung zeitlich strukturiert ist z.B. Effizienz, Abfolge der Verarbeitungsschritte z.B. Effizienz, Abfolge der Verarbeitungsschritte welchen Aufwand die Verarbeitungsschritte erfordern welchen Aufwand die Verarbeitungsschritte erfordern z.B. Abhängigkeiten von anderen kognitiven Belastungen z.B. Abhängigkeiten von anderen kognitiven Belastungen Performanzmodell

32 © 2001 Hans Uszkoreit Performanzkriterien efficiency Fähigkeit, Lösungen mit geringem Zeit- und Speicherbedarf zu liefern accuracyFähigkeit, linguistisch korrekte Lösungen zu liefern robustnessFähigkeit, mit allen möglichen Eingaben fertigzuwerden coveragegrößtmögliche Abdeckung der Grammatik specificityFähigkeit, die intendierte Analyse zu selegieren

33 © 2001 Hans Uszkoreit phonetische Verarbeitungorthographische Verarbeitung morphonologische Verarbeitung syntaktische Verarbeitung semantische Verarbeitung pragmatische Verarbeitung - Wissensverarbeitung akustische Form geschriebene Form morphonologische Repräsentation phonetische o. graphemische Repräsentation syntaktische Repräsentation semantische Repräsentation Repräsentation der vollen Bedeutung Textverstehen

34 © 2001 Hans Uszkoreit akustische Form geschriebene Form morphonologische Repräsentation phonetische o. graphemische Repräsentation syntaktische Repräsentation semantische Repräsentation Repräsentation der vollen Bedeutung Diktat das Boot auf dem Main oder daß bot auf dem mein phonetische Verarbeitungorthographische Verarbeitung morphonologische Verarbeitung syntaktische Verarbeitung semantische Verarbeitung pragmatische Verarbeitung - Wissensverarbeitung

35 © 2001 Hans Uszkoreit akustische Form geschriebene Form morphonologische Repräsentation phonetische o. graphemische Repräsentation syntaktische Repräsentation semantische Repräsentation Repräsentation der vollen Bedeutung Maschinelle Übersetzung phonetische Verarbeitungorthographische Verarbeitung morphonologische Verarbeitung syntaktische Verarbeitung semantische Verarbeitung pragmatische Verarbeitung - Wissensverarbeitung

36 © 2001 Hans Uszkoreit Grammatikfehler und Sprechfehler: Grammatikfehler und Sprechfehler: Das Verfassen der Kinderbücher und der Reiseberichte haben dem Autor viel Ruhm eingebracht. Das Verfassen der Kinderbücher und der Reiseberichte haben dem Autor viel Ruhm eingebracht. Die Poxen zum Backen... Die Poxen zum Backen... Holzwegsätze: Holzwegsätze: The canoe floated down the river sank. The canoe floated down the river sank. Er bezichtigte den Vater des Schreibens unkundiger Kinder. Er bezichtigte den Vater des Schreibens unkundiger Kinder. Peter beschuldigte sie der Geheimniskrämerei ähnlichen Verhaltens. Peter beschuldigte sie der Geheimniskrämerei ähnlichen Verhaltens. Beispiele

37 © 2001 Hans Uszkoreit Ambiguität phonetische Ambiguität (Homophone) Miene - Mine orthographische Ambiguität (Homographen) übersetzen - übersetzen lexikalische Ambiguität (Homonyme) Ball - Ball morphologische Ambiguität Staubecken - Staubecken Hauptpostsekretär

38 © 2001 Hans Uszkoreit Ambiguität syntaktische Ambiguität Peter fuhr seinen Freund sturzbetrunken nach Hause. Visiting relatives can be boring. Ich traf den Sohn des Nachbarn mit dem Gewehr. kompositionell-semantische Ambiguität Die zwei Mitarbeiter müssen vier Sprachen beherrschen. pragmatische Ambiguität Könnten Sie die Aufgabe lösen.

39 © 2001 Hans Uszkoreit Ambiguität I phonetische Ambiguität (Homophone) Miene - Mine orthographische Ambiguität (Homographen) übersetzen - übersetzen lexikalische Ambiguität (Homonyme) Ball - Ball morphologische Ambiguität Staubecken - Staubecken Hauptpostsekretär

40 © 2001 Hans Uszkoreit Lexikalische Ambiguität Gewisse Lesarten sind weniger stark präferiert: Auf dem Tisch lag ein Heft. Auf der Werkbank lag ein Heft. Ich habe einen Stift gefunden.Ich habe einen jungen Stift gesucht. Die Präferenz für eine Lesart kann durch den Kontext beeinflußt werden: Der Mittelstürmer eröffnete den Ball. versus Der Präsident eröffnete den Ball. Der Gärtner sprengte das Schloß. versus Der Einbrecher sprengte das Schloß. The astronomer married a star. versus The movie director married a star.

41 © 2001 Hans Uszkoreit Ambiguität II syntaktische Ambiguität syntaktische Ambiguität Peter fuhr seinen Freund sturzbetrunken nach Hause. Peter fuhr seinen Freund sturzbetrunken nach Hause. Visiting relatives can be boring. Visiting relatives can be boring. Ich traf den Sohn des Nachbarn mit dem Gewehr. Ich traf den Sohn des Nachbarn mit dem Gewehr. kompositionell-semantische Ambiguität kompositionell-semantische Ambiguität Die zwei Mitarbeiter müssen vier Sprachen beherrschen. Die zwei Mitarbeiter müssen vier Sprachen beherrschen. pragmatische Ambiguität pragmatische Ambiguität Könnten Sie die Aufgabe lösen. Könnten Sie die Aufgabe lösen.

42 © 2001 Hans Uszkoreit Ambiguität beim Parsing In fast allen realen Situationen sind Sätze hochgradig ambig. Beispiel: Grammatik: deutsche LFG-Grammatik von Christian Rohrer Parser: XLE Parser von XEROX PARC (Kaplan, Maxwell, Shemtov,...) Korpus: Teilmenge des NEGRA Korpus Frankfurter Rundschau (Saarbrücken) Satzlänge:ca. 16 Wörter Satzlänge:ca. 16 Wörter Ambiguität: >3000 Lesarten pro Satz Ambiguität: >3000 Lesarten pro Satz (durch heuristische Präferenzen reduziert auf 7 Lesarten)

43 © 2001 Hans Uszkoreit Früher stellten die Frauen der Inseln am Wochenende Kopftücher mit Blumenmotiven her, die ihre Männer an den folgenden Montagen auf dem Markt im Zentrum der Hauptinsel verkauften. Ambiguität (Beispiel)

44 © 2001 Hans Uszkoreit Früher stellten die Frauen der Inseln am Wochenende Kopftücher mit Blumenmotiven her, die ihre Männer an den folgenden Montagen auf dem Markt im Zentrum der Hauptinsel verkauften. Ambiguität (Beispiel) Der Satz weist lexikalische (L), syntaktische (S) und anaphorische (A) Ambiguitäten auf, die uns nicht auffallen.

45 © 2001 Hans Uszkoreit Früher stellten die Frauen der Inseln am Wochenende Kopftücher mit Blumenmotiven her, die ihre Männer an den folgenden Montagen auf dem Markt im Zentrum der Hauptinsel verkauften. Ambiguität (Beispiel) Der Satz weist lexikalische (L), syntaktische (S) und anaphorische (A) Ambiguitäten auf, die uns nicht auffallen. Wieviele Lesarten besitzt dieser Satz?

46 © 2001 Hans Uszkoreit Ambiguität (Beispiel) Früher stellten die Frauen der Inseln am Wochenende Kopftücher mit Blumenmotiven her, die ihre Männer an den folgenden Montagen auf dem Markt im Zentrum der Hauptinsel verkauften. Das berechnet sich so: L Früher kann sowohl eigenständiges Adverb als auch Komparativ von früh sein (2); L die Verbform stellten is ambig zwischen Präteritum und Konjunktiv (2); S die Nominalphrase die Frauen kann sowohl Subjekt als auch Objekt des Satzes sein (2); S am Wochenende kann die Insel, die Frauen oder das Verb modifizieren (3); S mit Blumenmotiven kann sich auf die Kopftücher beziehen, ein Instrument der Herstellung sein oder ein Adjunkt im Sinne von gemeinsam mit Blumenmotiven (3); L her hat auch eine direktionale Bedeutung (2);

47 © 2001 Hans Uszkoreit Ambiguität (Beispiel) Früher stellten die Frauen der Inseln am Wochenende Kopftücher mit Blumenmotiven her, die ihre Männer an den folgenden Montagen auf dem Markt im Zentrum der Hauptinsel verkauften. Und weiter: S der Relativsatz könnte jede der vier Nominalphrasen im Plural modifizieren (4); S sowohl die als auch ihre Männer kann Subjekt des Relativsatzes sein (2); A das Possessivpronomen ihre kann auf jede der Nominalphrasen referieren (4); L Montagen hat eine zweite Lesart als Nominalisierung von montieren (2); S die Hauptinsel kann im Genitiv zu der vorangegangenen NP gehören oder im Dativ die Käuferin bezeichnen (2); S die drei Präpositionalphrasen des Relativsatzes können sich in insgesamt sieben Kombinationen mit den jeweils vorhergehenden NPs oder mit dem Verb verbinden (7); L verkauften zeigt wieder die Ambiguität zwischen Präteritum und Konjunktiv auf (2).

48 © 2001 Hans Uszkoreit Ambiguität (Beispiel) Früher stellten die Frauen der Inseln am Wochenende Kopftücher mit Blumenmotiven her, die ihre Männer an den folgenden Montagen auf dem Markt im Zentrum der Hauptinsel verkauften. Durch Multiplikation ergibt sich die Gesamtambiguität: 2 x 2 x 2 x 3 x 3 x 2 x 4 x 2 x 4 x 2 x 2 x 7 x 2 =

49 © 2001 Hans Uszkoreit Wir wollen wissen... warum viele ungrammatische Sätze erzeugt werden warum viele ungrammatische Sätze erzeugt werden z.B. Sprechfehler, Grammatikfehler z.B. Sprechfehler, Grammatikfehler warum viele ungrammatische Sätze verstanden werden warum viele ungrammatische Sätze verstanden werden z.B. in der der Kommunikation mit Kindern oder Ausländern z.B. in der der Kommunikation mit Kindern oder Ausländern warum viele grammatische Sätze nicht erzeugt werden warum viele grammatische Sätze nicht erzeugt werden z.B. durch Präferenzen in der Generierung z.B. durch Präferenzen in der Generierung warum viele grammatische Sätze nicht verstanden werden warum viele grammatische Sätze nicht verstanden werden z.B. Holzwegsätze z.B. Holzwegsätze wie die Verarbeitung zeitlich strukturiert ist wie die Verarbeitung zeitlich strukturiert ist z.B. Effizienz, Abfolge der Verarbeitungsschritte z.B. Effizienz, Abfolge der Verarbeitungsschritte welchen Aufwand die Verarbeitungsschritte erfordern welchen Aufwand die Verarbeitungsschritte erfordern z.B. Abhängigkeiten von anderen kognitiven Belastungen z.B. Abhängigkeiten von anderen kognitiven Belastungen

50 © 2001 Hans Uszkoreit Gedächtnisbelastung Der Wissenschaftler schrieb zwei Bücher über den Ursprung der menschlichen Sprache, die in vielen Fernsehsendungen diskutiert wurden, ab.

51 © 2001 Hans Uszkoreit Der Wissenschaftler schrieb zwei Bücher über den Ursprung der menschlichen Sprache, die in vielen Fernsehsendungen diskutiert wurden, ab. Gedächtnisbelastung

52 © 2001 Hans Uszkoreit statistische und konnektio- nistische Methoden in der CL deklarative linguistische Formalismen in der CL spezielle Verfahren für die CL direkte Programmierung, keine Trennung von Beschreibung und Verarbeitung Hauptansätze der CL

53 © 2001 Hans Uszkoreit Direkte Programmierung in einer traditionellen Programmiersprache. Keine Trennung von Kompetenz und Performanz, also auch keine Trennung von Grammatik und Verarbeitung Beispiele : Beispiele : SYSTRAN, SHRDLU, frühe SFB 100 Systeme SYSTRAN, SHRDLU, frühe SFB 100 Systeme Kompetenzmodellierung: Kompetenzmodellierung: als Modelle theoretisch uninteressant, nicht überprüfbar, Kodierung linguistisch uninteressant, schwer erweiterbar als Modelle theoretisch uninteressant, nicht überprüfbar, Kodierung linguistisch uninteressant, schwer erweiterbar Performanzmodellierung: Performanzmodellierung: als Modelle theoretisch uninteressant, weil mit der Kompetenz vermischt, keine Ansätze zur Integration psycholinguistischer Erkenntnisse als Modelle theoretisch uninteressant, weil mit der Kompetenz vermischt, keine Ansätze zur Integration psycholinguistischer Erkenntnisse Anwendungspotential: Anwendungspotential: einige wenige Systeme sind zur Anwendungsreife gelangt (z.B. SYSTRAN), fast nicht mehr erweiterbar, für neue Entwicklungen nicht geeignet Direkte Programmierung

54 © 2001 Hans Uszkoreit Spezielle Verfahren und Beschreibungssprachen wurden entwickelt. Trennung von Kompetenz und Performanz, vielfach noch immer Vermischung von Wissen und Verarbeitung Beispiele: Beispiele: Augmented Transition Networks (ATN), Augmented Phrase Structure Grammar (APSG), EUROTRA Framework Augmented Transition Networks (ATN), Augmented Phrase Structure Grammar (APSG), EUROTRA Framework Kompetenzmodellierung: Kompetenzmodellierung: verschieden von den Modellen der Linguistik, als linguistische Modelle theoretisch wenig interessant, vielfach Vermischung mit prozeduralen Elementen verschieden von den Modellen der Linguistik, als linguistische Modelle theoretisch wenig interessant, vielfach Vermischung mit prozeduralen Elementen Performanzmodellierung: Performanzmodellierung: wenige aber sehr ernsthafte Versuche, einige Gesichtspunkte der Performanzmodellierung zu berücksichtigen, Einflüsse der Psycholinguistik, Hindernis ist das Fehlen plausibler Kompetenzmodelle wenige aber sehr ernsthafte Versuche, einige Gesichtspunkte der Performanzmodellierung zu berücksichtigen, Einflüsse der Psycholinguistik, Hindernis ist das Fehlen plausibler Kompetenzmodelle Anwendungspotential: Anwendungspotential: fast alle der heute marktreifen Systeme gehören zu dieser Klasse (z.B. METAL, Q&A) Spezielle Verfahren

55 © 2001 Hans Uszkoreit Deklarative Grammatikformalismen, in denen sich linguistische Grammatikmodelle und Einzelanalysen kodieren lassen. Dadurch Aufhebung der Trennung von theoretischer Linguistik und Computerlinguistik. Beispiele: Beispiele: fast alle Unifikationsgrammatikmodelle, neuere semantische Formalismen fast alle Unifikationsgrammatikmodelle, neuere semantische Formalismen Kompetenzmodellierung: Kompetenzmodellierung: deklarative linguistisch fundierte Modelle; unabhängig von Verarbeitungsrichtung, Verarbeitungsreihenfolge und Verarbeitungsalgorithmen; logisch fundierte Semantik, transparente Modularisierung und Hierarchisierung des Wissens deklarative linguistisch fundierte Modelle; unabhängig von Verarbeitungsrichtung, Verarbeitungsreihenfolge und Verarbeitungsalgorithmen; logisch fundierte Semantik, transparente Modularisierung und Hierarchisierung des Wissens Performanzmodellierung: Performanzmodellierung: deduktive Verarbeitung; in den fortgeschrittensten Systemen erfolgt die Verarbeitung durch Typdeduktion; bisher keine plausiblen Kompetenzmodelle deduktive Verarbeitung; in den fortgeschrittensten Systemen erfolgt die Verarbeitung durch Typdeduktion; bisher keine plausiblen Kompetenzmodelle Anwendungspotential: Anwendungspotential: noch keine marktreifen System, bisher noch mangelnde Effizienz noch keine marktreifen System, bisher noch mangelnde Effizienz Deklarative Formalismen

56 © 2001 Hans Uszkoreit Statistische Verfahren in der akustischen Spracherkennung (Hidden Markov Models), und in der maschinellen Übersetzung; massiv-paralleler Ansatz zur Modellierung der neuronalen Strukturierung des menschlichen Hirns. Beispiele: Beispiele: Hidden Markov Models (HMM), Parsing mit neuronalen Netzen Hidden Markov Models (HMM), Parsing mit neuronalen Netzen Kompetenzmodellierung: Kompetenzmodellierung: für die Theoriebildung uninteressant, die Kompetenz ist nicht transparent modelliert, keine Verbindung zu den Theorien der Linguistik, unzureichende Darstellung der Rekursivität für die Theoriebildung uninteressant, die Kompetenz ist nicht transparent modelliert, keine Verbindung zu den Theorien der Linguistik, unzureichende Darstellung der Rekursivität Performanzmodellierung: Performanzmodellierung: Lernverfahren, massive Parallelität könnte Schlüssel zum Effizienzproblem sein, Potential für die Modellierung linguistischer Präferenzen und anderer unscharfer Konzepte z.B. in der lexikalischen Semantik, Potential für holistische Ansätze Lernverfahren, massive Parallelität könnte Schlüssel zum Effizienzproblem sein, Potential für die Modellierung linguistischer Präferenzen und anderer unscharfer Konzepte z.B. in der lexikalischen Semantik, Potential für holistische Ansätze Anwendungspotential: Anwendungspotential: großes Potential in der akustischen Spracherkennung und in der akustischen Sprachsynthese, für rein statistische oder neuronale Verfahren geringes Potential in der linguistischen Verarbeitung großes Potential in der akustischen Spracherkennung und in der akustischen Sprachsynthese, für rein statistische oder neuronale Verfahren geringes Potential in der linguistischen Verarbeitung Statistische u. konnektionistische Verfahren

57 © 2001 Hans Uszkoreit Exkurs: Vorzüge und Nachteile der deklarativen Ansätze

58 © 2001 Hans Uszkoreit Deklarative Formalismen 2 Linguistische Grammatikmodelle: Linguistische Grammatikmodelle: ÂGeneralized Phrase Structure Grammar (GPSG), ÂLexical Functional Grammar (LFG), ÂHead-Driven Phrase Structure Grammar (HPSG), ÂCategorial Unification Grammar (CUG), Computerlinguistische Formalismen: Computerlinguistische Formalismen: ÂFUG ÂPATR ÂSTUF ÂTFS ÂCUF ÂTDL

59 © 2001 Hans Uszkoreit Exkurs: Probleme des neuronalen Ansatzes Wenn ein Teil der sprachlichen Kompetenz angeboren ist, dann kann der Spracherwerb nicht alleine durch neuronale Lernverfahren modelliert werden. Der Mensch erlernt viele Arten der Sprachverwendung (Performanztypen). Er scheint jedoch die einmal erworbene Kompetenz immer weiter zu verwenden. Selbst wenn das System den Anforderungen des Erstspracherwerbs technisch gewachsen wäre, müßte die Maschine eine ähnliche Sprachsozialisation wie der Mensch durchlaufen, was aus vielen Gründen nicht möglich ist. Rekursion stellt ein Problem für neuronale Netze dar.

60 © 2001 Hans Uszkoreit Mitteleinbettungen Der Mann, der die Katze beobachtete, staunte. Der Mann, der die Katze, die den Vogel jagte, beobachtete, staunte. Der Mann, der die Katze, die den Vogel, der laut schrie, jagte, beobachtete, staunte.

61 © 2001 Hans Uszkoreit Mitteleinbettungen Der Hammer, mit dem der Handwerker, den Peter angerufen hatte, die Nägel einschlug, war mindestens drei Pfund schwer.

62 © 2001 Hans Uszkoreit Beobachtungen Peter hat den Wagen, der seit Tagen vor der Haustür steht, gekauft. Peter hat den Wagen gekauft, der seit Tagen vor der Haustür steht. Peter hat den Wagen, der vor der Haustür steht, langsam und sorgfältig lackiert. Peter hat den Wagen langsam und sorgfältig lackiert, der vor der Haustür steht. Der Mann hat dem Jungen, der aus der Schule kam, den Ball gegeben. Der Mann hat dem Jungen den Ball gegeben, der aus der Schule kam.

63 © 2001 Hans Uszkoreit Dependenzen Kleine Kinder brauchen viel Liebe Peter gab dem Jungen den Ball Kleine Kinder brauchen viel Liebe

64 © 2001 Hans Uszkoreit Dependenzen weil Peter dem Jungen den Ball, der vor der Haustür lag, gab weil Peter dem Jungen den Ball gab, der vor der Haustür lag

65 © 2001 Hans Uszkoreit Das Problem der Sprachbeherrschung ist zu komplex Es gibt viele Anwendungen, die nur begrenzte Sprachbeherrschung benötigen! KEINE SPRACHBEHERRSCHUNG OHNE ALLGEMEINES WISSEN Sprachumfang Sprachtiefe Gegenstandsbereiche Morphologie Syntax Semantik Pragmatik Wissensverarbeitung Worterkennung

66 © 2001 Hans Uszkoreit Sprachtechnologie und WWW Die Sprache in der multimedialen Informationsgesellschaft Die Mehrsprachigkeit des WWW Probleme der Informationssuche Das Potential der Sprachtechnologie Multilinguale Suche und Navigation

67 © 2001 Hans Uszkoreit Sprache im WWW Sprache ist nur ein Medium auf dem WWW. Aber unter den verschiedenen Medien hat die Sprache einen besonderen Status. Bücher, Filme, Bilder, Musikstücke und Computerprogramme beschreiben und finden wir am besten mit Sprache. Nur mithilfe der Sprache können wir Wissen strukturieren und sinnvoll vernetzen. Die Sprache ist das Gewebe des World Wide Web Die Sprache ist das Gewebe des World Wide Web

68 © 2001 Hans Uszkoreit Menschliche Sprache Die Sprache hat Seiten, die dem Menschen leichtfallen, dem Computer hingegen schwer. Insbesondere: Insbesondere: Ambiguität: viele Wörter und Phrasen haben mehrere Bedeutungen Ambiguität: viele Wörter und Phrasen haben mehrere Bedeutungen Paraphrasen: es gibt viele Möglichkeiten, das Gleiche auszudrücken Paraphrasen: es gibt viele Möglichkeiten, das Gleiche auszudrücken Ungenauigkeit: oft ist die Bedeutung von Ausdrücken unscharf Ungenauigkeit: oft ist die Bedeutung von Ausdrücken unscharf

69 © 2001 Hans Uszkoreit Heutige Suchtechnologie Wort-Index Boolsche Kombinationen verschiedene Indexierungsverfahren eingeschränkte Morphologie Sortierung nach Relevanz Suche in mehreren Sprachen More than 35 terabytes served surch the web for: LycaSurcha First 10 of matches: 1. research in mutlilingual IR an easier... Order your free beer today sweat AND tears 2. Sir Winston S. Churchill homepage of s Rock Timeline remember the best Shinjuku Yamabuki B$h$&$3$=;%5!

70 © 2001 Hans Uszkoreit Probleme für heutige Suchmaschinen Sie finden nicht genug! Andere Wortformen der Herzog, des Herzogs, die Herzöge Unter- und Überbegriffe Alfa Romeo Zagato roadster sports car car motor vehicle vehicle Paraphrasen steuerliche Gründe, Steuergründe, steuerliche Erwägungen, steuerliche Überlegungen, fiskalische Erwägungen, um Steuern zu sparen,...

71 © 2001 Hans Uszkoreit Nehmen wir an, Sie suchten nach Automobilfirmen und gäben daher der Suchmaschine (z.B. HOTBOT) den Suchbegriff Automobilfirmen Im Englischen suchten Sie nach: automobile companies Paraphrasen: Ein kleines Experiment

72 © 2001 Hans Uszkoreit Paraphrasen: Ein kleines Experiment automobile companies 704 Automobilfirmen 55

73 © 2001 Hans Uszkoreit Paraphrasen: Ein kleines Experiment automobile companies 704 car builders 233 car makers1846 auto makers2307 automobile makers 181 car companies3046 cars companies 14 motor companies 194 auto companies1345 car manufacturers3056 motor manufacturers 582 automobile manufacturers4263 manufacturers of cars 151 manufacturers of autos 15 manufacturers of automobiles 165 manufacturers of motor vehicles 55 Automobilfirmen 55 Autohersteller 320 Autobauer 131 Autoproduzenten 26 Autofabrikant 89 Autofirmen 86 Pkw Hersteller 15 Automobilunternehmen 57 Automobilhersteller 602 Kfz-Hersteller 42 Autounternehmen 9 Automobilkonzerne 83 Unternehmen der Automobilbranche 4 Hersteller von Autos 4 Hersteller von Automobilen 13 Hersteller von Kraftfahrzeugen 3

74 © 2001 Hans Uszkoreit Weitere Probleme Sie finden zu viel! Ambiguität deutsch: Zug, Bahn, Leitung, Schalter englisch: terminal, line, engine Polysemie Buch, Schule, printer Eigennamen Personennamen: Maurer, Washington, Chase Ortsbezeichnungen: Essen, Halle, Bismarck

75 © 2001 Hans Uszkoreit Das Web ist mutlilingual Das WWW war anfangs vorherrschend monolingual Das WWW war anfangs vorherrschend monolingual ( % aller WWW Seiten englisch) Nicht-englische Inhalte nehmen schneller zu. ( % englisch, heute ca. 85%)

76 © 2001 Hans Uszkoreit G LOBALIZATION OF THE U SER B ASE Share of US Web Users US Web Users in % Source: Computer Industry Almanac Inc. January

77 © 2001 Hans Uszkoreit Relevante Faktoren Entwicklung vom Avantgardemedium zum Massenmedium Entwicklung vom Avantgardemedium zum Massenmedium Ausbreitung in neue Regionen (Lateinamerika, Asien, arabische Welt) Ausbreitung in neue Regionen (Lateinamerika, Asien, arabische Welt) Digitalisierung großer Bibliotheken in vielen Ländern Digitalisierung großer Bibliotheken in vielen Ländern Rolle des WWW als globaler Handelsplatz Rolle des WWW als globaler Handelsplatz Rolle des WWW als Medium für politische Information und Propaganda Rolle des WWW als Medium für politische Information und Propaganda Zunahme sozialer und kultureller Inhalte Zunahme sozialer und kultureller Inhalte Die Zukunft des WWW ist vielsprachig.

78 © 2001 Hans Uszkoreit Noch mehr Probleme! Andere Schriftsysteme müssen kodiert und dargestellt werden: Chinesisch, Japanisch, Arabisch, Griechisch,... Die Wortbildungsregeln der Sprachen geraten sich ins Gehege: Skatskating Limeslime Sprachübergreifende Ambiguität stört bei der Suche: Briefbrief overview Postpost messages Porto Porto travel information HautHaut Barr cutecute girls

79 © 2001 Hans Uszkoreit Multilingualität als Herausforderung Eine große Chance tut sich auf: Es wird möglich sein, durch das niedergeschriebene Wissen der Menschheit zu navigieren, ohne an der Sprachgrenze stehenbleiben zu müssen. Diese technologische Herausforderung erfordert aber Fortschritte auf den folgenden Gebieten: lexikalische Semantik lexikalische Semantik konzeptuelle Strukturierung konzeptuelle Strukturierung Verbesserungen in maschineller Übersetzung Verbesserungen in maschineller Übersetzung

80 © 2001 Hans Uszkoreit Maschinelle Übersetzung Die vollautomatische maschinelle Übersetzung (fully automatic maschine translation – FAMT) beliebiger Texte ist heute nicht möglich. Das liegt nicht an der linguistischen Verarbeitung der Texte, sondern am fehlenden Wissen der Maschine über die Inhalte. Für sehr eingeschränkte Gegenstandsbereiche und Textarten können aber brauchbare Übersetzungen geliefert werden. Ansonsten dient die maschinelle Übersetzung heute erfolgreich als Vorstufe für menschliche Übersetzung (machine-assisted human translation – MAHT).

81 © 2001 Hans Uszkoreit MÜ ist dennoch brauchbar Eine zufriedenstellende automatische Übersetzung beliebiger Texte ist heute also nicht möglich. Aber die Technologie liefert Übersetzungen, die den Leser sehr wohl das Thema und die wesentlichsten Inhalte erkennen lassen. Wir arbeiten mit dem Übersetzungssystem LOGOS. Andere große Übersetzungssysteme (SYSTRAN, METAL) werden ebenfalls für WWW Anwendungen eingesetzt. Die Übersetzungen nennen wir indikative Übersetzungen.

82 © 2001 Hans Uszkoreit Indikative Übersetzung

83 © 2001 Hans Uszkoreit Multilinguale Navigation multilinguale Suche multilinguale Schnittstelle für die Navigation mehrsprachiges Angebot im Web

84 © 2001 Hans Uszkoreit Mulinex Konsortium Bertelsman n TRADOS Deutsches Forschungszentrum für Künstliche Intelligenz GmbH DATMAAT ingegneria dei sistemi © Hans Uszkoreit 1998 Das Konsortium

85 © 2001 Hans Uszkoreit mulinex: die englische Suchseite

86 © 2001 Hans Uszkoreit mulinex: englische Eingabe

87 © 2001 Hans Uszkoreit mulinex: Einschränkung der Suche

88 © 2001 Hans Uszkoreit mulinex: Anzeige

89 © 2001 Hans Uszkoreit mulinex: Anzeige (Ausschnitt)

90 © 2001 Hans Uszkoreit mulinex: Zusammenfassung

91 © 2001 Hans Uszkoreit car Konzeptindex

92 car Personenauto Auto Automobil Konzeptindex

93 © 2001 Hans Uszkoreit car Personenauto Auto Automobil Konzeptindex...Kraftfahrzeuge für Personen...

94 © 2001 Hans Uszkoreit car Personenauto Auto Automobil automobile auto car Konzeptindex...Kraftfahrzeuge für Personen...

95 © 2001 Hans Uszkoreit car Personenauto Auto Automobil automobile auto car Konzeptindex...location de voitures......Kraftfahrzeuge für Personen...

96 © 2001 Hans Uszkoreit Konzeptindex motor vehicle cartruck sports car...Kraftfahrzeuge für Personen... tank truck Personenauto Auto Automobil automobile auto car...location de voitures...

97 © 2001 Hans Uszkoreit Konzeptindex Sprachidentifikation Sprachidentifikation Lexikalische Desambiguierung Lexikalische Desambiguierung Flache syntaktische Analysetechniken Flache syntaktische Analysetechniken Aufbau eines phrasalen Index Aufbau eines phrasalen Index multilinguale Terminologien multilinguale Terminologien Paraphrasen-Glossare Paraphrasen-Glossare BenötigteTechnologien:

98 © 2001 Hans Uszkoreit Informationsextraktion In der IE werden gezielt relevante Informationen aus Texten herausgesucht und strukturiert. Bremen, , wiwo: Lagersoftware weiter im Aufwind Die Bremer Firma Trade Consult hat auf einer Pressekonferenz in Hannover die Version 2.0 ihrer erfolgreichen Lagerverwaltungssoftware Store Age vorgestellt.. Die neue Version ermöglicht jetzt auch... Auf der Pressekonferenz gab Geschäftsführer Franz Merleback auch die Umsatzzahlen der Softwareschmiede für das 3. Quartal bekannt. Wurden im zweiten Quartal bereits über 30 Millionen Mark umgesetzt, so konnte Merleback jetzt das stolze Ergebnis von 42,5 Millionen verkünden....

99 © 2001 Hans Uszkoreit Informationsextraktion In der IE werden gezielt relevante Informationen aus Texten herausgesucht und strukturiert. Bremen, , wiwo: Lagersoftware weiter im Aufwind Die Bremer Firma Trade Consult hat auf einer Pressekonferenz in Hannover die Version 2.0 ihrer erfolgreichen Lagerverwaltungssoftware Store Age vorgestellt.. Die neue Version ermöglicht jetzt auch... Auf der Pressekonferenz gab Geschäftsführer Franz Merleback auch die Umsatzzahlen der Softwareschmiede für das 3. Quartal bekannt. Wurden im zweiten Quartal bereits über 30 Millionen Mark umgesetzt, so konnte Merleback jetzt das stolze Ergebnis von 42,5 Millionen verkünden....

100 © 2001 Hans Uszkoreit Ausgabe in tabellarischer Form Firma96Q Q197Q297Q397Q41997Diff. ComSoft120Mio110Mio ComSoft120Mio110Mio Trade Consult30 Mio42,5Mio Z&M71,0Mio Z&M71,0Mio

101 © 2001 Hans Uszkoreit Ausblick Die Strukturierung des digitalen menschlichen Wissens ist eine der großen Herausforderungen des nächsten Jahrhunderts. Die Sprachtechnologie ist eine Schlüsseltechnologie für dieses ehrgeizige Vorhaben, denn die Sprache ist das Gewebe des Wissens.

102 © 2001 Hans Uszkoreit Sprachtechnologien im Überblick

103 © 2001 Hans Uszkoreit Sprachtechnologie in der Wirtschaft


Herunterladen ppt "© 2000 Hans Uszkoreit Vorlesung: Einführung in die Computerlinguistik Hans Uszkoreit Wintersemester 01/02."

Ähnliche Präsentationen


Google-Anzeigen