Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

Vorlesung: Einführung in die Computerlinguistik

Ähnliche Präsentationen


Präsentation zum Thema: "Vorlesung: Einführung in die Computerlinguistik"—  Präsentation transkript:

1 Vorlesung: Einführung in die Computerlinguistik
Wintersemester 01/02 Vorlesung: Einführung in die Computerlinguistik Hans Uszkoreit

2 Übersicht des ersten Teils
Aufgaben und Einordnung des Faches Motivationen für die Modellierung menschlicher Sprache Computerlinguistik als eine moderne Sprachwissenschaft Repräsentationen und Verarbeitungskomponenten

3 EINSTIEG Faszination Wissenschaft Technologie

4 Faszination Mehr noch als Denken ist die Sprache eine Fähigkeit, die nur der Mensch besitzt. Es ist ein Wunder, wie wir in Sekundenschnelle komplexe Gedanken in einem Satz ausdrücken können. Es ist nicht weniger erstaunlich, wie das Kind in nur wenigen Jahren zehntausende von Wörtern und eine komplexe Gramnmatik lernt.

5 NACHBARWISSENSCHAFTEN
Psychologie Linguistik Informatik

6 NACHBARWISSENSCHAFTEN
Psychologie Linguistik Informatik Psycho- linguistik Computer- KI

7 Die Disziplin Computerlinguistik im weiteren Sinne
ist ein zwischen Linguistik und Informatik liegendes interdisziplinäres Forschungsgebiet, das sich mit der maschinellen Verarbeitung natürlicher Sprachen beschäftigt. Computerlinguistik im engeren Sinne ist ein Teilgebiet der modernen Linguistik, das berechenbare Modelle menschlicher Sprache entwirft, implementiert und untersucht.

8 Die Disziplin Theoretische Computerlinguistik entwirft, implementiert und untersucht die Modelle mit dem Ziel, zum Verständnis, zur Verifikation und zur Verbesserung der zugrundeliegenden linguistischen und psychologischen Theorien beizutragen. Angewandte Computerlinguistik entwirft, implementiert und untersucht die Modelle mit dem Ziel, Softwareanwendungen zu ermöglichen, die über eine (eingeschränkte) Beherrschung menschlicher Sprache verfügen.

9 Sprachliche Kommunikation

10 Sprachliche Kommunikation

11 Sprachliche Kommunikation

12 Sprachliche Kommunikation

13 Sprachliche Kommunikation

14 Grammatik Schallwellen Aktivation von Konzepten

15 Grammatik ? Schallwellen Aktivation von Konzepten Grammatik

16 Grammatik Schallwellen Aktivation von Konzepten Grammatik

17 Grammatik Schallwellen Aktivation von Konzepten Grammatik

18 Grammatik Schallwellen Aktivation von Konzepten Grammatik

19 Grammatik Semantikkonstruktion Phonologie/Morphologie
Schallwellen Aktivation von Konzepten Grammatik

20 Grammatik Schallwellen Aktivation von Konzepten Grammatik

21 Grammatik Schallwellen Aktivation von Konzepten Grammatik

22 Verwandte Begriffe Maschinelle Sprachverarbeitung
Analyse und Generierung von natürlicher Sprache mit dem Computer. Englisch: Natural Language Processing (NLP). Sprachtechnologie(n) Übergriff für die Technologien sprachbeherrschender Systeme. Ingenieurwissenschaftliches Forschungsgebiet, in dem die Sprachtechnologien entwickelt werden. Linguistische Datenverarbeitung (LDV) Traditionell ein Teilgebiet der elektronischen Datenverarbeitung, das sich sowohl mit der Anwendung von Methoden der Datenverarbeitung für die linguistische Forschung als auch mit maschineller Sprachverarbeitung beschäftigt. Die LDV versteht sich heute als ein Gebiet, das die Computerlinguistik einschließt. Sprachdatenverarbeitung Verarbeitung von sprachlichen Daten mit dem Computer. Schließt ein: mono- und multilinguale Textverarbeitung, elektronische Wörterbücher, Konkordanzen, Terminologiebanken, maschinelle und maschinengestützte Übersetzung.

23 Motivationen sprachwissenschaftliches Interesse Modelle der Grammatik
ingenieurwissenschaftliches Interesse sprachtechnologische Anwendungen kognitionswissenschaftliches Interesse Modelle der menschlichen Sprachfähigkeit

24 Motivationen ingenieur- wissenschaftliche Interessen
kognitions- wissenschaftliche Interessen sprach- wissenschaftliche Interessen CL

25 Motivationen Modelle der Grammatik
ingenieur- wissenschaftliche Interessen kognitions- wissenschaftliche Interessen sprach- wissenschaftliche Interessen sprach- technologische Anwendungen Modelle der menschlichen Sprachfähigkeit

26 Linguistik (H. Bußmann "Lexikon der Sprachwissenschaft")
Die Linguistik ist eine "moderne", synchron orientierte, auf die interne Struktur der Sprache bezogene Wissenschaft, die sprachliche Regularitäten auf allen Beschreibungsebenen untersucht und ihre Ergebnisse in explizierter (formalisierter) Beschreibungssprache und in integrierten Modellen darlegt. (H. Bußmann "Lexikon der Sprachwissenschaft")

27 Teilgebiete der Linguistik
Nach Beschreibungsebenen Phonetik Phonologie Morphologie Syntax Semantik Pragmatik/Text/Diskurs Andere Teildisziplinen Psycholinguistik Neurolinguistik Historische Linguistik Sozio- und Ethnolinguistik, Dialektologie Mathematische Linguistik

28 ASPEKTE DER SPRACHE SPRACHLICHES WISSEN Was sind die Inhalte und Strukturen dieses unbewußten Wissens? SPRACHVERARBEITUNG Wie produzieren und verstehen wir sprachliche Äußerungen? SPRACHERWERB Wie lernt das Kind seine Muttersprache? SPRACHWANDEL Wie entstehen Sprachen, Dialekte, Soziolekte?

29 Kompetenz und Performanz
Sprachliche Kompetenz: die endliche strukturierte Wissensbasis, die es den Sprechern einer Sprache ermöglicht, die wohlgeformten Äußerungen der Sprache zu generieren und zu interpretieren. Sprachliche Performanz: die Generierung oder Interpretation realer Äußerungen, bzw. die Gesamtheit der Prozesse, die beteiligt sind, wenn der Mensch auf der Basis der sprachlichen Kompetenz reale Äußerungen generiert und interpretiert.

30 Kompetenzmodell Ein Kompetenzmodell sollte beinhalten:
Regeln, Prinzipien, Beschränkungen auf jeder Beschreibungsebene, die in ihrem Zusammenwirken genau die wohlgeformten Sätze der Sprache charakterisieren. Es bietet für jede Sprache eine formalisierte endliche Definition einer unendlichen Menge von Paaren <Satz, Bedeutung>. (Dazu gehören: Grammatik, Lexikon, morphologische Regeln, semantische Regeln.)

31 Performanzmodell Ein Performanzmodell sollte erklären:
warum viele ungrammatische Sätze erzeugt werden z.B. Sprechfehler, Grammatikfehler warum viele ungrammatische Sätze verstanden werden z.B. in der der Kommunikation mit Kindern oder Ausländern warum viele grammatische Sätze nicht erzeugt werden z.B. durch Präferenzen in der Generierung warum viele grammatische Sätze nicht verstanden werden z.B. Holzwegsätze wie die Verarbeitung zeitlich strukturiert ist z.B. Effizienz, Abfolge der Verarbeitungsschritte welchen Aufwand die Verarbeitungsschritte erfordern z.B. Abhängigkeiten von anderen kognitiven Belastungen

32 Performanzkriterien efficiency Fähigkeit, Lösungen mit geringem Zeit- und Speicherbedarf zu liefern accuracy Fähigkeit, linguistisch korrekte Lösungen zu liefern robustness Fähigkeit, mit allen möglichen Eingaben fertigzuwerden coverage größtmögliche Abdeckung der Grammatik specificity Fähigkeit, die intendierte Analyse zu selegieren

33 Textverstehen phonetische Verarbeitung orthographische Verarbeitung
akustische Form geschriebene Form phonetische Verarbeitung orthographische Verarbeitung phonetische o. graphemische Repräsentation morphonologische Verarbeitung morphonologische Repräsentation syntaktische Verarbeitung syntaktische Repräsentation semantische Verarbeitung semantische Repräsentation pragmatische Verarbeitung - Wissensverarbeitung Repräsentation der vollen Bedeutung

34 Diktat phonetische Verarbeitung orthographische Verarbeitung
akustische Form geschriebene Form phonetische Verarbeitung orthographische Verarbeitung phonetische o. graphemische Repräsentation morphonologische Verarbeitung morphonologische Repräsentation das Boot auf dem Main oder daß bot auf dem mein syntaktische Verarbeitung syntaktische Repräsentation semantische Verarbeitung semantische Repräsentation pragmatische Verarbeitung - Wissensverarbeitung Repräsentation der vollen Bedeutung

35 MaschinelleÜbersetzung
akustische Form geschriebene Form phonetische Verarbeitung orthographische Verarbeitung phonetische o. graphemische Repräsentation morphonologische Verarbeitung morphonologische Repräsentation syntaktische Verarbeitung syntaktische Repräsentation semantische Verarbeitung semantische Repräsentation pragmatische Verarbeitung - Wissensverarbeitung Repräsentation der vollen Bedeutung

36 Beispiele Grammatikfehler und Sprechfehler:
Das Verfassen der Kinderbücher und der Reiseberichte haben dem Autor viel Ruhm eingebracht. Die Poxen zum Backen... Holzwegsätze: The canoe floated down the river sank. Er bezichtigte den Vater des Schreibens unkundiger Kinder. Peter beschuldigte sie der Geheimniskrämerei ähnlichen Verhaltens.

37 Ambiguität phonetische Ambiguität (Homophone) Miene - Mine
orthographische Ambiguität (Homographen) übersetzen - übersetzen lexikalische Ambiguität (Homonyme) Ball - Ball morphologische Ambiguität Staubecken - Staubecken Hauptpostsekretär

38 Ambiguität syntaktische Ambiguität Peter fuhr seinen Freund sturzbetrunken nach Hause. Visiting relatives can be boring. Ich traf den Sohn des Nachbarn mit dem Gewehr. kompositionell-semantische Ambiguität Die zwei Mitarbeiter müssen vier Sprachen beherrschen. pragmatische Ambiguität Könnten Sie die Aufgabe lösen.

39 Ambiguität I phonetische Ambiguität (Homophone) Miene - Mine
orthographische Ambiguität (Homographen) übersetzen - übersetzen lexikalische Ambiguität (Homonyme) Ball - Ball morphologische Ambiguität Staubecken - Staubecken Hauptpostsekretär

40 Lexikalische Ambiguität
Gewisse Lesarten sind weniger stark präferiert: Auf dem Tisch lag ein Heft Auf der Werkbank lag ein Heft. Ich habe einen Stift gefunden. Ich habe einen jungen Stift gesucht. Die Präferenz für eine Lesart kann durch den Kontext beeinflußt werden: Der Mittelstürmer eröffnete den Ball. versus Der Präsident eröffnete den Ball. Der Gärtner sprengte das Schloß versus Der Einbrecher sprengte das Schloß. The astronomer married a star versus The movie director married a star.

41 Ambiguität II syntaktische Ambiguität
Peter fuhr seinen Freund sturzbetrunken nach Hause. Visiting relatives can be boring. Ich traf den Sohn des Nachbarn mit dem Gewehr. kompositionell-semantische Ambiguität Die zwei Mitarbeiter müssen vier Sprachen beherrschen. pragmatische Ambiguität Könnten Sie die Aufgabe lösen.

42 Ambiguität beim Parsing
In fast allen realen Situationen sind Sätze hochgradig ambig. Beispiel: Grammatik: deutsche LFG-Grammatik von Christian Rohrer Parser: XLE Parser von XEROX PARC (Kaplan, Maxwell, Shemtov,...) Korpus: Teilmenge des NEGRA Korpus Frankfurter Rundschau (Saarbrücken) Satzlänge: ca. 16 Wörter Ambiguität: >3000 Lesarten pro Satz (durch heuristische Präferenzen reduziert auf 7 Lesarten)

43 Ambiguität (Beispiel)
„Früher stellten die Frauen der Inseln am Wochenende Kopftücher mit Blumenmotiven her, die ihre Männer an den folgenden Montagen auf dem Markt im Zentrum der Hauptinsel verkauften.“

44 Ambiguität (Beispiel)
„Früher stellten die Frauen der Inseln am Wochenende Kopftücher mit Blumenmotiven her, die ihre Männer an den folgenden Montagen auf dem Markt im Zentrum der Hauptinsel verkauften.“ Der Satz weist lexikalische (L), syntaktische (S) und anaphorische (A) Ambiguitäten auf, die uns nicht auffallen.

45 258.048 Ambiguität (Beispiel)
„Früher stellten die Frauen der Inseln am Wochenende Kopftücher mit Blumenmotiven her, die ihre Männer an den folgenden Montagen auf dem Markt im Zentrum der Hauptinsel verkauften.“ Der Satz weist lexikalische (L), syntaktische (S) und anaphorische (A) Ambiguitäten auf, die uns nicht auffallen. Wieviele Lesarten besitzt dieser Satz?

46 Ambiguität (Beispiel)
„Früher stellten die Frauen der Inseln am Wochenende Kopftücher mit Blumenmotiven her, die ihre Männer an den folgenden Montagen auf dem Markt im Zentrum der Hauptinsel verkauften.“ Das berechnet sich so: L Früher kann sowohl eigenständiges Adverb als auch Komparativ von früh sein (2); L die Verbform stellten is ambig zwischen Präteritum und Konjunktiv (2); S die Nominalphrase die Frauen kann sowohl Subjekt als auch Objekt des Satzes sein (2); S am Wochenende kann die Insel, die Frauen oder das Verb modifizieren (3); S mit Blumenmotiven kann sich auf die Kopftücher beziehen, ein Instrument der Herstellung sein oder ein Adjunkt im Sinne von gemeinsam mit Blumenmotiven (3); L her hat auch eine direktionale Bedeutung (2);

47 Ambiguität (Beispiel)
„Früher stellten die Frauen der Inseln am Wochenende Kopftücher mit Blumenmotiven her, die ihre Männer an den folgenden Montagen auf dem Markt im Zentrum der Hauptinsel verkauften.“ Und weiter: S der Relativsatz könnte jede der vier Nominalphrasen im Plural modifizieren (4); S sowohl die als auch ihre Männer kann Subjekt des Relativsatzes sein (2); A das Possessivpronomen ihre kann auf jede der Nominalphrasen referieren (4); L Montagen hat eine zweite Lesart als Nominalisierung von montieren (2); S die Hauptinsel kann im Genitiv zu der vorangegangenen NP gehören oder im Dativ die Käuferin bezeichnen (2); S die drei Präpositionalphrasen des Relativsatzes können sich in insgesamt sieben Kombinationen mit den jeweils vorhergehenden NPs oder mit dem Verb verbinden (7); L verkauften zeigt wieder die Ambiguität zwischen Präteritum und Konjunktiv auf (2).

48 Ambiguität (Beispiel)
„Früher stellten die Frauen der Inseln am Wochenende Kopftücher mit Blumenmotiven her, die ihre Männer an den folgenden Montagen auf dem Markt im Zentrum der Hauptinsel verkauften.“ Durch Multiplikation ergibt sich die Gesamtambiguität: 2 x 2 x 2 x 3 x 3 x 2 x 4 x 2 x 4 x 2 x 2 x 7 x 2 =

49 warum viele ungrammatische Sätze erzeugt werden
Wir wollen wissen... warum viele ungrammatische Sätze erzeugt werden z.B. Sprechfehler, Grammatikfehler warum viele ungrammatische Sätze verstanden werden z.B. in der der Kommunikation mit Kindern oder Ausländern warum viele grammatische Sätze nicht erzeugt werden z.B. durch Präferenzen in der Generierung warum viele grammatische Sätze nicht verstanden werden z.B. Holzwegsätze wie die Verarbeitung zeitlich strukturiert ist z.B. Effizienz, Abfolge der Verarbeitungsschritte welchen Aufwand die Verarbeitungsschritte erfordern z.B. Abhängigkeiten von anderen kognitiven Belastungen

50 Gedächtnisbelastung Der Wissenschaftler schrieb zwei Bücher über den Ursprung der menschlichen Sprache, die in vielen Fernsehsendungen diskutiert wurden, ab.

51 Gedächtnisbelastung Der Wissenschaftler schrieb zwei Bücher über den Ursprung der menschlichen Sprache, die in vielen Fernsehsendungen diskutiert wurden, ab.

52 Hauptansätze der CL statistische und konnektio- nistische Methoden in der CL deklarative linguistische Formalismen in der CL spezielle Verfahren für die CL direkte Programmierung, keine Trennung von Beschreibung und Verarbeitung 1950 1960 1970 1980 1990

53 Direkte Programmierung
Direkte Programmierung in einer traditionellen Programmiersprache. Keine Trennung von Kompetenz und Performanz, also auch keine Trennung von Grammatik und Verarbeitung Beispiele : SYSTRAN, SHRDLU, frühe SFB 100 Systeme Kompetenzmodellierung: als Modelle theoretisch uninteressant, nicht überprüfbar, Kodierung linguistisch uninteressant, schwer erweiterbar Performanzmodellierung: als Modelle theoretisch uninteressant, weil mit der Kompetenz vermischt, keine Ansätze zur Integration psycholinguistischer Erkenntnisse Anwendungspotential: einige wenige Systeme sind zur Anwendungsreife gelangt (z.B. SYSTRAN), fast nicht mehr erweiterbar, für neue Entwicklungen nicht geeignet

54 Spezielle Verfahren Spezielle Verfahren und Beschreibungssprachen wurden entwickelt. Trennung von Kompetenz und Performanz, vielfach noch immer Vermischung von Wissen und Verarbeitung Beispiele: Augmented Transition Networks (ATN), Augmented Phrase Structure Grammar (APSG), EUROTRA Framework Kompetenzmodellierung: verschieden von den Modellen der Linguistik, als linguistische Modelle theoretisch wenig interessant, vielfach Vermischung mit prozeduralen Elementen Performanzmodellierung: wenige aber sehr ernsthafte Versuche, einige Gesichtspunkte der Performanzmodellierung zu berücksichtigen, Einflüsse der Psycholinguistik, Hindernis ist das Fehlen plausibler Kompetenzmodelle Anwendungspotential: fast alle der heute marktreifen Systeme gehören zu dieser Klasse (z.B. METAL, Q&A)

55 Deklarative Formalismen
Deklarative Grammatikformalismen, in denen sich linguistische Grammatikmodelle und Einzelanalysen kodieren lassen. Dadurch Aufhebung der Trennung von theoretischer Linguistik und Computerlinguistik. Beispiele: fast alle Unifikationsgrammatikmodelle, neuere semantische Formalismen Kompetenzmodellierung: deklarative linguistisch fundierte Modelle; unabhängig von Verarbeitungsrichtung, Verarbeitungsreihenfolge und Verarbeitungsalgorithmen; logisch fundierte Semantik, transparente Modularisierung und Hierarchisierung des Wissens Performanzmodellierung: deduktive Verarbeitung; in den fortgeschrittensten Systemen erfolgt die Verarbeitung durch Typdeduktion; bisher keine plausiblen Kompetenzmodelle Anwendungspotential: noch keine marktreifen System, bisher noch mangelnde Effizienz

56 Statistische u. konnektionistische Verfahren
Statistische Verfahren in der akustischen Spracherkennung (Hidden Markov Models), und in der maschinellen Übersetzung; massiv-paralleler Ansatz zur Modellierung der neuronalen Strukturierung des menschlichen Hirns. Beispiele: Hidden Markov Models (HMM), Parsing mit neuronalen Netzen Kompetenzmodellierung: für die Theoriebildung uninteressant, die Kompetenz ist nicht transparent modelliert, keine Verbindung zu den Theorien der Linguistik, unzureichende Darstellung der Rekursivität Performanzmodellierung: Lernverfahren, massive Parallelität könnte Schlüssel zum Effizienzproblem sein, Potential für die Modellierung linguistischer Präferenzen und anderer unscharfer Konzepte z.B. in der lexikalischen Semantik, Potential für holistische Ansätze Anwendungspotential: großes Potential in der akustischen Spracherkennung und in der akustischen Sprachsynthese, für rein statistische oder neuronale Verfahren geringes Potential in der linguistischen Verarbeitung

57 Exkurs: Vorzüge und Nachteile der deklarativen Ansätze

58 Deklarative Formalismen 2
Linguistische Grammatikmodelle: Generalized Phrase Structure Grammar (GPSG), Lexical Functional Grammar (LFG), Head-Driven Phrase Structure Grammar (HPSG), Categorial Unification Grammar (CUG), Computerlinguistische Formalismen: FUG PATR STUF TFS CUF TDL

59 Exkurs: Probleme des neuronalen Ansatzes
Wenn ein Teil der sprachlichen Kompetenz angeboren ist, dann kann der Spracherwerb nicht alleine durch neuronale Lernverfahren modelliert werden. Der Mensch erlernt viele Arten der Sprachverwendung (Performanztypen). Er scheint jedoch die einmal erworbene Kompetenz immer weiter zu verwenden. Selbst wenn das System den Anforderungen des Erstspracherwerbs technisch gewachsen wäre, müßte die Maschine eine ähnliche Sprachsozialisation wie der Mensch durchlaufen, was aus vielen Gründen nicht möglich ist. Rekursion stellt ein Problem für neuronale Netze dar.

60 Mitteleinbettungen Der Mann, der die Katze beobachtete, staunte. Der Mann, der die Katze, die den Vogel jagte, beobachtete, staunte. Der Mann, der die Katze, die den Vogel, der laut schrie, jagte, beobachtete, staunte.

61 Mitteleinbettungen Der Hammer, mit dem der Handwerker, den Peter angerufen hatte, die Nägel einschlug, war mindestens drei Pfund schwer.

62 Beobachtungen Peter hat den Wagen, der seit Tagen vor der Haustür steht, gekauft. Peter hat den Wagen gekauft, der seit Tagen vor der Haustür steht. Peter hat den Wagen, der vor der Haustür steht, langsam und sorgfältig lackiert. Peter hat den Wagen langsam und sorgfältig lackiert, der vor der Haustür steht. Der Mann hat dem Jungen, der aus der Schule kam, den Ball gegeben. Der Mann hat dem Jungen den Ball gegeben, der aus der Schule kam.

63 Dependenzen Kleine Kinder brauchen viel Liebe
Peter gab dem Jungen den Ball

64 Dependenzen weil Peter dem Jungen den Ball, der vor der Haustür lag, gab weil Peter dem Jungen den Ball gab , der vor der Haustür lag

65 Das Problem der Sprachbeherrschung ist zu komplex
KEINE SPRACHBEHERRSCHUNG OHNE ALLGEMEINES WISSEN Worterkennung Morphologie Syntax Sprachtiefe Semantik Pragmatik Wissensverarbeitung Gegenstandsbereiche Sprachumfang Es gibt viele Anwendungen, die nur begrenzte Sprachbeherrschung benötigen!

66 Sprachtechnologie und WWW
Die Sprache in der multimedialen Informationsgesellschaft Die Mehrsprachigkeit des WWW Probleme der Informationssuche Das Potential der Sprachtechnologie Multilinguale Suche und Navigation

67 Sprache im WWW Sprache ist nur ein Medium auf dem WWW.
Aber unter den verschiedenen Medien hat die Sprache einen besonderen Status. Bücher, Filme, Bilder, Musikstücke und Computerprogramme beschreiben und finden wir am besten mit Sprache. Nur mithilfe der Sprache können wir Wissen strukturieren und sinnvoll vernetzen. Die Sprache ist das Gewebe des World Wide Web

68 Menschliche Sprache Die Sprache hat Seiten, die dem Menschen leichtfallen, dem Computer hingegen schwer. Insbesondere: Ambiguität: viele Wörter und Phrasen haben mehrere Bedeutungen Paraphrasen: es gibt viele Möglichkeiten, das Gleiche auszudrücken Ungenauigkeit: oft ist die Bedeutung von Ausdrücken unscharf

69 Heutige Suchtechnologie
Wort-Index Boolsche Kombinationen verschiedene Indexierungsverfahren eingeschränkte Morphologie Sortierung nach Relevanz Suche in mehreren Sprachen More than 35 terabytes served surch the web for:  Lyca Surcha First 10 of matches: 1. research in mutlilingual IR an easier... Order your free beer today sweat AND tears 2. Sir Winston S. Churchill homepage of... 4. 60s Rock Timeline remember the best... 3. Shinjuku Yamabuki B$h$&$3$=;%5!

70 Probleme für heutige Suchmaschinen
Sie finden nicht genug! Andere Wortformen der Herzog, des Herzogs, die Herzöge Unter- und Überbegriffe Alfa Romeo Zagato roadster sports car car motor vehicle vehicle Paraphrasen steuerliche Gründe, Steuergründe, steuerliche Erwägungen, steuerliche Überlegungen, fiskalische Erwägungen, um Steuern zu sparen, ...

71 Paraphrasen: Ein kleines Experiment
Nehmen wir an, Sie suchten nach Automobilfirmen und gäben daher der Suchmaschine (z.B. HOTBOT) den Suchbegriff “Automobilfirmen” Im Englischen suchten Sie nach: “automobile companies”

72 Paraphrasen: Ein kleines Experiment
automobile companies Automobilfirmen

73 Paraphrasen: Ein kleines Experiment
automobile companies car builders car makers auto makers automobile makers car companies cars companies motor companies auto companies car manufacturers motor manufacturers automobile manufacturers 4263 manufacturers of cars manufacturers of autos manufacturers of automobiles manufacturers of motor vehicles Automobilfirmen Autohersteller Autobauer Autoproduzenten Autofabrikant Autofirmen Pkw Hersteller Automobilunternehmen Automobilhersteller Kfz-Hersteller Autounternehmen Automobilkonzerne Unternehmen der Automobilbranche Hersteller von Autos Hersteller von Automobilen Hersteller von Kraftfahrzeugen

74 deutsch: Zug, Bahn, Leitung, Schalter englisch: terminal, line, engine
Weitere Probleme Sie finden zu viel! Ambiguität deutsch: Zug, Bahn, Leitung, Schalter englisch: terminal, line, engine Polysemie Buch, Schule, printer Eigennamen Personennamen: Maurer, Washington, Chase Ortsbezeichnungen: Essen, Halle, Bismarck

75 Das Web ist mutlilingual
Das WWW war anfangs vorherrschend monolingual ( % aller WWW Seiten englisch) Nicht-englische Inhalte nehmen schneller zu. ( % englisch, heute ca. 85%)

76 GLOBALIZATION OF THE USER BASE
Share of US Web Users 100 90 80 80 70 60 65 50 US Web Users in % Source: Computer Industry Almanac Inc. January 1998 55 40 40 30 20 10 1991 1995 1998 2000

77 Relevante Faktoren Entwicklung vom Avantgardemedium zum Massenmedium Ausbreitung in neue Regionen (Lateinamerika, Asien, arabische Welt) Digitalisierung großer Bibliotheken in vielen Ländern Rolle des WWW als globaler Handelsplatz Rolle des WWW als Medium für politische Information und Propaganda Zunahme sozialer und kultureller Inhalte Die Zukunft des WWW ist vielsprachig.

78 Noch mehr Probleme! Andere Schriftsysteme müssen kodiert und dargestellt werden: Chinesisch, Japanisch, Arabisch, Griechisch,... Die Wortbildungsregeln der Sprachen geraten sich ins Gehege: Skat skating Limes lime Sprachübergreifende Ambiguität stört bei der Suche: Brief brief overview Post post messages Porto Porto travel information Haut Haut Barr cute cute girls

79 Multilingualität als Herausforderung
Eine große Chance tut sich auf: Es wird möglich sein, durch das niedergeschriebene Wissen der Menschheit zu navigieren, ohne an der Sprachgrenze stehenbleiben zu müssen. Diese technologische Herausforderung erfordert aber Fortschritte auf den folgenden Gebieten: lexikalische Semantik konzeptuelle Strukturierung Verbesserungen in maschineller Übersetzung

80 Maschinelle Übersetzung
Die vollautomatische maschinelle Übersetzung (fully automatic maschine translation – FAMT) beliebiger Texte ist heute nicht möglich. Das liegt nicht an der linguistischen Verarbeitung der Texte, sondern am fehlenden Wissen der Maschine über die Inhalte. Für sehr eingeschränkte Gegenstandsbereiche und Textarten können aber brauchbare Übersetzungen geliefert werden. Ansonsten dient die maschinelle Übersetzung heute erfolgreich als Vorstufe für menschliche Übersetzung (machine-assisted human translation – MAHT).

81 MÜ ist dennoch brauchbar
Eine zufriedenstellende automatische Übersetzung beliebiger Texte ist heute also nicht möglich. Aber die Technologie liefert Übersetzungen, die den Leser sehr wohl das Thema und die wesentlichsten Inhalte erkennen lassen. Wir arbeiten mit dem Übersetzungssystem LOGOS. Andere große Übersetzungssysteme (SYSTRAN, METAL) werden ebenfalls für WWW Anwendungen eingesetzt. Die Übersetzungen nennen wir indikative Übersetzungen.

82 Indikative Übersetzung

83 Multilinguale Navigation
Schnittstelle für die Navigation multilinguale Suche mehrsprachiges Angebot im Web

84 D A T A M A T TRADOS Das Konsortium Bertelsmann Mulinex Konsortium
Deutsches Forschungszentrum für Künstliche Intelligenz GmbH TRADOS i n g e g n e r i a d e i s i s t e m i © Hans Uszkoreit 1998

85 mulinex: die englische Suchseite

86 mulinex: englische Eingabe

87 mulinex: Einschränkung der Suche

88 mulinex: Anzeige

89 mulinex: Anzeige (Ausschnitt)

90 mulinex: Zusammenfassung

91 Konzeptindex car

92 Konzeptindex car Personenauto Auto Automobil

93 Konzeptindex car Personenauto Auto Automobil
...Kraftfahrzeuge für Personen...

94 Konzeptindex automobile auto car car Personenauto Auto Automobil
...Kraftfahrzeuge für Personen...

95 Konzeptindex automobile auto car car Personenauto Auto Automobil
...Kraftfahrzeuge für Personen... ...location de voitures...

96 Konzeptindex motor vehicle automobile auto car car truck Personenauto
sports car tank truck ...Kraftfahrzeuge für Personen... ...location de voitures...

97 BenötigteTechnologien:
Konzeptindex BenötigteTechnologien: Sprachidentifikation Lexikalische Desambiguierung Flache syntaktische Analysetechniken Aufbau eines phrasalen Index multilinguale Terminologien Paraphrasen-Glossare

98 Informationsextraktion
In der IE werden gezielt relevante Informationen aus Texten herausgesucht und strukturiert. Bremen, , wiwo: Lagersoftware weiter im Aufwind Die Bremer Firma Trade Consult hat auf einer Pressekonferenz in Hannover die Version 2.0 ihrer erfolgreichen Lagerverwaltungssoftware Store Age vorgestellt.. Die neue Version ermöglicht jetzt auch ... Auf der Pressekonferenz gab Geschäftsführer Franz Merleback auch die Umsatzzahlen der Softwareschmiede für das 3. Quartal bekannt. Wurden im zweiten Quartal bereits über 30 Millionen Mark umgesetzt, so konnte Merleback jetzt das stolze Ergebnis von 42,5 Millionen verkünden. ...

99 Informationsextraktion
In der IE werden gezielt relevante Informationen aus Texten herausgesucht und strukturiert. Bremen, , wiwo: Lagersoftware weiter im Aufwind Die Bremer Firma Trade Consult hat auf einer Pressekonferenz in Hannover die Version 2.0 ihrer erfolgreichen Lagerverwaltungssoftware Store Age vorgestellt.. Die neue Version ermöglicht jetzt auch ... Auf der Pressekonferenz gab Geschäftsführer Franz Merleback auch die Umsatzzahlen der Softwareschmiede für das 3. Quartal bekannt. Wurden im zweiten Quartal bereits über 30 Millionen Mark umgesetzt, so konnte Merleback jetzt das stolze Ergebnis von 42,5 Millionen verkünden. ...

100 Ausgabe in tabellarischer Form
Firma 96Q Q1 97Q2 97Q3 97Q Diff. ComSoft 120Mio Mio Trade Consult Mio 42,5Mio Z&M ,0Mio

101 denn die Sprache ist das Gewebe des Wissens.
Ausblick Die Strukturierung des digitalen menschlichen Wissens ist eine der großen Herausforderungen des nächsten Jahrhunderts. Die Sprachtechnologie ist eine Schlüsseltechnologie für dieses ehrgeizige Vorhaben, denn die Sprache ist das Gewebe des Wissens.

102 Sprachtechnologien im Überblick

103 Sprachtechnologie in der Wirtschaft


Herunterladen ppt "Vorlesung: Einführung in die Computerlinguistik"

Ähnliche Präsentationen


Google-Anzeigen