Sprachprodukttechnologie Sommersemester 2001 Prof. Dr. Gerhard Heyer Institut für Informatik Abt. Automatische Sprachverarbeitung Hauptgebäude, 1. Stock, Zi. 1-52
LANGUAGE TECHNOLOGIES Speech Technologies Voice Control Systems Dictation Systems Text-to-Speech Systems Identification and Verification Systems Spoken Information Access Speech Translation Systems Spoken Dialogue Systems
Text Technologies Spell Checkers Machine-Assisted Human Translation Indicative Machine Translation Grammar Checkers Human Assisted Machine Translation High Quality Text Translation Text Generation Systems
Information Management Technologies Word-Based Information Retrieval Summarization by simple condensation Simple Statistical Categorization Cross-lingual Information Retrieval Information Extraction Concept-Based Information Retrieval Text Understanding
ZENTRALE EINSATZGEBIETE Sprachprodukte für das Informations- und Wissensmanagement Sprachprodukte für die Dokumentenproduktion und -verwaltung Sprachprodukte für die Mensch-Maschine Kommunikation Sprachprodukte für die Mensch-Mensch Kommunikation
VERÄNDERTE SICHTWEISE von Einzeltechnologien Informationsextraktion Kategorisierung zu integrierten Funktionalitäten Mensch-Technik Interaktion multilinguales Informationsmanagement Kombination von Sprachtechnologien mit anderen Technologien: Multimediatechnologien Kommunikationstechnologien Wissenstechnologien
Wichtigste Trends Integration von verschiedenen Medien und Modi in der Kommunikation zwischen Menschen bzw. Mensch und Maschine Management von großen Mengen multimedialer, multimodaler und multilingualer Information Schrittweise Entwicklung zu inhaltsbezogenem Umgang mit Information (semantische statt syntaktische Methoden)
DAS PROBLEM DER SPRACHVERARBEITUNG Weder Sprachverstehen noch Sprachproduktion sind bisher gelöst. Aber: Wir besitzen heute sogenannte flache Verfahren, die zwar kein Verstehen ermöglichen, aber für viele Anwendungen oft völlig ausreichen. flache Ansätze (effizient und robust) statistische Methoden, Mustergrammatiken tiefe Ansätze (präzise und korrekt) linguistische Prinzipien, Constraints oder komplexe Regelwerke
Zitat: (Pahl/Beitz, Konstruktionslehre 1986) "Wesentliche Aufgabe eines Ingenieurs ist es, für technische Probleme mit Hilfe naturwissenschaftlicher Erkenntnisse Lösungen zu finden und sie unter den jeweils gegebenen Einschränkungen stofflicher, technologischer und wirtschaftlicher Art in optimaler Weise zu verwirklichen." Coputerlinguistik Sprachproduktechnologie Erkenntnis- Interesse kognitive Modellierung Sprachprodukt-Entwicklung Theorie- Paradigma theoretische Linguistik KI-NL-Systeme Wissenschafts- Tradition Allg. Sprachwissenschaft Ingenieurswissenschaft
Ziele einer Sprachprodukttechnologie spezifische ingenieursmäßige Lösungen optimales Verhältnis von Kosten und Nutzen Kosten: Theorien und Formalismen Hardwarevoraussetzungen Zeit- und Kostenbeschränkungen Nutzen: Benutzerfreundlichkeit Akzeptanz effiziente Verwaltung komplexer Daten und Strukturen
Aufgaben einer Sprachprodukttechnologie Programmentwicklung für Sprachprodukte Software Engineering Software Ergonomie und ergonomische Evaluation aufgaben-adäquate linguistische Formalismen Datenbereitstellung für Sprachprodukte quantitativ und qualitativ hinreichende Lingware linguistische Evaluation Linguistik für Sprachprodukte aufgaben-adäquate Formalismen einfach effiziente Verwaltung komplexer Daten und Strukturen optimierbares Verhältnis von Kosten und Nutzen
Wichtige Wachstumsfunktionen Kostenfunktionen - 0 (1) konstante Kosten - 0 (log2 n) logarithmisches Wachstum - 0 (n) lineares Wachstum - 0 (n log2 n) n-log n-Wachstum - 0 (n2) quadratisches Wachstum - 0 (n3) kubisches Wachstum - 0 (2n) exponentielles Wachstum
Wachstumsverhalten log n 3 7 10 13 17 20 n 3 10 30 100 300 1000 n 10 100 1000 104 105 106 n log n 30 700 104 105 2*106 2*107 n2 100 104 106 108 1010 1012 n3 1000 106 109 1012 1015 1018 2n 1000 1030 10300 103000 1030000 10300000
Problemgröße bei vorgegebener Zeit Kompl. 1 sec 1 min 1 h log2n 21000 260000 -- n 1000 60000 3600000 n log2n 140 4893 20000 n2 31 244 1897 n3 10 39 153 2n 9 15 21
Arten von Anwendungen und Aufgaben Ergonomie linguistische Software- Funktionalität Engineering Dialog- NLP / GUI Granularität Portierbarkeit Systeme freie vs. geführte Umfang Robustheit Eingabe ... ... ... Autonome batch vs. error codes wieder- Systeme interaktiv regelbasiert vs. verwendbare ... statistisch Lexika ... ...
Beispiele Wiederverwendbare linguistische Ressourcen (multifunktionale und polytheoretische Lexika, Grammatiken, ...) Reduktion der Repräsentationskomplexität (reduzierte Morphologie, reduzierte Semantik, statistische Ansätze, ...) Reduktion der Anfragekomplexität (Menüführung, "controlled languages", Subsprachenmodelle, ...) Reduktion des Antwortsuchraums (pragmatische Heuristiken, Fehlerstatistiken, ...)
Heute: Druckmedien Industrien Verlage Technische Übersetzungen Dokumentation Endprodukte Bücher Manuale Übersetzungen Aktivität (manuelle) (manuelle) (manuelle) Lexikographie technische Übersetzung Dokumentation Produktions- Schreiben, Schreiben, Schreiben, Schritte Gestalten, Gestalten, Gestalten, Drucken Drucken Drucken Medium Papier Papier Papier
Morgen: Elektronische Medien Verlage Technische Übersetzungen Dokumentation Medium elektronisch elektronisch elektronisch Produktions- elektronisch elektronisch elektronisch Schritte Aktivität CA- CA- CA- Lexikographie Dokumentation Übersetzung Endprodukt(e) lexikalische DBs, Hypermedia (semi-) elektronische Manuale automatische Lexika Übersetzung NLP Konverter, language Prä-, Zwischen- Extratoren, checker, Posteditoren, produkte* Compiler Term- Extratoren Übersetzungs- und -Manager module