Ehrenvortrag Technische Univesität Darmstadt Darmstadt, 08. November 2001 Disambiguierung durch Wissensfusion: Grundprinzipien der Sprachtechnologie Wolfgang Wahlster Fachrichtung Informatik Universität des Saarlandes & Deutsches Forschungszentrum für Künstliche Intelligenz GmbH Stuhlsatzenhausweg 3, Geb. 43.1 66123 Saarbrücken Tel.: (0681) 302-5252/4162 Fax: (0681) 302-5341 E-mail: wahlster@dfki.de WWW: http://www.dfki.de/~wahlster
Disambiguierung: Auflösung mehrdeutiger sprachlicher Äußerungen l Problem der kombinatorischen Explosion der Lesarten durch Propagierung von Alternativen über alle Verarbeitungsebenen l Durch die Unsicherheit bei der Spracherkennung entstehen Wörter- gitter mit alternativen Hypothesen, welche die Flut von Lesarten noch weiter erhöhen Orthographisch übersetzen Morphologisch Staubecken Mehrdeutigkeiten Phonetisch me:r Lexikalisch Maus Pragmatisch Es zieht. Syntaktisch mit dem Teleskop Semantisch Ein - Alle
Verzögerte Disambiguierung Skopusmehr-deutigkeiten auf der Basis von Unterspezifikation (A) Einen Computer benutzen alle Informatikstudenten. (1) x (computer (x) y (informatik-student (y) benutzt (y,x))) (2) y (informatik-student (y) x (computer (x) benutzt (x,y))) Unterspezifizierte Repräsentation (ohne Skopusdisambiguierung) (3) {x: computer, y: informatik-student} (benutzt (y,x)) (B) Das ist der Zentralrechner PDP-10. <vor 20 Jahren> (1) (C) Oft bringen sie ihr Notebook mit in die Vorlesung. <heute> (2)
Verzögerung und Umkehrung der Disambiguierung durch Unterspezifikation l Vermeidung einer kombinatorischen Explosion der Lesart l Kompakte Repräsentation ohne Auswertung aller Disjunktionen l Unterstützung von nicht-monotoner Diskurssemantik mit Wait-and-See Strategie, ggf. mit Reininterpretation von Eingaben l Direkte Inferenz über unterspezifizierten Repräsentationen ist möglich {x: computer, y: informatik-student} (benutzt (y,x)) y (ki-student (informatik-student (x)) {x: computer, y: ki-student} (benutzt (y,x))
Symbolische und Subsymbolische Fusion von Eingabemodalitäten Mimik- erkennung Lippen- lesen Gestik- erkennung Prosodie- Sprach- erkennung Subsymbolische Fusion - Neuronale Netze - Hidden Markov Modell Symbolische - Unifikation über Hypothesengittern - Bayessche Netze Referenzauflösung und Disambiguierung Bedeutungsrepräsentation
Wechselseitige Disambiguierung durch Multiple Eingabemodalitäten Die kombinierte Sprach- und Bildverarbeitung erhöht die Robustheit und die Verstehensleistung multimodaler Benutzer-schnittstellen Spracherkennung + Lippenlesen höhere Robustheit bei gestörtem Sprachsignal und niedriger Worterkennungsrate Spracherkennung + Gestikerkennung (XTRA, SmartKom) referenzsemantische Disambiguierung und Aufmerksamkeitssteuerung Spracherkennung + Mimikerkennung (SmartKom) Erkennung von Ironie, Sarkasmus sowie Skopusdisambiguierung
Fusion von Sprach- und Mimikerkennung in SmartKom Modifikation bis hin zur Negation der Standardsemantik (Ironie, Sarkasmus) (1) Smartakus: Hier sehen Sie die Übersicht zum heutigen ZDF- Programm. (2) Benutzer: Echt toll. (3) Smartakus: Ich zeige Ihnen alternativ das Programm eines anderen Senders. (2’) Benutzer: Echt toll. (3’) Smartakus: Welche Sendungen wollen Sie aus dem ZDF-Programm sehen oder aufzeichnen?
Disambiguierung durch Selektions-restriktionen und Weltwissen Vater zu einem Service-Roboter im Cyber-Restaurant: (1) Die Apfelschorle trinkt meine Tochter, die Weinschorle meine Frau. (A) trinkt (Agens: Apfelschorle, Objekt: Tochter) trinkt (Agens: Weinschorle, Objekt: Frau) Weltwissen: Apfelschorle, Weinschorle Getränk Tochter, Frau Mensch Selektionsrestriktion: trinkt (Agens: Mensch, Objekt: Getränk) (B) trinkt (Agens: Tochter, Objekt: Apfelschorle) trinkt (Agens: Frau, Objekt: Weinschorle)
Fusion und Allokation multipler Modalitäten in SmartKom
Fusion und Allokation multipler Modalitäten in SmartKom
Fusion und Allokation multipler Modalitäten in SmartKom
Fusion und Allokation multipler Modalitäten in SmartKom
Fusion und Allokation multipler Modalitäten in SmartKom
Fusion und Allokation multipler Modalitäten in SmartKom
Fusion und Allokation multipler Modalitäten in SmartKom
Fusion und Allokation multipler Modalitäten in SmartKom
Fusion und Allokation multipler Modalitäten in SmartKom
Fusion und Allokation multipler Modalitäten in SmartKom
Fusion und Allokation multipler Modalitäten in SmartKom
Fusion und Allokation multipler Modalitäten in SmartKom
Fusion und Allokation multipler Modalitäten in SmartKom
Fusion und Allokation multipler Modalitäten in SmartKom
Fusion und Allokation multipler Modalitäten in SmartKom
Fusion und Allokation multipler Modalitäten in SmartKom
Fusion und Allokation multipler Modalitäten in SmartKom
Kombination von Sprache und Gestik in SmartKom Auf der Karte sind die Kinos markiert, in denen der Film „Eine kleine Weihnachts- geschichte“ läuft. Da ist nichts für mich dabei. Dann möchte ich doch lieber ins Kino gehen. Hier sehen sie eine Übersicht über das Programm der Heidelberger Kinos. Den würde ich gerne sehen. Wo kommt der? Ich zeige ihnen eine Übersicht über die Filme, die heute abend im Fernsehen laufen. Welche Spielfilme laufen den heute abend im Fernsehen?
Multimodale Ein- und Ausgabe in SmartKom Da würd‘ ich gern reservieren. Auf der Übersicht sehen sie die Anfangs- zeiten des Films „Eine kleine Weihnachtsgeschichte“ im Kino „Schloß“. Dann ein anderes Kino. Das da vielleicht. Eine Reservierung ist in diesem Kino nicht möglich. Da würd‘ ich gern reservieren. Gut. Das war‘s. Dankeschön. Tschüss. Ist das so richtig? Zeigen sie mir wo sie sitzen wollen. Ich hätte gern zwei Plätze hier. Auf Wiedersehen Ich habe die gewünschte Reservierung für Sie durchgeführt. Ihre Reservierungs- nummer ist 635. Sie können die Karten bis spätestens eine halbe Stunde vor Vorstellungsbeginn an der Kinokasse abholen. Richtig.
Verbmobil umfaßt alle drei Stufen der Sprachverarbeitung Akustische Sprachanalyse Wortlisten Grammatik Wortbe- deutungen Gesprächs- Kontext Wissen über das Gesprächs- thema Was hat der Sprecher gesagt? 100 Alternativen gemeint? 10 Was will der Sprecher? Eindeutiges Verstehen im Gesprächs- zusammenhang Reduktion von Unsicherheit Spracherkennung Gesprochene Eingabe Sprach- ver- stehen
Ideengeschichte planbasierter Ansätze der Dialogführung Handlungsplanung für Roboter Sprechakttheorie Sprachphilosophie / Linguistik Künstliche Intelligenz Planbasierte Mensch-Maschine Dialoge Gestische/ Mimische Akte Graphische Akte Semiotik / Kommunikationstheorie Computerlinguistik / Künstliche Intelligenz Semiotik / Kommunikationstheorie Planbasierte Methoden der Multimodalen Dialogführung Computerlinguistik / Künstliche Intelligenz
Plangenerierung und Planerkennung als duale Prozesse Planungsalgorithmen Planerkennungsalgorithmen Gegeben: l Anfangsspezifikation l Zielspezifikation Gegeben: l Anfangssituation l Folge beobachteter Aktionen Gesucht: l Folge von Aktionen, um von Anfang zu Ziel zu gelangen Gesucht: l Zielspezifikation Wie kann ich mein Kommunikationsziel erreichen? Welches Kommunikationsziel verfolgt mein Dialogpartner? l Operator-basierte Methoden l Deduktive Methoden l Graph-basierte Methoden
Code, Medium und Modalität CODE (Symbolsysteme) Sprache Graphik Gestik Mimik MEDIUM (Physikalischer Informationsträger) MODALITÄT (Menschliche Sinne) Ausgabe- kanäle Eingabe- kanäle Visuell Akustisch System Benutzer Speicherung Taktil Haptisch Festplatte CD-ROM
Wissensrepräsentations- Modalitätsspezifische Repräsentations- sprachen als Zwischenstufe zur Medienfusion Bilder/ Graphiken Gesten Sprachliche Äußerungen Graphisches Bildverstehen Gesten- analyse Gesten- generierung Graphik- generierung Parsing Generation Bild- beschreibungs- sprache Semantische Repräsentations- sprache Gesten- beschreibungs- sprache Ontologien Wissensrepräsentations- sprache Inferenzkomponente DBMS/ KBMS/ WWW
KI-Methoden für Intelligente Benutzerschnittstellen Modellbasierte Schnittstellengenerierung Wissensrepräsentation Plangenerierung u. -erkennung Dialogmanagement Zeitliches/Räumliches Schließen Medienkoordination Sprachverstehen Analyse multimodaler Eingaben K I Gestikverstehen Bildverstehen Sprachgenerierung Graphikgenerierung Generierung multimodaler Ausgaben Gestikgenerierung Benutzermodellierung Adaptive Interaktion Diskursmodellierung Kooperativer Dialog Constraint-Verarbeitung Layout und Disambiguierung Agenten-Modelling Interaktion mit gemischter Initiative Schnittstellen
Grobarchitektur von SmartKom Eingabevor- verarbeitung Modalitäts- spezifische Analysatoren Media Multimodale Interaktion Analysis Sprache Medienfusion Graphik Gestik/ Mimik Diskurs- modellierung Information, Anwendungen, Kommunikations-partner Biometrie Anwendungsschnittstelle mit Anwendungsmodell Multimodales Medien- design Kontext- abhängige Aktionsplanung Design Benutzer Sprache Graphik Intentions- erkennung Gestik Animierter Präsentations-agent Präsentations- design Ausgabe- realisierung Benutzer- modell Diskurs- modell Domänen- modell Aufgaben- modell Medien- modell Repräsentation und Inferenz
Multimodale Dialoge mit Navigat ionssystemen für Autofahrer und Fußgänger SmartKom bietet einen uniformenes Navigationsdialog trotz unterschiedlicher Positionierungstechnologien Benutzer: Ich möchte nach Heidelberg fahren. Smartakus: Wollen Sie die schnellste oder kürzeste Strecke fahren? Benutzer: Die schnellste. Smartakus: Hier sehen Sie eine Karte mit der schnellsten Verbindung von Saarbrücken nach Heidelberg.
Multimodale Dialoge mit Navigationssystemen für Autofahrer und Fußgänger Smartakus: Wir sind jetzt in Heidelberg angekommen. Hier ist ein Stadtplan mit den wichtigsten Sehenswürdigkeiten. User: Ich möchte mehr Information über diese Kirche. Smartakus: Hier siehst die Webseite über die Peterskirche. User: Wie komme ich zu Fuß am besten von diesem Parkplatz zu der Kirche. Smartakus: Auf dieser Karte habe ich den Weg markiert.
Vom Sprachdialog zum Multimodalen Dialog Verbmobil Klassische Mobiltelephonie Reine Sprache SmartKom UMTS-Mobilgerät der dritten Generation Sprache, Graphik, Gestik
Multomodale Kommunikation mit Unterhaltungselektronik Beispiel: Zugriff auf digitale Programmführer Benutzer: Welche Sender zeigen gerade aktuelle Nachrichten? Smartakus: CNN und NTV zeigen gearde Nachrichten. User: Zeige diesen Sender am Fernsehen und zeichne diese Nachrichtensendung auf. Smartakus: Okay, CNN wird jetzt vom Videorekorder aufgezeichnet und hier sind die NTV-Nachrichten.
Videobasierte Mimikerkennung auf der Basis von Eigenfaces neutral ärgerlich
Sprecherunabhängie Emotionserkennung neutral ärgerlich
Auslösen der deiktischen Interpretation von Ortsangaben durch fokusierende Zeigegesten (Wahlster 1991) 3 4 2 1 Ersetze das untere Dreieck durch das Viereck = Ersetze (1) durch (4) intrinsischer Gebrauch von ‘untere‘ bezogen auf Leserichtung der Bildschirmseite 3 4 2 1 Ersetze das untere Dreieck durch das Viereck = Ersetze (2) durch (4) deiktische Interpretation von ‘untere‘ bezogen auf Position des Zeigers
Fokusierende Geste zur Disambiguierung der Spracheingabe (Wahlster 1991) 2 X A C 1 Y A E 3 Z „Warum soll ich das ‚A‘ löschen?“
Parasprachliche Deixis in XTRA (Wahlster 1991) l Berücksichtigung der unterschiedlichen Granularitäten von Zeigehandlungen: - Bleistiftspitze - Zeigefinger - Kombination aus Zeigefinger und Mittelfinger (realisiert durch verschiedene Formen und Größen der Maus) l Verarbeitung von ungenauen Zeigehandlungen (Überdeckung mehrerer Regionen bei großflächigem Zeigemedium) l Auswertung von pars-pro-toto Deixis l Verarbeitung von Zeigegesten unter Textteile, die nicht verdeckt werden sollen Vereinfachungen: l Benutzer und System verfügen über einen gemeinsamen, eng begrenzten Zeigeraum l Verzicht auf die Analyse von - hinweisenden Kopfbewegungen - der Blickrichtung als Zeigehandlung - nicht-taktilen Zeigehandlungen
Synergetische Integration von Sprach- und Gestikeingabe Vorteile: l Für den Sender: ökonomische Referentenspezifikation - Die Beschreibung wird kürzer und darf unterspezifiziert sein. l Für den Empfänger: schnelle Referentenidentifikation - Orientierung in die gezeigte Richtung und Sprachverarbeitung erfolgen gleichzeitig. l Sprach- und Gestikeingabe disambiguieren sich wechselseitig. Nachteile: l Durch die Möglichkeit des Zeigens nimmt die Häufigkeit elliptischer Äußerungen zu ( komplexere Sprachanalyse). l Mehrfaches Zeigen in einer Äußerung kann zu Zuordnungsproblemen führen.
Zeigegesteninterpretation in XTRA (eXpert TRAnslator, Wahlster et al
Antizipationsrückkopplung bei der Gestengenerierung Rückkopplungs- schleife Gestenanalyse TACTILUS Minimale Ambiguität der Geste? Ja Nein Geplanter referentieller Akt Gestengenerierung ZORA Geplante Geste Realisierung der Geste
Referenzierende und fokusierende Wirkung von Gesten (Wahlster 1991) n Eingabe mit einer Hand: l Fokusierungsakt: z.B. Stift hinlegen, so daß er auf Region zeigt l Referenzakt: z.B. danach wird mit Zeigefinger auf Objekt in der Region gezeigt n Eingabe mit zwei Händen (simultanes Zeigen): l Fokusierungsakt: z.B. Zeigefinger einer Hand markiert eine Region l Referenzakt: z.B. Zeigefinger der anderen Hand zeigt Objekt in markierter Region
Anwendungsschnittstelle Unifikationsbasierte Integration von Sprach- und Gestikeingabe (MVPQ, © Johnston 2000, AT&T) Sprach-erkennung Gesten-erkennung Sprach-analyse Gesten-analyse Multimodaler Chart Parser Unifikations- basierte Multimodale Grammatik Anwendungsschnittstelle
Unifikationsbasierte Integration von Sprach- und Gestikeingabe (MVPQ, © Johnston 2000, AT&T) “Platziere das hier!” Sprach-analyse Gesten-analyse Typisierte Merkmalstrukturen für Sprachrepräsentation und Gestikeingabe nach nicht mehr als 5 Sekunden
Subkategorisierungsrahmen Gesten den Gesten Unifikationsbasierte Integration von Sprach- und Gestikeingabe (MVPQ, © Johnston 2000, AT&T) “Platziere das hier!” Multimodaler Subkategorisierungsrahmen l Spezifikation der erwarteten Gesten l Zeitliche Constraints über den Gesten ,
Unifikationsbasierte Integration von Sprach- und Gestikeingabe (MVPQ, © Johnston 2000, AT&T) “Platziere das hier!”
Unifikationsbasierte Integration von Sprach- und Gestikeingabe (MVPQ, © Johnston 2000, AT&T) “Platziere das hier!”
Unifikationsbasierte Integration von Sprach- und Gestikeingabe (MVPQ, © Johnston 2000, AT&T) “Platziere das hier!”
Verzahnte Analysearchitektur (MVPQ, © Johnston 2000, AT&T) “platziere” “das” “hier” Sprachanalyse “platziere” “das” “hier”
Verzahnte Analysearchitektur (MVPQ, © Johnston 2000, AT&T) “das” Multimodaler Chart Parser
Verzahnte Analysearchitektur (MVPQ, © Johnston 2000, AT&T) “hier” Multimodaler Chart Parser
Verzahnte Analysearchitektur (MVPQ, © Johnston 2000, AT&T) “platziere” “das” “hier” Sprachanalyse
Konjunktion (MVPQ, © Johnston 2000, AT&T) “Platziere das und das hier!” “PLATZIERE” “DAS” “UND” “HIER” + Anwendungsschnittstelle “DAS UND DAS”
Deiktische Numerale (MVPQ, © Johnston 2000, AT&T) “Diese vier!”
Using Context and World Knowledge for Semantic Transfer Example: Platz room / table / seat Nehmen wir dieses Hotel, ja. Let us take this hotel. Ich reserviere einen Platz. I will reserve a room. 1 Machen wir das Abendessen dort. Let us have dinner there. Ich reserviere einen Platz. I will reserve a table. 2 Gehen wir ins Theater. Let us go to the theater. Ich möchte Plätze reservieren. I would like to reserve seats. 3 All other dialog translation systems translate word-by-word or sentence-by-sentence.
Von der Eingabeschallwelle zur Ausgabeschallwelle Mögliche Phoneme Wörter Sätze Spracherkennung Mögliche Sätze Gramatische Struktur Wort- bedeutungen Satz- Sprachanalyse Satz- bedeutungen Diskursbedeutung in Quellsprache Wortwahl in Zielsprache Sprachverstehen und Übersetzung Diskursbedeutung in Zielsprache Wörter in Zielsprache Satzgenerierung Sprachsynthese Satzmelodie Generierung und Synthese
graph mit prosodischer Eine Multi-Blackboard Architektur zur Kombination von flachen und tiefen Verarbeitungspfaden Kommando- erkenner Kanal- und Sprecheradaption Audiodaten Spracherkenner für Spontansprache Prosodie- analyse Statistischer Parser Chunk Parser Worthypothesen- graph mit prosodischer Annotation Dialogakt- erkennung HPSG Parser Semantische Konstruktion Semantischer Transfer VITs Unterspezifizierte Diskurs- repräsentation Robuste Dialog- semantik Generierung