Ehrenvortrag Technische Univesität Darmstadt

Ehrenvortrag Technische Univesität Darmstadt
Darmstadt, 08. November 2001 Disambiguierung durch Wissensfusion: Grundprinzipien der Sprachtechnologie Wolfgang Wahlster Fachrichtung Informatik Universität des Saarlandes & Deutsches Forschungszentrum für Künstliche Intelligenz GmbH Stuhlsatzenhausweg 3, Geb. 43.1 66123 Saarbrücken Tel.: (0681) /4162 Fax: (0681) WWW:

Disambiguierung: Auflösung mehrdeutiger sprachlicher Äußerungen
l Problem der kombinatorischen Explosion der Lesarten durch Propagierung von Alternativen über alle Verarbeitungsebenen l Durch die Unsicherheit bei der Spracherkennung entstehen Wörter- gitter mit alternativen Hypothesen, welche die Flut von Lesarten noch weiter erhöhen Orthographisch übersetzen Morphologisch Staubecken Mehrdeutigkeiten Phonetisch me:r Lexikalisch Maus Pragmatisch Es zieht. Syntaktisch mit dem Teleskop Semantisch Ein - Alle

Verzögerte Disambiguierung Skopusmehr-deutigkeiten auf der Basis von Unterspezifikation
(A) Einen Computer benutzen alle Informatikstudenten. (1) x (computer (x)  y (informatik-student (y)  benutzt (y,x))) (2) y (informatik-student (y)  x (computer (x)  benutzt (x,y))) Unterspezifizierte Repräsentation (ohne Skopusdisambiguierung) (3) {x: computer, y: informatik-student} (benutzt (y,x)) (B) Das ist der Zentralrechner PDP-10. <vor 20 Jahren>  (1) (C) Oft bringen sie ihr Notebook mit in die Vorlesung. <heute>  (2)

Verzögerung und Umkehrung der Disambiguierung durch Unterspezifikation
l Vermeidung einer kombinatorischen Explosion der Lesart l Kompakte Repräsentation ohne Auswertung aller Disjunktionen l Unterstützung von nicht-monotoner Diskurssemantik mit Wait-and-See Strategie, ggf. mit Reininterpretation von Eingaben l Direkte Inferenz über unterspezifizierten Repräsentationen ist möglich {x: computer, y: informatik-student} (benutzt (y,x)) y (ki-student (informatik-student (x)) {x: computer, y: ki-student} (benutzt (y,x))

Symbolische und Subsymbolische Fusion von Eingabemodalitäten
Mimik- erkennung Lippen- lesen Gestik- erkennung Prosodie- Sprach- erkennung Subsymbolische Fusion - Neuronale Netze - Hidden Markov Modell Symbolische - Unifikation über Hypothesengittern - Bayessche Netze Referenzauflösung und Disambiguierung Bedeutungsrepräsentation

Wechselseitige Disambiguierung durch Multiple Eingabemodalitäten
Die kombinierte Sprach- und Bildverarbeitung erhöht die Robustheit und die Verstehensleistung multimodaler Benutzer-schnittstellen Spracherkennung + Lippenlesen höhere Robustheit bei gestörtem Sprachsignal und niedriger Worterkennungsrate Spracherkennung + Gestikerkennung (XTRA, SmartKom) referenzsemantische Disambiguierung und Aufmerksamkeitssteuerung Spracherkennung + Mimikerkennung (SmartKom) Erkennung von Ironie, Sarkasmus sowie Skopusdisambiguierung

Fusion von Sprach- und Mimikerkennung in SmartKom
Modifikation bis hin zur Negation der Standardsemantik (Ironie, Sarkasmus) (1) Smartakus: Hier sehen Sie die Übersicht zum heutigen ZDF Programm. (2) Benutzer: Echt toll. (3) Smartakus: Ich zeige Ihnen alternativ das Programm eines anderen Senders. (2’) Benutzer: Echt toll. (3’) Smartakus: Welche Sendungen wollen Sie aus dem ZDF-Programm sehen oder aufzeichnen?

Disambiguierung durch Selektions-restriktionen und Weltwissen
Vater zu einem Service-Roboter im Cyber-Restaurant: (1) Die Apfelschorle trinkt meine Tochter, die Weinschorle meine Frau. (A) trinkt (Agens: Apfelschorle, Objekt: Tochter)  trinkt (Agens: Weinschorle, Objekt: Frau) Weltwissen: Apfelschorle, Weinschorle Getränk Tochter, Frau Mensch Selektionsrestriktion: trinkt (Agens: Mensch, Objekt: Getränk) (B) trinkt (Agens: Tochter, Objekt: Apfelschorle)  trinkt (Agens: Frau, Objekt: Weinschorle)

Fusion und Allokation multipler Modalitäten in SmartKom

Kombination von Sprache und Gestik in SmartKom
Auf der Karte sind die Kinos markiert, in denen der Film „Eine kleine Weihnachts- geschichte“ läuft. Da ist nichts für mich dabei. Dann möchte ich doch lieber ins Kino gehen. Hier sehen sie eine Übersicht über das Programm der Heidelberger Kinos. Den würde ich gerne sehen. Wo kommt der? Ich zeige ihnen eine Übersicht über die Filme, die heute abend im Fernsehen laufen. Welche Spielfilme laufen den heute abend im Fernsehen?

Multimodale Ein- und Ausgabe in SmartKom
Da würd‘ ich gern reservieren. Auf der Übersicht sehen sie die Anfangs- zeiten des Films „Eine kleine Weihnachtsgeschichte“ im Kino „Schloß“. Dann ein anderes Kino. Das da vielleicht. Eine Reservierung ist in diesem Kino nicht möglich. Da würd‘ ich gern reservieren. Gut. Das war‘s. Dankeschön. Tschüss. Ist das so richtig? Zeigen sie mir wo sie sitzen wollen. Ich hätte gern zwei Plätze hier. Auf Wiedersehen Ich habe die gewünschte Reservierung für Sie durchgeführt. Ihre Reservierungs- nummer ist 635. Sie können die Karten bis spätestens eine halbe Stunde vor Vorstellungsbeginn an der Kinokasse abholen. Richtig.

Verbmobil umfaßt alle drei Stufen der Sprachverarbeitung
Akustische Sprachanalyse Wortlisten Grammatik Wortbe- deutungen Gesprächs- Kontext Wissen über das Gesprächs- thema Was hat der Sprecher gesagt? 100 Alternativen gemeint? 10 Was will der Sprecher? Eindeutiges Verstehen im Gesprächs- zusammenhang Reduktion von Unsicherheit Spracherkennung Gesprochene Eingabe Sprach- verstehen

Ideengeschichte planbasierter Ansätze der Dialogführung
Handlungsplanung für Roboter Sprechakttheorie Sprachphilosophie / Linguistik Künstliche Intelligenz Planbasierte Mensch-Maschine Dialoge Gestische/ Mimische Akte Graphische Akte Semiotik / Kommunikationstheorie Computerlinguistik / Künstliche Intelligenz Semiotik / Kommunikationstheorie Planbasierte Methoden der Multimodalen Dialogführung Computerlinguistik / Künstliche Intelligenz

Plangenerierung und Planerkennung als duale Prozesse
Planungsalgorithmen Planerkennungsalgorithmen Gegeben: l Anfangsspezifikation l Zielspezifikation Gegeben: l Anfangssituation l Folge beobachteter Aktionen Gesucht: l Folge von Aktionen, um von Anfang zu Ziel zu gelangen Gesucht: l Zielspezifikation Wie kann ich mein Kommunikationsziel erreichen? Welches Kommunikationsziel verfolgt mein Dialogpartner? l Operator-basierte Methoden l Deduktive Methoden l Graph-basierte Methoden

Code, Medium und Modalität
CODE (Symbolsysteme) Sprache Graphik Gestik Mimik MEDIUM (Physikalischer Informationsträger) MODALITÄT (Menschliche Sinne) Ausgabe- kanäle Eingabe- kanäle Visuell Akustisch System Benutzer Speicherung Taktil Haptisch Festplatte CD-ROM

Wissensrepräsentations-
Modalitätsspezifische Repräsentations- sprachen als Zwischenstufe zur Medienfusion Bilder/ Graphiken Gesten Sprachliche Äußerungen Graphisches Bildverstehen Gesten- analyse Gesten- generierung Graphik- generierung Parsing Generation Bild- beschreibungs- sprache Semantische Repräsentations- sprache Gesten- beschreibungs- sprache Ontologien Wissensrepräsentations- sprache Inferenzkomponente DBMS/ KBMS/ WWW

KI-Methoden für Intelligente Benutzerschnittstellen
Modellbasierte Schnittstellengenerierung Wissensrepräsentation Plangenerierung u. -erkennung Dialogmanagement Zeitliches/Räumliches Schließen Medienkoordination Sprachverstehen Analyse multimodaler Eingaben K I Gestikverstehen Bildverstehen Sprachgenerierung Graphikgenerierung Generierung multimodaler Ausgaben Gestikgenerierung Benutzermodellierung Adaptive Interaktion Diskursmodellierung Kooperativer Dialog Constraint-Verarbeitung Layout und Disambiguierung Agenten-Modelling Interaktion mit gemischter Initiative Schnittstellen

Grobarchitektur von SmartKom
Eingabevor- verarbeitung Modalitäts- spezifische Analysatoren Media Multimodale Interaktion Analysis Sprache Medienfusion Graphik Gestik/ Mimik Diskurs- modellierung Information, Anwendungen, Kommunikations-partner Biometrie Anwendungsschnittstelle mit Anwendungsmodell Multimodales Medien- design Kontext- abhängige Aktionsplanung Design Benutzer Sprache Graphik Intentions- erkennung Gestik Animierter Präsentations-agent Präsentations- design Ausgabe- realisierung Benutzer- modell Diskurs- modell Domänen- modell Aufgaben- modell Medien- modell Repräsentation und Inferenz

Multimodale Dialoge mit Navigat ionssystemen für Autofahrer und Fußgänger
SmartKom bietet einen uniformenes Navigationsdialog trotz unterschiedlicher Positionierungstechnologien Benutzer: Ich möchte nach Heidelberg fahren. Smartakus: Wollen Sie die schnellste oder kürzeste Strecke fahren? Benutzer: Die schnellste. Smartakus: Hier sehen Sie eine Karte mit der schnellsten Verbindung von Saarbrücken nach Heidelberg.

Multimodale Dialoge mit Navigationssystemen für Autofahrer und Fußgänger
Smartakus: Wir sind jetzt in Heidelberg angekommen. Hier ist ein Stadtplan mit den wichtigsten Sehenswürdigkeiten. User: Ich möchte mehr Information über diese Kirche. Smartakus: Hier siehst die Webseite über die Peterskirche. User: Wie komme ich zu Fuß am besten von diesem Parkplatz zu der Kirche. Smartakus: Auf dieser Karte habe ich den Weg markiert.

Vom Sprachdialog zum Multimodalen Dialog
Verbmobil Klassische Mobiltelephonie Reine Sprache SmartKom UMTS-Mobilgerät der dritten Generation Sprache, Graphik, Gestik

Multomodale Kommunikation mit Unterhaltungselektronik
Beispiel: Zugriff auf digitale Programmführer Benutzer: Welche Sender zeigen gerade aktuelle Nachrichten? Smartakus: CNN und NTV zeigen gearde Nachrichten. User: Zeige diesen Sender am Fernsehen und zeichne diese Nachrichtensendung auf. Smartakus: Okay, CNN wird jetzt vom Videorekorder aufgezeichnet und hier sind die NTV-Nachrichten.

Videobasierte Mimikerkennung auf der Basis von Eigenfaces
neutral ärgerlich

Sprecherunabhängie Emotionserkennung
neutral ärgerlich

Auslösen der deiktischen Interpretation von Ortsangaben durch fokusierende Zeigegesten (Wahlster 1991) 3 4 2 1 Ersetze das untere Dreieck durch das Viereck = Ersetze (1) durch (4) intrinsischer Gebrauch von ‘untere‘ bezogen auf Leserichtung der Bildschirmseite 3 4 2 1 Ersetze das untere Dreieck durch das Viereck = Ersetze (2) durch (4) deiktische Interpretation von ‘untere‘ bezogen auf Position des Zeigers

Fokusierende Geste zur Disambiguierung der Spracheingabe (Wahlster 1991)
2 X A C 1 Y A E 3 Z „Warum soll ich das ‚A‘ löschen?“

Parasprachliche Deixis in XTRA (Wahlster 1991)
l Berücksichtigung der unterschiedlichen Granularitäten von Zeigehandlungen: - Bleistiftspitze - Zeigefinger - Kombination aus Zeigefinger und Mittelfinger (realisiert durch verschiedene Formen und Größen der Maus) l Verarbeitung von ungenauen Zeigehandlungen (Überdeckung mehrerer Regionen bei großflächigem Zeigemedium) l Auswertung von pars-pro-toto Deixis l Verarbeitung von Zeigegesten unter Textteile, die nicht verdeckt werden sollen Vereinfachungen: l Benutzer und System verfügen über einen gemeinsamen, eng begrenzten Zeigeraum l Verzicht auf die Analyse von - hinweisenden Kopfbewegungen - der Blickrichtung als Zeigehandlung - nicht-taktilen Zeigehandlungen

Synergetische Integration von Sprach- und Gestikeingabe
Vorteile: l Für den Sender: ökonomische Referentenspezifikation - Die Beschreibung wird kürzer und darf unterspezifiziert sein. l Für den Empfänger: schnelle Referentenidentifikation - Orientierung in die gezeigte Richtung und Sprachverarbeitung erfolgen gleichzeitig. l Sprach- und Gestikeingabe disambiguieren sich wechselseitig. Nachteile: l Durch die Möglichkeit des Zeigens nimmt die Häufigkeit elliptischer Äußerungen zu ( komplexere Sprachanalyse). l Mehrfaches Zeigen in einer Äußerung kann zu Zuordnungsproblemen führen.

Zeigegesteninterpretation in XTRA (eXpert TRAnslator, Wahlster et al

Antizipationsrückkopplung bei der Gestengenerierung
Rückkopplungs- schleife Gestenanalyse TACTILUS Minimale Ambiguität der Geste? Ja Nein Geplanter referentieller Akt Gestengenerierung ZORA Geplante Geste Realisierung der Geste

Referenzierende und fokusierende Wirkung von Gesten (Wahlster 1991)
n Eingabe mit einer Hand: l Fokusierungsakt: z.B. Stift hinlegen, so daß er auf Region zeigt l Referenzakt: z.B. danach wird mit Zeigefinger auf Objekt in der Region gezeigt n Eingabe mit zwei Händen (simultanes Zeigen): l Fokusierungsakt: z.B. Zeigefinger einer Hand markiert eine Region l Referenzakt: z.B. Zeigefinger der anderen Hand zeigt Objekt in markierter Region

Anwendungsschnittstelle
Unifikationsbasierte Integration von Sprach- und Gestikeingabe (MVPQ, © Johnston 2000, AT&T) Sprach-erkennung Gesten-erkennung Sprach-analyse Gesten-analyse Multimodaler Chart Parser Unifikations- basierte Multimodale Grammatik Anwendungsschnittstelle

Unifikationsbasierte Integration von Sprach- und Gestikeingabe (MVPQ, © Johnston 2000, AT&T)
“Platziere das hier!” Sprach-analyse Gesten-analyse Typisierte Merkmalstrukturen für Sprachrepräsentation und Gestikeingabe nach nicht mehr als 5 Sekunden

Subkategorisierungsrahmen Gesten den Gesten
Unifikationsbasierte Integration von Sprach- und Gestikeingabe (MVPQ, © Johnston 2000, AT&T) “Platziere das hier!” Multimodaler Subkategorisierungsrahmen l Spezifikation der erwarteten Gesten l Zeitliche Constraints über den Gesten ,

Verzahnte Analysearchitektur (MVPQ, © Johnston 2000, AT&T)
“platziere” “das” “hier” Sprachanalyse “platziere” “das” “hier”

“das” Multimodaler Chart Parser

“hier” Multimodaler Chart Parser

“platziere” “das” “hier” Sprachanalyse

Konjunktion (MVPQ, © Johnston 2000, AT&T)
“Platziere das und das hier!” “PLATZIERE” “DAS” “UND” “HIER” + Anwendungsschnittstelle “DAS UND DAS”

Using Context and World Knowledge for Semantic Transfer
Example: Platz  room / table / seat Nehmen wir dieses Hotel, ja.  Let us take this hotel. Ich reserviere einen Platz  I will reserve a room. 1 Machen wir das Abendessen dort.  Let us have dinner there. Ich reserviere einen Platz  I will reserve a table. 2 Gehen wir ins Theater  Let us go to the theater. Ich möchte Plätze reservieren.  I would like to reserve seats. 3 All other dialog translation systems translate word-by-word or sentence-by-sentence.

Von der Eingabeschallwelle zur Ausgabeschallwelle
Mögliche Phoneme Wörter Sätze Spracherkennung Mögliche Sätze Gramatische Struktur Wort- bedeutungen Satz- Sprachanalyse Satz- bedeutungen Diskursbedeutung in Quellsprache Wortwahl in Zielsprache Sprachverstehen und Übersetzung Diskursbedeutung in Zielsprache Wörter in Zielsprache Satzgenerierung Sprachsynthese Satzmelodie Generierung und Synthese

graph mit prosodischer
Eine Multi-Blackboard Architektur zur Kombination von flachen und tiefen Verarbeitungspfaden Kommando- erkenner Kanal- und Sprecheradaption Audiodaten Spracherkenner für Spontansprache Prosodie- analyse Statistischer Parser Chunk Parser Worthypothesen- graph mit prosodischer Annotation Dialogakt- erkennung HPSG Parser Semantische Konstruktion Semantischer Transfer VITs Unterspezifizierte Diskurs- repräsentation Robuste Dialog- semantik Generierung

Ehrenvortrag Technische Univesität Darmstadt

Ähnliche Präsentationen

Präsentation zum Thema: "Ehrenvortrag Technische Univesität Darmstadt"— Präsentation transkript:

Ähnliche Präsentationen

Über Projekt

Feedback

Anmelden

Anmeldung über soziales Netzwerk:

Ehrenvortrag Technische Univesität Darmstadt

Ähnliche Präsentationen

Präsentation zum Thema: "Ehrenvortrag Technische Univesität Darmstadt"— Präsentation transkript:

Ähnliche Präsentationen

Über Projekt

Feedback