Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

Ehrenvortrag Technische Univesität Darmstadt Wolfgang Wahlster Fachrichtung Informatik Universität des Saarlandes & Deutsches Forschungszentrum für Künstliche.

Ähnliche Präsentationen


Präsentation zum Thema: "Ehrenvortrag Technische Univesität Darmstadt Wolfgang Wahlster Fachrichtung Informatik Universität des Saarlandes & Deutsches Forschungszentrum für Künstliche."—  Präsentation transkript:

1 Ehrenvortrag Technische Univesität Darmstadt Wolfgang Wahlster Fachrichtung Informatik Universität des Saarlandes & Deutsches Forschungszentrum für Künstliche Intelligenz GmbH Stuhlsatzenhausweg 3, Geb Saarbrücken Tel.: (0681) /4162 Fax: (0681) WWW: Disambiguierung durch Wissensfusion: Grundprinzipien der Sprachtechnologie Darmstadt, 08. November 2001

2 © W. Wahlster, DFKI Disambiguierung: Auflösung mehrdeutiger sprachlicher Äußerungen Problem der kombinatorischen Explosion der Lesarten durch Propagierung von Alternativen über alle Verarbeitungsebenen Durch die Unsicherheit bei der Spracherkennung entstehen Wörter- gitter mit alternativen Hypothesen, welche die Flut von Lesarten noch weiter erhöhen Phonetisch me:r Orthographisch übersetzen Mehrdeutigkeiten Semantisch Ein - Alle Morphologisch Staubecken Syntaktisch mit dem Teleskop Pragmatisch Es zieht. Lexikalisch Maus

3 © W. Wahlster, DFKI Verzögerte Disambiguierung Skopusmehr- deutigkeiten auf der Basis von Unterspezifikation (A) Einen Computer benutzen alle Informatikstudenten. (1) x (computer (x) y (informatik-student (y) benutzt (y,x))) (2) y (informatik-student (y) x (computer (x) benutzt (x,y))) Unterspezifizierte Repräsentation (ohne Skopusdisambiguierung) (3) { x : computer, y: informatik-student } (benutzt (y,x)) (B)Das ist der Zentralrechner PDP-10. (1) (C)Oft bringen sie ihr Notebook mit in die Vorlesung. (2)

4 © W. Wahlster, DFKI Verzögerung und Umkehrung der Disambiguierung durch Unterspezifikation Vermeidung einer kombinatorischen Explosion der Lesart Kompakte Repräsentation ohne Auswertung aller Disjunktionen Unterstützung von nicht-monotoner Diskurssemantik mit Wait-and-See Strategie, ggf. mit Reininterpretation von Eingaben Direkte Inferenz über unterspezifizierten Repräsentationen ist möglich { x : computer, y: informatik-student } (benutzt (y,x)) y (ki-student (informatik-student (x)) { x : computer, y: ki-student } (benutzt (y,x))

5 © W. Wahlster, DFKI Symbolische und Subsymbolische Fusion von Eingabemodalitäten Sprach- erkennung Gestik- erkennung Prosodie- erkennung Mimik- erkennung Lippen- lesen Subsymbolische Fusion - Neuronale Netze - Hidden Markov Modell Symbolische Fusion - Unifikation über Hypothesengittern - Bayessche Netze Referenzauflösung und Disambiguierung Bedeutungsrepräsentation

6 © W. Wahlster, DFKI Wechselseitige Disambiguierung durch Multiple Eingabemodalitäten Die kombinierte Sprach- und Bildverarbeitung erhöht die Robustheit und die Verstehensleistung multimodaler Benutzer-schnittstellen Spracherkennung + Lippenlesen höhere Robustheit bei gestörtem Sprachsignal und niedriger Worterkennungsrate Spracherkennung + Gestikerkennung (XTRA, SmartKom) referenzsemantische Disambiguierung und Aufmerksamkeitssteuerung Spracherkennung + Mimikerkennung (SmartKom) Erkennung von Ironie, Sarkasmus sowie Skopusdisambiguierung

7 © W. Wahlster, DFKI Fusion von Sprach- und Mimikerkennung in SmartKom Modifikation bis hin zur Negation der Standardsemantik (Ironie, Sarkasmus) (1) Smartakus: Hier sehen Sie die Übersicht zum heutigen ZDF- Programm. (2)Benutzer: Echt toll. (3) Smartakus: Ich zeige Ihnen alternativ das Programm eines anderen Senders. (2)Benutzer: Echt toll. (3) Smartakus: Welche Sendungen wollen Sie aus dem ZDF-Programm sehen oder aufzeichnen?

8 © W. Wahlster, DFKI Disambiguierung durch Selektions- restriktionen und Weltwissen Vater zu einem Service-Roboter im Cyber-Restaurant: (1)Die Apfelschorle trinkt meine Tochter, die Weinschorle meine Frau. (A) trinkt (Agens: Apfelschorle, Objekt: Tochter) trinkt (Agens: Weinschorle, Objekt: Frau) Weltwissen: Apfelschorle, Weinschorle Getränk Tochter, Frau Mensch Selektionsrestriktion: trinkt (Agens: Mensch, Objekt: Getränk) (B)trinkt (Agens: Tochter, Objekt: Apfelschorle) trinkt (Agens: Frau, Objekt: Weinschorle)

9 © W. Wahlster, DFKI Fusion und Allokation multipler Modalitäten in SmartKom

10 © W. Wahlster, DFKI Fusion und Allokation multipler Modalitäten in SmartKom

11 © W. Wahlster, DFKI Fusion und Allokation multipler Modalitäten in SmartKom

12 © W. Wahlster, DFKI Fusion und Allokation multipler Modalitäten in SmartKom

13 © W. Wahlster, DFKI Fusion und Allokation multipler Modalitäten in SmartKom

14 © W. Wahlster, DFKI Fusion und Allokation multipler Modalitäten in SmartKom

15 © W. Wahlster, DFKI Fusion und Allokation multipler Modalitäten in SmartKom

16 © W. Wahlster, DFKI Fusion und Allokation multipler Modalitäten in SmartKom

17 © W. Wahlster, DFKI Fusion und Allokation multipler Modalitäten in SmartKom

18 © W. Wahlster, DFKI Fusion und Allokation multipler Modalitäten in SmartKom

19 © W. Wahlster, DFKI Fusion und Allokation multipler Modalitäten in SmartKom

20 © W. Wahlster, DFKI Fusion und Allokation multipler Modalitäten in SmartKom

21 © W. Wahlster, DFKI Fusion und Allokation multipler Modalitäten in SmartKom

22 © W. Wahlster, DFKI Fusion und Allokation multipler Modalitäten in SmartKom

23 © W. Wahlster, DFKI Fusion und Allokation multipler Modalitäten in SmartKom

24 © W. Wahlster, DFKI Fusion und Allokation multipler Modalitäten in SmartKom

25 © W. Wahlster, DFKI Fusion und Allokation multipler Modalitäten in SmartKom

26 © W. Wahlster, DFKI

27

28 Welche Spielfilme laufen den heute abend im Fernsehen? Kombination von Sprache und Gestik in SmartKom Ich zeige ihnen eine Übersicht über die Filme, die heute abend im Fernsehen laufen. Da ist nichts für mich dabei. Dann möchte ich doch lieber ins Kino gehen. Hier sehen sie eine Übersicht über das Programm der Heidelberger Kinos. Den würde ich gerne sehen. Wo kommt der? Auf der Karte sind die Kinos markiert, in denen der Film Eine kleine Weihnachts- geschichte läuft.

29 © W. Wahlster, DFKI Multimodale Ein- und Ausgabe in SmartKom Da würd ich gern reservieren. Eine Reservierung ist in diesem Kino nicht möglich. Dann ein anderes Kino. Das da vielleicht. Auf der Übersicht sehen sie die Anfangs- zeiten des Films Eine kleine Weihnachtsgeschichte im Kino Schloß. Da würd ich gern reservieren. Zeigen sie mir wo sie sitzen wollen. Ich hätte gern zwei Plätze hier. Ist das so richtig? Richtig. Ich habe die gewünschte Reservierung für Sie durchgeführt. Ihre Reservierungs- nummer ist 635. Sie können die Karten bis spätestens eine halbe Stunde vor Vorstellungsbeginn an der Kinokasse abholen. Gut. Das wars. Dankeschön. Tschüss. Auf Wiedersehen

30 © W. Wahlster, DFKI Verbmobil umfaßt alle drei Stufen der Sprachverarbeitung Akustische Sprachanalyse Wortlisten Grammatik Wortbe- deutungen Gesprächs- Kontext Wissen über das Gesprächs- thema Was hat der Sprecher gesagt? 100 Alternativen Was hat der Sprecher gemeint? 10 Alternativen Was will der Sprecher? Eindeutiges Verstehen im Gesprächs- zusammenhang Reduktion von Unsicherheit Sprachanalys e Spracherkennung Gesprochene Eingabe Sprachanalyse Sprach- ver- stehen

31 © W. Wahlster, DFKI Handlungsplanung für Roboter Künstliche Intelligenz Ideengeschichte planbasierter Ansätze der Dialogführung Graphische Akte Semiotik / Kommunikationstheorie Gestische/ Mimische Akte Semiotik / Kommunikationstheorie Planbasierte Mensch-Maschine Dialoge Computerlinguistik / Künstliche Intelligenz Planbasierte Methoden der Multimodalen Dialogführung Computerlinguistik / Künstliche Intelligenz Sprechakttheorie Sprachphilosophie / Linguistik

32 © W. Wahlster, DFKI Plangenerierung und Planerkennung als duale Prozesse Planungsalgorithmen Gegeben: Gesucht: Anfangsspezifikation Zielspezifikation Folge von Aktionen, um von Anfang zu Ziel zu gelangen Wie kann ich mein Kommunikationsziel erreichen? Planerkennungsalgorithmen Gegeben: Gesucht: Anfangssituation Folge beobachteter Aktionen Zielspezifikation Welches Kommunikationsziel verfolgt mein Dialogpartner? Operator-basierte Methoden Deduktive Methoden Graph-basierte Methoden

33 © W. Wahlster, DFKI System Eingabe- kanäle Ausgabe- kanäle Speicherung Festplatte CD-ROM MEDIUM (Physikalischer Informationsträger) MODALITÄT (Menschliche Sinne) SpracheGraphikGestik CODE (Symbolsysteme) Mimik Code, Medium und Modalität Visuell Taktil Akustisch Haptisch Benutzer

34 © W. Wahlster, DFKI Gesten Bilder/ Graphiken Semantische Repräsentations- sprache Bild- beschreibungs- sprache Gesten- beschreibungs- sprache Ontologien DBMS/ KBMS/ WWW Graphisches Bildverstehen Graphik- generierung Generation Gesten- analyse Gesten- generierung Parsing Modalitätsspezifische Repräsentations- sprachen als Zwischenstufe zur Medienfusion Sprachliche Äußerungen Wissensrepräsentations- sprache Inferenzkomponente

35 © W. Wahlster, DFKI Benutzer- Modellbasierte Schnittstellengenerierung Dialogmanagement Medienkoordination Analyse multimodaler Eingaben Generierung multimodaler Ausgaben Adaptive Interaktion Kooperativer Dialog Layout und Disambiguierung Interaktion mit gemischter Initiative KI-Methoden für Intelligente Benutzerschnittstelle n Wissensrepräsentation Plangenerierung u. -erkennung Zeitliches/Räumliches Schließen KIKI Sprachverstehen Gestikverstehen Bildverstehen Sprachgenerierung Graphikgenerierung Gestikgenerierung Benutzermodellierung Diskursmodellierung Constraint-Verarbeitung Agenten-Modelling Schnittstellen

36 © W. Wahlster, DFKI Benutzer Information, Anwendungen, Kommunikations- partner Eingabevor- verarbeitung Ausgabe- realisierung Medienfusion Multimodale Interaktion Kontext- abhängige Aktionsplanung Diskurs- modellierung Präsentations- design Intentions- erkennung Media Analysis Design Modalitäts- spezifische Analysatoren Multimodales Medien- design Sprache Graphik Gestik/ Mimik Biometrie Sprache Graphik Gestik Animierter Präsentations -agent Repräsentation und Inferenz Benutzer- modell Diskurs- modell Domänen- modell Aufgaben- modell Medien- modell Anwendungsschnittstelle mit Anwendungsmodell Grobarchitektur von SmartKom

37 © W. Wahlster, DFKI Multimodale Dialoge mit Navigat ionssystemen für Autofahrer und Fußgänger Benutzer: Ich möchte nach Heidelberg fahren. Smartakus: Wollen Sie die schnellste oder kürzeste Strecke fahren? Benutzer: Die schnellste. Smartakus: Hier sehen Sie eine Karte mit der schnellsten Verbindung von Saarbrücken nach Heidelberg. SmartKom bietet einen uniformenes Navigationsdialog trotz unterschiedlicher Positionierungstechnologien

38 © W. Wahlster, DFKI Multimodale Dialoge mit Navigationssystemen für Autofahrer und Fußgänger Smartakus: Wir sind jetzt in Heidelberg angekommen. Hier ist ein Stadtplan mit den wichtigsten Sehenswürdigkeiten. User: Ich möchte mehr Information über diese Kirche. Smartakus: Hier siehst die Webseite über die Peterskirche. User: Wie komme ich zu Fuß am besten von diesem Parkplatz zu der Kirche. Smartakus: Auf dieser Karte habe ich den Weg markiert.

39 © W. Wahlster, DFKI Vom Sprachdialog zum Multimodalen Dialog SmartKom UMTS-Mobilgerät der dritten Generation Sprache, Graphik, Gestik Verbmobil Klassische Mobiltelephonie Reine Sprache

40 © W. Wahlster, DFKI Multomodale Kommunikation mit Unterhaltungselektronik Benutzer: Welche Sender zeigen gerade aktuelle Nachrichten? Smartakus: CNN und NTV zeigen gearde Nachrichten. User: Zeige diesen Sender am Fernsehen und zeichne diese Nachrichtensendung auf. Smartakus: Okay, CNN wird jetzt vom Videorekorder aufgezeichnet und hier sind die NTV-Nachrichten. Beispiel: Zugriff auf digitale Programmführer

41 © W. Wahlster, DFKI neutral Videobasierte Mimikerkennung auf der Basis von Eigenfaces ärgerlich

42 © W. Wahlster, DFKI ärgerlichneutral Sprecherunabhängie Emotionserkennung

43 © W. Wahlster, DFKI Auslösen der deiktischen Interpretation von Ortsangaben durch fokusierende Zeigegesten (Wahlster 1991) Ersetze das untere Dreieck durch das Viereck = Ersetze (1) durch (4) intrinsischer Gebrauch von untere bezogen auf Leserichtung der Bildschirmseite Ersetze das untere Dreieck durch das Viereck = Ersetze (2) durch (4) deiktische Interpretation von untere bezogen auf Position des Zeigers

44 © W. Wahlster, DFKI Fokusierende Geste zur Disambiguierung der Spracheingabe (Wahlster 1991) Warum soll ich das A löschen? BA2 A A C E 1 3 X Y Z

45 © W. Wahlster, DFKI Parasprachliche Deixis in XTRA (Wahlster 1991) Berücksichtigung der unterschiedlichen Granularitäten von Zeigehandlungen: -Bleistiftspitze -Zeigefinger -Kombination aus Zeigefinger und Mittelfinger (realisiert durch verschiedene Formen und Größen der Maus) Verarbeitung von ungenauen Zeigehandlungen (Überdeckung mehrerer Regionen bei großflächigem Zeigemedium) Auswertung von pars-pro-toto Deixis Verarbeitung von Zeigegesten unter Textteile, die nicht verdeckt werden sollen Vereinfachungen: Benutzer und System verfügen über einen gemeinsamen, eng begrenzten Zeigeraum Verzicht auf die Analyse von -hinweisenden Kopfbewegungen -der Blickrichtung als Zeigehandlung -nicht-taktilen Zeigehandlungen

46 © W. Wahlster, DFKI Synergetische Integration von Sprach- und Gestikeingabe Vorteile: Für den Sender: ökonomische Referentenspezifikation -Die Beschreibung wird kürzer und darf unterspezifiziert sein. Für den Empfänger: schnelle Referentenidentifikation - Orientierung in die gezeigte Richtung und Sprachverarbeitung erfolgen gleichzeitig. Sprach- und Gestikeingabe disambiguieren sich wechselseitig. Nachteile: Durch die Möglichkeit des Zeigens nimmt die Häufigkeit elliptischer Äußerungen zu ( komplexere Sprachanalyse). Mehrfaches Zeigen in einer Äußerung kann zu Zuordnungsproblemen führen.

47 © W. Wahlster, DFKI Zeigegesteninterpretation in XTRA (eXpert TRAnslator, Wahlster et al. 1986)

48 © W. Wahlster, DFKI Geplanter referentieller Akt Gestenanalyse TACTILUS JaNein Minimale Ambiguität der Geste? Antizipationsrückkopplung bei der Gestengenerierung Realisierung der Geste Geplante Geste Rückkopplungs- schleife Gestengenerierung ZORA

49 © W. Wahlster, DFKI Referenzierende und fokusierende Wirkung von Gesten (Wahlster 1991) Eingabe mit einer Hand: Fokusierungsakt:z.B. Stift hinlegen, so daß er auf Region zeigt Referenzakt:z.B. danach wird mit Zeigefinger auf Objekt in der Region gezeigt Eingabe mit zwei Händen (simultanes Zeigen): Fokusierungsakt:z.B. Zeigefinger einer Hand markiert eine Region Referenzakt:z.B. Zeigefinger der anderen Hand zeigt Objekt in markierter Region

50 © W. Wahlster, DFKI Sprach- erkennung Gesten- erkennung Multimodaler Chart Parser Unifikations- basierte Multimodale Grammatik Unifikationsbasierte Integration von Sprach- und Gestikeingabe (MVPQ, © Johnston 2000, AT&T) Sprach- analyse Gesten- analyse Anwendungsschnittstelle

51 © W. Wahlster, DFKI Platziere das hier! Gesten- analyse Sprach- analyse Typisierte Merkmalstrukturen für Sprachrepräsentation und Gestikeingabe nach nicht mehr als 5 Sekunden Unifikationsbasierte Integration von Sprach- und Gestikeingabe (MVPQ, © Johnston 2000, AT&T)

52 © W. Wahlster, DFKI Platziere das hier! Multimodaler Subkategorisierungsrahmen Spezifikation der erwarteten Gesten Zeitliche Constraints über den Gesten, Unifikationsbasierte Integration von Sprach- und Gestikeingabe (MVPQ, © Johnston 2000, AT&T)

53 © W. Wahlster, DFKI Unifikationsbasierte Integration von Sprach- und Gestikeingabe (MVPQ, © Johnston 2000, AT&T) Platziere das hier!

54 © W. Wahlster, DFKI Unifikationsbasierte Integration von Sprach- und Gestikeingabe (MVPQ, © Johnston 2000, AT&T) Platziere das hier!

55 © W. Wahlster, DFKI Unifikationsbasierte Integration von Sprach- und Gestikeingabe (MVPQ, © Johnston 2000, AT&T) Platziere das hier!

56 © W. Wahlster, DFKI Verzahnte Analysearchitektur (MVPQ, © Johnston 2000, AT&T) platziere das hier Sprachanalyse platziere das hier

57 © W. Wahlster, DFKI das Multimodaler Chart Parser Verzahnte Analysearchitektur (MVPQ, © Johnston 2000, AT&T)

58 © W. Wahlster, DFKI hier Multimodaler Chart Parser Verzahnte Analysearchitektur (MVPQ, © Johnston 2000, AT&T)

59 © W. Wahlster, DFKI platziere das hier Sprachanalyse Verzahnte Analysearchitektur (MVPQ, © Johnston 2000, AT&T)

60 © W. Wahlster, DFKI Konjunktion (MVPQ, © Johnston 2000, AT&T) Platziere das und das hier! PLATZIERE DAS UND HIER DAS UND DAS Anwendungsschnittstelle + + +

61 © W. Wahlster, DFKI Deiktische Numerale (MVPQ, © Johnston 2000, AT&T) Diese vier!

62 © W. Wahlster, DFKI Using Context and World Knowledge for Semantic Transfer All other dialog translation systems translate word-by-word or sentence-by-sentence. 1 Nehmen wir dieses Hotel, ja. Let us take this hotel. Ich reserviere einen Platz. I will reserve a room. 2 Machen wir das Abendessen dort. Let us have dinner there. Ich reserviere einen Platz. I will reserve a table. 3 Gehen wir ins Theater. Let us go to the theater. Ich möchte Plätze reservieren. I would like to reserve seats. Example: Platz room / table / seat

63 © W. Wahlster, DFKI Von der Eingabeschallwelle zur Ausgabeschallwelle Schallwelle Mögliche Phoneme Mögliche Wörter Mögliche Sätze Spracherkennung Mögliche Sätze Gramatische Struktur Wort- bedeutungen Satz- bedeutungen Sprachanalyse Satz- bedeutungen Diskursbedeutun g in Quellsprache Wortwahl in Zielsprache Sprachverstehen und Übersetzung Diskursbedeutun g in Zielsprache Wörter in Zielsprache Satzgenerierung Sprachsynthes e Satzmelodie Generierung und Synthese

64 © W. Wahlster, DFKI Audiodaten Worthypothesen- graph mit prosodischer Annotation VITs Unterspezifizierte Diskurs- repräsentation Kommando- erkenner Spracherkenner für Spontansprache Kanal- und Sprecheradaption Prosodie- analyse Statistischer Parser Dialogakt- erkennung Chunk Parser HPSG Parser Semantische Konstruktion Robuste Dialog- semantik Semantischer Transfer Generierung Eine Multi-Blackboard Architektur zur Kombination von flachen und tiefen Verarbeitungspfaden


Herunterladen ppt "Ehrenvortrag Technische Univesität Darmstadt Wolfgang Wahlster Fachrichtung Informatik Universität des Saarlandes & Deutsches Forschungszentrum für Künstliche."

Ähnliche Präsentationen


Google-Anzeigen