Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

Perspektiven der Informatik Ringvorlesung WS 2002/2003

Ähnliche Präsentationen


Präsentation zum Thema: "Perspektiven der Informatik Ringvorlesung WS 2002/2003"—  Präsentation transkript:

1 Perspektiven der Informatik Ringvorlesung WS 2002/2003
Perspektiven in der Sprachtechnologie: Hörende, sprechende und verstehende Computer Wolfgang Wahlster Fachrichtung Informatik Universität des Saarlandes & Deutsches Forschungszentrum für Künstliche Intelligenz GmbH Stuhlsatzenhausweg 3, Geb. 43.1 66123 Saarbrücken Tel.: (0681) /4162 Fax: (0681) WWW:

2 Künstliche Sprache, z.B. Java Natürliche Sprache, z.B. Deutsch
Hauptziel: Wir wollen durch Künstliche Intelligenz die Technik menschenfreundlicher machen! Bisher: Für den Mensch schwer zu erzeugen: Für den Computer leicht zu verstehen: for ( int i = 2; i < finalBit; i++ ) if ( sieve.get( i ) ) for ( int j = 2 * i; j < size; j += i ) sieve.clear( j ); Künstliche Sprache, z.B. Java Speziell: Der Mensch soll sich nicht dem Computer anpassen müssen, sondern umgekehrt soll sich der Computer dem Menschen anpassen! Für den Computer schwer zu verstehen: Für den Mensch leicht zu erzeugen: Neu: Ist 677 eine Primzahl? Natürliche Sprache, z.B. Deutsch

3 Warum ist Sprachverstehen für den Computer so schwer?
Wortgrenzen gehen im Sprachfluß unter:  „am Montag“ Beispiel: „amontag“ Der Mensch spricht „ohne Punkt und Komma“ Beispiel: „So machen wir das vielleicht klappt es“ Bedeutung (1) So machen wir das. Vielleicht klappt es. oder (2) So machen wir das vielleicht. Klappt es?

4 Warum ist Sprachverstehen für den Computer so schwer?
Gleiche Schallwellen werden je nach Kontext zu verschiedenen Wörtern Beispiel: „Urlauber wollen wieder me:r ans me:r“ Urlauber wollen wieder mehr ans Meer. Viele Menschen sprechen Dialekt Beispiel: „Isch find das nätt“ Bedeutung (1) Ich finde das nett. oder (2) Ich finde das nicht.

5 Warum ist das Sprachverstehen für den Computer so schwer?
Bei spontaner Rede entstehen viele Versprecher Beispiel: „Wir treffen uns dann am Mon, äh, am Dienstag.“ Dialogpartner fallen dem Sprecher oft „ins Wort“ Beispiel: Sytem: „Können wir dann am Mittwoch zusammen zum Essen...“ Sprecher: „Da kann ich nicht.“

6 Warum ist das Sprachverstehen für den Computer so schwer?
Der Redefluß leitet häufig in die Irre Subjekt: Ministerpräsident Prädikat: lobt Objekt: Staatssekretärin der Ministerpräsident.“ Beispiel: „Die Staatssekretärin lobt... Subjekt: Staatssekretärin Prädikat: lobt Objekt: ?? Viele Formulierungen sind mehrdeutig Beispiel: „Wir telefonierten mit Freunden in Japan.“ Bedeutung (1) Wir telefonierten (mit Freunden in Japan). oder (2) (Wir telefonierten mit Freunden) in Japan.

7 Disambiguierung: Auflösung mehrdeutiger sprachlicher Äußerungen
l Problem der kombinatorischen Explosion der Lesarten durch Propagierung von Alternativen über alle Verarbeitungsebenen l Durch die Unsicherheit bei der Spracherkennung entstehen Wörter- gitter mit alternativen Hypothesen, welche die Flut von Lesarten noch weiter erhöhen Orthographisch übersetzen Morphologisch Staubecken Mehrdeutigkeiten Phonetisch me:r Lexikalisch Maus Pragmatisch Es zieht. Syntaktisch mit dem Teleskop Semantisch Ein - Alle

8 verstanden und generiert? mathematisch-logisch
Künstliche Intelligenz Wie können die für das Sprachverstehen benötigten kognitiven Leistungen maschinell verfügbar gemacht werden? INFORMATIK KOGNITIONS- WISSENSCHAFT Psycholinguistik Wie wird Sprache von Menschen verstanden und generiert? Linguistik Wie können Sprachstrukturen mathematisch-logisch beschrieben werden? Sprachver- arbeitung Sprachtechnologie Wie können effiziente, sprachverarbeitende und generierende Softwaresysteme erstellt werden?

9 Code, Medium und Modalität
CODE (Symbolsysteme) Sprache Graphik Gestik Mimik MEDIUM (Physikalischer Informationsträger) MODALITÄT (Menschliche Sinne) Ausgabe- kanäle Eingabe- kanäle Visuell Akustisch System Benutzer Speicherung Taktil Haptisch Festplatte CD-ROM

10 Die Leitvorstellung multimodaler Interaktion
Sprachlich- Dialogische Kommunikation Graphische Bedien- oberflächen Taktil- Gestische Interaktionsform Multimodales Bedienparadigma

11 Drei Stufen der Sprachverarbeitung
Akustische Sprachanalyse Wortlisten Grammatik Wortbe- deutungen Gesprächs- Kontext Wissen über das Gesprächs- thema Was hat der Sprecher gesagt? 100 Alternativen gemeint? 10 Was will der Sprecher? Eindeutiges Verstehen im Gesprächs- zusammenhang Reduktion von Unsicherheit Spracherkennung Gesprochene Eingabe Sprach- ver- stehen

12 Ergebnis der Spracherkennung: Worthypothesengraph
Here a fragment of a WHG is shown. In German each transition has an accoustic score and a score from the language model. Additional there is some information from the prosody module, of course prosodic information, but also the probability of a phrase or sentence boundary and the sentence type,e.g., if it is a question or not.

13 Verzögerte Disambiguierung Skopusmehr-deutigkeiten auf der Basis von Unterspezifikation
(A) Einen Computer benutzen alle Informatikstudenten. (1) x (computer (x)  y (informatik-student (y)  benutzt (y,x))) (2) y (informatik-student (y)  x (computer (x)  benutzt (y,x))) Unterspezifizierte Repräsentation (ohne Skopusdisambiguierung) (3) {x: computer, y: informatik-student} (benutzt (y,x)) (B) Das ist der Zentralrechner PDP-10. <vor 20 Jahren>  (1) (C) Oft bringen sie ihr Notebook mit in die Vorlesung. <heute>  (2)

14 Mobile Dialogübersetzung für Spontansprache
Verbmobil-Server für die Dialogübersetzung Lösung: Dreierkonferenz: Der Verbmobil-Server vermittelt zwischen zwei Mobilfunkteilnehmern

15 Mobile Dialogübersetzung über Handy mit dem System VERBMOBIL
Ergebnis von 8 Jahren Forschung mit einem Team von 100 Wissenschaftlern, 20 Produkte und 8 Spin-Off Firmen

16 Von der Eingabeschallwelle zur Ausgabeschallwelle
Spracherkennung Schallwelle Mögliche Phoneme Wörter Sätze Sprachanalyse Mögliche Sätze Grammatische Struktur Wort- bedeutungen Satz- Sprachverstehen und Übersetzung Satz- bedeutungen Diskursbedeutung in Quellsprache Diskursbedeutung in Zielsprache Wortwahl in Zielsprache Generierung und Synthese Wörter in Zielsprache Satzgenerierung Satzmelodie Sprachsynthese

17 Deutscher Zukunftspreis 2001 – Preis des Bundespräsidenten für Technik und Innovation für Sprachverstehende Computer

18 Vom Sprachdialog zum Multimodalen Dialog
Verbmobil Klassische Mobiltelephonie Reine Sprache SmartKom UMTS-Mobilgerät der dritten Generation Sprache, Graphik, Gestik

19 Deep Map: Multimodaler mobiler Touristenführer für Heidelberg Kooperation u.a.: EML - DFKI - ISL
Dialogführung Lokationsadaptive Interpretation von Benutzeranfragen

20 Deep Map: Multimodaler mobiler Touristenführer für Heidelberg
Sprachgesteuerte 3D-Visualisierung Multimodale Präsentationsplanung (Text, Graphik, Bilder)

21 Symbolische und Subsymbolische Fusion von Eingabemodalitäten
Mimik- erkennung Lippen- lesen Gestik- erkennung Prosodie- Sprach- erkennung Subsymbolische Fusion - Neuronale Netze - Hidden Markov Modell Symbolische - Unifikation über Hypothesengittern - Bayessche Netze Referenzauflösung und Disambiguierung Bedeutungsrepräsentation

22 Fokusierende Geste zur Disambiguierung der Spracheingabe (Wahlster 1991)
2 X A C 1 Y A E 3 Z „Warum soll ich das ‚A‘ löschen?“

23 Die SDDP-Interaktionsmetapher für SmartKom
SDDP = Situated Delegation-oriented Dialog Paradigm IT-Dienste Dienst 1 Personalisierter Interaktionsagent Benutzer spezifiziert Wunsch delegiert Aufgabe Dienst 2 kooperieren bei Problemen stellt Nachfragen präsentiert Resultate Dienst 3

24 Kombination von Sprache und Gestik in SmartKom
Auf der Karte sind die Kinos markiert, in denen der Film „Eine kleine Weihnachts- geschichte“ läuft. Da ist nichts für mich dabei. Dann möchte ich doch lieber ins Kino gehen. Hier sehen sie eine Übersicht über das Programm der Heidelberger Kinos. Den würde ich gerne sehen. Wo kommt der? Ich zeige ihnen eine Übersicht über die Filme, die heute abend im Fernsehen laufen. Welche Spielfilme laufen den heute abend im Fernsehen?

25 Multimodale Ein- und Ausgabe in SmartKom
Da würd‘ ich gern reservieren. Auf der Übersicht sehen sie die Anfangs- zeiten des Films „Eine kleine Weihnachtsgeschichte“ im Kino „Schloß“. Dann ein anderes Kino. Das da vielleicht. Eine Reservierung ist in diesem Kino nicht möglich. Da würd‘ ich gern reservieren. Gut. Das war‘s. Dankeschön. Tschüss. Ist das so richtig? Zeigen sie mir wo sie sitzen wollen. Ich hätte gern zwei Plätze hier. Auf Wiedersehen Ich habe die gewünschte Reservierung für Sie durchgeführt. Ihre Reservierungs- nummer ist 635. Sie können die Karten bis spätestens eine halbe Stunde vor Vorstellungsbeginn an der Kinokasse abholen. Richtig.

26 Wechselseitige Disambiguierung durch Multiple Eingabemodalitäten
Die kombinierte Sprach- und Bildverarbeitung erhöht die Robustheit und die Verstehensleistung multimodaler Benutzer-schnittstellen Spracherkennung + Lippenlesen höhere Robustheit bei gestörtem Sprachsignal und niedriger Worterkennungsrate Spracherkennung + Gestikerkennung (XTRA, SmartKom) referenzsemantische Disambiguierung und Aufmerksamkeitssteuerung Spracherkennung + Mimikerkennung (SmartKom) Erkennung von Ironie, Sarkasmus sowie Skopusdisambiguierung

27 Disambiguierung durch Selektions-restriktionen und Weltwissen
Vater zu einem Service-Roboter im Cyber-Restaurant: (1) Die Apfelschorle trinkt meine Tochter, die Weinschorle meine Frau. (A) trinkt (Agens: Apfelschorle, Objekt: Tochter)  trinkt (Agens: Weinschorle, Objekt: Frau) Weltwissen: Apfelschorle, Weinschorle Getränk Tochter, Frau Mensch Selektionsrestriktion: trinkt (Agens: Mensch, Objekt: Getränk) (B) trinkt (Agens: Tochter, Objekt: Apfelschorle)  trinkt (Agens: Frau, Objekt: Weinschorle)

28 Fusion und Allokation multipler Modalitäten in SmartKom

29 Fusion und Allokation multipler Modalitäten in SmartKom

30 Fusion und Allokation multipler Modalitäten in SmartKom

31 Fusion und Allokation multipler Modalitäten in SmartKom

32 Fusion und Allokation multipler Modalitäten in SmartKom

33 Fusion und Allokation multipler Modalitäten in SmartKom

34 Fusion und Allokation multipler Modalitäten in SmartKom

35 Fusion und Allokation multipler Modalitäten in SmartKom

36 Fusion und Allokation multipler Modalitäten in SmartKom

37 Fusion und Allokation multipler Modalitäten in SmartKom

38 Fusion und Allokation multipler Modalitäten in SmartKom

39 Fusion und Allokation multipler Modalitäten in SmartKom

40 Fusion und Allokation multipler Modalitäten in SmartKom

41 Fusion und Allokation multipler Modalitäten in SmartKom

42 Fusion und Allokation multipler Modalitäten in SmartKom

43 Fusion und Allokation multipler Modalitäten in SmartKom

44 Fusion und Allokation multipler Modalitäten in SmartKom

45 Wissensrepräsentations-
Modalitätsspezifische Repräsentations- sprachen als Zwischenstufe zur Medienfusion Bilder/ Graphiken Gesten Sprachliche Äußerungen Graphisches Bildverstehen Gesten- analyse Gesten- generierung Graphik- generierung Parsing Generation Bild- beschreibungs- sprache Semantische Repräsentations- sprache Gesten- beschreibungs- sprache Ontologien Wissensrepräsentations- sprache Inferenzkomponente DBMS/ KBMS/ WWW

46 Fusion von Sprach- und Mimikerkennung in SmartKom
Modifikation bis hin zur Negation der Standardsemantik (Ironie, Sarkasmus) (1) Smartakus: Hier sehen Sie die Übersicht zum heutigen ZDF Programm. (2) Benutzer: Echt toll. (3) Smartakus: Ich zeige Ihnen alternativ das Programm eines anderen Senders. (2’) Benutzer: Echt toll. (3’) Smartakus: Welche Sendungen wollen Sie aus dem ZDF-Programm sehen oder aufzeichnen?

47 Videobasierte Mimikerkennung auf der Basis von Eigenfaces
neutral ärgerlich

48 Sprecherunabhängie Emotionserkennung
neutral ärgerlich

49 Multimodale Dialoge mit Navigat ionssystemen für Autofahrer und Fußgänger
SmartKom bietet einen uniformenes Navigationsdialog trotz unterschiedlicher Positionierungstechnologien Benutzer: Ich möchte nach Heidelberg fahren. Smartakus: Wollen Sie die schnellste oder kürzeste Strecke fahren? Benutzer: Die schnellste. Smartakus: Hier sehen Sie eine Karte mit der schnellsten Verbindung von Saarbrücken nach Heidelberg.

50 Multimodale Dialoge mit Navigationssystemen für Autofahrer und Fußgänger
Smartakus: Wir sind jetzt in Heidelberg angekommen. Hier ist ein Stadtplan mit den wichtigsten Sehenswürdigkeiten. User: Ich möchte mehr Information über diese Kirche. Smartakus: Hier siehst die Webseite über die Peterskirche. User: Wie komme ich zu Fuß am besten von diesem Parkplatz zu der Kirche. Smartakus: Auf dieser Karte habe ich den Weg markiert.

51 Multomodale Kommunikation mit Unterhaltungselektronik
Beispiel: Zugriff auf digitale Programmführer Benutzer: Welche Sender zeigen gerade aktuelle Nachrichten? Smartakus: CNN und NTV zeigen gearde Nachrichten. User: Zeige diesen Sender am Fernsehen und zeichne diese Nachrichtensendung auf. Smartakus: Okay, CNN wird jetzt vom Videorekorder aufgezeichnet und hier sind die NTV-Nachrichten.

52 Unifikationsbasierte Integration von Sprach- und Gestikeingabe (MVPQ, © Johnston 2000, AT&T)
“Platziere das hier!”

53 Unifikationsbasierte Integration von Sprach- und Gestikeingabe (MVPQ, © Johnston 2000, AT&T)
“Platziere das hier!”

54 Unifikationsbasierte Integration von Sprach- und Gestikeingabe (MVPQ, © Johnston 2000, AT&T)
“Platziere das hier!”

55 Sprachtechnologie im Alltag
Einen Capuccino in 10 Minuten bitte! Sprachgesteuerte Kaffeemaschine Bitte in die Winterbergstraße in Saarbrücken! Sprachdialog mit Fahrzeugelektronik Ich würde gerne Mozarts Klavierkonzert Nummer 3 hören! Sprachbasierte Musikauswahl Sende folgende an Meyer: Sehr geehrter Herr Meyer. Bitte senden Sie dringend die Agenda für Montag. Diktat von s

56 Klassische Sprachsteuerung im Auto: Kein spontansprachlicher Dialog - Sprachaktivierungstaste

57 for UMTS-based Multimodal Speech Services in Germany
Erstes UMTS-Anwendungstest- und Evaluationszentrum for UMTS-based Multimodal Speech Services in Germany Node B at DFKI Saarbrücken PSTN, Telephone System Internet Content Provider E1/ATM Gigastream UMTS Navigation Switch Mobile Network RNC Munich UMTS-Doit Server Kooperation zwischen und

58 Embassi: Sprachbasierte Musikwahl

59 ORBA Auskunftsdienst: „ShopFinder“
„Wo gibt es nächsten Geldautomaten ?“ ORBA greift auf online Produktkataloge, Shop- und Branchenverzeichnisse zu und lokalisiert die im jeweiligen Erreichbarkeitsradius liegenden Shops, von denen bekannt ist, dass sie das gesuchte Produkt vorhalten. ShopFinder ist kombinierbar mit: - multimedialer Produktinformation - Routenplanung und Zielführung

60 ORBA Erinnerungsdienst: „ActiveList“
„Erinnere mich an die Batterie für die Uhr, wenn ich an einem entsprechenden Shop vorbeikomme !“ ORBA erinnert an vorher notierte Kaufwünsche, sobald der Benutzer an dem explizit angegeben Shop vorbeikommt bzw. sich irgendeinem Shop nähert, von dem bekannt ist, dass er das gesuchte Produkt vorhält. ActiveList ist kombinierbar mit: - multimedialer Produktinformation; - „mCoupon“ Aktionen;

61 ORBA Ortungsdienst: „PartnerRadar“
„Wo (...) stecken Lisa und Tom ?“ ORBA hilft beim Aufspüren und der Zusammenführung von Familien- Gruppenmitgliedern, sofern diese ebenfalls mit einem Mobilgerät ausgestattet sind, und ihre Ortung gestatten. PartnerFinder ist kombinierbar mit: - Routenplanung und Zielführung - Geschäftsempfehlungen, z.B. zentral gelegenes Restaurant als Treffpunkt.

62 Sprachtechnologie im Alltag
Zeige mir alle Beiträge der Tagesschau, in denen Regierungsmitglieder zur Green Card sprachen! Sprachgesteuerte Suche in digitalen Fernseharchiven Was hat der Ministerpräsident auf der COLING zur Sprachtechnologie gesagt? Inhaltliche Suche in privaten Audioarchiven Ich möchte gerne einen Termin mit Doktor Kuremastu nächste Woche in Kyoto ausmachen! Dialogübersetzung

63 Mobile Computing Wearable Computing Biohybrid Computing
Sprachtechnologie für die Post-PC Ära Personalisierte Benutzeroberflächen l In der Hand tragbar Mobile Computing l Am Körper anziehbar Wearable Computing l Im Körper implantierbar Biohybrid Computing

64 Offene Forschungsprobleme
l Probleme der maschinellen Lernverfahren L Teuere Datensammlung L Kognitiv unrealistische Trainingsdaten L Datenknappheit l Probleme mit manuell erstellten Wissensquellen L Mangelnde Robustheit L Domänenabhängigkeit L Geringe Skalierbarkeit

65 Vielen Dank für Ihre Aufmerksamkeit
© 2002 DFKI Design by R.O.


Herunterladen ppt "Perspektiven der Informatik Ringvorlesung WS 2002/2003"

Ähnliche Präsentationen


Google-Anzeigen