Perspektiven der Informatik Ringvorlesung WS 2002/2003

Slides:



Advertisements
Ähnliche Präsentationen
Textsorte: Die Präsentation
Advertisements

Deutsches Forschungszentrum für Künstliche Intelligenz GmbH Stuhlsatzenhausweg 3, Geb Saarbrücken Tel.: (0681) /4162 Fax: (0681)
Ehrenvortrag Technische Univesität Darmstadt
Künstliche Intelligenz
Was ich gern lese Lesetagebuch von
für gestresste Systemadministratoren...
Topic A - Education … es meistens interessant ist. … es mir gefällt und ich meine Freunde dort treffe. … mich viele Fächer interessieren. … Mathe.
Überblick Software Bestellungsver- waltungsprozess Dialogmanagement Simulation Sprachverarbeitung Verschiedene Arbeitsphasen Routengraphen Sprachverarbeitung:
Was ist das? Wie heißt das auf Deutsch?   die Bushaltestelle
Aus dem Leben eines Hotline-Mitarbeiters
Wenn Sie während des Kurses zur Kaffeemaschine gehen müssen, erstattet Ihnen der Chef die Reisekosten.
Infinitive completion
Das Paradoxe unserer Zeit
Das Paradoxe unserer Zeit
Das Paradoxe unserer Zeit
Dies zu lesen kostet nichts - Bah....
Strong Simple Past Verbs
Eine kleine Geschichte:     Mein Freund öffnete eine Schublade der Kommode seiner Frau und holte daraus ein kleines.
You need to use your mouse to see this presentation
Kein oder nicht ???.
Aus dem Leben eines Hotline- Mitarbeiters Begriffe: HLM:Hotline-Mitarbeiter DAU:dümmster anzunehmender User.
Das Paradoxe unserer Zeit
„Hast Du gehört? Unser Chef ist verstorben."
Pro und kontra des Fernstudiums.
Sie gehen gerne auf Reisen und besuchen gerne andere Städte? Wir tun das auch! Sie gehen gerne auf Reisen und besuchen gerne andere Städte? Wir tun das.
Wiederholungsspiel: Nominativ, Akkusativ, Dativ
Abendliches Treffen.
You need to use your mouse to see this presentation © Heidi Behrens.
Ich heiße Kevin Goellner
Geschichten um den Computer
Von wegen nur Männer sind chauvinistisch....
TOBIAS GONSCHOREK   Der weg zum Erfolg.
Hilft Beten?.
Dies zu lesen kostet nichts
19/05/00Science Week Austria 2000 © ftw speech & more Existierende und zukünftige Sprachdialogsysteme.
Ein kleiner Text, der zu denken gibt - das dauert nur 2 Minuten!
Helpdesk: Wie kann ich Ihnen helfen?
Dies zu lesen kostet nichts -
MODAL-PARTIKELN.
Notes to study as you prepare for quiz eighteen, using Deutsch Aktuell, for first year German.
”Wie lässt sich verhindern, dass die Zuhörer einschlafen?”
PS Onlinejournalismus WS 2003/04 Usability Fragestellung Verstehen Web-Only Medien mehr von Usability als konventionelle Web- Ausgaben von Printmedien?
Hobbys 5 Klasse Larina Tatiana Wadimowna,
Helpdesk
Helpdesk: Wie kann ich Ihnen helfen?
Abendliches Treffen.
Gegen sechs Uhr morgens stehe ich auf.
Listening Activity Deutsch 3
Hörverstehen Dialog 1: 1. Um wie viel Uhr beginnt der Krimi?
Lokationsadaptive Agentensysteme
Wolfgang Wahlster Der Weg zum sprachverstehenden Computer Deutsches Forschungszentrum für Künstliche Intelligenz GmbH Stuhlsatzenhausweg 3, Geb
Alles zusammen.
Anfänge und Der weg zum Erfolg
Freunde und… das Internet
10-jähriges Jubiläum der ttz SH und der TSH Prof. Dr. Dr. h.c. mult. Wolfgang Wahlster Computer verstehen Deutsch: Von der Grundlagenforschung zu Produkten.
Arbeit 1. Unfall am Arbeitsplatz
Grammatikalische Begriffe im Unterricht
GERMAN 1013C Kapitel 4 4. Exercise 4 A + B Dialog in der Cafeteria MAREN: Guten Tag. Ich heiße Maren Küster, und wer sind Sie? OLAF:Guten Tag. Mein Name.
GERMAN 1013C Kapitel 4 5. HEIDELBERG Ich heiße Kevin Goellner. Ich bin 23 Jahre alt und bin Student an der Universität Heidelberg. Ich heiße.
Infinitive completion
Aber ich will Dir noch schnell die Lösung sagen...
Ich heiße Kevin Goellner
Er heißt Kevin Goellner
Redemittel Modelldialog
Personas des Walk-up&use Infokiosks Michael Folz Ruben Reiser.
Quality assured by the ALL Connect project (2015)
Praha & EU: Investujeme do vaší budoucnosti Evropský sociální fond Gymnázium, Praha 10, Voděradská 2 Projekt OBZORY Massenmedien.
Vo#1:Semantik als Wissenschaft Semantik I Matej-Bel-Universität in Banská Bystrica Zuzana Tuhárska.
 Präsentation transkript:

Perspektiven der Informatik Ringvorlesung WS 2002/2003 Perspektiven in der Sprachtechnologie: Hörende, sprechende und verstehende Computer Wolfgang Wahlster Fachrichtung Informatik Universität des Saarlandes & Deutsches Forschungszentrum für Künstliche Intelligenz GmbH Stuhlsatzenhausweg 3, Geb. 43.1 66123 Saarbrücken Tel.: (0681) 302-5252/4162 Fax: (0681) 302-5341 E-mail: wahlster@dfki.de WWW: http://www.dfki.de/~wahlster

Künstliche Sprache, z.B. Java Natürliche Sprache, z.B. Deutsch Hauptziel: Wir wollen durch Künstliche Intelligenz die Technik menschenfreundlicher machen! Bisher: Für den Mensch schwer zu erzeugen: Für den Computer leicht zu verstehen: for ( int i = 2; i < finalBit; i++ ) if ( sieve.get( i ) ) for ( int j = 2 * i; j < size; j += i ) sieve.clear( j ); Künstliche Sprache, z.B. Java Speziell: Der Mensch soll sich nicht dem Computer anpassen müssen, sondern umgekehrt soll sich der Computer dem Menschen anpassen! Für den Computer schwer zu verstehen: Für den Mensch leicht zu erzeugen: Neu: Ist 677 eine Primzahl? Natürliche Sprache, z.B. Deutsch

Warum ist Sprachverstehen für den Computer so schwer? Wortgrenzen gehen im Sprachfluß unter:   „am Montag“ Beispiel: „amontag“ Der Mensch spricht „ohne Punkt und Komma“  Beispiel: „So machen wir das vielleicht klappt es“ Bedeutung (1) So machen wir das. Vielleicht klappt es. oder (2) So machen wir das vielleicht. Klappt es?

Warum ist Sprachverstehen für den Computer so schwer? Gleiche Schallwellen werden je nach Kontext zu verschiedenen Wörtern  Beispiel: „Urlauber wollen wieder me:r ans me:r“ Urlauber wollen wieder mehr ans Meer. Viele Menschen sprechen Dialekt  Beispiel: „Isch find das nätt“ Bedeutung (1) Ich finde das nett. oder (2) Ich finde das nicht.

Warum ist das Sprachverstehen für den Computer so schwer? Bei spontaner Rede entstehen viele Versprecher  Beispiel: „Wir treffen uns dann am Mon, äh, am Dienstag.“ Dialogpartner fallen dem Sprecher oft „ins Wort“  Beispiel: Sytem: „Können wir dann am Mittwoch zusammen zum Essen...“ Sprecher: „Da kann ich nicht.“

Warum ist das Sprachverstehen für den Computer so schwer? Der Redefluß leitet häufig in die Irre  Subjekt: Ministerpräsident Prädikat: lobt Objekt: Staatssekretärin der Ministerpräsident.“ Beispiel: „Die Staatssekretärin lobt... Subjekt: Staatssekretärin Prädikat: lobt Objekt: ?? Viele Formulierungen sind mehrdeutig  Beispiel: „Wir telefonierten mit Freunden in Japan.“ Bedeutung (1) Wir telefonierten (mit Freunden in Japan). oder (2) (Wir telefonierten mit Freunden) in Japan.

Disambiguierung: Auflösung mehrdeutiger sprachlicher Äußerungen l Problem der kombinatorischen Explosion der Lesarten durch Propagierung von Alternativen über alle Verarbeitungsebenen l Durch die Unsicherheit bei der Spracherkennung entstehen Wörter- gitter mit alternativen Hypothesen, welche die Flut von Lesarten noch weiter erhöhen Orthographisch übersetzen Morphologisch Staubecken Mehrdeutigkeiten Phonetisch me:r Lexikalisch Maus Pragmatisch Es zieht. Syntaktisch mit dem Teleskop Semantisch Ein - Alle

verstanden und generiert? mathematisch-logisch Künstliche Intelligenz Wie können die für das Sprachverstehen benötigten kognitiven Leistungen maschinell verfügbar gemacht werden? INFORMATIK KOGNITIONS- WISSENSCHAFT Psycholinguistik Wie wird Sprache von Menschen verstanden und generiert? Linguistik Wie können Sprachstrukturen mathematisch-logisch beschrieben werden? Sprachver- arbeitung Sprachtechnologie Wie können effiziente, sprachverarbeitende und generierende Softwaresysteme erstellt werden?

Code, Medium und Modalität CODE (Symbolsysteme) Sprache Graphik Gestik Mimik MEDIUM (Physikalischer Informationsträger) MODALITÄT (Menschliche Sinne) Ausgabe- kanäle Eingabe- kanäle Visuell Akustisch System Benutzer Speicherung Taktil Haptisch Festplatte CD-ROM

Die Leitvorstellung multimodaler Interaktion Sprachlich- Dialogische Kommunikation Graphische Bedien- oberflächen Taktil- Gestische Interaktionsform Multimodales Bedienparadigma

Drei Stufen der Sprachverarbeitung Akustische Sprachanalyse Wortlisten Grammatik Wortbe- deutungen Gesprächs- Kontext Wissen über das Gesprächs- thema Was hat der Sprecher gesagt? 100 Alternativen gemeint? 10 Was will der Sprecher? Eindeutiges Verstehen im Gesprächs- zusammenhang Reduktion von Unsicherheit Spracherkennung Gesprochene Eingabe Sprach- ver- stehen

Ergebnis der Spracherkennung: Worthypothesengraph Here a fragment of a WHG is shown. In German each transition has an accoustic score and a score from the language model. Additional there is some information from the prosody module, of course prosodic information, but also the probability of a phrase or sentence boundary and the sentence type,e.g., if it is a question or not.

Verzögerte Disambiguierung Skopusmehr-deutigkeiten auf der Basis von Unterspezifikation (A) Einen Computer benutzen alle Informatikstudenten. (1) x (computer (x)  y (informatik-student (y)  benutzt (y,x))) (2) y (informatik-student (y)  x (computer (x)  benutzt (y,x))) Unterspezifizierte Repräsentation (ohne Skopusdisambiguierung) (3) {x: computer, y: informatik-student} (benutzt (y,x)) (B) Das ist der Zentralrechner PDP-10. <vor 20 Jahren>  (1) (C) Oft bringen sie ihr Notebook mit in die Vorlesung. <heute>  (2)

Mobile Dialogübersetzung für Spontansprache Verbmobil-Server für die Dialogübersetzung Lösung: Dreierkonferenz: Der Verbmobil-Server vermittelt zwischen zwei Mobilfunkteilnehmern

Mobile Dialogübersetzung über Handy mit dem System VERBMOBIL Ergebnis von 8 Jahren Forschung mit einem Team von 100 Wissenschaftlern, 20 Produkte und 8 Spin-Off Firmen

Von der Eingabeschallwelle zur Ausgabeschallwelle Spracherkennung Schallwelle Mögliche Phoneme Wörter Sätze Sprachanalyse Mögliche Sätze Grammatische Struktur Wort- bedeutungen Satz- Sprachverstehen und Übersetzung Satz- bedeutungen Diskursbedeutung in Quellsprache Diskursbedeutung in Zielsprache Wortwahl in Zielsprache Generierung und Synthese Wörter in Zielsprache Satzgenerierung Satzmelodie Sprachsynthese

Deutscher Zukunftspreis 2001 – Preis des Bundespräsidenten für Technik und Innovation für Sprachverstehende Computer

Vom Sprachdialog zum Multimodalen Dialog Verbmobil Klassische Mobiltelephonie Reine Sprache SmartKom UMTS-Mobilgerät der dritten Generation Sprache, Graphik, Gestik

Deep Map: Multimodaler mobiler Touristenführer für Heidelberg Kooperation u.a.: EML - DFKI - ISL Dialogführung Lokationsadaptive Interpretation von Benutzeranfragen

Deep Map: Multimodaler mobiler Touristenführer für Heidelberg Sprachgesteuerte 3D-Visualisierung Multimodale Präsentationsplanung (Text, Graphik, Bilder)

Symbolische und Subsymbolische Fusion von Eingabemodalitäten Mimik- erkennung Lippen- lesen Gestik- erkennung Prosodie- Sprach- erkennung Subsymbolische Fusion - Neuronale Netze - Hidden Markov Modell Symbolische - Unifikation über Hypothesengittern - Bayessche Netze Referenzauflösung und Disambiguierung Bedeutungsrepräsentation

Fokusierende Geste zur Disambiguierung der Spracheingabe (Wahlster 1991) 2 X A C 1 Y A E 3 Z „Warum soll ich das ‚A‘ löschen?“

Die SDDP-Interaktionsmetapher für SmartKom SDDP = Situated Delegation-oriented Dialog Paradigm IT-Dienste Dienst 1 Personalisierter Interaktionsagent Benutzer spezifiziert Wunsch delegiert Aufgabe Dienst 2 kooperieren bei Problemen stellt Nachfragen präsentiert Resultate Dienst 3

Kombination von Sprache und Gestik in SmartKom Auf der Karte sind die Kinos markiert, in denen der Film „Eine kleine Weihnachts- geschichte“ läuft. Da ist nichts für mich dabei. Dann möchte ich doch lieber ins Kino gehen. Hier sehen sie eine Übersicht über das Programm der Heidelberger Kinos. Den würde ich gerne sehen. Wo kommt der? Ich zeige ihnen eine Übersicht über die Filme, die heute abend im Fernsehen laufen. Welche Spielfilme laufen den heute abend im Fernsehen?

Multimodale Ein- und Ausgabe in SmartKom Da würd‘ ich gern reservieren. Auf der Übersicht sehen sie die Anfangs- zeiten des Films „Eine kleine Weihnachtsgeschichte“ im Kino „Schloß“. Dann ein anderes Kino. Das da vielleicht. Eine Reservierung ist in diesem Kino nicht möglich. Da würd‘ ich gern reservieren. Gut. Das war‘s. Dankeschön. Tschüss. Ist das so richtig? Zeigen sie mir wo sie sitzen wollen. Ich hätte gern zwei Plätze hier. Auf Wiedersehen Ich habe die gewünschte Reservierung für Sie durchgeführt. Ihre Reservierungs- nummer ist 635. Sie können die Karten bis spätestens eine halbe Stunde vor Vorstellungsbeginn an der Kinokasse abholen. Richtig.

Wechselseitige Disambiguierung durch Multiple Eingabemodalitäten Die kombinierte Sprach- und Bildverarbeitung erhöht die Robustheit und die Verstehensleistung multimodaler Benutzer-schnittstellen Spracherkennung + Lippenlesen höhere Robustheit bei gestörtem Sprachsignal und niedriger Worterkennungsrate Spracherkennung + Gestikerkennung (XTRA, SmartKom) referenzsemantische Disambiguierung und Aufmerksamkeitssteuerung Spracherkennung + Mimikerkennung (SmartKom) Erkennung von Ironie, Sarkasmus sowie Skopusdisambiguierung

Disambiguierung durch Selektions-restriktionen und Weltwissen Vater zu einem Service-Roboter im Cyber-Restaurant: (1) Die Apfelschorle trinkt meine Tochter, die Weinschorle meine Frau. (A) trinkt (Agens: Apfelschorle, Objekt: Tochter)  trinkt (Agens: Weinschorle, Objekt: Frau) Weltwissen: Apfelschorle, Weinschorle Getränk Tochter, Frau Mensch Selektionsrestriktion: trinkt (Agens: Mensch, Objekt: Getränk) (B) trinkt (Agens: Tochter, Objekt: Apfelschorle)  trinkt (Agens: Frau, Objekt: Weinschorle)

Fusion und Allokation multipler Modalitäten in SmartKom

Fusion und Allokation multipler Modalitäten in SmartKom

Fusion und Allokation multipler Modalitäten in SmartKom

Fusion und Allokation multipler Modalitäten in SmartKom

Fusion und Allokation multipler Modalitäten in SmartKom

Fusion und Allokation multipler Modalitäten in SmartKom

Fusion und Allokation multipler Modalitäten in SmartKom

Fusion und Allokation multipler Modalitäten in SmartKom

Fusion und Allokation multipler Modalitäten in SmartKom

Fusion und Allokation multipler Modalitäten in SmartKom

Fusion und Allokation multipler Modalitäten in SmartKom

Fusion und Allokation multipler Modalitäten in SmartKom

Fusion und Allokation multipler Modalitäten in SmartKom

Fusion und Allokation multipler Modalitäten in SmartKom

Fusion und Allokation multipler Modalitäten in SmartKom

Fusion und Allokation multipler Modalitäten in SmartKom

Fusion und Allokation multipler Modalitäten in SmartKom

Wissensrepräsentations- Modalitätsspezifische Repräsentations- sprachen als Zwischenstufe zur Medienfusion Bilder/ Graphiken Gesten Sprachliche Äußerungen Graphisches Bildverstehen Gesten- analyse Gesten- generierung Graphik- generierung Parsing Generation Bild- beschreibungs- sprache Semantische Repräsentations- sprache Gesten- beschreibungs- sprache Ontologien Wissensrepräsentations- sprache Inferenzkomponente DBMS/ KBMS/ WWW

Fusion von Sprach- und Mimikerkennung in SmartKom Modifikation bis hin zur Negation der Standardsemantik (Ironie, Sarkasmus) (1) Smartakus: Hier sehen Sie die Übersicht zum heutigen ZDF- Programm. (2) Benutzer: Echt toll. (3) Smartakus: Ich zeige Ihnen alternativ das Programm eines anderen Senders. (2’) Benutzer: Echt toll. (3’) Smartakus: Welche Sendungen wollen Sie aus dem ZDF-Programm sehen oder aufzeichnen?

Videobasierte Mimikerkennung auf der Basis von Eigenfaces neutral ärgerlich

Sprecherunabhängie Emotionserkennung neutral ärgerlich

Multimodale Dialoge mit Navigat ionssystemen für Autofahrer und Fußgänger SmartKom bietet einen uniformenes Navigationsdialog trotz unterschiedlicher Positionierungstechnologien Benutzer: Ich möchte nach Heidelberg fahren. Smartakus: Wollen Sie die schnellste oder kürzeste Strecke fahren? Benutzer: Die schnellste. Smartakus: Hier sehen Sie eine Karte mit der schnellsten Verbindung von Saarbrücken nach Heidelberg.

Multimodale Dialoge mit Navigationssystemen für Autofahrer und Fußgänger Smartakus: Wir sind jetzt in Heidelberg angekommen. Hier ist ein Stadtplan mit den wichtigsten Sehenswürdigkeiten. User: Ich möchte mehr Information über diese Kirche. Smartakus: Hier siehst die Webseite über die Peterskirche. User: Wie komme ich zu Fuß am besten von diesem Parkplatz zu der Kirche. Smartakus: Auf dieser Karte habe ich den Weg markiert.

Multomodale Kommunikation mit Unterhaltungselektronik Beispiel: Zugriff auf digitale Programmführer Benutzer: Welche Sender zeigen gerade aktuelle Nachrichten? Smartakus: CNN und NTV zeigen gearde Nachrichten. User: Zeige diesen Sender am Fernsehen und zeichne diese Nachrichtensendung auf. Smartakus: Okay, CNN wird jetzt vom Videorekorder aufgezeichnet und hier sind die NTV-Nachrichten.

Unifikationsbasierte Integration von Sprach- und Gestikeingabe (MVPQ, © Johnston 2000, AT&T) “Platziere das hier!”

Unifikationsbasierte Integration von Sprach- und Gestikeingabe (MVPQ, © Johnston 2000, AT&T) “Platziere das hier!”

Unifikationsbasierte Integration von Sprach- und Gestikeingabe (MVPQ, © Johnston 2000, AT&T) “Platziere das hier!”

Sprachtechnologie im Alltag Einen Capuccino in 10 Minuten bitte! Sprachgesteuerte Kaffeemaschine Bitte in die Winterbergstraße in Saarbrücken! Sprachdialog mit Fahrzeugelektronik Ich würde gerne Mozarts Klavierkonzert Nummer 3 hören! Sprachbasierte Musikauswahl Sende folgende Email an Meyer: Sehr geehrter Herr Meyer. Bitte senden Sie dringend die Agenda für Montag. Diktat von Emails

Klassische Sprachsteuerung im Auto: Kein spontansprachlicher Dialog - Sprachaktivierungstaste

for UMTS-based Multimodal Speech Services in Germany Erstes UMTS-Anwendungstest- und Evaluationszentrum for UMTS-based Multimodal Speech Services in Germany Node B at DFKI Saarbrücken PSTN, Telephone System Internet Content Provider E1/ATM Gigastream UMTS Navigation Switch Mobile Network RNC Munich UMTS-Doit Server Kooperation zwischen und

Embassi: Sprachbasierte Musikwahl

ORBA Auskunftsdienst: „ShopFinder“ „Wo gibt es nächsten Geldautomaten ?“ ORBA greift auf online Produktkataloge, Shop- und Branchenverzeichnisse zu und lokalisiert die im jeweiligen Erreichbarkeitsradius liegenden Shops, von denen bekannt ist, dass sie das gesuchte Produkt vorhalten. ShopFinder ist kombinierbar mit: - multimedialer Produktinformation - Routenplanung und Zielführung

ORBA Erinnerungsdienst: „ActiveList“ „Erinnere mich an die Batterie für die Uhr, wenn ich an einem entsprechenden Shop vorbeikomme !“ ORBA erinnert an vorher notierte Kaufwünsche, sobald der Benutzer an dem explizit angegeben Shop vorbeikommt bzw. sich irgendeinem Shop nähert, von dem bekannt ist, dass er das gesuchte Produkt vorhält. ActiveList ist kombinierbar mit: - multimedialer Produktinformation; - „mCoupon“ Aktionen;

ORBA Ortungsdienst: „PartnerRadar“ „Wo (...) stecken Lisa und Tom ?“ ORBA hilft beim Aufspüren und der Zusammenführung von Familien- Gruppenmitgliedern, sofern diese ebenfalls mit einem Mobilgerät ausgestattet sind, und ihre Ortung gestatten. PartnerFinder ist kombinierbar mit: - Routenplanung und Zielführung - Geschäftsempfehlungen, z.B. zentral gelegenes Restaurant als Treffpunkt.

Sprachtechnologie im Alltag Zeige mir alle Beiträge der Tagesschau, in denen Regierungsmitglieder zur Green Card sprachen! Sprachgesteuerte Suche in digitalen Fernseharchiven Was hat der Ministerpräsident auf der COLING zur Sprachtechnologie gesagt? Inhaltliche Suche in privaten Audioarchiven Ich möchte gerne einen Termin mit Doktor Kuremastu nächste Woche in Kyoto ausmachen! Dialogübersetzung

Mobile Computing Wearable Computing Biohybrid Computing Sprachtechnologie für die Post-PC Ära Personalisierte Benutzeroberflächen l In der Hand tragbar Mobile Computing l Am Körper anziehbar Wearable Computing l Im Körper implantierbar Biohybrid Computing

Offene Forschungsprobleme l Probleme der maschinellen Lernverfahren L Teuere Datensammlung L Kognitiv unrealistische Trainingsdaten L Datenknappheit l Probleme mit manuell erstellten Wissensquellen L Mangelnde Robustheit L Domänenabhängigkeit L Geringe Skalierbarkeit

Vielen Dank für Ihre Aufmerksamkeit © 2002 DFKI Design by R.O.