Deutsches Forschungszentrum für Künstliche Intelligenz GmbH Stuhlsatzenhausweg 3, Geb. 43.1 66123 Saarbrücken Tel.: (0681) 302-5252/4162 Fax: (0681) 302-5341.

Deutsches Forschungszentrum für Künstliche Intelligenz GmbH Stuhlsatzenhausweg 3, Geb. 43.1 66123 Saarbrücken Tel.: (0681) 302-5252/4162 Fax: (0681) 302-5341 E-mail: wahlster@dfki.de WWW: http://www.dfki.de/~wahlster Wolfgang Wahlster Paderborner Podium, 4. Oktober 1999 Alltag der Zukunft - Informationstechnik verändert unser Leben Sprachtechnologie im Alltag: Der Computer als Dialogpartner

Einge- gebenes Sprach- signal Sub- symbolische Verar- beitung Symbolische Verarbeitung Ausge- gebenes Sprach- signal Sprach- erkennung Sprachverstehen & Sprachgenerierung Sprach- synthese Sub- symbolische Verar- beitung Signal-Symbol-Signal Transformation in natürlichsprachlichen Dialogsystemen

Akustische Sprachanalyse Wortlisten Grammatik Wortbe- deutungen Gesprächs- Kontext Wissen über das Gesprächs- thema Was hat der Sprecher gesagt? 100 Alternativen Was hat der Sprecher gemeint? 10 Alternativen Was will der Sprecher? Eindeutiges Verstehen im Gesprächs- zusammenhang Reduktion von Unsicherheit Sprachanalys e Sprach- verstehen Sprachanalyse Spracherkennung Gesprochene Eingabe Verbmobil umfaßt alle drei Stufen der Sprachverarbeitung

Telephonbasiertes Dialogsystem für Zugauskünfte

Verbmobil Server Wann fährt der nächste Zug nach Hamburg ab? When does the next train to Hamburg depart? Wo befindet sich das nächste Hotel? Where is the nearest hotel? Verbmobil-Szenario Hotel- und Reiseinformation

Wenn ich den Zug um 14 Uhr bekomme, bin ich um 4 in Frankfurt. If I get the train at 2 oclock I am in Frankfurt at 4 oclock. Am Flughafen könnten wir uns treffen. We could meet at the airport. Dialogübersetzung

Abends könnten wir Essen gehen. We could go out for dinner in the evening. What time in the evening? Wann denn am Abend? Dialogübersetzung

Ich könnte für 8 Uhr einen Tisch reservieren. I could reserve a table for 8 oclock. Dialogübersetzung

Eingabebedingungen Natürlichkeit Anpaßbarkeit Dialogfähigkeit Einzelne Wörter Nahbesprechungs- mikrophon Aktivierungstaste Sprecherab- hängig Diktier- oder Kommandodialog Telephon-Qualität Segmentierung durch Sprechpausen Verbundworter- kennung Fließend vorge- lesene Sprache Sprecherun- abhängig Auskunfts- dialog Offenes Mikrophon, GSM Qualität SpontanspracheSprecheradaptivVerhandlungs- runde Steigende Komplexität Verbmobil Herausforderungen für die Sprachtechnologie

Dialogverständnis z.B. durch Verbmobil Generierung von Protokollen HTML-Dokument auf Englisch transferiert via Internet oder Fax Kunde CC-Verkäufer HTML-Dokument auf Englisch transferiert via Internet oder Fax Automatische Generierung von Anruf-Protokollen

Selbstkorrekturen sind eines der Hauptmerkmale von Spontansprache und müssen in Dialogsystemen unbedingt verarbeitbar sein "Ich glaube, daß mancher große Redner, in dem Augenblick, da er den Mund aufmachte, noch nicht wußte, was er sagen würde." Heinrich von Kleist (1805): Über die allmähliche Verfertigung der Gedanken beim Reden Empirie: In einem Verbmobil-Korpus von 4590 Turns sind 1251 Selbstkorrekturen enthalten Jeder 4. Turn enthält eine Selbstkorrektur Austauschkorrekturen sind dabei die größte Klasse Psycholinguistik: Viele Korrekturen sind durch die Verzahnung des kognitiven Problemlöseprozesses mit der inkrementellen Sprachproduktion bedingt.

Ich benötige ein Auto am Dienstag, äh am Montag. Ursprüngliche Äußerung Editier-PhaseReparatur-Phase Reparandum Hesitation Reparans Erkennung von Substitutionen Transformation des Worthypothesen-Graphen Ich benötige ein Auto am Montag. Verbmobil Technologie:Versteht Sprachreparaturen und extrahiert die intendierte Bedeutung Diktat-Systems wie: ViaVoice, VoiceXpress, FreeSpeech, Naturally Speaking können nicht mit Spontansprache um- gehen und transkribieren die fehlerhaften Äußerungen. Das Verstehen von Sprachreparaturen in spontanen Äußerungen

Wir treffen uns in Mannheim, äh, in Saarbrücken. We are meeting in Saarbruecken. Englisch Deutsch Automatisches Verstehen und Korrigieren von Versprechern in spontanen Telefondialogen

Diktiersysteme für das Deutsche sind jetzt als PC-Massenprodukt verfügbar ViaVoice 98 IBM ViaVoice 98 IBM FreeSpeech 98 Philips FreeSpeech 98 Philips Naturally Speaking Dragon Systems Naturally Speaking Dragon Systems SpeechBase Siemens/ MediaInterface SpeechBase Siemens/ MediaInterface VoiceXpress Lernout & Hauspie/ Microsoft VoiceXpress Lernout & Hauspie/ Microsoft Kontinuierliche Sprach- erkennung bis 140 Wörter/Minute sprecherabhängiges Training erforderlichca. 90% Erkennungsrate 50 000-120 000 Wörter 89-1500 DM Kontinuierliche Sprach- erkennung bis 140 Wörter/Minute sprecherabhängiges Training erforderlichca. 90% Erkennungsrate 50 000-120 000 Wörter 89-1500 DM

Nur diskrete Spracherkennung G-Data Power Dictate 3.01 P Sprach- Erkennung - leistungsfähiges Sprach-Erkennungs- System auf 1 CD-ROM; Sie diktieren, Ihr PC schreibt - nahezu fehlerfreie Sprach-Erkennung, 95% sind erreichbar. Menüsteuerung ohne Tastatur und Maus Spracherkennungssoftware

Raum- mikrophon GSM Handy Nahbe- sprechungs- mikrophon > 20 CDs > 8 GB transliterierte Spontansprache > 3.000 Dialoge> 30.000 Turns>7.000 Lemmata ISDN Telephon Datensammlung mit verschiedenen Eingabegeräten

hatsuka no gogo wa ii desu Am Zwanzigsten, am Nachmittag wäre in Ordnung Sprecherunabhängige, robuste Spracherkennung über analoge Telefone, ISDN und GSM Mobil- telefone. Japanisch Deutsch Verbmobil: Übersetzung von spontan-sprachlichen Dialogen

Transkribierte Sprachdaten Baumbänke & Prädikat- Argument Strukturen Mit Dialog- Akten annotierte Dialoge Segmentierte Sprache mit prosodischer Etikettierung Alignierte bilinguale Korpora Hidden Markov Modelle Neuronale Netze, Multilayered Perceptrons Probabi- listische Grammatiken Probabi- listische Transfer- regeln Maschinelle Lernverfahren zur Integration von statistischen Eigenschaften in symbolische Modelle zur Spracherkennung, Parsing, Dialogverarbeitung und Übersetzung No data is better than more data ! Probabi- listische Automaten Korpus-basiertes Lernen statistischer Spracheigenschaften

Verbmobil Diktier- systeme Sprach- bedienung Klassifikations- systeme Telefonische Dialogsysteme Übersetzungs- systeme Sprach- synthese Verbmobil hat bislang zu mehr als 10 unterschiedlichen Spin-Offs beigetragen

Das neuartige Verfahren zur semantischen Verarbeitung von Analysefragmenten stellt einen Durchbruch in Richtung Robustheit dar Mir wäre es am liebsten den nächsten zwei Wochen Wir treffen uns Kaiserslautern Regelbasierte Kombination als Temporale Modifikation mit unterspezifizierter temporaler Relationen Das Funktionswort in wurde "verschluckt" Integrierte Verarbeitung und HPSG-Parser liefern nur partielle VITs Regelbasierte Kombination als Lokale Modifikation mit unterspezifizierten räumlichen Relationen Methode:1 Speicherung von partiellen Analysen in einer Chart 2 Kombination auf der Basis heuristischer Regeln (Syntax, Semantik, Weltwissen) 3Auswahl der besten Sequenz aus der Chart unter Verwendung von Unterspezifikationen

Ein Methodenbündel zur Steigerung der Robustheit von Dialogsystemen auf allen Verarbeitungsebenen ist zentrales Ergebnis von Verbmobil II Die mangelnde Robustheit ist die größte Hürde für eine noch breitere Anwendung der Sprachtechnologie Steigerung der Robustheit auf verschiedenen Verarbeitungsebenen von Verbmobil II: Akustische Robustheit (Geräuschkompensation, Kanaladaption) Robuste Spracherkennung (Spontansprache, Sprecherunabhängigkeit) Robuste Syntaxverarbeitung (Spontansprache, Erkennungsfehler) Robuste Semantikverarbeitung (Spontansprache, Erkennungsfehler) Problem: Auch bei hoher Worterkennungsrate enthält der Worthypothesen- graph nur selten exakt die gesprochene Wortfolge (z.B. wird eine kurze Präposition wie "in" verschluckt) Lösung:Wissensbasierte Kombinaton von Teilergebnissen auf der semantischen Ebene

System Eingabe- kanäle Ausgabe- kanäle Speicherung Festplatte CD-ROM Visuell Taktil Akustisch Haptisch MEDIUM (Physikalischer Informationsträger) MODALITÄT (Menschliche Sinne) SpracheGraphikGestik Benutzer CODE (Symbolsysteme) Mimik Code, Medium und Modalität

Semantische Repräsentations- sprache Semantische Repräsentations- sprache Bild- beschreibungs- sprache Bild- beschreibungs- sprache Gesten- beschreibungs- sprache Gesten- beschreibungs- sprache Ontologien Wissensrepräsentations- sprache Inferenzkomponente Wissensrepräsentations- sprache Inferenzkomponente DBMS/ KBMS/ WWW DBMS/ KBMS/ WWW Graphisches Bildverstehen Graphik- generierung Generation Gesten- analyse Gesten- generierung Parsing Bilder/ Graphiken Bilder/ Graphiken Gesten Modalitätsspezifische Repräsentationssprachen als Zwischenstufe zur Medienfusion Sprachliche Äußerungen

Benutzer Media Analysis Design Medienfusion Ausgabe- realisierung Repräsentation und Inferenz Benutzer- modell Diskurs- modell Domänen- modell Aufgaben- modell Medien- modell Multimodale Interaktion Modalitäts- spezifische Analysatoren Eingabe- vorverarbeitung Information, Anwendungen, Kommunikations- partner Kontext- abhängige Aktionsplanung Multimodales Medien- design Anwendungsschnittstelle mit Anwendungsmodell Diskurs- modellierung Benutzer- modellierung Präsentations- design Sprache Graphik Gestik/ Mimik Biometrie Sprache Graphik Gestik Intentions- erkennung Animierter Präsentations -agent Grobarchitektur von SmartKom

Smartcard, Kreditkarte zur Authentifizierung und Abrechnung Docking-Station für PDA/Notebook, Camcorder Schnelle Internet- Verbindung mit großer Bandbreite Hochauflösender Scanner Lautsprecher Raummikrophon Face-tracking Kamera Virtual Touchscreen (Vandalismussicher) Multiparty Videokonferenz SmartKom-Public: Multimodale Kommunikationszelle

Zugang über Multimedia PC Zugang über Mobiltelefon mit LCD Display Zugang über mobilen Klein- Computer (PDA, Palm) Graphik Audio Text Informationsdienste und Telekooperation mit heterogenen Endgeräten

MOBILE Kamera GPS Mikrophon Lautsprecher Stifteingabe Tragbarer Compute Server Docking-Station für Car PC Biosensor zur Authentifizierung & Emotionserkennung GSM für Telefon, Fax, Internet- Verbindungen SmartKom-Mobil: Mobiler Kommunikationsassistent

Deep Map: Multimodaler mobiler Touristenführer für Heidelberg (EML, Dr. Malaka) Kooperation u.a.: EML - DFKI - ISL Mobile Dialogführung Lokationsadaptive Interpretation von Benutzeranfragen

Multimodale Wegbeschreibung (Text- und Graphikgenerierung) Mobile Sprachübersetzung Deep Map: Multimodaler mobiler Touristenführer für Heidelberg (EML, Dr. Malaka) Kooperation u.a.: EML - DFKI - ISL

Sprachgesteuerte 3D-Visualisierung Multimodale Präsentationsplanung (Text, Graphik, Bilder) Deep Map: Multimodaler mobiler Touristenführer für Heidelberg (EML, Dr. Malaka) Kooperation u.a.: EML - DFKI - ISL

Mit Maier, am 25. Oktober, mit Tetzlaff und auch mit Streit. Doch nicht mit Streit und zwar von 2 Uhr bis 3 Uhr. Okay! Sprach- und gestikbasierte Interaktion mit einem Kalenderprogramm auf einem WAP-Handy

Am sechzehnten von zwei bis vier. KONTEXTANALYSE - BEISPIEL: Den Monat aus dem visuellen Kontext übernehmen

Mikrophon für Spracheingabe Virtual Touchscreen Gestenerkennung SmartKom-Home/Office: Vielseitige, agentenbasierte Schnittstelle

Erste Generation Zweite GenerationDritte Generation Statische Web-Seiten Papierersatz in HTML Interaktive Web-Seiten JavaScripts und Applets Datenbank-Zugriff und Template-basierte Generierung Dynamische Web-Seiten Virtuelle Web-Seiten Netbots, Informationsextraktion, Presentationsplaner Adaptive Web-Seiten Benutzermodellierung, Maschinelles Lernen, Online Layout Drei Generationen von Web-Seiten

Netbot PAN Netbot PAN Reisedatum Zielort Bilder und Graphiken Textteile Koordinaten für Zeigegesten Zu sprechende Erläuterungen Ikonen für Hyperlinks Suchagent Hotels Suchagent Hotels Suchagent Karten Suchagent Karten Adresse Suchagent Wetter Suchagent Wetter Suchagent Bahn- u. Flug- verbindungen Suchagent Bahn- u. Flug- verbindungen Suchagent Groß- ereignisse Suchagent Groß- ereignisse Virtuelle Web-Präsentation Constraint- basiertes Online- Layout Prä- sentations- Planer Persona- Server Komponenten der virtuellen Web-Seiten AiA Generierung virtueller Web-Seiten mit PAN und AiA

Die Persona-Technologie des DFKI zur Erzeugung virtueller Informationsagenten

Zwei visuelle Instanzen der Persona mit unterschiedlichen Zeige- und Ruhegesten

Persona Server Aktionstypen Präsentationsgesten Reaktives Verhalten Leerlaufaktionen Navigationsaktionen Akustische Merkmale Geräuscheffekte, akustische Ikonen Männliche und weibliche Stimme Alternative visuelle Realisierungen Zeichentrick- figuren Animierte 3D-Modelle Video Bildfolgen Der Persona Server kann an verschiedene Anwendungssituationen angepaßt werden

Virtuelle Informationsagenten als Java-Applets zur Erzeugung von Life-Like Characters

Bidirektionale Kommunikation zwischen Medienobjekten in HTML und der Persona

Argumentative Verkaufsdialoge

Präsentationsteams im argumentativen Verkaufsdialog

Kollaboratives Browsing bei WebTV- Anwendungen

Natürlichsprachliche Programmierung intelligenter Haustechnik Wenn ich nach 20.00 Uhr in die Garage fahre, schalte das Licht im Keller an und öffne die Tür zwischen Garage und Keller. Lösche das Licht in der Garage, sobald ich im Keller bin.

Gibt es im Moment eine Übertragung des Spiels HSV gegen Bayern? Das wird gerade im Zweiten im Aktuellen Sportstudio gezeigt. Soll ich umschalten? Sprachgesteuerte Inhaltssuche in laufenden Fernsehprogrammen

Ich möchte nochmal sehen, was beim Erdbeben in Taiwan passiert ist Es gab in Spiegel TV letzte Woche eine gute Zusammen- fassung. Soll ich sie zeigen? Sprachgesteuerte Inhaltssuche in Fernseharchiven

Global operierende IT-Unternehmen verstärken die Sprachtechnologie-Entwicklung Aufbau neuer LaboreAusbau der Aktivitäten Transfer ehemaliger VM-Mitarbeiter in Industrie-Gruppen Beginnende Personalknappheit im Bereich Sprachtechnologie Deutschland wird derzeit zum führenden europäischen Standort für Sprachtechnologie

Informations- präsentation Informations- gewinnung Informations- austausch Gesprochene Sprache Geschriebene Sprache Diktiersysteme Text-to-Speech- Systeme Textgeneratoren Autorensysteme Rechtschreib-, Stil-, Grammatik- prüfer translation memory Maschinelle Qualitätsüber- setzung automatische Abhörsysteme MM -Information Retrieval Abstract- Generierung Information Retrieval Dokumentfilter Inhaltsextraktion Text-Mining Maschinelle Rohübersetzung IVR-Systeme Sprachdialog- systeme Dolmetschsysteme Concept-to- Speech-Systeme Protokolliersysteme Elektronische Sprachführer Natürlichsprach- liche Systeme Maschinelle Über- setzung von Chat Quelle: U. Block, Siemens; W. Wahlster, DFKI Einsatzmöglichkeiten der Sprachtechnologie

Deutsches Forschungszentrum für Künstliche Intelligenz GmbH Stuhlsatzenhausweg 3, Geb. 43.1 66123 Saarbrücken Tel.: (0681) 302-5252/4162 Fax: (0681) 302-5341.

Ähnliche Präsentationen

Präsentation zum Thema: "Deutsches Forschungszentrum für Künstliche Intelligenz GmbH Stuhlsatzenhausweg 3, Geb. 43.1 66123 Saarbrücken Tel.: (0681) 302-5252/4162 Fax: (0681) 302-5341."— Präsentation transkript:

Ähnliche Präsentationen

Über Projekt

Feedback

Anmelden

Anmeldung über soziales Netzwerk:

Deutsches Forschungszentrum für Künstliche Intelligenz GmbH Stuhlsatzenhausweg 3, Geb. 43.1 66123 Saarbrücken Tel.: (0681) 302-5252/4162 Fax: (0681) 302-5341.

Ähnliche Präsentationen

Präsentation zum Thema: "Deutsches Forschungszentrum für Künstliche Intelligenz GmbH Stuhlsatzenhausweg 3, Geb. 43.1 66123 Saarbrücken Tel.: (0681) 302-5252/4162 Fax: (0681) 302-5341."— Präsentation transkript:

Ähnliche Präsentationen

Über Projekt

Feedback