Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

Deutsches Forschungszentrum für Künstliche Intelligenz GmbH Stuhlsatzenhausweg 3, Geb. 43.1 66123 Saarbrücken Tel.: (0681) 302-5252/4162 Fax: (0681) 302-5341.

Ähnliche Präsentationen


Präsentation zum Thema: "Deutsches Forschungszentrum für Künstliche Intelligenz GmbH Stuhlsatzenhausweg 3, Geb. 43.1 66123 Saarbrücken Tel.: (0681) 302-5252/4162 Fax: (0681) 302-5341."—  Präsentation transkript:

1 Deutsches Forschungszentrum für Künstliche Intelligenz GmbH Stuhlsatzenhausweg 3, Geb Saarbrücken Tel.: (0681) /4162 Fax: (0681) WWW: Wolfgang Wahlster Paderborner Podium, 4. Oktober 1999 Alltag der Zukunft - Informationstechnik verändert unser Leben Sprachtechnologie im Alltag: Der Computer als Dialogpartner

2 Einge- gebenes Sprach- signal Sub- symbo- lische Verar- beitung Symbolische Verarbeitung Ausge- gebenes Sprach- signal Sprach- erkennung Sprachverstehen & Sprachgenerierung Sprach- synthese Sub- symbo- lische Verar- beitung Signal-Symbol-Signal Transformation in natürlichsprachlichen Dialogsystemen

3 Akustische Sprachanalyse Wortlisten Grammatik Wortbe- deutungen Gesprächs- Kontext Wissen über das Gesprächs- thema Was hat der Sprecher gesagt? 100 Alternativen Was hat der Sprecher gemeint? 10 Alternativen Was will der Sprecher? Eindeutiges Verstehen im Gesprächs- zusammenhang Reduktion von Unsicherheit Sprachanalys e Sprach- ver- stehen Sprachanalyse Spracherkennung Gesprochene Eingabe Verbmobil umfaßt alle drei Stufen der Sprachverarbeitung

4 Telephonbasiertes Dialogsystem für Zugauskünfte

5 Verbmobil Server Wann fährt der nächste Zug nach Hamburg ab? When does the next train to Hamburg depart? Wo befindet sich das nächste Hotel? Where is the nearest hotel? Verbmobil-Szenario Hotel- und Reiseinformation

6 Wenn ich den Zug um 14 Uhr bekomme, bin ich um 4 in Frankfurt. If I get the train at 2 oclock I am in Frankfurt at 4 oclock. Am Flughafen könnten wir uns treffen. We could meet at the airport. Dialogübersetzung

7 Abends könnten wir Essen gehen. We could go out for dinner in the evening. What time in the evening? Wann denn am Abend? Dialogübersetzung

8 Ich könnte für 8 Uhr einen Tisch reservieren. I could reserve a table for 8 oclock. Dialogübersetzung

9 Eingabebedingungen Natürlichkeit Anpaßbarkeit Dialogfähigkeit Einzelne Wörter Nahbesprechungs- mikrophon Aktivierungstaste Sprecherab- hängig Diktier- oder Kommandodialog Telephon-Qualität Segmentierung durch Sprechpausen Verbundworter- kennung Fließend vorge- lesene Sprache Sprecherun- abhängig Auskunfts- dialog Offenes Mikrophon, GSM Qualität SpontanspracheSprecheradaptivVerhandlungs- runde Steigende Komplexität Verbmobil Herausforderungen für die Sprachtechnologie

10 Dialogverständnis z.B. durch Verbmobil Generierung von Protokollen HTML-Dokument auf Englisch transferiert via Internet oder Fax Kunde CC-Verkäufer HTML-Dokument auf Englisch transferiert via Internet oder Fax Automatische Generierung von Anruf-Protokollen

11 Selbstkorrekturen sind eines der Hauptmerkmale von Spontansprache und müssen in Dialogsystemen unbedingt verarbeitbar sein "Ich glaube, daß mancher große Redner, in dem Augenblick, da er den Mund aufmachte, noch nicht wußte, was er sagen würde." Heinrich von Kleist (1805): Über die allmähliche Verfertigung der Gedanken beim Reden Empirie: In einem Verbmobil-Korpus von 4590 Turns sind 1251 Selbstkorrekturen enthalten Jeder 4. Turn enthält eine Selbstkorrektur Austauschkorrekturen sind dabei die größte Klasse Psycholinguistik: Viele Korrekturen sind durch die Verzahnung des kognitiven Problemlöseprozesses mit der inkrementellen Sprachproduktion bedingt.

12 Ich benötige ein Auto am Dienstag, äh am Montag. Ursprüngliche Äußerung Editier-PhaseReparatur-Phase Reparandum Hesitation Reparans Erkennung von Substitutionen Transformation des Worthypothesen-Graphen Ich benötige ein Auto am Montag. Verbmobil Technologie:Versteht Sprachreparaturen und extrahiert die intendierte Bedeutung Diktat-Systems wie: ViaVoice, VoiceXpress, FreeSpeech, Naturally Speaking können nicht mit Spontansprache um- gehen und transkribieren die fehlerhaften Äußerungen. Das Verstehen von Sprachreparaturen in spontanen Äußerungen

13 Wir treffen uns in Mannheim, äh, in Saarbrücken. We are meeting in Saarbruecken. Englisch Deutsch Automatisches Verstehen und Korrigieren von Versprechern in spontanen Telefondialogen

14 Diktiersysteme für das Deutsche sind jetzt als PC-Massenprodukt verfügbar ViaVoice 98 IBM ViaVoice 98 IBM FreeSpeech 98 Philips FreeSpeech 98 Philips Naturally Speaking Dragon Systems Naturally Speaking Dragon Systems SpeechBase Siemens/ MediaInterface SpeechBase Siemens/ MediaInterface VoiceXpress Lernout & Hauspie/ Microsoft VoiceXpress Lernout & Hauspie/ Microsoft Kontinuierliche Sprach- erkennung bis 140 Wörter/Minute sprecherabhängiges Training erforderlichca. 90% Erkennungsrate Wörter DM Kontinuierliche Sprach- erkennung bis 140 Wörter/Minute sprecherabhängiges Training erforderlichca. 90% Erkennungsrate Wörter DM

15 Nur diskrete Spracherkennung G-Data Power Dictate 3.01 P Sprach- Erkennung - leistungsfähiges Sprach-Erkennungs- System auf 1 CD-ROM; Sie diktieren, Ihr PC schreibt - nahezu fehlerfreie Sprach-Erkennung, 95% sind erreichbar. Menüsteuerung ohne Tastatur und Maus Spracherkennungssoftware

16 Raum- mikrophon GSM Handy Nahbe- sprechungs- mikrophon > 20 CDs > 8 GB transliterierte Spontansprache > Dialoge> Turns>7.000 Lemmata ISDN Telephon Datensammlung mit verschiedenen Eingabegeräten

17 hatsuka no gogo wa ii desu Am Zwanzigsten, am Nachmittag wäre in Ordnung Sprecherunabhängige, robuste Spracherkennung über analoge Telefone, ISDN und GSM Mobil- telefone. Japanisch Deutsch Verbmobil: Übersetzung von spontan-sprachlichen Dialogen

18 Transkribierte Sprachdaten Baumbänke & Prädikat- Argument Strukturen Mit Dialog- Akten annotierte Dialoge Segmentierte Sprache mit prosodischer Etikettierung Alignierte bilinguale Korpora Hidden Markov Modelle Neuronale Netze, Multilayered Perceptrons Probabi- listische Grammatiken Probabi- listische Transfer- regeln Maschinelle Lernverfahren zur Integration von statistischen Eigenschaften in symbolische Modelle zur Spracherkennung, Parsing, Dialogverarbeitung und Übersetzung No data is better than more data ! Probabi- listische Automaten Korpus-basiertes Lernen statistischer Spracheigenschaften

19 Verbmobil Diktier- systeme Sprach- bedienung Klassifikations- systeme Telefonische Dialogsysteme Übersetzungs- systeme Sprach- synthese Verbmobil hat bislang zu mehr als 10 unterschiedlichen Spin-Offs beigetragen

20 Das neuartige Verfahren zur semantischen Verarbeitung von Analysefragmenten stellt einen Durchbruch in Richtung Robustheit dar Mir wäre es am liebsten den nächsten zwei Wochen Wir treffen uns Kaiserslautern Regelbasierte Kombination als Temporale Modifikation mit unterspezifizierter temporaler Relationen Das Funktionswort in wurde "verschluckt" Integrierte Verarbeitung und HPSG-Parser liefern nur partielle VITs Regelbasierte Kombination als Lokale Modifikation mit unterspezifizierten räumlichen Relationen Methode:1 Speicherung von partiellen Analysen in einer Chart 2 Kombination auf der Basis heuristischer Regeln (Syntax, Semantik, Weltwissen) 3Auswahl der besten Sequenz aus der Chart unter Verwendung von Unterspezifikationen

21 Ein Methodenbündel zur Steigerung der Robustheit von Dialogsystemen auf allen Verarbeitungsebenen ist zentrales Ergebnis von Verbmobil II Die mangelnde Robustheit ist die größte Hürde für eine noch breitere Anwendung der Sprachtechnologie Steigerung der Robustheit auf verschiedenen Verarbeitungsebenen von Verbmobil II: Akustische Robustheit (Geräuschkompensation, Kanaladaption) Robuste Spracherkennung (Spontansprache, Sprecherunabhängigkeit) Robuste Syntaxverarbeitung (Spontansprache, Erkennungsfehler) Robuste Semantikverarbeitung (Spontansprache, Erkennungsfehler) Problem: Auch bei hoher Worterkennungsrate enthält der Worthypothesen- graph nur selten exakt die gesprochene Wortfolge (z.B. wird eine kurze Präposition wie "in" verschluckt) Lösung:Wissensbasierte Kombinaton von Teilergebnissen auf der semantischen Ebene

22 System Eingabe- kanäle Ausgabe- kanäle Speicherung Festplatte CD-ROM Visuell Taktil Akustisch Haptisch MEDIUM (Physikalischer Informationsträger) MODALITÄT (Menschliche Sinne) SpracheGraphikGestik Benutzer CODE (Symbolsysteme) Mimik Code, Medium und Modalität

23 Semantische Repräsentations- sprache Semantische Repräsentations- sprache Bild- beschreibungs- sprache Bild- beschreibungs- sprache Gesten- beschreibungs- sprache Gesten- beschreibungs- sprache Ontologien Wissensrepräsentations- sprache Inferenzkomponente Wissensrepräsentations- sprache Inferenzkomponente DBMS/ KBMS/ WWW DBMS/ KBMS/ WWW Graphisches Bildverstehen Graphik- generierung Generation Gesten- analyse Gesten- generierung Parsing Bilder/ Graphiken Bilder/ Graphiken Gesten Modalitätsspezifische Repräsentationssprachen als Zwischenstufe zur Medienfusion Sprachliche Äußerungen

24 Benutzer Media Analysis Design Medienfusion Ausgabe- realisierung Repräsentation und Inferenz Benutzer- modell Diskurs- modell Domänen- modell Aufgaben- modell Medien- modell Multimodale Interaktion Modalitäts- spezifische Analysatoren Eingabe- vorverarbeitung Information, Anwendungen, Kommunikations- partner Kontext- abhängige Aktionsplanung Multimodales Medien- design Anwendungsschnittstelle mit Anwendungsmodell Diskurs- modellierung Benutzer- modellierung Präsentations- design Sprache Graphik Gestik/ Mimik Biometrie Sprache Graphik Gestik Intentions- erkennung Animierter Präsentations -agent Grobarchitektur von SmartKom

25 Smartcard, Kreditkarte zur Authentifizierung und Abrechnung Docking-Station für PDA/Notebook, Camcorder Schnelle Internet- Verbindung mit großer Bandbreite Hochauflösender Scanner Lautsprecher Raummikrophon Face-tracking Kamera Virtual Touchscreen (Vandalismussicher) Multiparty Videokonferenz SmartKom-Public: Multimodale Kommunikationszelle

26 Zugang über Multimedia PC Zugang über Mobiltelefon mit LCD Display Zugang über mobilen Klein- Computer (PDA, Palm) Graphik Audio Text Informationsdienste und Telekooperation mit heterogenen Endgeräten

27 MOBILE Kamera GPS Mikrophon Lautsprecher Stifteingabe Tragbarer Compute Server Docking-Station für Car PC Biosensor zur Authentifizierung & Emotionserkennung GSM für Telefon, Fax, Internet- Verbindungen SmartKom-Mobil: Mobiler Kommunikationsassistent

28 Deep Map: Multimodaler mobiler Touristenführer für Heidelberg (EML, Dr. Malaka) Kooperation u.a.: EML - DFKI - ISL Mobile Dialogführung Lokationsadaptive Interpretation von Benutzeranfragen

29 Multimodale Wegbeschreibung (Text- und Graphikgenerierung) Mobile Sprachübersetzung Deep Map: Multimodaler mobiler Touristenführer für Heidelberg (EML, Dr. Malaka) Kooperation u.a.: EML - DFKI - ISL

30 Sprachgesteuerte 3D-Visualisierung Multimodale Präsentationsplanung (Text, Graphik, Bilder) Deep Map: Multimodaler mobiler Touristenführer für Heidelberg (EML, Dr. Malaka) Kooperation u.a.: EML - DFKI - ISL

31 Mit Maier, am 25. Oktober, mit Tetzlaff und auch mit Streit. Doch nicht mit Streit und zwar von 2 Uhr bis 3 Uhr. Okay! Sprach- und gestikbasierte Interaktion mit einem Kalenderprogramm auf einem WAP-Handy

32 Am sechzehnten von zwei bis vier. KONTEXTANALYSE - BEISPIEL: Den Monat aus dem visuellen Kontext übernehmen

33 Mikrophon für Spracheingabe Virtual Touchscreen Gestenerkennung SmartKom-Home/Office: Vielseitige, agentenbasierte Schnittstelle

34 Erste Generation Zweite GenerationDritte Generation Statische Web-Seiten Papierersatz in HTML Interaktive Web-Seiten JavaScripts und Applets Datenbank-Zugriff und Template-basierte Generierung Dynamische Web-Seiten Virtuelle Web-Seiten Netbots, Informationsextraktion, Presentationsplaner Adaptive Web-Seiten Benutzermodellierung, Maschinelles Lernen, Online Layout Drei Generationen von Web-Seiten

35 Netbot PAN Netbot PAN Reisedatum Zielort Bilder und Graphiken Textteile Koordinaten für Zeigegesten Zu sprechende Erläuterungen Ikonen für Hyperlinks Suchagent Hotels Suchagent Hotels Suchagent Karten Suchagent Karten Adresse Suchagent Wetter Suchagent Wetter Suchagent Bahn- u. Flug- verbindungen Suchagent Bahn- u. Flug- verbindungen Suchagent Groß- ereignisse Suchagent Groß- ereignisse Virtuelle Web-Präsentation Constraint- basiertes Online- Layout Prä- sentations- Planer Persona- Server Komponenten der virtuellen Web-Seiten AiA Generierung virtueller Web-Seiten mit PAN und AiA

36 Die Persona-Technologie des DFKI zur Erzeugung virtueller Informationsagenten

37 Zwei visuelle Instanzen der Persona mit unter- schiedlichen Zeige- und Ruhegesten

38 Persona Server Aktionstypen Präsentationsgesten Reaktives Verhalten Leerlaufaktionen Navigationsaktionen Akustische Merkmale Geräuscheffekte, akustische Ikonen Männliche und weibliche Stimme Alternative visuelle Realisierungen Zeichentrick- figuren Animierte 3D-Modelle Video Bildfolgen Der Persona Server kann an verschiedene Anwendungssituationen angepaßt werden

39 Virtuelle Informationsagenten als Java-Applets zur Erzeugung von Life-Like Characters

40 Bidirektionale Kommunikation zwischen Medienobjekten in HTML und der Persona

41 Argumentative Verkaufsdialoge

42 Präsentationsteams im argumentativen Verkaufsdialog

43 Kollaboratives Browsing bei WebTV- Anwendungen

44 Natürlichsprachliche Programmierung intelligenter Haustechnik Wenn ich nach Uhr in die Garage fahre, schalte das Licht im Keller an und öffne die Tür zwischen Garage und Keller. Lösche das Licht in der Garage, sobald ich im Keller bin.

45 Gibt es im Moment eine Übertragung des Spiels HSV gegen Bayern? Das wird gerade im Zweiten im Aktuellen Sportstudio gezeigt. Soll ich umschalten? Sprachgesteuerte Inhaltssuche in laufenden Fernsehprogrammen

46 Ich möchte nochmal sehen, was beim Erdbeben in Taiwan passiert ist Es gab in Spiegel TV letzte Woche eine gute Zusammen- fassung. Soll ich sie zeigen? Sprachgesteuerte Inhaltssuche in Fernseharchiven

47 Global operierende IT-Unternehmen verstärken die Sprachtechnologie-Entwicklung Aufbau neuer LaboreAusbau der Aktivitäten Transfer ehemaliger VM-Mitarbeiter in Industrie-Gruppen Beginnende Personalknappheit im Bereich Sprachtechnologie Deutschland wird derzeit zum führenden europäischen Standort für Sprachtechnologie

48 Informations- präsentation Informations- gewinnung Informations- austausch Gesprochene Sprache Geschriebene Sprache Diktiersysteme Text-to-Speech- Systeme Textgeneratoren Autorensysteme Rechtschreib-, Stil-, Grammatik- prüfer translation memory Maschinelle Qualitätsüber- setzung automatische Abhörsysteme MM -Information Retrieval Abstract- Generierung Information Retrieval Dokumentfilter Inhaltsextraktion Text-Mining Maschinelle Rohübersetzung IVR-Systeme Sprachdialog- systeme Dolmetschsysteme Concept-to- Speech-Systeme Protokolliersysteme Elektronische Sprachführer Natürlichsprach- liche Systeme Maschinelle Über- setzung von Chat Quelle: U. Block, Siemens; W. Wahlster, DFKI Einsatzmöglichkeiten der Sprachtechnologie


Herunterladen ppt "Deutsches Forschungszentrum für Künstliche Intelligenz GmbH Stuhlsatzenhausweg 3, Geb. 43.1 66123 Saarbrücken Tel.: (0681) 302-5252/4162 Fax: (0681) 302-5341."

Ähnliche Präsentationen


Google-Anzeigen