Deutsches Forschungszentrum für Künstliche Intelligenz GmbH Stuhlsatzenhausweg 3, Geb. 43.1 66123 Saarbrücken Tel.: (0681) 302-5252/4162 Fax: (0681) 302-5341.

Slides:

Advertisements

Ähnliche Präsentationen

Das E-Portfolio – essentielles Instrument zukünftiger Wissensarbeit? 27. Community-Treffen der PWM, 23. Februar 2007 Paul Meinl GF, factline Webservices.

Advertisements

Kulturtransfer und Translation Einige Begriffe – Einige Anwendungen

Ehrenvortrag Technische Univesität Darmstadt

Grundstudiumspraktikum “Maschinelle Übersetzung”

Mittwoch den 22sten März Todays Language Focus: Möchtest du + verb Todays Theme: Arranging to go out ©MFL Sunderland 2007 ELA

Künstliche Intelligenz

ELearning – The Next Five Years AIFB Rudi Studer Learning Lab Lower Saxony Institute AIFB, University of Karlsruhe

Medienintensive Lehrmodule in der Computerlinguistik-Ausbildung

1 Sprachressourcen-Gipfel IDS Mannheim Mai 2009 Bayerisches Archiv für Sprachsignale Florian Schiel & Christoph Draxler schiel |

Inhaltlich orientierter Zugriff auf unstrukturierte Daten

Content Management Systeme

Sabine Braun, Universität Tübingen VK-Tagung Essen,

Perspektiven der Informatik Ringvorlesung WS 2002/2003

Grundlagen der Analyse von Sprachdatenbanken

Datenbanken vs. Markup Manfred Thaller WS 2009/2010 Humanities Computing Linda Scholz.

1 Endliche Automaten in der Sprachtechnologie Kursthemen Karin Haenelt

Wissensbasierte Daten- interpretation für einen automatisierten und adaptiven Inhaltsintegrationsprozeß Lyndon J B Nixon

PinK Plattform für intelligente Kollaborationsportale Dr. Joachim Quantz, e.V. Berlin, 13. September 2005.

Multimedia und Virtual Reality Vorlesung am Martin Kurze Begriffsbestimmungen.

Schulen ans Netz Oberhausener Moderatoren

© by TMND GmbH TMspeak Automatisierte Vertonung strukturierter Textinformationen TMND GmbH Vortrag von der.

1 Grundlagen und Anwendung der Extensible Markup Language (XML ) Peter Buxmann Institut für Wirtschaftsinformatik Johann Wolfgang Goethe-Universität Frankfurt.

Die Bank von morgen - eine neue Welt für IT und Kunden? 23. Oktober 2001.

Spatial Decision Support Systems (SDSS)

Maschinelles Lernen und automatische Textklassifikation

für gestresste Systemadministratoren...

Überblick Software Bestellungsver- waltungsprozess Dialogmanagement Simulation Sprachverarbeitung Verschiedene Arbeitsphasen Routengraphen Sprachverarbeitung:

Tagesprogramm Wort der Woche Klassenleiter Der Zug/die Bahn

Students who are caught doing the right thing (paying attention, not talking over the teacher/helping student, raising their hand, positive attitude, participating,

Guten Morgen und herzlich willkommen..

Your desktop is everywhere! Herzlich willkommen!

Deine Gruppe plant im Juni eine Reise nach Deutschland. Bevor du beginnst, musst du deine Flugtickets kaufen. Deine Gruppe wird in Atlanta beginnen und.

Strong Simple Past Verbs

Workshop 2 Praktische Instrumente für den Gemeinsamen europäischen Referenzrahmen Dirk Klein:

Multimodale Interfaces

Tagesprogramm Mittwoch

1. Was ist Hardware? Hardware nennt man alle Geräte und Bauteile, die zu einem Computer gehören – also alles was man am Computer anfassen kann. Bsp: Monitor,

DataMining Von Daten zu Informationen und Wissen

Tabor: KI & Sprachtechnologien Reise um die KI Turing-Spiel (Wer ist der Junge?) Turing-Test (Wer ist der Computer?) KI-Systeme simulieren künstl. Intelligenz.

Erstellt von: Manuela, Marc und Midhat im Rahmen des MMF_3 Kurses.

Entwicklung des sprachgesteuerten Schachcomputers Speech2Chess

Studio d A2-03 Reisen und Mobilität

Lernhilfe zur Kommunikationsanlagen

MODALVERBEN. Anita, Montag wir - Freitag

Internet und SMS Internet und SMS Daniel Rickenbacher Jeremy Deuel.

Mittwoch,den 25. April 2012 Lo: to be able to discuss about Jugendliche und Eltern and Internet; to use bevor und nachdem and to get acquainted with.

Microsoft Office Das neue Office Unternehmensgerechte Produktivität und Zusammenarbeit für KMUs Microsoft Corporation Jeff Vogt © 2012 Microsoft.

Video- und Webkonferenzen als Arbeitsmittel und Forschungsgegenstand Gregor Erbach, FR Computerlinguistik Universität des Saarlandes, Saarbrücken.

19/05/00Science Week Austria 2000 © ftw speech & more Existierende und zukünftige Sprachdialogsysteme.

Erstellt von: Manuela, Marc und Midhat im Rahmen des MMF_3 Kurses.

Elternabend der Schule … vom …

Es ist Herbst. Das Wetter ist schön. Die Sonne scheint oft

Helpdesk: Wie kann ich Ihnen helfen?

Klassen und Klassenstruktur

Lokationsadaptive Agentensysteme

Wolfgang Wahlster Der Weg zum sprachverstehenden Computer Deutsches Forschungszentrum für Künstliche Intelligenz GmbH Stuhlsatzenhausweg 3, Geb

M110 - Übergabe der Daten zum IFI-Datenbanksystem Ingenieurbüro für Informationssysteme Konzepte und Marketing Gerade Straße Buchholz i.d.N. Telefon.

->Prinzip ->Systeme ->Peer – to – Peer

Grammatikalische Begriffe im Unterricht

Einführungsveranstaltung des Bürgernetz Dillingen Herzlich willkommen !

Webserver Apache & Xampp Referenten: Elena, Luziano und Sükran

, Enkenbach Werden Maschinen den Menschen ersetzen? Über die Grenzen der Künstlichen Intelligenz Prof. Dr. Dr. h.c. mult. Wolfgang Wahlster.

Semantik und Wissensrepräsentation Einleitung   Sprachliches Wissen vs. Weltwissen   Voraussetzungen für Sprachverstehen.

Asking someone out in German.

A: _________ kommst du morgen Abend vorbei? Um Uhr?

Optimierung von Geschäftsprozessen durch Webformulare und Webworkflow Rainer Driesen Account Manager.

Univ. Prof. Dr.-Ing. Heribert Nacken Die Rolle der (Wasser-) Bildung im Wasserressourcenmanagement Univ.-Prof. Dr.-Ing. Heribert Nacken.

10 Schritte Video-Optin-Formel

Präsentation transkript:

Deutsches Forschungszentrum für Künstliche Intelligenz GmbH Stuhlsatzenhausweg 3, Geb Saarbrücken Tel.: (0681) /4162 Fax: (0681) WWW: Wolfgang Wahlster Paderborner Podium, 4. Oktober 1999 Alltag der Zukunft - Informationstechnik verändert unser Leben Sprachtechnologie im Alltag: Der Computer als Dialogpartner

Einge- gebenes Sprach- signal Sub- symbolische Verar- beitung Symbolische Verarbeitung Ausge- gebenes Sprach- signal Sprach- erkennung Sprachverstehen & Sprachgenerierung Sprach- synthese Sub- symbolische Verar- beitung Signal-Symbol-Signal Transformation in natürlichsprachlichen Dialogsystemen

Akustische Sprachanalyse Wortlisten Grammatik Wortbe- deutungen Gesprächs- Kontext Wissen über das Gesprächs- thema Was hat der Sprecher gesagt? 100 Alternativen Was hat der Sprecher gemeint? 10 Alternativen Was will der Sprecher? Eindeutiges Verstehen im Gesprächs- zusammenhang Reduktion von Unsicherheit Sprachanalys e Sprach- verstehen Sprachanalyse Spracherkennung Gesprochene Eingabe Verbmobil umfaßt alle drei Stufen der Sprachverarbeitung

Telephonbasiertes Dialogsystem für Zugauskünfte

Verbmobil Server Wann fährt der nächste Zug nach Hamburg ab? When does the next train to Hamburg depart? Wo befindet sich das nächste Hotel? Where is the nearest hotel? Verbmobil-Szenario Hotel- und Reiseinformation

Wenn ich den Zug um 14 Uhr bekomme, bin ich um 4 in Frankfurt. If I get the train at 2 oclock I am in Frankfurt at 4 oclock. Am Flughafen könnten wir uns treffen. We could meet at the airport. Dialogübersetzung

Abends könnten wir Essen gehen. We could go out for dinner in the evening. What time in the evening? Wann denn am Abend? Dialogübersetzung

Ich könnte für 8 Uhr einen Tisch reservieren. I could reserve a table for 8 oclock. Dialogübersetzung

Eingabebedingungen Natürlichkeit Anpaßbarkeit Dialogfähigkeit Einzelne Wörter Nahbesprechungs- mikrophon Aktivierungstaste Sprecherab- hängig Diktier- oder Kommandodialog Telephon-Qualität Segmentierung durch Sprechpausen Verbundworter- kennung Fließend vorge- lesene Sprache Sprecherun- abhängig Auskunfts- dialog Offenes Mikrophon, GSM Qualität SpontanspracheSprecheradaptivVerhandlungs- runde Steigende Komplexität Verbmobil Herausforderungen für die Sprachtechnologie

Dialogverständnis z.B. durch Verbmobil Generierung von Protokollen HTML-Dokument auf Englisch transferiert via Internet oder Fax Kunde CC-Verkäufer HTML-Dokument auf Englisch transferiert via Internet oder Fax Automatische Generierung von Anruf-Protokollen

Selbstkorrekturen sind eines der Hauptmerkmale von Spontansprache und müssen in Dialogsystemen unbedingt verarbeitbar sein "Ich glaube, daß mancher große Redner, in dem Augenblick, da er den Mund aufmachte, noch nicht wußte, was er sagen würde." Heinrich von Kleist (1805): Über die allmähliche Verfertigung der Gedanken beim Reden Empirie: In einem Verbmobil-Korpus von 4590 Turns sind 1251 Selbstkorrekturen enthalten Jeder 4. Turn enthält eine Selbstkorrektur Austauschkorrekturen sind dabei die größte Klasse Psycholinguistik: Viele Korrekturen sind durch die Verzahnung des kognitiven Problemlöseprozesses mit der inkrementellen Sprachproduktion bedingt.

Ich benötige ein Auto am Dienstag, äh am Montag. Ursprüngliche Äußerung Editier-PhaseReparatur-Phase Reparandum Hesitation Reparans Erkennung von Substitutionen Transformation des Worthypothesen-Graphen Ich benötige ein Auto am Montag. Verbmobil Technologie:Versteht Sprachreparaturen und extrahiert die intendierte Bedeutung Diktat-Systems wie: ViaVoice, VoiceXpress, FreeSpeech, Naturally Speaking können nicht mit Spontansprache um- gehen und transkribieren die fehlerhaften Äußerungen. Das Verstehen von Sprachreparaturen in spontanen Äußerungen

Wir treffen uns in Mannheim, äh, in Saarbrücken. We are meeting in Saarbruecken. Englisch Deutsch Automatisches Verstehen und Korrigieren von Versprechern in spontanen Telefondialogen

Diktiersysteme für das Deutsche sind jetzt als PC-Massenprodukt verfügbar ViaVoice 98 IBM ViaVoice 98 IBM FreeSpeech 98 Philips FreeSpeech 98 Philips Naturally Speaking Dragon Systems Naturally Speaking Dragon Systems SpeechBase Siemens/ MediaInterface SpeechBase Siemens/ MediaInterface VoiceXpress Lernout & Hauspie/ Microsoft VoiceXpress Lernout & Hauspie/ Microsoft Kontinuierliche Sprach- erkennung bis 140 Wörter/Minute sprecherabhängiges Training erforderlichca. 90% Erkennungsrate Wörter DM Kontinuierliche Sprach- erkennung bis 140 Wörter/Minute sprecherabhängiges Training erforderlichca. 90% Erkennungsrate Wörter DM

Nur diskrete Spracherkennung G-Data Power Dictate 3.01 P Sprach- Erkennung - leistungsfähiges Sprach-Erkennungs- System auf 1 CD-ROM; Sie diktieren, Ihr PC schreibt - nahezu fehlerfreie Sprach-Erkennung, 95% sind erreichbar. Menüsteuerung ohne Tastatur und Maus Spracherkennungssoftware

Raum- mikrophon GSM Handy Nahbe- sprechungs- mikrophon > 20 CDs > 8 GB transliterierte Spontansprache > Dialoge> Turns>7.000 Lemmata ISDN Telephon Datensammlung mit verschiedenen Eingabegeräten

hatsuka no gogo wa ii desu Am Zwanzigsten, am Nachmittag wäre in Ordnung Sprecherunabhängige, robuste Spracherkennung über analoge Telefone, ISDN und GSM Mobil- telefone. Japanisch Deutsch Verbmobil: Übersetzung von spontan-sprachlichen Dialogen

Transkribierte Sprachdaten Baumbänke & Prädikat- Argument Strukturen Mit Dialog- Akten annotierte Dialoge Segmentierte Sprache mit prosodischer Etikettierung Alignierte bilinguale Korpora Hidden Markov Modelle Neuronale Netze, Multilayered Perceptrons Probabi- listische Grammatiken Probabi- listische Transfer- regeln Maschinelle Lernverfahren zur Integration von statistischen Eigenschaften in symbolische Modelle zur Spracherkennung, Parsing, Dialogverarbeitung und Übersetzung No data is better than more data ! Probabi- listische Automaten Korpus-basiertes Lernen statistischer Spracheigenschaften

Verbmobil Diktier- systeme Sprach- bedienung Klassifikations- systeme Telefonische Dialogsysteme Übersetzungs- systeme Sprach- synthese Verbmobil hat bislang zu mehr als 10 unterschiedlichen Spin-Offs beigetragen

Das neuartige Verfahren zur semantischen Verarbeitung von Analysefragmenten stellt einen Durchbruch in Richtung Robustheit dar Mir wäre es am liebsten den nächsten zwei Wochen Wir treffen uns Kaiserslautern Regelbasierte Kombination als Temporale Modifikation mit unterspezifizierter temporaler Relationen Das Funktionswort in wurde "verschluckt" Integrierte Verarbeitung und HPSG-Parser liefern nur partielle VITs Regelbasierte Kombination als Lokale Modifikation mit unterspezifizierten räumlichen Relationen Methode:1 Speicherung von partiellen Analysen in einer Chart 2 Kombination auf der Basis heuristischer Regeln (Syntax, Semantik, Weltwissen) 3Auswahl der besten Sequenz aus der Chart unter Verwendung von Unterspezifikationen

Ein Methodenbündel zur Steigerung der Robustheit von Dialogsystemen auf allen Verarbeitungsebenen ist zentrales Ergebnis von Verbmobil II Die mangelnde Robustheit ist die größte Hürde für eine noch breitere Anwendung der Sprachtechnologie Steigerung der Robustheit auf verschiedenen Verarbeitungsebenen von Verbmobil II: Akustische Robustheit (Geräuschkompensation, Kanaladaption) Robuste Spracherkennung (Spontansprache, Sprecherunabhängigkeit) Robuste Syntaxverarbeitung (Spontansprache, Erkennungsfehler) Robuste Semantikverarbeitung (Spontansprache, Erkennungsfehler) Problem: Auch bei hoher Worterkennungsrate enthält der Worthypothesen- graph nur selten exakt die gesprochene Wortfolge (z.B. wird eine kurze Präposition wie "in" verschluckt) Lösung:Wissensbasierte Kombinaton von Teilergebnissen auf der semantischen Ebene

System Eingabe- kanäle Ausgabe- kanäle Speicherung Festplatte CD-ROM Visuell Taktil Akustisch Haptisch MEDIUM (Physikalischer Informationsträger) MODALITÄT (Menschliche Sinne) SpracheGraphikGestik Benutzer CODE (Symbolsysteme) Mimik Code, Medium und Modalität

Semantische Repräsentations- sprache Semantische Repräsentations- sprache Bild- beschreibungs- sprache Bild- beschreibungs- sprache Gesten- beschreibungs- sprache Gesten- beschreibungs- sprache Ontologien Wissensrepräsentations- sprache Inferenzkomponente Wissensrepräsentations- sprache Inferenzkomponente DBMS/ KBMS/ WWW DBMS/ KBMS/ WWW Graphisches Bildverstehen Graphik- generierung Generation Gesten- analyse Gesten- generierung Parsing Bilder/ Graphiken Bilder/ Graphiken Gesten Modalitätsspezifische Repräsentationssprachen als Zwischenstufe zur Medienfusion Sprachliche Äußerungen

Benutzer Media Analysis Design Medienfusion Ausgabe- realisierung Repräsentation und Inferenz Benutzer- modell Diskurs- modell Domänen- modell Aufgaben- modell Medien- modell Multimodale Interaktion Modalitäts- spezifische Analysatoren Eingabe- vorverarbeitung Information, Anwendungen, Kommunikations- partner Kontext- abhängige Aktionsplanung Multimodales Medien- design Anwendungsschnittstelle mit Anwendungsmodell Diskurs- modellierung Benutzer- modellierung Präsentations- design Sprache Graphik Gestik/ Mimik Biometrie Sprache Graphik Gestik Intentions- erkennung Animierter Präsentations -agent Grobarchitektur von SmartKom

Smartcard, Kreditkarte zur Authentifizierung und Abrechnung Docking-Station für PDA/Notebook, Camcorder Schnelle Internet- Verbindung mit großer Bandbreite Hochauflösender Scanner Lautsprecher Raummikrophon Face-tracking Kamera Virtual Touchscreen (Vandalismussicher) Multiparty Videokonferenz SmartKom-Public: Multimodale Kommunikationszelle

Zugang über Multimedia PC Zugang über Mobiltelefon mit LCD Display Zugang über mobilen Klein- Computer (PDA, Palm) Graphik Audio Text Informationsdienste und Telekooperation mit heterogenen Endgeräten

MOBILE Kamera GPS Mikrophon Lautsprecher Stifteingabe Tragbarer Compute Server Docking-Station für Car PC Biosensor zur Authentifizierung & Emotionserkennung GSM für Telefon, Fax, Internet- Verbindungen SmartKom-Mobil: Mobiler Kommunikationsassistent

Deep Map: Multimodaler mobiler Touristenführer für Heidelberg (EML, Dr. Malaka) Kooperation u.a.: EML - DFKI - ISL Mobile Dialogführung Lokationsadaptive Interpretation von Benutzeranfragen

Multimodale Wegbeschreibung (Text- und Graphikgenerierung) Mobile Sprachübersetzung Deep Map: Multimodaler mobiler Touristenführer für Heidelberg (EML, Dr. Malaka) Kooperation u.a.: EML - DFKI - ISL

Sprachgesteuerte 3D-Visualisierung Multimodale Präsentationsplanung (Text, Graphik, Bilder) Deep Map: Multimodaler mobiler Touristenführer für Heidelberg (EML, Dr. Malaka) Kooperation u.a.: EML - DFKI - ISL

Mit Maier, am 25. Oktober, mit Tetzlaff und auch mit Streit. Doch nicht mit Streit und zwar von 2 Uhr bis 3 Uhr. Okay! Sprach- und gestikbasierte Interaktion mit einem Kalenderprogramm auf einem WAP-Handy

Am sechzehnten von zwei bis vier. KONTEXTANALYSE - BEISPIEL: Den Monat aus dem visuellen Kontext übernehmen

Mikrophon für Spracheingabe Virtual Touchscreen Gestenerkennung SmartKom-Home/Office: Vielseitige, agentenbasierte Schnittstelle

Erste Generation Zweite GenerationDritte Generation Statische Web-Seiten Papierersatz in HTML Interaktive Web-Seiten JavaScripts und Applets Datenbank-Zugriff und Template-basierte Generierung Dynamische Web-Seiten Virtuelle Web-Seiten Netbots, Informationsextraktion, Presentationsplaner Adaptive Web-Seiten Benutzermodellierung, Maschinelles Lernen, Online Layout Drei Generationen von Web-Seiten

Netbot PAN Netbot PAN Reisedatum Zielort Bilder und Graphiken Textteile Koordinaten für Zeigegesten Zu sprechende Erläuterungen Ikonen für Hyperlinks Suchagent Hotels Suchagent Hotels Suchagent Karten Suchagent Karten Adresse Suchagent Wetter Suchagent Wetter Suchagent Bahn- u. Flug- verbindungen Suchagent Bahn- u. Flug- verbindungen Suchagent Groß- ereignisse Suchagent Groß- ereignisse Virtuelle Web-Präsentation Constraint- basiertes Online- Layout Prä- sentations- Planer Persona- Server Komponenten der virtuellen Web-Seiten AiA Generierung virtueller Web-Seiten mit PAN und AiA

Die Persona-Technologie des DFKI zur Erzeugung virtueller Informationsagenten

Zwei visuelle Instanzen der Persona mit unterschiedlichen Zeige- und Ruhegesten

Persona Server Aktionstypen Präsentationsgesten Reaktives Verhalten Leerlaufaktionen Navigationsaktionen Akustische Merkmale Geräuscheffekte, akustische Ikonen Männliche und weibliche Stimme Alternative visuelle Realisierungen Zeichentrick- figuren Animierte 3D-Modelle Video Bildfolgen Der Persona Server kann an verschiedene Anwendungssituationen angepaßt werden

Virtuelle Informationsagenten als Java-Applets zur Erzeugung von Life-Like Characters

Bidirektionale Kommunikation zwischen Medienobjekten in HTML und der Persona

Argumentative Verkaufsdialoge

Präsentationsteams im argumentativen Verkaufsdialog

Kollaboratives Browsing bei WebTV- Anwendungen

Natürlichsprachliche Programmierung intelligenter Haustechnik Wenn ich nach Uhr in die Garage fahre, schalte das Licht im Keller an und öffne die Tür zwischen Garage und Keller. Lösche das Licht in der Garage, sobald ich im Keller bin.

Gibt es im Moment eine Übertragung des Spiels HSV gegen Bayern? Das wird gerade im Zweiten im Aktuellen Sportstudio gezeigt. Soll ich umschalten? Sprachgesteuerte Inhaltssuche in laufenden Fernsehprogrammen

Ich möchte nochmal sehen, was beim Erdbeben in Taiwan passiert ist Es gab in Spiegel TV letzte Woche eine gute Zusammen- fassung. Soll ich sie zeigen? Sprachgesteuerte Inhaltssuche in Fernseharchiven

Global operierende IT-Unternehmen verstärken die Sprachtechnologie-Entwicklung Aufbau neuer LaboreAusbau der Aktivitäten Transfer ehemaliger VM-Mitarbeiter in Industrie-Gruppen Beginnende Personalknappheit im Bereich Sprachtechnologie Deutschland wird derzeit zum führenden europäischen Standort für Sprachtechnologie

Informations- präsentation Informations- gewinnung Informations- austausch Gesprochene Sprache Geschriebene Sprache Diktiersysteme Text-to-Speech- Systeme Textgeneratoren Autorensysteme Rechtschreib-, Stil-, Grammatik- prüfer translation memory Maschinelle Qualitätsüber- setzung automatische Abhörsysteme MM -Information Retrieval Abstract- Generierung Information Retrieval Dokumentfilter Inhaltsextraktion Text-Mining Maschinelle Rohübersetzung IVR-Systeme Sprachdialog- systeme Dolmetschsysteme Concept-to- Speech-Systeme Protokolliersysteme Elektronische Sprachführer Natürlichsprach- liche Systeme Maschinelle Über- setzung von Chat Quelle: U. Block, Siemens; W. Wahlster, DFKI Einsatzmöglichkeiten der Sprachtechnologie