VoicePortale Medienpraxis II: EDV Tobias Göbel Bernhard Schröder
2 Einführung Speech/Dialog/Voice Applications Sprachdialogsysteme Sprachanwendungen Natürlichsprachliche Auskunftssysteme Voice-Portale..
3 Dialogsysteme in der Praxis Einfache gesprochensprachliche Frage- Antwort-Systeme I.d.R. keine (tiefen-)linguistische Verarbeitung Keine Diskursanalyse Form-Filling oder Menüstrukturen Anwendungen: Informationsportale Auskunftssysteme Telefonbanking Entertainment...
4 Die Komponenten eines Dialogsystems Sprachsynthese (Text-to-Speech, TTS ) Automatische Konvertierung von orthographischem Text in gesprochene Sprache (= Soundfiles) Alternativ: voraufgenommene Sprache verwenden Spracherkennung (Automatic Speech Recognition, ASR ) Automatische Konvertierung gesprochener Sprache in (orthographischen) Text mit Hilfe von Grammatiken [ DTMF -Erkennung, Tonwahl]
5 Voice Browser Parst und interpretiert die Dialogbeschreibungssprache (hier: VoiceXML) Arbeitet die Dialoge prozedural ab, steuert Synthese und Erkennung
6 Beispielanwendungen Auskunftssystem Entertainment Informationsportal Klingeltöne talking t-zones
7 Erstellung einer Sprachanwendung 1. Erstellung eines Konzepts – Was soll die Anwendung leisten – Wer soll die Applikation anrufen? (Benutzerprofile) 2. Voice User Interface (VUI) Design – Dialog Flow erstellen – Personas definieren – Prompts ausformulieren 3. Technische Realisierung – Implementierung des Dialogs (VoiceXML, Grammatiken etc.) – Verfeinerung des Dialogflusses 4. Deployment 5. Evaluation, Anpassungen Life-cycle Management
8 VUI Design Verständliche, intuitiv nachvollziehbare Benutzerführung Klare Navigationshinweise (je nach Design der Anwendung) Wichtig: eindeutige Fragen stellen, die wenig Spielraum für allzu freie Antworten lassen Klingeltöne Beispiel: Klingeltöne –s. Soundfiles Abwechslung durch Random Prompting
9 VUI Design: Event Handling Event Handling : Abfangen bestimmter Ereignisse während des Dialogablaufs NoInput : Der Anrufer schweigt, obwohl das System auf Input wartet (oder: das System hat ihn nicht gehört) NoMatch : Der Anrufer sagt etwas, was nicht zur Situation/Frage passt ( was nicht von den aktiven Grammatiken gematcht werden kann) Help : Der Anrufer verlangt nach weiteren Navigationshinweisen Error : Laufzeitfehler (der Plattform) –Internetverbindung unterbrochen –Fehler in der Verarbeitung von Ressourcen zur Laufzeit (z.B. Syntaxfehler in Grammatiken) –...
10 VoiceXML Eine XML-basierte Sprache zur Beschreibung von natürlichsprachlichen Mensch-Maschine-Dialogen Basiert auf Entwicklungen von Motorola (VoxML), IBM (SpeechML), AT&T und Lucent Technologies Version 1.0 als W3C Note (05/2000) Seitdem in der Hand der W3C Voice Browser Working Group Version 2.0 als Candidate Recommendation (02/2003) Formulare und Menüs als grundlegende Dialogkonstrukte
11 Computer: Herzlich Willkommen. Welchen Film möchten Sie sehen? Anrufer: Herr der Ringe Computer: An welchem Tag möchten Sie Der Herr der Ringe sehen? Anrufer: Am Montag Computer: Wie viele Karten möchten Sie reservieren? Anrufer: Drei Computer: Ich reserviere für Sie drei Karten für Der Herr der Ringe am Montag. Ihre Reservierungsnummer lautet... Computer: Herzlich Willkommen bei der Kinokartenbestellung. Wie kann ich Ihnen helfen? Anrufer: Ich hätte gerne drei Karten für Herr der Ringe Computer: An welchem Tag möchten Sie Der Herr der R... Anrufer:Am Montag Computer: Ich reserviere für Sie drei Karten für Der Herr der Ringe am Montag. Ihre Reservierungsnummer lautet... Directed Dialog Mixed-Initiative Dialogvarianten
12 Vor- und Nachteile Directed Dialog: Dialoge sind klar und eindeutig Systemhinweise unmissverständlich Dialoge wirken starr, unflexibel Mixed-Initiative Dialog: Dialoge wirken natürlicher Dialoge können effizienter (=kürzer) werden Fehleranfällig
13 Aufbau einer VoiceXML-Anwendung Application Application Root Document Document Dialog Document Dialog Document Dialog
14 Menüs Bieten eine Auswahl an Optionen, aus denen der Benutzer eine wählen kann Bitte wählen Sie: Lehrveranstaltungen Informationen zur Computerlinguistik Informationen zur Phonetik
15 Formulare Sammeln Benutzereingaben Form Items Input Items: – : Definition eines Formularfelds – : Sprachaufnahme einer Benutzereingabe – : Anrufweiterleitung zu einer anderen Nummer – : Ausführung eines Subdialogs (Function Call) Control Items: – : enthält ausführbaren Code – : dient als Startpunkt für Mixed-Initiative-Dialoge
16 Formulare Die Felder eines Formulars entsprechen Variablen, die gefüllt werden sollen Diese Variablen können verarbeitet werden:
17 Formular - Beispiel Herzlich Willkommen! Für welche Stadt wünschen Sie eine Wetterauskunft? [berlin bonn frankfurt hamburg stuttgart].
18. Für wann wünschen Sie die Vorhersage für ? [heute morgen übermorgen] Sagen Sie heute, morgen oder übermorgen <submit next="weather.php" namelist="stadt zeit"/>
19 VoiceXML Tutorials W3C-Seiten Homepage der Voice Browser Working Group: Spezifikation VoiceXML: Tutorials/Referenzen
20 Form Interpretation Algorithm Beschreibt detailliert die Vorgehensweise von Voice Browsern bei der Abarbeitung eines Dialogs Vier Phasen: Initialization (Variablen, Zähler etc.) Selection (Auswahl des nächsten Dialogelements) Collection (Abspielen der Prompts, Aktivierung der Grammatiken, Sprach-/DTMF-Erkennung) Processing (Event Handling, Verarbeitung der Eingabe) Explizite Navigation durch,, und Loop
21 Grammatiken Dienen zur Eingrenzung möglicher Benutzereingaben Verbesserung der Spracherkennung Haben Gültigkeitsbereich (Scope) Es existieren verschiedene Formate Hauptmenü