Interprice Technologies

Slides:



Advertisements
Ähnliche Präsentationen
Be.as WEB Technologie
Advertisements

Einfluss von Web Services Technologien auf organisatorische Strukturen Referent: Sergej Groß
Programmieren im Großen von Markus Schmidt und Benno Kröger.
Von David Keß, Heinrich Wölk, Daniel Hauck
Agenda Visio 2003 – ein Tool stellt sich vor
:35 Architektur Moderner Internet Applikationen – Sonderthema 1 Copyright ©2003 Christian Donner. Alle Rechte vorbehalten. Architektur Moderner.
Datenbankzugriff im WWW (Kommerzielle Systeme)
Avatare in Business und Marketing
Name des Vortragenden Klasse Ort / tt.mm.jjjj Beschreibung Zentraleinheit CPU, Motherbord, RAM.
Wissensmanagement mit semantischen Netzen – Analyse und Vergleich verschiedener Softwarelösungen Autor: Holger Wilhelm Referentin: Prof. Dr. Uta Störl.
Passwörter.
Microsoft Windows 2000 Terminal Services
Beispiel: Wasserfallmodell als einfaches Phasenmodell
Java: Objektorientierte Programmierung
XINDICE The Apache XML Project Name: Jacqueline Langhorst
MyCoRe My Content Repository. Entstehung Seinen Ursprung hat MyCoRe in der MILESS- Software der Universität Essen (Dokumentenserversoftware). Benutzer.
Von Indonesien nach Deutschland
FS_Geschwindigkeitsmessung
Einführung XML XML Einführung Andreas Leicht.
VoicePortale Medienpraxis II: EDV Tobias Göbel Bernhard Schröder.
eXtreme Programming (XP)
Introducing the .NET Framework
Installationsanleitung 1.02 Hausverwaltung.
Hashverfahren und digitale Signaturen
Einführung in die Sportwissenschaft Wissenschaft und Praxis
Ende Christian SeitzJochen Braun. Ende Der CMOS Standard Chip.
Vorlagen und Beispiele
Business Solutions for Microsoft CRM
Bewertung von Cloud-Anbietern aus Sicht eines Start-ups
Foreign Language Acquisition with the Instinct of a Child = Fremdspracherwerb mit dem Instinkt eines Kindes FLIC = Foreign Language Acquisition with the.
Name des Vortragenden Klasse Ort / tt.mm.jjjj Beschreibung Zentraleinheit CPU, Motherbord, RAM.
Meru Networks Virtualisiertes Wireless Lan
Multimodale Interfaces
Seminar XML-Technologien: VoiceXML/SMIL 1 Was ist SMIL ? Synchronized Multimedia Integration Language Ausprache wie das englische Wort smile {smaIl} August.
RFS CONSULTING | ALTERNATIVE VERTRIEBSWEGE
Tobias Kluge: FAME Middleware / Karlsruhe / The FAME project – Middleware.
Grundlagen des E-Business
Entwicklung des sprachgesteuerten Schachcomputers Speech2Chess
Computational Thinking Online Algorithmen [Was ist es wert, die Zukunft zu kennen?] Kurt Mehlhorn Konstantinos Panagiotou.
Theorien, Methoden, Modelle und Praxis
Universität zu Köln Historisch-Kulturwissenschaftliche Informationsverarbeitung Softwaretechnologie II (Teil I): Simulation und 3D Programmierung Prof.
HTML-Editoren Eine Präsentation von Erik Kulisch.
Information und Kommunikation Hartmut Klauck Universität Frankfurt SS
Schnupper - Kurs in unser Seminarwesen.
Ergebnisse und Wirkungen der Politik: Ein Überblick
ClickShare Wir stellen vor: das Ein Klick Wunder.
Auf dem Markt.
Context-awareness Andreas Bossard, Matthias Hert.
Warum gibt es Netzwerke?
19/05/00Science Week Austria 2000 © ftw speech & more Existierende und zukünftige Sprachdialogsysteme.
Rationelles Teil Emotionelles Teil Rationelles Teil Emotionelles Teil Distanz/Abstand Echter Kontakt, Kundenbindung, langfristige Kundenbetreuung.
PM – GT
Version X des Programms: Datenaustausch-Probleme % ( ) (WIRBEL-BASISTEIL GR. 52) N1G29X150Y85I150J25 N2G0X150Y25 Version Y des Programms:
Automatisierte Worterkennung (Autocorrect) Automatisierung in der Medientechnik, Labor, KulturMediaTechnologie Lucia Winsauer SS14.
integration beim Drucken
Maximale Sicherheit für PC-Systeme.
GIS Design: A Hermeneutic View (Michael D. Gould)
Evaluation des sprachgesteuerten Assistenten Jasper
xRM1 Pilot Implementierung
Grundlagen, Prinzipien und Aufgaben eines Betriebssystems
Analyse der Laufzeit von Algorithmen
Dokumente meistern Dokumente anlegen Dokumente speichern
Grundlagen, Prinzipien und Aufgaben eines Betriebssystems
Wissensmanagement SGMI Seminar 11. Mai – 12. Mai 2007
Betriebssysteme: Windows-OS
Inhalt Einordnung und Funktion der lexikalische Analyse Grundlagen
Design und Optimierung optischer Systeme durch Neuronale Netze und Genetische Algorithmen.
Gerrit Schulte-Einhaus/ Andreas Preutenborbeck/
Spärliche Kodierung von Videos natürlicher Szenen Vortragender: Christian Fischer.
Dialogsysteme mit VXML
 Präsentation transkript:

Interprice Technologies Sprachdialogsysteme für Telefondienste Gregor Erbach Interprice Technologies IVSW 2000, Köln 24.11.00

INHALT Automatische Spracherkennung Diktiersysteme und Dialogsysteme Grundlagen der Spracherkennung Dialogsysteme Dialogbeschreibungssprachen Sprachausgabe Sprechererkennung Dialogsystem für Postgebührenauskunft Ausblick

AUTOMATISCHE SPRACHERKENNUNG Forschungen seit den 50er Jahren Breiter Kommerzieller Einsatz erst seit einigen Jahren Grund: fallende Kosten für Prozessorleistung und Speicherplatz Spracherkenner können auf PCs als reine Software-Lösungen realisiert werden

DIKTIERSYSTEME UND DIALOGSYSTEME Sprecherabhängigkeit sprecherabhängig bzw. sprecheradaptiv (muss für jeden Sprecher neu trainiert werden) sprecherunabhängig Größe des Vokabulars bis 60.000 Wörter, die immer aktiv sind einige tausend Wörter, von denen immer nur eine Teilmenge aktiv ist Art der Eingabe unbeschränkt, auch komplexe Sätze sind möglich nur bestimmte Muster werden bei jedem Dialogschritt erkannt

GRUNDLAGEN DER SPRACHERKENNUNG Digitalisierung des Sprachsignals Signalanalyse: Verteilung der akustischen Energie über Frequenz und Zeit Vergleich mit gespeicherten Mustern (akustische Modelle) Auswahl der am besten passenden Muster durch sprachliches Wissen und Weltwissen

SIGNALANALYSE

SCHWIERIGKEITEN DER SPRACHERKENNUNG sprecherabhängig - sprecherunabhängig Variation der Sprecher (Alter, Dialekt, Gesundheit ...) kontinuierliche Sprache Vokabulargröße Spontansprache Umgebungsgeräusche gestörte Sprachübertragung

SCHWIERIGKEIT vs. VOKABULAR 10 100 1000 10000 100000 1M Telefon- anwendung Diktiersystem Schwierigkeit Geräte- steuerung Sprachwahl im Handy Vokabular

EVALUATION VON SPRACHDIALOGSYSTEMEN Maßeinheit Bedeutung Anwendung Wortfehlerrate (word error rate) Anteil der vom Benutzer gesprochenen Wörter, die vom System falsch erkannt werden Beurteilung der Leistungsfähigkeit des Spracherkenners Erfolgsrate (task success rate) Anteil der Transaktionen, die der Benutzer erfolgreich zu Ende führt Beurteilung der Benutzbarkeit von Dialogsystemen Produktivität Für die Durchführung einer Transaktion benötigte Zeit Beurteilung der Effizienz für den Benutzer Benutzer-zufriedenheit subjektives Maß für die Zufriedenheit mit einem Sprachdialogsystem Beurteilung des Gesamteindrucks

AUFBAU EINES DIALOGSYSTEMS Sprach-ausgabe Dialog- steuerung Anwendungs-system Datenbank Sprach- erkennung

DIALOGINITIATIVE Systeminitiative bei Systemen, die nur unregelmäßig benutzt werden Benutzerinitiative erfahrene Benutzer können ohne Aufforderungen des Systems Kommandos eingeben gemischte Initiative beispielsweise für Rückfragen des Benutzers oder Aktivierung einer Hilfefunktion Überbeantwortung von Fragen durch den Benutzer

BARGE-IN "Barge-In" ist die Unterbrechung der Ausgabe eines Dialogsystems durch eine neue Eingabe des Benutzers Vorteile: Möglichkeit der Unterbrechung langer Ausgaben (z.B. umfangreiche Fahrplanauskünfte, Vorlesen von e-mail) Zeitersparnis durch schnellere Beantwortung von Fragen Probleme: Unterbrechung der Systemsausgabe durch Störgeräusche und Störung des Dialogablaufs

VERIFIKATION Verifikation ist Bestätigung von Benutzereingaben Explizite Verifikation: Eingabe muss ausdrücklich bestätigt werden. Implizite Verifikation: Eingabe wird wiederholt und gilt als akzeptiert, wenn der Benutzer nicht widerspricht. Explizite Verifikation Implizite Verifikation System (S): Wollen Sie ein Paket oder eine Briefsendung schicken? Benutzer (B): ein Paket S: Sie wollen also ein Paket schicken? B: ja S: Wollen Sie ein Paket oder eine Briefsendung schicken B: ein Paket S: In welches Land wollen Sie das Paket schicken? B: nein, kein Paket sondern einen Brief

DIALOGBESCHREIBUNGSSPRACHEN Programmierung des Dialogablaufs ist ein kritischer Faktor bei der Entwicklung von Dialogsystemen Drei Ansätze für die Programmierung von Dialogsystemen: VoiceXML Bedingung-Aktion-Regeln SpeechObjects

VoiceXML Mit VoiceXML können Sprachdialogsysteme spezifiziert werden. VoiceXML ist eine XML-Applikation und wird durch eine DTD (Document Type Description) definiert. Dialogführung durch "slot-filling" (Form Interpretation Algorithm) Verarbeitung ist mit dem Ausfüllen von Formularen in HTML-Seiten vergleichbar. VoiceXML ist beim WWW Consortium als Standard eingereicht worden und wird von zahlreichen Firmen unterstützt.

VoiceXML: Beispiel <?xml version="1.0"?> <vxml version="1.0"> <form> <field name="drink"> <prompt>Would you like coffee, tea, milk, or nothing?</prompt> <grammar src="drink.gram" type="application/x-jsgf"/> </field> <block> <submit next="http://www.drink.example/drink2.asp"/> </block> </form> </vxml>

VoiceXML Beispieldialog S (System): Would you like coffee, tea, milk, or nothing? B (Benutzer): Orange juice. S: I did not understand what you said. S: Would you like coffee, tea, milk, or nothing? B: Tea S: (setzt den Dialog mit dem VoixeXML-Programm drink2.asp fort)

Bedingung-Aktion-Regeln in HDDL HDDL wird im Dialogsystem SpeechMania von Philips verwendet Eine HDDL-Regel besteht aus einem Bedingungsteil (COND) und einem Aktionsteil Slot-filling kann mit HDDL leicht realisiert werden Überbeantwortung kann gut behandelt werden

Beispiel: Bedingung-Aktion-Regel COND( art == "paket" && !^gewicht ) { QUESTION(gewicht) INIT "Geben Sie bitte das Gewicht des Pakets an"; }

SpeechObjects SpeechObjects sind wiederverwendbare Dialogmodule SpeechObjects erfüllen bestimmte Funktionen wie Abfrage von Datum und Uhrzeit oder Abfrage einer Kreditkartennummer Fehlerbehandlung und Verifikation ist in den SpeechObjects eingebaut Entwickler können eigene Bibliotheken von wiederverwendbaren SpeechObjects aufbauen

SPRACHAUSGABE Gesprochene vs. synthetisierte Ausgaben Gesprochene Ausgaben werden von Benutzern besser akzeptiert. Beim Zusammensetzen von Sprachaufnahmen auf fließende Übergänge achten. Bei großem oder häufig wechselndem Vokabular ist Sprachsynthese unvermeidlich. Evaluation von Sprachsynthese nach den Kriterien der Verständlichkeit und Natürlichkeit

SPRECHERERKENNUNG Sprecherverifikation: Identität eines Sprechers überprüfen Sprecheridentifikation: Erkennung eines Sprechers aus einer Anzahl möglicher Sprecher Evaluation anhand der Verhältniszahlen "falsche Akzeptanz" und "falsche Zurückweisung" Ein Maß kann auf Kosten des anderen verbessert werden Wird große Sicherheit gefordert, muss Sprecherer-kennung mit anderen Verfahren (Passwort, Chipkarte ...) kombiniert werden

DIALOGSYSTEM FÜR POSTGEBÜHREN Technische Basis Philips SpeechMania mit österreichischen akustischen Modellen Windows NT 4.0 Pentium III (Minimum: Pentium II, 300 MHz) 256 MB RAM (Minimum: 64 MB) ISDN-Karte Zusammenarbeit zwischen Forschungszentrum Tele-kommunikation Wien (ftw.) und Österreichische Post AG

KRITERIEN BEIM SYSTEMENTWURF Hauptsächlich Gelegenheitsnutzer Dialogführung durch das System Überbeantwortung ist möglich Kein Barge-In

ENTWICKLUNGSPROZESS Rapid Prototyping, Spezifikation der Anforderungen Definition des Dialogflusses Wizard-of-Oz Experiment Erstes System mit vollständiger Preisauskunft Interne Tests Optimierung der Funktionalität Tests mit externen Benutzern Weiterentwicklung des Systems Externe Tests

DIALOGBEISPIEL (Teil 1) S1 (System): Möchten Sie ein Paket oder eine Briefsendung verschicken? B2 (Benutzer): eine Briefsendung S3: Möchten Sie|den Brief|ins Inland oder ins Ausland verschicken? B4: ins Ausland S5: In welches Zielland wollen Sie|den Brief|schicken? B6: nach Italien S7: Soll der Brief|nach Italien|als Priority versendet werden? B8: nein danke bitte ich richtig (nein danke, das ist nicht nötig) S9: Bitte geben Sie das Gewicht des Briefes an

DIALOGBEISPIEL (Teil 1) B10: Niue Chile Sudan Bermuda zwanzig Gramm (na ich schätz so zwei hundert zwanzig Gramm) S11: nach Italien|sind folgende Sonderbehandlungen zulässig: Einschreiben, Eilsendung und Nachnahme. Wollen Sie eine dieser Sonderbehandlungen nutzen, wenn ja, welche? B12: nein richtig bitte kostet hier (nein das ist mir zu kompliziert) S13: Danke für Ihre Angaben S14: Ein Brief|nach Italien|20|Gramm schwer, der|priority|versendet wird, kostet|7|Schilling S15: Benötigen Sie eine weitere Auskunft? B16: nein danke

AUSBLICK Verbindung von Sprachdialog und Multimedia in 3G-Anwendungen (GPRS, UMTS) Kombination von Spracheingabe und Zeigen auf den Bildschirm Kombination von Sprachausgabe und animierter Graphik oder Video Anpassung an Benutzer und Kommunikationssituation Multimodale Dialoge für e-commerce (www.interprice.com)