Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

Gregor Erbach Interprice Technologies Sprachdialogsysteme für Telefondienste IVSW 2000, Köln 24.11.00.

Ähnliche Präsentationen


Präsentation zum Thema: "Gregor Erbach Interprice Technologies Sprachdialogsysteme für Telefondienste IVSW 2000, Köln 24.11.00."—  Präsentation transkript:

1 Gregor Erbach Interprice Technologies Sprachdialogsysteme für Telefondienste IVSW 2000, Köln

2 INHALT 1.Automatische Spracherkennung 2.Diktiersysteme und Dialogsysteme 3.Grundlagen der Spracherkennung 4.Dialogsysteme 5.Dialogbeschreibungssprachen 6.Sprachausgabe 7.Sprechererkennung 8.Dialogsystem für Postgebührenauskunft 9.Ausblick

3 AUTOMATISCHE SPRACHERKENNUNG Forschungen seit den 50er Jahren Breiter Kommerzieller Einsatz erst seit einigen Jahren Grund: fallende Kosten für Prozessorleistung und Speicherplatz Spracherkenner können auf PCs als reine Software- Lösungen realisiert werden

4 DIKTIERSYSTEME UND DIALOGSYSTEME DiktiersystemDialogsystem Sprecherabhängig keit sprecherabhängig bzw. sprecheradaptiv (muss für jeden Sprecher neu trainiert werden) sprecherunabhängig Größe des Vokabulars bis Wörter, die immer aktiv sind einige tausend Wörter, von denen immer nur eine Teilmenge aktiv ist Art der Eingabeunbeschränkt, auch komplexe Sätze sind möglich nur bestimmte Muster werden bei jedem Dialogschritt erkannt

5 GRUNDLAGEN DER SPRACHERKENNUNG Digitalisierung des Sprachsignals Signalanalyse: Verteilung der akustischen Energie über Frequenz und Zeit Vergleich mit gespeicherten Mustern (akustische Modelle) Auswahl der am besten passenden Muster durch sprachliches Wissen und Weltwissen

6 SIGNALANALYSE

7 SCHWIERIGKEITEN DER SPRACHERKENNUNG sprecherabhängig - sprecherunabhängig Variation der Sprecher (Alter, Dialekt, Gesundheit...) kontinuierliche Sprache Vokabulargröße Spontansprache Umgebungsgeräusche gestörte Sprachübertragung

8 SCHWIERIGKEIT vs. VOKABULAR M Telefon- anwendung Diktiersystem Schwierigkeit Geräte- steuerung Sprachwahl im Handy Vokabular

9 EVALUATION VON SPRACHDIALOGSYSTEMEN MaßeinheitBedeutungAnwendung Wortfehlerrate (word error rate) Anteil der vom Benutzer gesprochenen Wörter, die vom System falsch erkannt werden Beurteilung der Leistungsfähigkeit des Spracherkenners Erfolgsrate (task success rate) Anteil der Transaktionen, die der Benutzer erfolgreich zu Ende führt Beurteilung der Benutzbarkeit von Dialogsystemen ProduktivitätFür die Durchführung einer Transaktion benötigte Zeit Beurteilung der Effizienz für den Benutzer Benutzer- zufriedenheit subjektives Maß für die Zufriedenheit mit einem Sprachdialogsystem Beurteilung des Gesamteindrucks

10 AUFBAU EINES DIALOGSYSTEMS Sprach- ausgabe Dialog- steuerung Anwendungs- system Datenban k Sprach- erkennun g

11 DIALOGINITIATIVE 1.Systeminitiative bei Systemen, die nur unregelmäßig benutzt werden 2.Benutzerinitiative erfahrene Benutzer können ohne Aufforderungen des Systems Kommandos eingeben 3.gemischte Initiative beispielsweise für Rückfragen des Benutzers oder Aktivierung einer Hilfefunktion Überbeantwortung von Fragen durch den Benutzer

12 BARGE-IN "Barge-In" ist die Unterbrechung der Ausgabe eines Dialogsystems durch eine neue Eingabe des Benutzers Vorteile: –Möglichkeit der Unterbrechung langer Ausgaben (z.B. umfangreiche Fahrplanauskünfte, Vorlesen von e- mail) –Zeitersparnis durch schnellere Beantwortung von Fragen Probleme: –Unterbrechung der Systemsausgabe durch Störgeräusche und Störung des Dialogablaufs

13 VERIFIKATION Verifikation ist Bestätigung von Benutzereingaben Explizite Verifikation: Eingabe muss ausdrücklich bestätigt werden. Implizite Verifikation: Eingabe wird wiederholt und gilt als akzeptiert, wenn der Benutzer nicht widerspricht. Explizite VerifikationImplizite Verifikation System (S): Wollen Sie ein Paket oder eine Briefsendung schicken? Benutzer (B): ein Paket S: Sie wollen also ein Paket schicken? B: ja S: Wollen Sie ein Paket oder eine Briefsendung schicken B: ein Paket S: In welches Land wollen Sie das Paket schicken? B: nein, kein Paket sondern einen Brief

14 DIALOGBESCHREIBUNGSSPRACHEN Programmierung des Dialogablaufs ist ein kritischer Faktor bei der Entwicklung von Dialogsystemen Drei Ansätze für die Programmierung von Dialogsystemen: –VoiceXML –Bedingung-Aktion-Regeln –SpeechObjects

15 VoiceXML Mit VoiceXML können Sprachdialogsysteme spezifiziert werden. VoiceXML ist eine XML-Applikation und wird durch eine DTD (Document Type Description) definiert. Dialogführung durch "slot-filling" (Form Interpretation Algorithm) Verarbeitung ist mit dem Ausfüllen von Formularen in HTML-Seiten vergleichbar. VoiceXML ist beim WWW Consortium als Standard eingereicht worden und wird von zahlreichen Firmen unterstützt.

16 VoiceXML: Beispiel Would you like coffee, tea, milk, or nothing?

17 VoiceXML Beispieldialog S (System): Would you like coffee, tea, milk, or nothing? B (Benutzer): Orange juice. S: I did not understand what you said. S: Would you like coffee, tea, milk, or nothing? B: Tea S: (setzt den Dialog mit dem VoixeXML-Programm drink2.asp fort)

18 Bedingung-Aktion-Regeln in HDDL HDDL wird im Dialogsystem SpeechMania von Philips verwendet Eine HDDL-Regel besteht aus einem Bedingungsteil (COND) und einem Aktionsteil Slot-filling kann mit HDDL leicht realisiert werden Überbeantwortung kann gut behandelt werden

19 Beispiel: Bedingung-Aktion-Regel COND( art == "paket" && !^gewicht ) { QUESTION(gewicht) { INIT { "Geben Sie bitte das Gewicht des Pakets an"; }

20 SpeechObjects SpeechObjects sind wiederverwendbare Dialogmodule SpeechObjects erfüllen bestimmte Funktionen wie Abfrage von Datum und Uhrzeit oder Abfrage einer Kreditkartennummer Fehlerbehandlung und Verifikation ist in den SpeechObjects eingebaut Entwickler können eigene Bibliotheken von wiederverwendbaren SpeechObjects aufbauen

21 SPRACHAUSGABE Gesprochene vs. synthetisierte Ausgaben Gesprochene Ausgaben werden von Benutzern besser akzeptiert. Beim Zusammensetzen von Sprachaufnahmen auf fließende Übergänge achten. Bei großem oder häufig wechselndem Vokabular ist Sprachsynthese unvermeidlich. Evaluation von Sprachsynthese nach den Kriterien der Verständlichkeit und Natürlichkeit

22 SPRECHERERKENNUNG Sprecherverifikation: Identität eines Sprechers überprüfen Sprecheridentifikation: Erkennung eines Sprechers aus einer Anzahl möglicher Sprecher Evaluation anhand der Verhältniszahlen "falsche Akzeptanz" und "falsche Zurückweisung" Ein Maß kann auf Kosten des anderen verbessert werden Wird große Sicherheit gefordert, muss Sprecherer- kennung mit anderen Verfahren (Passwort, Chipkarte...) kombiniert werden

23 DIALOGSYSTEM FÜR POSTGEBÜHREN Technische Basis –Philips SpeechMania mit österreichischen akustischen Modellen –Windows NT 4.0 –Pentium III (Minimum: Pentium II, 300 MHz) –256 MB RAM (Minimum: 64 MB) –ISDN-Karte Zusammenarbeit zwischen Forschungszentrum Tele- kommunikation Wien (ftw.) und Österreichische Post AG

24 KRITERIEN BEIM SYSTEMENTWURF Hauptsächlich Gelegenheitsnutzer Dialogführung durch das System Überbeantwortung ist möglich Kein Barge-In

25 ENTWICKLUNGSPROZESS Rapid Prototyping, Spezifikation der Anforderungen Definition des Dialogflusses Wizard-of-Oz Experiment Erstes System mit vollständiger Preisauskunft Interne Tests Optimierung der Funktionalität Tests mit externen Benutzern Weiterentwicklung des Systems Interne Tests Externe Tests

26 DIALOGBEISPIEL (Teil 1) S1 (System): Möchten Sie ein Paket oder eine Briefsendung verschicken? B2 (Benutzer): eine Briefsendung S3: Möchten Sie|den Brief|ins Inland oder ins Ausland verschicken? B4: ins Ausland S5: In welches Zielland wollen Sie|den Brief|schicken? B6: nach Italien S7: Soll der Brief|nach Italien|als Priority versendet werden? B8: nein danke bitte ich richtig (nein danke, das ist nicht nötig) S9: Bitte geben Sie das Gewicht des Briefes an

27 DIALOGBEISPIEL (Teil 1) B10: Niue Chile Sudan Bermuda zwanzig Gramm (na ich schätz so zwei hundert zwanzig Gramm) S11: nach Italien|sind folgende Sonderbehandlungen zulässig: Einschreiben, Eilsendung und Nachnahme. Wollen Sie eine dieser Sonderbehandlungen nutzen, wenn ja, welche? B12: nein richtig bitte kostet hier (nein das ist mir zu kompliziert) S13: Danke für Ihre Angaben S14: Ein Brief|nach Italien|20|Gramm schwer, der|priority|versendet wird, kostet|7|Schilling S15: Benötigen Sie eine weitere Auskunft? B16: nein danke

28 AUSBLICK Verbindung von Sprachdialog und Multimedia in 3G- Anwendungen (GPRS, UMTS) Kombination von Spracheingabe und Zeigen auf den Bildschirm Kombination von Sprachausgabe und animierter Graphik oder Video Anpassung an Benutzer und Kommunikationssituation Multimodale Dialoge für e-commerce (www.interprice.com)


Herunterladen ppt "Gregor Erbach Interprice Technologies Sprachdialogsysteme für Telefondienste IVSW 2000, Köln 24.11.00."

Ähnliche Präsentationen


Google-Anzeigen