Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

4. 10. 04: Voice 2004 1 G.-U. Tolkiehn, Tolkiehn & Partner Trends und aktuelle Entwicklungen von Sprachdialogsystemen Einführungsvortrag von Prof. Dr.

Ähnliche Präsentationen


Präsentation zum Thema: "4. 10. 04: Voice 2004 1 G.-U. Tolkiehn, Tolkiehn & Partner Trends und aktuelle Entwicklungen von Sprachdialogsystemen Einführungsvortrag von Prof. Dr."—  Präsentation transkript:

1 : Voice G.-U. Tolkiehn, Tolkiehn & Partner Trends und aktuelle Entwicklungen von Sprachdialogsystemen Einführungsvortrag von Prof. Dr. G.-U. Tolkiehn IIR-Konferenz Voice 2004 am in Frankfurt/M.

2 : Voice G.-U. Tolkiehn, Tolkiehn & Partner Inhalte des Vortrags: Stand der Technik, aktuelle Entwicklungen: Voice-Portale - mehr als nur Automatisierung zur Senkung der Kontaktkosten im Call Center: Ergänzung und/oder Alternative zu Web-Portalen Spracherkennung und –synthese: Perfektionierung, z. B. durch phonetische Transskriptionsverzeichnisse, Grammatiken, KI Konzentration bei den großen Basistechnologie-Anbietern: Wenig Hoffnung auf Preissenkungen Trends und Perspektiven: Wachstum: V-Commerce soll wesentlichen Anteil an e-Commerce erobern Neue Anwendungsgebiete: Gewinnspiele, -reading und Überweisungen - Sprachtechnologie kann viel mehr Immer wichtiger für innovative Lösungen: Software- und Systemhäuser Wie steht es mit plug-and-play-Lösungen für KMUs?

3 : Voice G.-U. Tolkiehn, Tolkiehn & Partner Stand der Technik: IVR, Voice-Portale Quelle: GartnerGroup The Implications of the 2001 CRM Hype Cycle vom

4 : Voice G.-U. Tolkiehn, Tolkiehn & Partner Kleine Systematik: Elemente von Sprachsystemen Sprachaufnehmende Systeme Sprache Sprachdaten (Mikrofon, ADC, Codec) Sprachübermittelnde Systeme (PBX, PSTN, ISDN, LAN, Internet) Sprachdaten Übertragung Sprachdaten Sprachspeicherung Sprachdaten Speichersystem/-medium Sprachdaten Sprachanalysierende Systeme Sprache Sprachdaten Text Daten Bedeutung (Spracherkennung (Worte), Sprachverständnis, Sprechererkennung, Sprecherverifikation) Geräusche Daten (DTMF-, Pausen-Erkenner, grunt-detection, AB-, Besetzt-Erkenner, noise-reduction) Sprache erzeugende Systeme Daten Text Sprachdaten Sprache (sprechende Systeme, TTS, Reading) Sprachausgabesysteme Sprachdaten Sprache (Codec, DAC, Lautsprecher)

5 : Voice G.-U. Tolkiehn, Tolkiehn & Partner Sprachaufnehmende und -ausgebende Systeme der Standard: Telefonqualität (digital: ITU G.711, 300 Hz –3,4 kHz) oder neuerdings: GSM-Qualität Endgerät knochenförmig, schnurgebunden oder schnurlos Zifferntastatur 0-9, *, #, plus mehr oder weniger verständliche Funktionstasten, meist kleines alphanumerisches Display, andere Bauformen sind möglich (Headset, Speakerphone, Soundkarte), jedoch bisher nur in Nischen verbreitet Umwandlung von Sprache in Sprachdaten und umgekehrt besondere Qualitäten: Höhere Bandbreiten, zusätzliches Video, Außenmikrophone...

6 : Voice G.-U. Tolkiehn, Tolkiehn & Partner Bereiche der Sprachqualität Quelle: Leitfaden VoIP, Swyx Communications AG, 2000 GSM Voice over Internet ISDN

7 : Voice G.-U. Tolkiehn, Tolkiehn & Partner Sprachspeicher, Verwendung in Systemen ADCDEEDÜEDEEDAC Netz DÜE Sprachspeicher Sprachspeicher speichern Sprachdaten. Es gibt sie analog, digital, mit VoIP, als Komponenten von: Voice-Logging-Systemen teilnehmerseitig (simplex/duplex, an Endgerät, PBX, LAN) Voice-Logging-Systemen im (öffentlichen) Netz Voice-Message-Systemen im (öffentlichen) Netz Voice-Message-Systemen auf der Teilnehmerseite Anrufbeantwortern (analog und digital, beim B-Teilnehmer) Benachrichtigungssystemen (outbound) Ansagesystemen, IVR-Systemen, auto-attendants, voice portals E/A-Elemente und UI E/A-Elemente und UI

8 : Voice G.-U. Tolkiehn, Tolkiehn & Partner Sprachanalysierende Systeme (ASR) Spracherkennung Diktiersysteme (Sprache Text, großer Wortschatz, i.d.R. sprecherabhängig, großer Ressourcenverbrauch, hohe Fehlerraten) Sprach-Bedienung von Dialog-Systemen heute i.w. wortweise: –Sprache Text Daten oder –Sprache Text einfache Grammatik Daten,einfache Grammatik meist sprecherunabhängig, mittlerer Wortschatz, ladbar, einstellbare Fehlerrate, wordspotting und barge-in, Ziel natural language understanding Sprach-Authentifizierung Sprecherverifikation (sicher in Größenordnung 1 aus einige 1000) Sprechererkennung (ebenfalls 1 aus einige 1000) Geräuschanalyse DTMF-Erkennung für Dialogsysteme mit Sprachausgabe Pausen-Erkenner zur Datenkompression grunt-detection, AB-Erkennung, Besetzt-Erkenner noise- und distortion-Analyse und -Reduktion

9 : Voice G.-U. Tolkiehn, Tolkiehn & Partner Spracherzeugende Systeme Umwandlung von Textdaten oder anderen nicht- Sprachdaten in Sprachdaten Anwendung: Reading (TTS, Vorlesen von gespeichertem Fließtext) Ansagen von generiertem Text (Zeit, Börsenkurse, Auskunft) Funktionen: ggf. Textgenerierung (Komponente von NL-Dialogsystemen, erfordert semantische und grammatische Synthese) Umwandlung von Text in Phonem-Fluss, heute mit Betonung und Tonhöhenverlauf (erfordert eine relativ einfache Grammatikevaluation) Umwandlung des Phonemflusses in Sprachdaten

10 : Voice G.-U. Tolkiehn, Tolkiehn & Partner Top-View: Was will der Betreiber? Kosten sparen durch Verlagerung von so viel Dialog wie möglich vom live agent in die Maschine. Die Schallmauer 1/Call durchbrechen V-Commerce: Mit Sprache neue Geschäftsmöglichkeiten schaffen – aber zu geringen Kosten. Webserver können viel, sind aber nicht immer das Optimum. Was will der User? In erster Linie, dass er das bekommt, was er haben will, dann, wenn er es haben will, ohne Risiken und zu bekannten und akzeptablen Kosten. Einfach, verfügbar, klar, verlässlich, preiswert, sicher.

11 : Voice G.-U. Tolkiehn, Tolkiehn & Partner Vergleich mit Webserver und Call Center Also: Call Center-Funktionalität zu Transaktionskosten von Webservern. In USA wurden vor Jahren Webserver (Shops und Helpdesks) mit der Dialogstruktur der bereits erprobten IVR-Systeme ausgestattet. Ein Fehlschlag. Wer heute versucht, Voice-Portale mit der Dialogstruktur von Web-Shops aufzubauen begibt sich ebenfalls in Gefahr. Die Dialogstruktur von IVR-Systemen tut es natürlich auch nicht mehr Ist das alles? Gute Dialoge aus den Call Center Erfahrungen ableiten und gute Technik einsetzen? Sollte doch gehen. Oder?

12 : Voice G.-U. Tolkiehn, Tolkiehn & Partner Gefahrenpotentiale Lehrsatz: Automatisierung senkt Kosten zu Risiken und Nebenwirkungen fragen Sie Ihren Vertriebsleiter oder Unternehmensberater Negativ-Beispiel: Geldautomaten der Banken Kommunikation mit Menschen ist eine komplexe Angelegenheit. Sachebene - Beziehungsebene Was kommuniziert Ihr Voice-Portal eigentlich auf der Beziehungsebene? a ba Selbst für eine relativ einfache Kommunikation auf der Sachebene benötigen wir aber bereits

13 : Voice G.-U. Tolkiehn, Tolkiehn & Partner Komplexe integrierte Systeme Quelle: Philips (www.speech.philips.com) Grammatik- Analyse

14 : Voice G.-U. Tolkiehn, Tolkiehn & Partner Komplexe integrierte Systeme Alte Technik: IVR-Systeme (Interactive Voice Response oder VRU), auto attendant, UM: Meist nur DTMF-Erkennung und Konservenausgabe, Sprachspeicher, spezielle einfache Transaktionen Neue Technik: Voice-portals, integrativer Ansatz ASR: Word-spotting, barge-in, Grammatik, Sprachmodelle? Welcher Erkenner? Gutes Wörterbuch mit effizienter Erweiterungsfunktion? Welche Sprachen? Wieviel simultane Kanäle? Sprachausgabe aus Konserven? TTS? DTS? Welche Lösung? Guter Dialoggenerator? Auswertungen und Änderungen der Dialoge während der Laufzeit einfach durch Anwender möglich? Interoperabilität mit TK-Anlage? ISDN? VoIP? CTI (z.B. Vermittlung, Bedienung VM-System, -Abruf)? Datenschnittstelle für Transaktionssysteme und Webserver Brauchbare Voice-Message-Funktionen, auch ACD-fähig? Contact Center und CRM-Integration?

15 : Voice G.-U. Tolkiehn, Tolkiehn & Partner IVR-Technik in deutschen Contact Centern 2002 Quelle: Marktstudie PartnerConsulting & TFH Wildau Juni, 2003 Summe: 47%

16 : Voice G.-U. Tolkiehn, Tolkiehn & Partner Investitionsabsichten in Contact Centern ,6% der befragten Unternehmen planten in 2002 bis 2004 in IVR-Technologie investieren 5,9% der befragten Unternehmen planten in 2002 bis 2004 in Voice-Logging-Systemen zu investieren Keiner der Teilnehmer wollte in Voic Systeme investieren Die Studie wird ab Oktober erneut durchgeführt. Wir werden dann auch explizit nach Voice-Portalen fragen

17 : Voice G.-U. Tolkiehn, Tolkiehn & Partner Voice-Portal-taugliche Bereiche identifizieren! Quelle: White Paper von Concerto Software

18 : Voice G.-U. Tolkiehn, Tolkiehn & Partner Was können wir demnächst erwarten? Trotz aller Schwierigkeiten: V-Commerce erhält durch Automatisation zweite Luft als wesentliche Komponente von e-commerce. Einige Einzelbelege: steigende Anzahl von Webseiten zu v-commerce ( in Google allein auf deutsch 410 Treffer!) Nuance hat seinen Webauftritt in umbenannt, nicht zu verwechseln mit Gegenwärtiges Voice Event Revival ca. 5 Jahre nach dem Absterben vieler alter Voice Events Aber es dauert! Wer hat schon mal in einem vollautomatisierten v- shop eingekauft? Wo bleiben v-government und v-administration?

19 : Voice G.-U. Tolkiehn, Tolkiehn & Partner Was können wir demnächst erwarten? Weitere Perfektionierung der Basis-Technologie, auch neue kleine Anbieter beachten! Weiterentwicklung der SW-Komponenten (Grammatik, KI, Dialoggeneratoren etc.) Neue Hardware (Hochleistungsfähige, preiswerte CAPI und VoIP-Komponenten) SW- und Systemhäuser spezialisieren sich auf Voice- Portal-Lösungen und Anwendungsintegration Weitere Verbesserung der Flexibilität und Handhabbarkeit der Lösungen durch den Anwender Kleine Ready-to-Run-Lösungen out-of-the-box Preissenkungen für SW leider eher nicht

20 : Voice G.-U. Tolkiehn, Tolkiehn & Partner Gartner Hype Cycle 2003 Trough of Disillusionment Slope of Enlightenment Plateau of Productivity Maturity Technology Trigger Peak of Inflated Expectations Visibility Key: Time to Plateau Less than two years Two to five years Five to 10 years Beyond 10 years Wireless LANs/ Text-to- Speech VPN Grid Computing Biometrics WAP/ Wireless Web Location Sensing P2P Web Services PDA Phones Speech Recognition on Desktop Personal Fuel Cells Identity Services E-Tags Natural Language Search Nanocomputing VoIP Bluetooth Speech Recognition in Call Center PKI E-Payments

21 : Voice G.-U. Tolkiehn, Tolkiehn & Partner Fazit: Es wird sich noch einiges tun in den nächsten fünf Jahren sind für Voice-Portale also noch erhebliche technische Weiterentwicklungen die Erprobung neuer Einsatzgebiete und erhebliche Zunahme der Marktdurchdringung zu erwarten Wir bleiben dran. Tun Sie es auch!

22 : Voice G.-U. Tolkiehn, Tolkiehn & Partner Vielen Dank für Ihre Aufmerksamkeit! Fragen und Anmerkungen bitte! Datenversion anfordern von:

23 : Voice G.-U. Tolkiehn, Tolkiehn & Partner Einfaches Beispiel für eine Grammatik Quelle: Philips (www.speech.philips.com


Herunterladen ppt "4. 10. 04: Voice 2004 1 G.-U. Tolkiehn, Tolkiehn & Partner Trends und aktuelle Entwicklungen von Sprachdialogsystemen Einführungsvortrag von Prof. Dr."

Ähnliche Präsentationen


Google-Anzeigen