Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

Multimodale Interfaces - A

Ähnliche Präsentationen


Präsentation zum Thema: "Multimodale Interfaces - A"—  Präsentation transkript:

1 Multimodale Interfaces - A
10 Multimodale Interfaces - A Oviat, S. 291

2 Multim. Interf. – Architektur & Informationsfluss
10 Multim. Interf. – Architektur & Informationsfluss Oviat, S. 298

3 Natürliche Sprache mit Texteingabe
10.1 Natürliche Sprache mit Texteingabe Beispiele: Anfrage bei Hilfe Datenbankabfrage Suchanfragen Konfigurationsaufgaben Interaktive Bestell- und Transaktionsvorgänge

4 Wisber-Beispiel (1) WISBER: Guten Tag, hier ist WISBER
10.1 Wisber-Beispiel (1) WISBER: Guten Tag, hier ist WISBER (2) USER: Ich habe DM geerbt und möchte diesen Betrag anlegen. (3) WISBER: Welche Laufzeit soll die Anlage haben? (4) USER: Die Laufzeit der Anlage soll acht Jahre betragen. (5) WISBER: Besitzen Sie ein Sparbuch mit mehr als zwei Nettomonatseinkommen? (6) USER: Ich habe fünf Nettomonatseinkommen auf mehreren Sparbüchern. (7) WISBER: Möchten Sie während der Laufzeit auf den Betrag zurückgreifen können? (8) USER: Nein. (9) WISBER: Dann empfehle ich Ihnen Pfandbriefe. Sie haben eine Rendite von 7%. (10) USER: Gibt es Anlagen mit einer höheren Rendite als 7%? (11) WISBER: Nein Was ist Wisber?  Siri 1989: Sprachanalyse und Textgenerierung im natürlich-sprachlichen Beratungssystem WISBER (Wissensbasierter Beratungsdialog)

5 Komponenten im natürlich-sprachlichen Dialog
10.1 Komponenten im natürlich-sprachlichen Dialog Komplexe Anfrage oder Aufforderung wird geparst Grundformen werden abgeleitet Füllwörter werden eliminiert Mit Thesaurus wird abgeglichen (Einsetzen von Synonymen) Textdokumente identifizieren, die mit der Anfrage ein hohe Überlappung aufweisen  nach Relevanz ordnen z.B. für Juristische Datenbanken: „Finde alle Fälle mit Pächtern, die ihre Vermieter erfolglos wegen unzureichender Beheizung verklagt haben.“ Problem: Modell des Benutzers von der Treffgenauigkeit des Systems

6 Nutzungseinschränkungen bei natürlich-sprachlichen Schnittstellen
10.1 Nutzungseinschränkungen bei natürlich-sprachlichen Schnittstellen Habitability: Fähigkeit eines Benutzers, sich innerhalb der Einschränkungen eines Dialogsystems zurecht zu finden. Beispiel: What is the Salary of John Smith‘s Manager? Einschränkungsarten: Conceptual: Information ist nicht in der DB enthalten Functional: nicht in einem Schritt abfragbar, sondern „who is the manager of John smith?  J.B.  What is J.B.‘s Salary? Syntactical: Genetiv-Konstruktion mit „‘s“ wird nicht erkannt Lexical: „salary“ ist nicht bekannt aber „earnings“ Helander 282f

7 Nutzungsprobleme bei natürlicher Sprache
10.1 Nutzungsprobleme bei natürlicher Sprache Es muss mit Restriktionen umgegangen werden (funktionale sind am schwerwiegendsten, danach syntaktische; Eingeschränktes Vokabular fällt leicht) Benutzer bevorzugen syntaktische Ellipsen Unklare Formulierung formaler Probleme (Verknüpfungslogik, Quantoren) Natürliche Sprache kann ineffizient sein Es werden falsche Modelle der Sprachverarbeitung aufgebaut Das System muss Themenfokussierung durchführen Ambiguität ist aufzulösen Kontext und Weltwissen sind zu berücksichtigen

8 Nutzungsprobleme - Beispiele
10.1 Nutzungsprobleme - Beispiele  Es muss mit Restriktionen umgegangen werden (funktionale sind am schwerwiegendsten, danach syntaktische; Eingeschränktes Vokabular fällt leicht) Sys: Im Angebot sind Städtereisen nach Hamburg, Paris, Wien und Berlin Ben: Was ist der Preis von Hamburg Sys: Welche Wertpapiere möchten Sie? Ben1: Ich habe etwa DM Ben2: Ich kann DM anlegen Ben3: Ich möchte Pfandbriefe Ben: Ich hätte gerne eine Tasse Kaffee und ein Butterhörnchen oder ein Croissant Implizite Reihenfolgen: Ich brauche eine Zeitplanung für die Vorlesung und die Folienerstellung im kommenden Semester.

9 Feedback und mentale Modelle
10.1 Feedback und mentale Modelle Benutzer bilden sich Modelle über die Funktionsweise und die damit verbundenen Restriktionen nat-spr. Systeme: Geeignete Feedback-Meldungen kann die angemessene Modellbildung unterstützen, Nutzer imitieren die „Sprechweise“ des Systems: Knappe und prägnante Rückmeldungen werden leichter imitiert Fehlermeldungen sollen die richtige, vom Nutzer verstehbare Eingabe wiederholen  Feedback sollte das Vokabular nicht variieren. Helander 294f

10 Multimodal conversational System
10.1 Multimodal conversational System Karat et al., S.178

11 Speechrecognition – Anwendungsklassen und -kontext
10.2 Speechrecognition – Anwendungsklassen und -kontext Kommando-Eingabe „Dritter-Arm“ Informationseingabe, - abfrage Situation, in denen Keyboard und Mouse nicht benutzbar sind Telefonbasierte Interaktion Transkription Eppinger, S. 221 Karat et al., S. 170

12 Schritte der Einzelworterkennung
10.2 Schritte der Einzelworterkennung Ermittlung der Wortgrenze, Pausen müssen trotz Störung und Rauschen erkannt werden Vorverarbeitung und Normierung: Störgeräuschunterdrückung, Eliminierung der Sprecherspezifika, Eliminierung von Intensität und Dynamik Erstellung eines Referenzmusters  Clusterbildung Klassifikation – Zuordnung eines gesprochenen Wortes zu einem Cluster mit ausreichendem Abstand zu den anderen Clustern Berücksichtigung vorheriger Zuordnungen und Abstände sowie Adaption Berücksichtigung des Kontextes Eppinger, 230ff

13 Sprachsynthese – prosodische Elemente
10.2 Sprachsynthese – prosodische Elemente Betonung: Lautstärke, Dehnung, Grundfrequenz-änderung Lautstärke und Intensität, Lautstärkeverlauf über den Satz Sprachrhythmus und Variation der Dauer von Sprachlauten Variation der Grundfrequenz, Satzmelodie Eppinger, S. 293ff

14 Speech-Synthesis – 4 Stufen
10.2 Speech-Synthesis – 4 Stufen Verstehbare Ausgabe Simulation der Qualität menschlicher Sprecher Gesprochene Sprache klingt ähnlich wie die des Nutzers, dessen Botschaft gehört werden soll, und für den das System persönlich entwickel wird Gesprochene Sprache klingt ähnlich wie die des Nutzers, dessen Botschaft gehört werden soll, und das System stellt sich anhand von Sprachaufnahmen individuell auf verschiedene Benutzer ein.

15 Conversation: Speech Input angemessen
10.2 Conversation: Speech Input angemessen + - Kein Keyboard verfügbar Hände sind anderweitig beschäftigt Kommandos sollten direkt „ansprechbar“ sein Nutzer können oder wollen nicht tippen Physiologische Behinderung Nutzer muss parallel zur MCI mit anderen sprechen Laute Umgebung Maus und Tastatur sind effizienter Privacy ist wichtig Lai & Yankelovich, S.699

16 Speech Output angemessen
10.2 Speech Output angemessen + - Augen müssen etwas anderes beobachten Die Aufmerksamkeit des Nutzers muss gewonnen werden Sehbehinderungen Das Interface soll eine Persönlichkeit nachahmen Große Informationsmenge Daten müssen verglichen werden Komplex strukturierte Information Vertrauliche oder persönliche Information Lai &Yankelovich, S. 700

17 Speech-Conversation: Guidelines
10.2 Speech-Conversation: Guidelines Interaktion von Anfang an auf Speech planen, da man ein grafisch orientiertes Interface nicht zu Speech-Interaktion übersetzen kann Die Informationseinteilung muss bei Speech-Interaktion anders geplant werden, keine Tabellen etc. Begrenzte Gedächtnis-Kapazität berücksichtigen Die für den Nutzer möglichen Reaktionen sind nicht sichtbar – das muss kompensiert werden Das System sollte Feedback zum verstandenen Text geben Sprachausgabe: Aufgenommene Äußerungen verwenden, wenn alles Sagbare bekannt ist; Wiedergabe und Synthese nicht vermischen Lai & Yankelovich, S. 700ff

18 Speech-Conversation: mögliche Fehler
10.2 Speech-Conversation: mögliche Fehler Stimme ist deutlich anders als bei den gespeicherten Mustern (z.B. bei Kindern) Wörter sind nicht im Vokabular enthalten Sätze passen nicht zum Grammatikmodell des Systems Sprechen beginnt, bevor das System aufnahmebereit ist Wörter klingen zu ähnlich Zu lange Pausen Nutzer spricht nicht flüssig Akzent oder Heiserkeit Mikrophon ist nicht passend eingestellt Hintergrundgespräche oder ungewollte Artikulation (Lachen) Ein Gespräch mit anderen Personen kommt dazwischen Lai & Yankelovich, S. 702

19 Speech- Conversation: Fehler und Fehler-behebung
10.2 Speech- Conversation: Fehler und Fehler-behebung Rejection: Wort wird nicht erkannt, System sollte um Wiederholung bitten (wechselnde Paraphrasen der Aufforderung), Substitution: das gemeinte Wort wird durch ein anderes ersetzt  Paraphrasiert wiederholen Insertion: nicht Gesprochenes wird eingesetzt Hilfe: Alternativen anbieten Buchstabieren lassen (kann schwierig sein) Das Naheliegendste anbieten YES oder NO Fragen stellen Lai & Yankelovich, S. 707ff

20 Multimodale Fehlerkorrektur
10.2 Multimodale Fehlerkorrektur Bei multimodalen Korrekturmöglichkeiten schalten Benutzer auf alternative Korrekturmöglichkeiten um! Was ist das für eine Studie? Time? Suhm et al., S. 84


Herunterladen ppt "Multimodale Interfaces - A"

Ähnliche Präsentationen


Google-Anzeigen