Multimodale Interfaces Jonas Tappolet, Domenic Benz
Inhalt Basics Definition multimodal interface Verschiedene Typen Designprinzipien Beispiel MATCH
Kommunikation zwischen Mensch und Maschine Interface: Zweck Kommunikation zwischen Mensch und Maschine
Human-Machine-Interface (HMI) Anwendungsbereiche Mensch und Maschine lösen Aufgabe gemeinsam (Interaktion) Maschine löst Aufgabe selbständig, Mensch überwacht Mensch löst Aufgabe selbständig, Maschine überwacht (-> Assisted Living)
Human-Machine-Interface (HMI) Mensch Maschine Gedanken, Emotionen, interne Verarbeitung Interne Verarbeitung Information Information Daten Daten Sinnesorgane (Ohren, Augen, Nase...) Aktionen (Sprechen, Bewegung…) Sensoren (Kamera, Mikrofon…) Aktoren (Lautsprecher, Bildschirm…) Austausch physikalischer Signale
Warum neue Arten der Interaktion? Maus & Tastatur ist „Präferenz“ der Maschine, nicht intuitiv Verschiedene Situationen erfordern unterschiedliche Interaktionsmöglichkeiten Menschen mit Behinderungen brauchen ein Interface das mit den ihnen zur Verfügung stehenden Mittel bedienbar ist
Komponenten der natürlichen menschlichen Kommunikation Sprache (Grundkommunikation) Gestik (Verdeutlichen, Untermalen) Mimik (Emotionen) Blickrichtung (Emotion, Kontrolle) Lautstärke, Tonfall (Emotion) Lippenbewegung (Kontrolle) Gerüche (?, Emotion) Haptik (Berührungen, Emotionen)
Ziele eines HMI Das Interface muss entsprechend der Anwendung ausgelegt sein Möglichst intuitive Kommunikation des Menschen mit der Maschine Verwischen der Unterschiede zwischen Mensch-Mensch und Mensch-Maschine Kommunikation
Gestenerkennung Funktionsweise: Aufnahme von Gesten mithilfe einer Kamera und Erkennung der Geste mithilfe von Software Pro: Technologie vorhanden Fordert nicht volle Aufmerksamkeit des Anwenders Contra: Erkennungsgeste zum aktivieren des Systems Eingeschränkter Aktionsbereich
Video: Gestenerkennung Quelle: TU München, Lehrstuhl für Mensch-Maschine-Kommunikation, http://www.mmk.ei.tum.de/demo/carvis/carvis.avi
Spracherkennung Funktionsweise: Aufnahme von gesprochener Sprache und anschliessende Umwandlung in Steuerbefehle und Text. Pro: Keine spezielle Hardware nötig (Mikrofon) Natürlichste Form der menschlichen Kommunikation Contra: Umgebungsgeräusche / Andere Personen die Sprechen behindern die Spracherkennung stark
BCI: Brain-Computer-Interface Auswerten von elektrischer Hirnaktivität zur Erkennung von Befehlen die der Mensch „denkt“ Pro: Direktverbindung, kein Umweg über ein verlustbehaftetes Medium Keine Codierung vom Menschen, nur Decodierung von der Maschine. Contra: - Datenschutz - Lernbedarf seitens des Menschen?
Video: BBCI - Berlin Brain-Computer Interface Quelle: Fraunhofer Institut Rechnerarchitektur und Softwaretechnik (FIRST), http://www.youtube.com/watch?v=yhR076duc8M
Probleme von einzelnen Interfaces Jedes Interface hat spezifische Nachteile Das menschliche Gehirn hat mehr Leistungsfähigkeit als ein einzelner Kommunikationskanal Nicht für jeden Anwendungsbereich ist jedes Interface gleich gut geeignet
Multimodale Interfaces Definition: Multimodale Systeme verarbeiten zwei oder mehrere kombinierte Benutzereingabemethoden wie Sprache, Stift, Berührung (Touchscreen), Gesten, Blickrichtung oder Kopf- und Körperbewegung.
Vorteile Multimodaler Interfaces Verbesserte Erkennung (z.B. Sprache und Lippenbewegung) Schneller Intuitiv / Natürlich
Verschiedene Typen
Aktive Interfaces Benutzer will aktiv mit System kommunizieren. Benutzer gibt explizite Kommandos an das System. Klassische Interaktionsform Ablauf:
Passive Interfaces System soll Benutzer unterstützen, ohne dass er dies explizit anfordert. System „überwacht“ Benutzer durch verschiedene Sensoren und erkennt gewisse Muster. Das System reagiert somit auf den Benutzer und seine Umgebung. Mögliche Anwendung: Intelligente Räume Implementation: Lernfähigkeit verschiedene User widersprüchlicher Input Nach links sagen und gleichzeitig nach rechts zeigen… usw.
Passive Interfaces II Ablauf: Schwierig zu implementieren
Gemischte multimodale Interfaces Vereinen mind. Einen aktiven und einen passiven Input. Beispiel: Sprache und Lippenbewegung Ablauf:
Zeitlich abgestufte Interfaces Verarbeiten verschiedene Modalitäten, welche zeitlich aufeinander folgen. Beispiel: Blick – Gestik – Sprache Ablauf:
Prinzipien für das Design von MM Interfaces
Synchronisation MM Interface muss Mechanismen haben, welche garantieren, dass die verschiedenen Input-Streams korrekt miteinander verknüpft werden. Beispiel: Point and Talk. Wichtigste Dimension bei Sprachinput ist die Zeit. Bei visueller Interaktion: Raum.
Abschwächung/Anpassung I MM Interfaces müssen analog der zwischenmenschlichen Kommunikation abschwächbar sein. Beispiel: Telefongespräch. Wegfall aller visuellen Kommunikationsmittel. Bei multimodalen Systemen: z.B. Veränderung der Umgebung Abschwächung: bedeutet, dass die Kombination von verschiedenen Modalitäten beliebig variierbar sein muss. Weglassen einer Methode Ersetzen einer Methode Veränderung: z.B. zu laut für Sprachinput
Abschwächung/Anpassung II Zusätzliche (redundante) Modalitäten führen zu anpassungsfähigen Systemen. Vorsicht bei sich gegenseitig ergänzenden Modalitäten Sich verändernde Möglichkeiten beachten V.a. bei mobilen Systemen ist zu berücksichtigen, dass sich die dem User zur Verfügung stehenden Möglichkeiten sehr schnell ändern können. Redundante Modalitäten: Benutzer kann dieselben Befehle sowohl durch Sprache als auch durch Gestik oder per Maus/Tastatur erteilen. Sich ergänzende Modalitäten: Das System muss erkennen, welche Möglichkeiten der User aktuell hat und die Inputmöglichkeiten ggf. anpassen. Veränderung: Beispiel: Wechsel in laute Umgebung erschwert/verunmöglicht Sprachinput. Sich verändernde Bandbreite kann auch einen Einfluss auf die zu verwendenden Modalitäten haben.
Gemeinsamer Status für verschiedene Modalitäten Wenn verschiedene Modalitäten für das Ausführen einer Aktion eingesetzt werden, benötigen alle beteiligten Input-Streams einen gemeinsamen Interaktionsstatus. Wichtig z.B. bei: Wechsel der Modalität History Funktion Wenn verschiedene Modalitäten für das Ausführen einer Aktion eingesetzt werden, ist es wichtig, dass für alle beteiligten Input-Streams ein gemeinsamer Interaktionsstatus vorhanden ist. Modalitäten-Wechsel kann aus verschiedenen Gründen erfolgen. (Umgebungswechsel, Präferenzen) History Funktion kann wichtig sein, um die Dialoge auf den Benutzer anzupassen.
„Lost in space“ Problem Verwirrung durch zu grosse Funktionalität Problem besteht bereits bei herkömmlichen GUIs besteht das Problem. Verschärfung des Problems durch zusätzliche Modalitäten. Benutzer mit intelligenten, angepassten Dialogen führen. Bereits bei herkömmlichen GUIs besteht das Problem, dass überladene Interfaces den Benutzer verwirren. Er fühlt sich verloren und weiss nicht, was er als nächstes tun kann oder soll. Werden nun noch zwei oder sogar mehr Modalitäten eingesetzt, verschärft sich dieses Problem. Darum wird es umso wichtiger, den Benutzer mit intelligenten Dialogen zu führen.
Context Awareness MM Interfaces sollten sich der Umgebung des Users anpassen Bedürfnisse und Möglichkeiten des Benutzers Direkte Umgebung des Benutzers Bandbreite Direkte Umgebung: Beispiel Auto: Input ohne Hände und ohne Augen
Beispiel MATCH Multimodal Access To City Help (AT&T Labs 2001), Quelle: http://www.research.att.com/projects/MultimodalAccessToCityHelp/
Fragen?