Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

User-Centered Modeling for Spoken Language and Multimodal Interfaces (Benutzerorientierte Modelle für Sprach- und Multimodal-Schnittstellen) Vortrag: Ronald.

Ähnliche Präsentationen


Präsentation zum Thema: "User-Centered Modeling for Spoken Language and Multimodal Interfaces (Benutzerorientierte Modelle für Sprach- und Multimodal-Schnittstellen) Vortrag: Ronald."—  Präsentation transkript:

1 User-Centered Modeling for Spoken Language and Multimodal Interfaces (Benutzerorientierte Modelle für Sprach- und Multimodal-Schnittstellen) Vortrag: Ronald Bieber Proseminar Intelligente Benutzerschnittstellen Prof. Wahlster Universität des Saarlandes Wintersemester 1998 / 99

2 WS 1998/99, Proseminar Intelligente Benutzerschnittstellen Einführung „Durch Modellierung schwieriger Quellen linguistischer Variabilität in Dialogen und Sprache können wir Schnittstellen ent- wickeln, die menschliche Eingaben trans- parent lenken um sie den Verarbeitungs- fähigkeiten eines Systems anzupassen. Arbeit dieser Art wird robustere und stär- ker Benutzer-orientierte Schnittstellen für sprach- und multimodal-gesteuerte Sys- teme der nächsten Generation liefern.“

3 WS 1998/99, Proseminar Intelligente Benutzerschnittstellen User-Centered Modeling for Spoken Language and Multimodal Interfaces Sharon Oviatt Oregon Graduate Institute of Science & Technology Portland, Oregon, USA

4 WS 1998/99, Proseminar Intelligente Benutzerschnittstellen Forschungsgebiet Sprachtechnologie und Benutzerschnittstellen (Leider) verbreitete Ansicht: Der Be- nutzer muss sich an ein System an- passen(Leider) verbreitete Ansicht: Der Be- nutzer muss sich an ein System an- passen Anpassung nicht immer möglich oder praktikabel. Beispiel: künstliche Pausen beim Diktieren von TextAnpassung nicht immer möglich oder praktikabel. Beispiel: künstliche Pausen beim Diktieren von Text

5 WS 1998/99, Proseminar Intelligente Benutzerschnittstellen Neue Zielsetzung Modellierung der Benutzer- und Modus- zentrierten Sprache mit der ein System umgehen können muss.Modellierung der Benutzer- und Modus- zentrierten Sprache mit der ein System umgehen können muss. Entwurf von möglichen Schnittstellen, die sich von den existierenden Restriktionen absetzen.Entwurf von möglichen Schnittstellen, die sich von den existierenden Restriktionen absetzen.  Bessere Vermarktungschancen für derar- tig entwickelte Produkte.

6 WS 1998/99, Proseminar Intelligente Benutzerschnittstellen Den Benutzer beachten? Kommunikation wird durch das Medium (Sprache, Tastatur, Gestik, etc.) in vielen Punkten beeinflusst.Kommunikation wird durch das Medium (Sprache, Tastatur, Gestik, etc.) in vielen Punkten beeinflusst. Ein gutes System muss Besonderheiten des Mediums beachten. Dies ist mit einem “User-Centered Approach” gemeint.Ein gutes System muss Besonderheiten des Mediums beachten. Dies ist mit einem “User-Centered Approach” gemeint.

7 WS 1998/99, Proseminar Intelligente Benutzerschnittstellen Einige Besonderheiten bei gesprochener Sprache Alinearer Ablauf (Stottern, Selbstkorrektur)Alinearer Ablauf (Stottern, Selbstkorrektur) Bestätigungsanfragen und FeedbackBestätigungsanfragen und Feedback Prosodische und nicht-verbale Modulation der SpracheProsodische und nicht-verbale Modulation der Sprache Beeinflussung wechselseitiger Kommuni- kationBeeinflussung wechselseitiger Kommuni- kation

8 WS 1998/99, Proseminar Intelligente Benutzerschnittstellen Fehltraining gängiger Systeme Gängige Systeme werden meist basierend auf vorgelesenen Testtexten entwickelt und trainiert, dadurch geht oft der Dialog- charakter der Sprache verloren.

9 WS 1998/99, Proseminar Intelligente Benutzerschnittstellen Beispieldialog in multimodalem System Benutzer: Wo ist Twin Lakes? System: [Kartenauschnitt wird angezeigt, ein Punkt wird markiert] Benutzer: Füge eine Freifläche hinzu. System: Bitte geben Sie genauere Informationen. Benutzer: Füge eine Frei- fläche auf dem nördlich- en See ein um Äh... den nördlichen Seeteil der Straße und den Norden mit einzuschließen.

10 WS 1998/99, Proseminar Intelligente Benutzerschnittstellen Bestehende Forschungsergebnisse Forschung im Auftrag von Telefongesell- schaften hat gezeigt, dass es tatsächlich einen großen Bedarf an realistischen Tests gibt.Forschung im Auftrag von Telefongesell- schaften hat gezeigt, dass es tatsächlich einen großen Bedarf an realistischen Tests gibt. Systeme können allein durch die Art und Weise, in der Anfragen an den Benutzer gestellt werden, beeinflussen, in welcher Weise er antworten wird.Systeme können allein durch die Art und Weise, in der Anfragen an den Benutzer gestellt werden, beeinflussen, in welcher Weise er antworten wird.

11 WS 1998/99, Proseminar Intelligente Benutzerschnittstellen Bestehende Forschungsergebnisse Alleine durch Änderungen an Oberfläche und Präsentation machen Benutzer zwischen zwei- und achtmal so selten bestimmte Arten von Fehlern.Alleine durch Änderungen an Oberfläche und Präsentation machen Benutzer zwischen zwei- und achtmal so selten bestimmte Arten von Fehlern. Oft geht dies nicht einmal auf Kosten der Akzeptanz des Systems, manches wird sogar vom Benutzer als Verbesserung empfunden.Oft geht dies nicht einmal auf Kosten der Akzeptanz des Systems, manches wird sogar vom Benutzer als Verbesserung empfunden.

12 WS 1998/99, Proseminar Intelligente Benutzerschnittstellen Ziele der Studien: Quellen von Variabilität indentifizierenQuellen von Variabilität indentifizieren Modellierung dieser Variabilitäten unter Berücksichtigung des technisch MachbarenModellierung dieser Variabilitäten unter Berücksichtigung des technisch Machbaren Erforschung von Systemdesigns, die be- stimmte Quellen von Variabilität reduzierenErforschung von Systemdesigns, die be- stimmte Quellen von Variabilität reduzieren  Robustere Systeme basierend auf mög- lichst unveränderten Sprachmustern

13 WS 1998/99, Proseminar Intelligente Benutzerschnittstellen Die richtige Testumgebung Da es darum geht, Funktionen noch nicht fertig gestellter Systeme zu untersuchen, müssen eben diese Systeme simuliert werden, dies geschieht über sog. Wizard of Oz-Experimente.

14 WS 1998/99, Proseminar Intelligente Benutzerschnittstellen Weitere Gründe für WoOz Simulation ist billiger und schneller als Ent- wicklung und mehrfache Abänderung ei- nes tatsächlichen PrototypenSimulation ist billiger und schneller als Ent- wicklung und mehrfache Abänderung ei- nes tatsächlichen Prototypen Unbeschränktere MöglichkeitenUnbeschränktere Möglichkeiten Erkannte Probleme können leichter isoliert werdenErkannte Probleme können leichter isoliert werden

15 WS 1998/99, Proseminar Intelligente Benutzerschnittstellen Untersuchtes Phänomen: Unflüssige Sprechweise Beispiele: Selbstkorrektur: “Westlich von, nein, östlich von hier.”Selbstkorrektur: “Westlich von, nein, östlich von hier.” Fehlstarts: “Ich will... wo ist hier ein Krankenhaus?”Fehlstarts: “Ich will... wo ist hier ein Krankenhaus?” Spontane Wiederholungen: “Ich fahre nach Hinter... Hintertupfingen”Spontane Wiederholungen: “Ich fahre nach Hinter... Hintertupfingen” Füllsel: “Ich, ähm, naja, weiß nicht so recht.”Füllsel: “Ich, ähm, naja, weiß nicht so recht.”

16 WS 1998/99, Proseminar Intelligente Benutzerschnittstellen Automatische Korrektur von Unflüssigkeiten? Unflüssigkeiten (Disfluencies) sind anerkannterma- ßen eine schwere Hürde für robuste sprachgesteu- erte Systeme.Unflüssigkeiten (Disfluencies) sind anerkannterma- ßen eine schwere Hürde für robuste sprachgesteu- erte Systeme. Es wird nach verlässlichen Methoden gesucht, Un- flüssigkeiten anhand von akustischen, prosodischen, syntaktischen oder semantischen Mustern zu erkennen.Es wird nach verlässlichen Methoden gesucht, Un- flüssigkeiten anhand von akustischen, prosodischen, syntaktischen oder semantischen Mustern zu erkennen. Dies scheint mittelfristig vielversprechend zu sein, doch gibt es bislang noch keine brauchbaren Ergeb- nisse aus dieser Richtung.Dies scheint mittelfristig vielversprechend zu sein, doch gibt es bislang noch keine brauchbaren Ergeb- nisse aus dieser Richtung.

17 WS 1998/99, Proseminar Intelligente Benutzerschnittstellen Wann treten Unflüssigkeiten auf? Die Tabelle zeigt, dass sich in Abhäng- igkeit von der Dialog- situation die Häufig- keit von Unflüssig- keiten bis zu einem Faktor von elf ändert. Unflüssigkeiten pro 100 Worte: Mensch-Mensch Dialog: 2-Personen Telefonat8,83 3-Personen Telefonat6,25 2-Personen Gespräch5,50 Monolog3,60 Mensch-Maschine Dialog: Unbeschränkter Dialog1,74 - 2,14 Strukturierter Dialog0,78 - 1,70

18 WS 1998/99, Proseminar Intelligente Benutzerschnittstellen Interface Design als Ausweg? Hypothese: Durch geschicktes Interface Design lassen sich Mensch-Maschine Dialoge so strukturieren, dass Unflüssig- keiten minimiert werden.Hypothese: Durch geschicktes Interface Design lassen sich Mensch-Maschine Dialoge so strukturieren, dass Unflüssig- keiten minimiert werden. Notwendig: Empirische Studien, quantita- tive Modellierung der festgestellten Phäno- mene.Notwendig: Empirische Studien, quantita- tive Modellierung der festgestellten Phäno- mene.

19 WS 1998/99, Proseminar Intelligente Benutzerschnittstellen Lange Sätze = Fehler? Komplizierte, und somit lange Satzkonstruktionen sind fehleranfällig.Komplizierte, und somit lange Satzkonstruktionen sind fehleranfällig. 80% aller Unflüssigkeiten lassen sich allein anhand der Textlänge erkennen!80% aller Unflüssigkeiten lassen sich allein anhand der Textlänge erkennen! Sätze mit 1 - 6 Worten: 0,66 FehlerSätze mit 1 - 6 Worten: 0,66 Fehler Sätze mit 7 - 18 Worten: 2,81 FehlerSätze mit 7 - 18 Worten: 2,81 Fehler

20 WS 1998/99, Proseminar Intelligente Benutzerschnittstellen Unflüssigkeiten vermeiden durch Förderung kurzer Sätze Möglichkeit, lange Antworten zu geben:Möglichkeit, lange Antworten zu geben: –Wo möchten Sie, dass das Auto abgeholt werden soll? Unterschwellige Aufforderung zu einer knappen Antwort:Unterschwellige Aufforderung zu einer knappen Antwort: –Ort, an dem das Auto abgeholt werden soll: Reduktion der Fehler um 30 - 40%!Reduktion der Fehler um 30 - 40%!

21 WS 1998/99, Proseminar Intelligente Benutzerschnittstellen Anwendungsgebiete Sprachliche Eingaben (wie gesehen)Sprachliche Eingaben (wie gesehen) Numerische Eingaben, z.B. bei der Interaktion mit einem Telefonbanking- SystemNumerische Eingaben, z.B. bei der Interaktion mit einem Telefonbanking- System Kartenbasierte Eingaben, z.B. bei geografischen InformationssystemenKartenbasierte Eingaben, z.B. bei geografischen Informationssystemen

22 WS 1998/99, Proseminar Intelligente Benutzerschnittstellen Nebeneffekte GeschwindigkeitssteigerungGeschwindigkeitssteigerung Benutzerakzeptanz: In Tests zogen zwei von drei Probanden die kurze Version vor.Benutzerakzeptanz: In Tests zogen zwei von drei Probanden die kurze Version vor. Komplexität der Sätze nimmt stark ab, einfachere Spracherkenner sind möglich.Komplexität der Sätze nimmt stark ab, einfachere Spracherkenner sind möglich.

23 WS 1998/99, Proseminar Intelligente Benutzerschnittstellen Abhängigkeiten vom Inhalt? Ortsbeschreibungen bergen eine etwa 50% höhere Chance für Unflüssigkeiten!Ortsbeschreibungen bergen eine etwa 50% höhere Chance für Unflüssigkeiten! Selbst relativ einfache Ortsbeschreibungen verführen zu Fehlern.Selbst relativ einfache Ortsbeschreibungen verführen zu Fehlern. Beispiele: Rechts/Links verwechseln, Himmelsrichtungen, unklare Ortsreferenzen.Beispiele: Rechts/Links verwechseln, Himmelsrichtungen, unklare Ortsreferenzen.

24 WS 1998/99, Proseminar Intelligente Benutzerschnittstellen Lösung für Ortsbeschreibungen Multimodale Eingabe erscheint sinnvoll.Multimodale Eingabe erscheint sinnvoll. Möglicherweise optimal: Grafisches Display mit der Möglichkeit, mit einem Stift auf Orte zu tippen.Möglicherweise optimal: Grafisches Display mit der Möglichkeit, mit einem Stift auf Orte zu tippen. Mit einem Stift auf Punkte zu tippen ist eine sehr natürliche Handlungsweise.Mit einem Stift auf Punkte zu tippen ist eine sehr natürliche Handlungsweise. Hohe Akzeptanz, 95% der Probanden nutzten die Möglichkeiten der direkten Anwahl eines Ortes per Stift.Hohe Akzeptanz, 95% der Probanden nutzten die Möglichkeiten der direkten Anwahl eines Ortes per Stift.

25 WS 1998/99, Proseminar Intelligente Benutzerschnittstellen Phänomen: Hyperartikulation Hyperartikulation umfasst: –Überbetonung –Unnötig langsame Sprechweise –Unnatürlich deutliche Sprechweise –Andere Wortwahl

26 WS 1998/99, Proseminar Intelligente Benutzerschnittstellen Gründe von Hyperartikulation Hyperartikulation ist zumeist der Versuch des Benutzers, betont deutlich zu sprech- en, um dem System die Spracherkennung zu erleichtern.Hyperartikulation ist zumeist der Versuch des Benutzers, betont deutlich zu sprech- en, um dem System die Spracherkennung zu erleichtern. Tritt meist auf, nachdem das System sig- nalisiert hat, dass es eine Eingabe nicht verstanden hat.Tritt meist auf, nachdem das System sig- nalisiert hat, dass es eine Eingabe nicht verstanden hat.

27 WS 1998/99, Proseminar Intelligente Benutzerschnittstellen Probleme durch Hyperartikulation? Sprachverstehende Systeme (NLIs) werden meist anhand von fehlerfreien Testsätzen trainiert, die Er- kennung von Hyperartikulation gehört nicht zum üblichen Training.Sprachverstehende Systeme (NLIs) werden meist anhand von fehlerfreien Testsätzen trainiert, die Er- kennung von Hyperartikulation gehört nicht zum üblichen Training. Während HA im Mensch-Mensch Dialog das Ver- ständnis vereinfacht, erschwert es einem NLI- System die Arbeit zusätzlich.Während HA im Mensch-Mensch Dialog das Ver- ständnis vereinfacht, erschwert es einem NLI- System die Arbeit zusätzlich.  Produktion weiterer Fehler, Frustrationsgefahr!  Produktion weiterer Fehler, Frustrationsgefahr!

28 WS 1998/99, Proseminar Intelligente Benutzerschnittstellen Analyse von Hyperartikulation Definitionen für Stärke und Art der Ände- rungen bei HADefinitionen für Stärke und Art der Ände- rungen bei HA Modellierung verschiedener Phänomene, Klassifizierung nach der Art vorgenomm- ener ÄnderungenModellierung verschiedener Phänomene, Klassifizierung nach der Art vorgenomm- ener Änderungen Übertragung auf Vorschläge zur Verbess- erung von SpracherkennernÜbertragung auf Vorschläge zur Verbess- erung von Spracherkennern

29 WS 1998/99, Proseminar Intelligente Benutzerschnittstellen Beobachtete Phänomene Vergleich vor/nach einem Fehler:Vergleich vor/nach einem Fehler: –12% längere Segmente (Sätze) –73% längere Gesamtdauer der Pausen –91% mehr Pausen

30 WS 1998/99, Proseminar Intelligente Benutzerschnittstellen Beobachtete Phänomene Entspannte, umgangssprachliche Ausdrucksweise wird durch klare Aussprache abgelöst:Entspannte, umgangssprachliche Ausdrucksweise wird durch klare Aussprache abgelöst: –‘t’ statt ‘d’: “Forty” statt “Fordy” –‘nt’ statt ‘nn’: “Twenty” statt “Twenny” –Ausgelassene Silben: “Eleven” statt “ ‘leven”

31 WS 1998/99, Proseminar Intelligente Benutzerschnittstellen Lösungsansätze 1. Training der Spracherkenner auch mit Hilfe von hyperartikuliertem Text 2. Entwurf mehrerer Spracherkenner, die je nach erkannter Situation zugeschaltet werden. (Beispiel: Formulare) 3. Vermeidung von HA durch multimodale Eingabemöglichkeiten

32 WS 1998/99, Proseminar Intelligente Benutzerschnittstellen Multimodale Eingaben Es ist sehr natürlich, nach einer fehlge- schlagenen Eingabe das Medium zu wechseln (dreimal mehr als sonst).Es ist sehr natürlich, nach einer fehlge- schlagenen Eingabe das Medium zu wechseln (dreimal mehr als sonst). Benutzer erfassen selbst sehr gut, welche Eingabemethode am einfachsten ist.Benutzer erfassen selbst sehr gut, welche Eingabemethode am einfachsten ist. Chancen für Folgefehlern werden auf- grund stark unterschiedlicher Systeme minimiert.Chancen für Folgefehlern werden auf- grund stark unterschiedlicher Systeme minimiert.

33 WS 1998/99, Proseminar Intelligente Benutzerschnittstellen Erfahrungen mit multimodaler Eingabe Benutzer verwenden Sprache, um Objekte zu benennen oder Objekte anzufordern, die gerade nicht sichtbar sind.Benutzer verwenden Sprache, um Objekte zu benennen oder Objekte anzufordern, die gerade nicht sichtbar sind. Benutzer verwenden Zeigegestik um Orte zu markieren, (unregelmäßige) Linien zu ziehen und Regionen zu markieren.Benutzer verwenden Zeigegestik um Orte zu markieren, (unregelmäßige) Linien zu ziehen und Regionen zu markieren.

34 WS 1998/99, Proseminar Intelligente Benutzerschnittstellen Beispiel für Vorteile (Militärisch-geografisches System) Monomodal:Monomodal: –“Setze einen Punkt auf 1 5 2 0 3 4 und nenne ihn Objekt Alpha. Zurück. Setze Objekt Alpha auf 1 5 1 0 3 6. Zurück. Setze Objekt Alpha auf 1 5 1 0 3 7.” Multimodal:Multimodal: –“Objekt Alpha [klick]”

35 WS 1998/99, Proseminar Intelligente Benutzerschnittstellen Zusammenfassung Sprachverstehende Systeme müssen unter realistischen Bedingungen entwickelt und getestet werden.Sprachverstehende Systeme müssen unter realistischen Bedingungen entwickelt und getestet werden. Modellierung von Fehlerquellen ist hilfreich.Modellierung von Fehlerquellen ist hilfreich. Multimodale Eingaben sind oft erstrebens- wert.Multimodale Eingaben sind oft erstrebens- wert.


Herunterladen ppt "User-Centered Modeling for Spoken Language and Multimodal Interfaces (Benutzerorientierte Modelle für Sprach- und Multimodal-Schnittstellen) Vortrag: Ronald."

Ähnliche Präsentationen


Google-Anzeigen