Erkennung von Gesichtsausdrücken anhand von Bildbewegungen (Irfan Essa & Alex Pentland) Hauptseminar Smart Environments Joachim Biggel 11.12.2003
Überblick 1. Motivation 2. Grundlagen 3. FACS: zum Vergleich kurz vorgestellt 4. Gesichtsmodell …von Essa und Pentland 5. Mimikmodell 6. Ergebnisse: Tests mit dem neuen Modell 7. Evaluation: Vergleich mit FACS, Vor- und Nachteile des neuen Modells 1. Motivation 2. Grundlagen 3. FACS – Facial Action Coding System 4. FACS+ 5. Mimikmodell 6. Ergebnisse 7. Evaluation
Gesichtsausdrücke … als wichtiges Kommunikationsmittel … zur Beurteilung der Gefühlslage bessere Interaktion Mensch – Maschine möglich (z.B. Online-Shopping, Smart Rooms) Einsatz in anderen Gebieten (z.B. Zusammenarbeit mit Psychologen) 1. Motivation 2. Grundlagen 3. FACS – Facial Action Coding System 4. FACS+ 5. Mimikmodell 6. Ergebnisse 7. Evaluation
Unterscheidung Gesichtsmodell – Mimikmodell: - Repräsentation des Gesichts - Bewegungen im Gesicht verfolgen und darstellen Mimikmodell: - einzigartiges Charakteristikum für jeden Gesichtsausdruck - Klassifizierung und Erkennung von Ausdrücken 1. Motivation 2. Grundlagen 3. FACS – Facial Action Coding System 4. FACS+ 5. Mimikmodell 6. Ergebnisse 7. Evaluation Unterscheidung bei diesem Vortrag Gesichtsmodell: für Tracking der Bewegungen im Gesicht
Facial Action Coding System FACS Facial Action Coding System bereits 1978 von Ekman und Friesen entwickelt nur Mimikmodell wird von vielen anderen Ansätzen verwendet 1. Motivation 2. Grundlagen 3. FACS – Facial Action Coding System 4. FACS+ 5. Mimikmodell 6. Ergebnisse 7. Evaluation FACS: von vielen anderen Ansätzen als Mimikmodelll verwendet; Ansätze versuchen geeignetes Gesichtsmodell für FACS zu erstellen
Verwendung von 46 sog. Action Units (AUs) = lokales. Bewegungsgebiet Verwendung von 46 sog. Action Units (AUs) = lokales Bewegungsgebiet im Gesicht AUs beinhalten jeweils die betroffenen Muskeln der Bewegung Darstellung jeder optisch unterscheidbaren Bewegung (AUs kombinierbar) Erkennung von Ausdrücken durch beteiligte AUs (je nach Intensität auf einer 5-Punkte Skala) Beispiel: - Anheben der Augenbrauen = AU 2 1. Motivation 2. Grundlagen 3. FACS – Facial Action Coding System 4. FACS+ 5. Mimikmodell 6. Ergebnisse 7. Evaluation AU‘s von Freude erwähnen
FACS+ keine Gemeinsamkeiten mit FACS FACS+ = Gesichtsmodell 3-D Abbild eines Gesichts Grundlage für das folgende Mimikmodell dient zur Verfolgung der Gesichtsbewegungen 1. Motivation 2. Grundlagen 3. FACS – Facial Action Coding System 4. FACS+ - Erstellung - Initialisierung - Verfolgung - Kontrolle 5. Mimikmodell 6. Ergebnisse 7. Evaluation …als Erstes zum Gesichtsmodell, welches verwendet wird -> FACS+
Gesicht vorerst als grobes Mesh (Netz) aus Dreiecken Ziel: Bewegungspunkte und Muskeln im Bild entsprechen Kanten der Dreiecke im Mesh Lösung: Anpassung durch Verfeinerung des Mesh grobes Mesh Muskeln (Striche) und angepasstes Mesh Bewegungspunkte (Punkte, Kreise) 1. Motivation 2. Grundlagen 3. FACS – Facial Action Coding System 4. FACS+ - Erstellung - Initialisierung - Verfolgung - Kontrolle 5. Mimikmodell 6. Ergebnisse 7. Evaluation Evtl. noch gelbe Kreise erklären->Hauptbewegungspunkte
Übertragen von markanten Bewegungspunkten auf das Bild Vorgehen: 1. Gesicht und seine Eigenschaften (Nase, Mund, Augen) im Bild lokalisieren (automatisch mit Eigenspace-Methode) 2. diese Positionen, um Gesicht auf Mesh zu verformen 3. markante Bewegungspunkte auflegen und aufs Bild übertragen 1. Motivation 2. Grundlagen 3. FACS – Facial Action Coding System 4. FACS+ - Erstellung - Initialisierung - Verfolgung - Kontrolle 5. Mimikmodell 6. Ergebnisse 7. Evaluation Initialisierung = Übertragen von Markanten Bewegungspunkten aufs Bild Animation mit 4 bildern, die nacheinander kommen und jeweils dazu die Erklärung Eigenspace-Methode von Pentland und Moghaddam 1. 2. 3.
Verfolgung des Gesichts durch Berechnung des optischen Flusses optischer Flussvektor vi(t) = Geschwindigkeit und Richtung der Pixel im Bild t zu t+1 Mapping des optischen Flusses auf Bewegungspunkte im Gesichtsmodell Problem: optischer Flussvektor 2-dimensional; Modell mit Bewegungspunkten 3-dimensional Lösung: 3-D Gesicht mit Laser einscannen liefert Funktion zur Umrechnung von 2-D in 3-D 1. Motivation 2. Grundlagen 3. FACS – Facial Action Coding System 4. FACS+ - Erstellung - Initialisierung - Verfolgung - Kontrolle 5. Mimikmodell 6. Ergebnisse 7. Evaluation
evtl. störhafte, ungenaue Eingangsdaten kann zu enormen evtl. störhafte, ungenaue Eingangsdaten kann zu enormen Abweichungen führen deshalb: Kontrollmechanismus mit Kalman-Filter Kalman-Filter : 1. Motivation 2. Grundlagen 3. FACS – Facial Action Coding System 4. FACS+ - Erstellung - Initialisierung - Verfolgung - Kontrolle 5. Mimikmodell 6. Ergebnisse 7. Evaluation bisherige Zustände des Systems ermittelt Vorteil bei Kalman –Filter: keine Verzögerung im System, da rekursive Vorgehensweise Schätzung für neuen Zustand korrigieren neue Messungen rekursiv neuer Zustand des Systems (Weiterverarbeitung)
1. Motivation 2. Grundlagen 3. FACS – Facial Action Coding System 4 1. Motivation 2. Grundlagen 3. FACS – Facial Action Coding System 4. FACS+ 5. Mimikmodell 6. Ergebnisse 7. Evaluation
Mimikmodell Problem: einzigartiges Charakteristikum für jeden Ausdruck Lösung: Erstellung von Merkmalsvektoren als Mimiktemplate für jeden Ausdruck Merkmalsvektor: Erstellung aus Muscle Actuation Profiles 1. Motivation 2. Grundlagen 3. FACS – Facial Action Coding System 4. FACS+ 5. Mimikmodell - Merkmalsvektor - Erkennung 6. Ergebnisse 7. Evaluation Muscle Actuation Profile = Darstellung der Muskelaktivitäten Abgeleitet aus errechneten Geschwindigkeiten v(edge)
Merkmalsvektor = Höchststand jedes Muskels im Profile für jeden Ausdruck einen Merkmalsvektor (Mimiktemplate) erstellen 1. Motivation 2. Grundlagen 3. FACS – Facial Action Coding System 4. FACS+ 5. Mimikmodell - Merkmalsvektor - Erkennung 6. Ergebnisse 7. Evaluation Merkmalsvektor für Ärger
Skalarprodukt: Merkmalsvektor der Bildsequenz x Mimiktemplate Ergebnis 1 bedeutet vollständige Übereinstimmung 1. Motivation 2. Grundlagen 3. FACS – Facial Action Coding System 4. FACS+ 5. Mimikmodell - Merkmalsvektor - Erkennung 6. Ergebnisse 7. Evaluation Linien: vorliegender Vektor Balken: Aufnahme
zu Grunde liegender Datenbestand: - Aufnahmesequenzen: 30 Frames/Sekunde; 450x380 Pixel - 20 Personen mit Ausdrücken: Lachen, Überraschung, Ärger, Ekel, Augenbrauen heben und Trauer Durchführung: - Merkmalsvektoren von 2 zufällig ausgewählten Personen - 52 Gesichtsausdrücke von 7 verschiedenen Personen Ergebnis: 98 % Trefferquote 1. Motivation 2. Grundlagen 3. FACS – Facial Action Coding System 4. FACS+ 5. Mimikmodell 6. Ergebnisse 7. Evaluation
Vergleich zu Ansätzen mit FACS: 80-90 % Trefferquote Gründe: - Schwierigkeiten, alle 46 AUs und Kombinationen darzustellen - AUs decken nur lokale Gebiete ab keine einzigartige, genaue Beschreibung von Ausdrücken - zeitlicher Verlauf der Muskelaktivitäten nur linear angenähert 1. Motivation 2. Grundlagen 3. FACS – Facial Action Coding System 4. FACS+ 5. Mimikmodell 6. Ergebnisse 7. Evaluation - Vergleich mit FACS - Vor- und Nachteile
Vorteile: - sehr detaillierte Darstellung des Gesichts und Bewegungen mit verwendetem Gesichtsmodell - Mimiktemplates basieren auf wirklichen Bilddaten und Messungen, nicht auf Heuristiken Nachteile: - Verwendung des optischen Flusses: Fehler evtl. durch wechselnde Lichtverhältnisse oder Bewegungen des Kopfes 1. Motivation 2. Grundlagen 3. FACS – Facial Action Coding System 4. FACS+ 5. Mimikmodell 6. Ergebnisse 7. Evaluation - Vergleich mit FACS - Vor- und Nachteile Heuristiken z.B. wenn man FACS verwenden würde Eigene Meinung: kein direkter Vergleich, nur eigene Datenbank verwendet größere Datenbank verwenden, Tests auf gleichen Datenbanken durchführen
Was ist bei diesem Ansatz hervorzuheben? Fragen? 1. Motivation 2. Grundlagen 3. FACS – Facial Action Coding System 4. FACS+ 5. Mimikmodell 6. Ergebnisse 7. Evaluation - verwendet zwar schon vorhandenes FACS+, aber Trennung von FACS-Standard -> ist möglich, sogar besser
…Vielen Dank für eure Aufmerksamkeit! 11.12.2003