Spärliche Kodierung von Videos natürlicher Szenen Vortragender: Christian Fischer
Gliederung 1.Natürliche Videos 1.1 Eigenschaften natürlicher Videos 1.2 Formales Modell 2.Spärliche Kodierung von Videos natürlicher Szenen 2.1 Zielsetzung 2.2 Durchführung 2.3 Ergebnisse 3.Zeitliche Kohärenz 3.1 Zielsetzung 3.2 Durchführung 3.3 Ergebnisse 4.Zusammenfassung
Gliederung 1.Natürliche Videos 1.1 Eigenschaften natürlicher Videos 1.2 Formales Modell 2.Spärliche Kodierung von Videos natürlicher Szenen 2.1 Zielsetzung 2.2 Durchführung 2.3 Ergebnisse 3.Zeitliche Kohärenz 3.1 Zielsetzung 3.2 Durchführung 3.3 Ergebnisse 4.Zusammenfassung
1 Eigenschaften natürlicher Videos Was unterscheidet ein zufällig generiertes Video von einem „natürlichen“?
1 Eigenschaften natürlicher Videos Was unterscheidet ein zufällig generiertes Video von einem „natürlichen“? Starke Korrelation naher Bildpunkten (sowohl räumlich als auch zeitlich) Ecken und Kanten Skaleninvarianz klare Bewegungen Koeffizienten der fouriertransformierten Bilder fallen mit der Frequenz f etwa um den Faktor 1/f (siehe auch Dong/Atick 95) Pixel unabhängig voneinander keine Ecken und Kanten Intensitäten gleichverteilt Keine Zusammenhang zwischen aufeinander folgenden Bildern
1 Eigenschaften natürlicher Videos Was unterscheidet ein zufällig generiertes Video von einem „natürlichen“? natürliche Videos stellen nur einen winzigen Anteil aller möglichen Videos dar! natürliche Videos lassen sich durch relativ wenige Merkmale beschreiben nächster Schritt: Modell zur Beschreibung von Videos
Gliederung 1.Natürliche Videos 1.1 Eigenschaften natürlicher Videos 1.2 Formales Modell 2.Spärliche Kodierung von Videos natürlicher Szenen 2.1 Zielsetzung 2.2 Durchführung 2.3 Ergebnisse 3.Zeitliche Kohärenz 3.1 Zielsetzung 3.2 Durchführung 3.3 Ergebnisse 4.Zusammenfassung
Ein Video ist eine Funktion, die jedem Rasterpunkt (x,y) in Anhängigkeit von der Zeit t einen Farbwert zuweist. 1.2 Formales Modell Darstellung des Videos durch lineare Überlagerung von Basisfunktionen Dielassen sich auch als Basisvideos auffassenDiesind zeitlich verschiebbar!
1.2 Formales Modell Beispiel: 2 Basisfunktionen:
1.2 Formales Modell Bemerkungen: N Basisfunktionen linear unabhängig gewählt: eindeutig bestimmt jedes Video lässt sich verlustfrei darstellen (N = Anzahl der Videodimension) Linear abhängige Basisfunktionen möglich Code sogar mehr als vollständig (over – complete) mehrere Darstellungen für ein Bild möglich Konsequenzen?
Gliederung 1.Natürliche Videos 1.1 Eigenschaften natürlicher Videos 1.2 Formales Modell 2.Spärliche Kodierung von Videos natürlicher Szenen 2.1 Zielsetzung 2.2 Durchführung 2.3 Ergebnisse 3.Zeitliche Kohärenz 3.1 Zielsetzung 3.2 Durchführung 3.3 Ergebnisse 4.Zusammenfassung
Gesucht: Satz von wenigen Basisfunktionen der zu einer spärlichen und dekorrelierten Verteilung der führt Ideale Wahrscheinlichkeitsdichte der 2.1 Zielsetzung einziges Maximum um 0 dort stark zugespitzt nach außen schnell abfallend
2.1 Zielsetzung Wie messen wir ob die Verteilung der spärlich ist? Verschiedene Maße: Verwenden hier: und
2.1 Zielsetzung Warum spärlich und dekorreliert? - Merkmale werden explizit codiert das heißt die Aktivierung einer Basisfunktion ist äquivalent mit der Existenz eines Merkmales im Video ein Video entspricht Menge von unabhängigen Ereignissen - effiziente Kodierung - Kompression - ansonsten intuitive aber willkürliche Forderung
2.1 Zielsetzung Führt zu Optimierungsproblem: Wie lösen wir dieses Problem?
Gliederung 1.Natürliche Videos 1.1 Eigenschaften natürlicher Videos 1.2 Formales Modell 2.Spärliche Kodierung von Videos natürlicher Szenen 2.1 Zielsetzung 2.2 Durchführung 2.3 Ergebnisse 3.Zeitliche Kohärenz 3.1 Zielsetzung 3.2 Durchführung 3.3 Ergebnisse 4.Zusammenfassung
2.2 Durchführung Optimierung von E mit Gradientenabstieg
2.2 Durchführung Skizzierung der Optimierung:
Anwendung auf Videos der Größe 8x8x64 (ausgeschnitten aus natürlichen Videos) zufällig initialisiert verschiedene Preprocessing - Schritte 2.2 Durchführung Rechenzeit im Stundenbereich
Gliederung 1.Natürliche Videos 1.1 Eigenschaften natürlicher Videos 1.2 Formales Modell 2.Spärliche Kodierung von Videos natürlicher Szenen 2.1 Zielsetzung 2.2 Durchführung 2.3 Ergebnisse 3.Zeitliche Kohärenz 3.1 Zielsetzung 3.2 Durchführung 3.3 Ergebnisse 4.Zusammenfassung
2.3 Ergebnisse Funktioniert das Verfahren? Trainings- muster Generiert durch Ergebnis einzelne Pixeleinzelne Gitter einzelne Gaborfunktionen
2.3 Ergebnisse Was passiert bei Anwendung auf reale Daten?
2.3 Ergebnisse Nochmal im Überblick:
Die Ergebnisse sind robust 2.3 Ergebnisse Eigenschaften der erhaltenen Basisfunktionen? Die Basisfunktionen sind: lokal ausgeprägt (räumlich und zeitlich) orientiert bandbeschränkt Einzelbilder ähneln rezeptiven Felder der einfachen Zellen
2.3 Ergebnisse Fehler zwischen Original und rekonstruierten Video klein Sind die Ergebnisse zumindest sinnvoll? Originalvideo Rekonstruiertes Video
2.3 Ergebnisse Zeit Koeffizient - Nummer Standardbasis gelernte Basis Ist die Verteilung denn auch spärlich? JA Ziel erreicht!
Orientierung der Funktionen gleichverteilt Mehr „langsame“ Funktionen als Schnelle 2.3 Ergebnisse Weitere Eigenschaften:
2.3 Ergebnisse niedrige räumliche Frequenz hohe Geschwindigkeit hohe räumliche Frequenz geringe Geschwindigkeit Weitere Eigenschaften:
3.1 Zielstellung Spärlichkeit – Ist das Alles? Eigenschaften der Rezeptiven Felder lassen sich durch Spärlichkeitsprinzip erklären. Forderung nach Spärlichkeit mehr oder weniger willkürlich. Gibt es eine Alternative?
Gliederung 1.Natürliche Videos 1.1 Eigenschaften natürlicher Videos 1.2 Formales Modell 2.Spärliche Kodierung von Videos natürlicher Szenen 2.1 Zielsetzung 2.2 Durchführung 2.3 Ergebnisse 3.Zeitliche Kohärenz 3.1 Zielsetzung 3.2 Durchführung 3.3 Ergebnisse 4.Zusammenfassung
3.1 Zielstellung Prinzip der Zeitlichen Kohärenz Was ist das??? Repräsentation von aufeinander folgenden Bildern soll möglichst ähnlich sein Basisfunktionen sind nur noch Bilder Ähnlichkeit messen:
3.1 Zielstellung Weitere „technische“ Forderungen: (Beschränkung der Gewichte) (damit die Basisfunktionen linear unabhängig werden)
Gliederung 1.Natürliche Videos 1.1 Eigenschaften natürlicher Videos 1.2 Formales Modell 2.Spärliche Kodierung von Videos natürlicher Szenen 2.1 Zielsetzung 2.2 Durchführung 2.3 Ergebnisse 3.Zeitliche Kohärenz 3.1 Zielsetzung 3.2 Durchführung 3.3 Ergebnisse 4.Zusammenfassung
3.2 Durchführung Durchführung erfolgt mit einem speziellen Gradientenverfahren Anwendung auf Bilder mit Größe von 11x11 mit Videolängen von 192 Sekunden Preprocessing: - Subtraktion des Mittelwertes - Normalisierung - zeitliche Dekorrelation
Gliederung 1.Natürliche Videos 1.1 Eigenschaften natürlicher Videos 1.2 Formales Modell 2.Spärliche Kodierung von Videos natürlicher Szenen 2.1 Zielsetzung 2.2 Durchführung 2.3 Ergebnisse 3.Zeitliche Kohärenz 3.1 Zielsetzung 3.2 Durchführung 3.3 Ergebnisse 4.Zusammenfassung
2.3 Ergebnisse ähnliche Ergebnisse wie zum Beispiel bei der Verwendung der ICA erhalten. Gemeinsamkeiten: -Verteilung der Orientierung -räumliche Frequenz Unterschiede: -Größenspektrum ist breiter Zeitliche Kohärenz ist ein alternatives Modell zu Sparse Coding
Gliederung 1.Natürliche Videos 1.1 Eigenschaften natürlicher Videos 1.2 Formales Modell 2.Spärliche Kodierung von Videos natürlicher Szenen 2.1 Zielsetzung 2.2 Durchführung 2.3 Ergebnisse 3.Zeitliche Kohärenz 3.1 Zielsetzung 3.2 Durchführung 3.3 Ergebnisse 4.Zusammenfassung
4 Zusammenfassung Sparse Coding: - natürliche Videos lassen sich durch relativ wenige Merkmale beschreiben. - suchen nach effizienten Code Ansatz Spärlichkeit - Berechnung mit Gradientenabstiegsverfahren - Als Ergebnisse erhält man Basisfunktionen, die - rezeptiven Feldern der einfachen Zellen ähneln - gleichverteilte Orientierung aufweisen - bandbeschränkt sind - lokal ausgeprägt sind Alternative: explizite Forderung nach zeitlicher Kohärenz liefert sehr ähnliche Ergebnisse