Nicht-negative Matrix Faktorisierung (nMF) Seminar „Sparse Coding“ Autor: Christian Sier.

Slides:



Advertisements
Ähnliche Präsentationen
Algorithmen und Datenstrukturen
Advertisements

Fast Fourier Transformation
Matrixmultiplikation
Rekursion: Rekurrenz: Algorithmen rufen sich selbst (rekursiv) auf.
Falls Algorithmen sich selbst rekursiv aufrufen, so kann ihr Laufzeitverhalten bzw. ihr Speicherplatzbedarf in der Regel durch eine Rekursionsformel (recurrence,
Polynomial Root Isolation
Algebraische Zahlen: Exaktes Rechnen mit Wurzeln
Schnelle Matrizenoperationen von Christian Büttner
Invariante und Algorithmenentwurf
Suche in Texten (Stringsuche )
Genetische Algorithmen für die Variogrammanpassung
1 1. Splineglättung 1.1 Motivation 1.2 Notation 1.3 Splineglättung
HEINZ NIXDORF INSTITUT Universität Paderborn Fachbereich Mathematik/Informatik Algorithmische Probleme in Funknetzwerken X Christian Schindelhauer
Polymorphie (Vielgestaltigkeit)
Vorlesung Informatik 2 Algorithmen und Datenstrukturen (27 – Kürzeste Wege) Prof. Th. Ottmann.
Kapitel 5 Stetigkeit.
Kapitel 2 Die rationalen und die irrationalen Zahlen.
Beispiele für Gleichungssysteme
Hypothesen testen: Grundidee
Bit Commitment mit quadratischen Resten Vortrag von Josef Pozny
Minimum Spanning Tree: MST
Relationentheorie AIFB SS Algorithmen zur Bildung von 3NF-Relationsschemata Algorithmen zur Bildung von 3NF-Relationsschemata (2|8) (2)Synthese.
Variationsformalismus für das freie Teilchen
Effiziente Algorithmen
Effiziente Algorithmen
Effiziente Algorithmen
Abschlussvortrag zur Studienarbeit
Übungsaufgaben für Microsoft Excel
Quantum Computing Hartmut Klauck Universität Frankfurt WS 05/
Effiziente Algorithmen
Effiziente Algorithmen
Black Box Algorithmen Hartmut Klauck Universität Frankfurt SS
Effiziente Algorithmen Hartmut Klauck Universität Frankfurt SS
Effiziente Algorithmen
Quantum Computing Hartmut Klauck Universität Frankfurt WS 05/
Quantum Computing Hartmut Klauck Universität Frankfurt WS 04/
Effiziente Algorithmen Hartmut Klauck Universität Frankfurt SS
Effiziente Algorithmen Hartmut Klauck Universität Frankfurt SS
Effiziente Algorithmen
Effiziente Algorithmen Hartmut Klauck Universität Frankfurt SS
Hartmut Klauck Universität Frankfurt SS
Quantum Computing Hartmut Klauck Universität Frankfurt WS 05/
Beweissysteme Hartmut Klauck Universität Frankfurt WS 06/
Beweissysteme Hartmut Klauck Universität Frankfurt WS 06/
Beweissysteme Hartmut Klauck Universität Frankfurt WS 06/
Information und Kommunikation
Quantum Computing Hartmut Klauck Universität Frankfurt WS 04/
Polynome und schnelle Fourier-Transformation
Einführung in die Informatik für Naturwissenschaftler und Ingenieure
Einführung in die Programmierung Wintersemester 2013/14 Prof. Dr. Günter Rudolph Lehrstuhl für Algorithm Engineering Fakultät für Informatik TU Dortmund.
Einführung in die Programmiersprache C 4
One plus One Evolutionary Optimizer
Klassifikation und Regression mittels neuronaler Netze
Integritätserhaltung und -Überprüfung in deduktiven Datenbanken
Analyse der Laufzeit von Algorithmen
Institut für Kartographie und Geoinformation Prof. Dr. Lutz Plümer Diskrete Mathematik II Foliendesign: Jörg Steinrücken & Tobias Kahn Vorlesung
The PicSOM Retrieval System 1 Christian Steinberg.
Constraint Delaunay Triangulations
Der A*-Algorithmus.
Version vom Max-Flow in Orientierten Matroiden Winfried Hochstättler & Robert Nickel Fernuniversität in Hagen Lehrstuhl für Diskrete Mathematik.
Gliederung der Vorlesung
Institut für Informationssysteme Technische Universität Braunschweig Institut für Informationssysteme Technische Universität Braunschweig Verdrängung von.
Programmiersprachen II Vorbesprechung Klausur Prof. Dr. Reiner Güttler Fachbereich GIS HTW.
EIN NEUES ENSEMBLE- KLASSIFIKATIONSVERFAHREN Tim Schneider Rotation Forest.
Programmiersprachen II Fortsetzung Datenstrukturen Balancierte Bäume 3 Prof. Dr. Reiner Güttler Fachbereich GIS HTW.
PCA Principal Component Analysis. Gliederung PCA – Warum eigentlich? PCA – Was ist zu tun? Was passiert eigentlich? Anwendungen Zusammenfassung.
Spärliche Kodierung von Videos natürlicher Szenen Vortragender: Christian Fischer.
Prognose von Zeitreihen Hans Nübel Hans Nübel Prognose von Zeitreihen Aufbau 1.Motivation 2.Holt-Winters-Verfahren 3.Prognose.
Lineare Optimierung Nakkiye Günay, Jennifer Kalywas & Corina Unger Jetzt erkläre ich euch die einzelnen Schritte und gebe Tipps!
Independent Component Analysis: Analyse natürlicher Bilder Friedrich Rau.
 Präsentation transkript:

Nicht-negative Matrix Faktorisierung (nMF) Seminar „Sparse Coding“ Autor: Christian Sier

Gliederung des Vortrags Motivation und Einführung Mathematische Formulierung des Problems Algorithmen zur Berechnung Anwendung der NMF Zusammenfassung und Ausblick

Das Problem Gegeben sei eine Ausgangsmatrix V der Größe n x m (die Eingabedaten) Jede Spalte repräsentiert dabei einen Informationsvektor (z.B. Pixel eines Bildes) n*m Werte speichern aufwendig, Reduktion erwünscht Idee: Matrix V in ein Matrix-Produkt W*H zerlegen, so dass gilt: V≈W*H Informationen aus W und H wieder herstellbar, aber weniger Speicher nötig

Zerlegung der Matrix Wann kann man eine Matrix zerlegen? Natürlich immer möglich V ist eine nxm-Matrix, W eine nxr-Matrix und H eine rxm Matrix Wähle r so: n*r + r*m « n*m Diese Ungleichung hat aber die Folge, dass die Zerlegung zu Informationsverlust führt

Eigenschaften der Zerlegung Die Spalten von W nennt man Basis- Vektoren, die Spalten von H Kodierungs- Vektoren Multipliziert man W nur mit einer Spalte von H, erhält man die Information zurück v = W*h

Non-negative matrix factorization Idee: Adaption natürlicher Kodierung Basis-Vektoren sollen lokale Teile der Ursprungsdaten darstellen (z.B. bei Bildern von Gesichtern eine Nase) Nicht-negative Kodierungs-Vektoren haben die Folge, dass Ursprungsdaten nur additiv aus den Basis-Vektoren erzeugt werden Parallele zu Neuronen (wenn aktiv, dann positiv)

Beispiel Vektor-Quantisierung

Beispiel PCA

Beispiel nMF

Gliederung des Vortrags Motivation und Einführung Mathematische Formulierung des Problems Algorithmen zur Berechnung Anwendung der NMF Zusammenfassung und Ausblick

Mathematische Formulierung I Least Square Error minimieren A = V, B = WH Ist genau dann null, wenn V = WH Wird Dimensionsreduktion durchgeführt, ist die PCA bzgl. des LSE besser als die NMF Grund: Einschränkung auf nicht-negative Einträge in den Matrizen

Mathematische Formulierung II Die Ausgangsmatrix V soll in zwei nicht- negative Matrizen zerlegt werden Folge: Algorithmus muss gewährleisten, dass W und H keine negativen Einträge erhalten können Sind negative Zwischenergebnisse erlaubt? Bei iterativer Berechnung nicht

Spärlichkeit I Zerlegung liefert bei Dimensionsreduktion lediglich eine Speicherersparnis ohne Spärlichkeit Ziel: Daten rekonstruierbar mit wenigen „Neuronen“ (sparse coding) Mathematische Grundlagen für Spärlichkeit existieren vielfältig

Spärlichkeit II Folgendes Beispiel basiert auf Verhältnis zwischen L1- und L2-Norm L1-Norm eines Vektors ergibt sich durch Aufsummieren der Beträge aller Einträge L2-Norm eines Vektors ergibt sich durch Aufsummieren der Quadrate aller Einträge und anschließendem Wurzelziehen n gibt Anzahl der Einträge des Vektors an

Spärlichkeit III Spärlichkeit abhängig von den Einträgen des Vektors, die nicht null sind Nur ein Eintrag von null verschieden, dann Spärlichkeit von 1 Alle Einträge gleich groß, dann keine Spärlichkeit

Spärlichkeit IV Beispiel: V konstant, Spärlichkeit unterschiedlich

Gliederung des Vortrags Motivation und Einführung Mathematische Formulierung des Problems Algorithmen zur Berechnung Anwendung der NMF Zusammenfassung und Ausblick

Formel von Paatero & Tapper Grundidee: Belege W und H zufällig Annäherung an die Lösung mittels Gradientenabstieg Kostenfunktion z.B. der Mean Square Error Berechne den MSE vor und nach der Iteration Erhöht sich der MSE, verwerfe den Schritt

Formel von Paatero & Tapper Additive Iterationsformeln für W und H Die Koeffizienten η aμ und η ia geben die Schrittweite wieder Können konstant oder variabel gehalten werden Für andere Kostenfunktionen (z.B. Diver- genz) ergeben sich andere Formeln

Formel von Paatero & Tapper Abwechselnde Optimierung: erst W konstant halten und H verbessern und umgekehrt Problem: keine gemeinsame Optimierung, sondern jeweils einzeln Es wird daher nur ein lokales Minimum gefunden, keine globale Lösung Kovergenz kann bei zu kleiner Schrittweite lange dauern

Algorithmus von Lee & Seung Baut auf der Formel von Paatero & Tapper auf Schrittweite wird dynamisch bestimmt Eingesetzt in die Formel Vorteil: MSE kann sich nicht mehr erhöhen

Algorithmus von Lee & Seung Vorteile der Algorithmen: leicht zu programmieren und ziemlich schnell Aber: es wird keine Spärlichkeit erzwungen! Beispiel mit unterschiedlichen V:

Algorithmus von Hoyer Erweiterung des vorherigen Algorithmus Grundidee erneut: Minimierung des MSE Aber: Optimierung mit der Bedingung, Spärlichkeit einzuhalten Man kann die Bedingung sowohl auf W als auch auf H anwenden Benutzer muss entscheiden, welche Bedingungen die Anwendung erfordern

Algorithmus von Hoyer Zuerst belege W und H zufällig Soll W spärlich sein, so erzwinge vor der ersten Iteration für jede Spalte von W die gewünschte Spärlichkeit Soll H spärlich sein, so erzwinge vor der ersten Iteration für jede Spalte von H die gewünschte Spärlichkeit

Algorithmus von Hoyer Nun interiere Soll W spärlich werden, dann - - erzwinge wieder Spärlichkeit Soll H spärlich werden, dann - - erzwinge wieder Spärlichkeit Sollen W oder H nicht spärlich werden, ver- wende die Iterationsformeln von Lee und Seung

Algorithmus von Hoyer Wie erzwingt man Spärlichkeit eines Vektors? Gegeben sind der Vektor s, die zugehörige L1- und L2-Norm und Spärlichkeit Suche Vektor x mit folgenden Eigenschaften: - nicht-negativ - hat selbe L2-Norm wie Vektor s - LSE zum Vektor s minimal - erfüllt Spärlichkeitsbedingung

Algorithmus von Hoyer Koeffizienten entsprechen wieder der Schrittweite Schrittweite wird zu Beginn festgelegt Erhöht sich der MSE, verwerfe den Schritt und senke die Schrittweite (z.B. Halbieren)

Algorithmus von Hoyer Fazit: Erweiterung des vorangegangenen Algorithmus um Spärlichkeitsbedingung Führt aber zu größerem MSE Erhöhte Laufzeit Wichtig: Ergebnis des Algorithmus hängt immer von den Randbedingungen des Benutzers ab!

Algorithmus von Hoyer Beispiel (mit selber Ausgangsmatrix V): Dargestellt sind die Basis-Vektoren

Gliederung des Vortrags Motivation und Einführung Mathematische Formulierung des Problems Algorithmen zur Berechnung Anwendung der NMF Zusammenfassung und Ausblick

Anwendung der NMF Datenreduktion ist nicht das primäre Ziel NMF eignet sich gut für Mustererkennung Matrizen W und H verwendbar in Neuronalen Netzen Eingabevektor v ist zu klassifizieren W -1 *v = h’ Test, welchem bekannten Kodierungsvektor h’ am meisten ähnelt

Anwendung der NMF Aber: es gibt Probleme, für die die PCA besser geeignet ist Performance hängt von vielen Faktoren ab - Wahl der Dimensionsreduktion - Art der Ausgangsinformation - Art des Problems Kombination von PCA und NMF denkbar zur Erhöhung der Performance

Face recognition Beispiel: Gesichter erkennen Ausgangsmatrix V besteht aus m Vektoren (die Bilder) mit n Einträgen (Pixel) Ergebnis: NMF hier meist besser als PCA Grund: NMF erkennt lokale Merkmale, PCA lediglich globale Merkmale Folge: NMF kommt zudem mit Störungen (z.B. Sonnenbrille) besser zurecht

Face recognition Hier nochmal das Beispiel vom Anfang:

Texte klassifizieren Anderes Anwendungsbeispiel: Texte einer Rubrik zuordnen Jede Spalte in V steht für einen Ausgangs- text mit Häufigkeiten von Wörtern Die Spalten von W stehen für Gruppen von Wörtern, die in Zusammenhang stehen Deswegen Spärlichkeit auf W erzwingen Die Spalten von H setzen die Texte wieder “zusammen”

Texte klassifizieren Beispiel: Texte aus einer Enzyklopädie Ein Ausschnitt aus W und H

Texte klassifizieren Vorteile gegenüber Vektor-Quantisierung und PCA Texte setzen sich aus einigen wenigen Wort-Gruppierungen zusammen Bei VQ würden sie sich nur aus einer Gruppe zusammensetzen Bei PCA würden sie sich aus allen Gruppen zusammensetzen

Rezeptive Felder mit NMF Zeige, dass NMF mit spärlicher Bedingung parallelen zu rezeptiven Feldern hat Zufällige Ausschnitte aus natürlichen Bildern werden Hochpass gefiltert Positive und negative Anteile werden in ON- und OFF-Channel aufgeteilt Führe auf beiden Kanälen NMF aus mit der Bedingung, dass H spärlich sein soll (im Beispiel 85%), aus

Rezeptive Felder mit NMF Ergebnisse der NMF: Bilden eine neue Matrix W' = W ON - W OFF

Rezeptive Felder mit NMF W' entspricht gerichteten, Gabor-ähnlichen Merkmalen – bekannt von rezeptiven Feldern Grau entspricht der „0“

Gliederung des Vortrags Motivation und Einführung Mathematische Formulierung des Problems Algorithmen zur Berechnung Anwendung der NMF Zusammenfassung und Ausblick

Zusammenfassung NMF ist eine Methode zur Dimensionsre- duktion Spärlichkeit kann erzwungen werden (mit- tels einer mathematischer Grundlage), führt aber zu weiterem Informationsverlust Generelle Aussage, welchen Algorithmus man verwendet etc. nicht möglich Hängt vom Problem ab

Ausblick NMF hat viele Variationen Kombination mit anderen Methode (PCA) denkbar bzw. wird schon umgesetzt Rechnersehen bleibt eine experimentelle Disziplin => probieren, probieren, probieren => Spieltrieb ist sehr vorteilhaft