Präsentation herunterladen
Die Präsentation wird geladen. Bitte warten
Veröffentlicht von:Artur Engel Geändert vor über 8 Jahren
1
Nicht-negative Matrix Faktorisierung (nMF) Seminar „Sparse Coding“ Autor: Christian Sier
2
Gliederung des Vortrags Motivation und Einführung Mathematische Formulierung des Problems Algorithmen zur Berechnung Anwendung der NMF Zusammenfassung und Ausblick
3
Das Problem Gegeben sei eine Ausgangsmatrix V der Größe n x m (die Eingabedaten) Jede Spalte repräsentiert dabei einen Informationsvektor (z.B. Pixel eines Bildes) n*m Werte speichern aufwendig, Reduktion erwünscht Idee: Matrix V in ein Matrix-Produkt W*H zerlegen, so dass gilt: V≈W*H Informationen aus W und H wieder herstellbar, aber weniger Speicher nötig
4
Zerlegung der Matrix Wann kann man eine Matrix zerlegen? Natürlich immer möglich V ist eine nxm-Matrix, W eine nxr-Matrix und H eine rxm Matrix Wähle r so: n*r + r*m « n*m Diese Ungleichung hat aber die Folge, dass die Zerlegung zu Informationsverlust führt
5
Eigenschaften der Zerlegung Die Spalten von W nennt man Basis- Vektoren, die Spalten von H Kodierungs- Vektoren Multipliziert man W nur mit einer Spalte von H, erhält man die Information zurück v = W*h
6
Non-negative matrix factorization Idee: Adaption natürlicher Kodierung Basis-Vektoren sollen lokale Teile der Ursprungsdaten darstellen (z.B. bei Bildern von Gesichtern eine Nase) Nicht-negative Kodierungs-Vektoren haben die Folge, dass Ursprungsdaten nur additiv aus den Basis-Vektoren erzeugt werden Parallele zu Neuronen (wenn aktiv, dann positiv)
7
Beispiel Vektor-Quantisierung
8
Beispiel PCA
9
Beispiel nMF
10
Gliederung des Vortrags Motivation und Einführung Mathematische Formulierung des Problems Algorithmen zur Berechnung Anwendung der NMF Zusammenfassung und Ausblick
11
Mathematische Formulierung I Least Square Error minimieren A = V, B = WH Ist genau dann null, wenn V = WH Wird Dimensionsreduktion durchgeführt, ist die PCA bzgl. des LSE besser als die NMF Grund: Einschränkung auf nicht-negative Einträge in den Matrizen
12
Mathematische Formulierung II Die Ausgangsmatrix V soll in zwei nicht- negative Matrizen zerlegt werden Folge: Algorithmus muss gewährleisten, dass W und H keine negativen Einträge erhalten können Sind negative Zwischenergebnisse erlaubt? Bei iterativer Berechnung nicht
13
Spärlichkeit I Zerlegung liefert bei Dimensionsreduktion lediglich eine Speicherersparnis ohne Spärlichkeit Ziel: Daten rekonstruierbar mit wenigen „Neuronen“ (sparse coding) Mathematische Grundlagen für Spärlichkeit existieren vielfältig
14
Spärlichkeit II Folgendes Beispiel basiert auf Verhältnis zwischen L1- und L2-Norm L1-Norm eines Vektors ergibt sich durch Aufsummieren der Beträge aller Einträge L2-Norm eines Vektors ergibt sich durch Aufsummieren der Quadrate aller Einträge und anschließendem Wurzelziehen n gibt Anzahl der Einträge des Vektors an
15
Spärlichkeit III Spärlichkeit abhängig von den Einträgen des Vektors, die nicht null sind Nur ein Eintrag von null verschieden, dann Spärlichkeit von 1 Alle Einträge gleich groß, dann keine Spärlichkeit
16
Spärlichkeit IV Beispiel: V konstant, Spärlichkeit unterschiedlich
17
Gliederung des Vortrags Motivation und Einführung Mathematische Formulierung des Problems Algorithmen zur Berechnung Anwendung der NMF Zusammenfassung und Ausblick
18
Formel von Paatero & Tapper Grundidee: Belege W und H zufällig Annäherung an die Lösung mittels Gradientenabstieg Kostenfunktion z.B. der Mean Square Error Berechne den MSE vor und nach der Iteration Erhöht sich der MSE, verwerfe den Schritt
19
Formel von Paatero & Tapper Additive Iterationsformeln für W und H Die Koeffizienten η aμ und η ia geben die Schrittweite wieder Können konstant oder variabel gehalten werden Für andere Kostenfunktionen (z.B. Diver- genz) ergeben sich andere Formeln
20
Formel von Paatero & Tapper Abwechselnde Optimierung: erst W konstant halten und H verbessern und umgekehrt Problem: keine gemeinsame Optimierung, sondern jeweils einzeln Es wird daher nur ein lokales Minimum gefunden, keine globale Lösung Kovergenz kann bei zu kleiner Schrittweite lange dauern
21
Algorithmus von Lee & Seung Baut auf der Formel von Paatero & Tapper auf Schrittweite wird dynamisch bestimmt Eingesetzt in die Formel Vorteil: MSE kann sich nicht mehr erhöhen
22
Algorithmus von Lee & Seung Vorteile der Algorithmen: leicht zu programmieren und ziemlich schnell Aber: es wird keine Spärlichkeit erzwungen! Beispiel mit unterschiedlichen V:
23
Algorithmus von Hoyer Erweiterung des vorherigen Algorithmus Grundidee erneut: Minimierung des MSE Aber: Optimierung mit der Bedingung, Spärlichkeit einzuhalten Man kann die Bedingung sowohl auf W als auch auf H anwenden Benutzer muss entscheiden, welche Bedingungen die Anwendung erfordern
24
Algorithmus von Hoyer Zuerst belege W und H zufällig Soll W spärlich sein, so erzwinge vor der ersten Iteration für jede Spalte von W die gewünschte Spärlichkeit Soll H spärlich sein, so erzwinge vor der ersten Iteration für jede Spalte von H die gewünschte Spärlichkeit
25
Algorithmus von Hoyer Nun interiere Soll W spärlich werden, dann - - erzwinge wieder Spärlichkeit Soll H spärlich werden, dann - - erzwinge wieder Spärlichkeit Sollen W oder H nicht spärlich werden, ver- wende die Iterationsformeln von Lee und Seung
26
Algorithmus von Hoyer Wie erzwingt man Spärlichkeit eines Vektors? Gegeben sind der Vektor s, die zugehörige L1- und L2-Norm und Spärlichkeit Suche Vektor x mit folgenden Eigenschaften: - nicht-negativ - hat selbe L2-Norm wie Vektor s - LSE zum Vektor s minimal - erfüllt Spärlichkeitsbedingung
27
Algorithmus von Hoyer Koeffizienten entsprechen wieder der Schrittweite Schrittweite wird zu Beginn festgelegt Erhöht sich der MSE, verwerfe den Schritt und senke die Schrittweite (z.B. Halbieren)
28
Algorithmus von Hoyer Fazit: Erweiterung des vorangegangenen Algorithmus um Spärlichkeitsbedingung Führt aber zu größerem MSE Erhöhte Laufzeit Wichtig: Ergebnis des Algorithmus hängt immer von den Randbedingungen des Benutzers ab!
29
Algorithmus von Hoyer Beispiel (mit selber Ausgangsmatrix V): Dargestellt sind die Basis-Vektoren
30
Gliederung des Vortrags Motivation und Einführung Mathematische Formulierung des Problems Algorithmen zur Berechnung Anwendung der NMF Zusammenfassung und Ausblick
31
Anwendung der NMF Datenreduktion ist nicht das primäre Ziel NMF eignet sich gut für Mustererkennung Matrizen W und H verwendbar in Neuronalen Netzen Eingabevektor v ist zu klassifizieren W -1 *v = h’ Test, welchem bekannten Kodierungsvektor h’ am meisten ähnelt
32
Anwendung der NMF Aber: es gibt Probleme, für die die PCA besser geeignet ist Performance hängt von vielen Faktoren ab - Wahl der Dimensionsreduktion - Art der Ausgangsinformation - Art des Problems Kombination von PCA und NMF denkbar zur Erhöhung der Performance
33
Face recognition Beispiel: Gesichter erkennen Ausgangsmatrix V besteht aus m Vektoren (die Bilder) mit n Einträgen (Pixel) Ergebnis: NMF hier meist besser als PCA Grund: NMF erkennt lokale Merkmale, PCA lediglich globale Merkmale Folge: NMF kommt zudem mit Störungen (z.B. Sonnenbrille) besser zurecht
34
Face recognition Hier nochmal das Beispiel vom Anfang:
35
Texte klassifizieren Anderes Anwendungsbeispiel: Texte einer Rubrik zuordnen Jede Spalte in V steht für einen Ausgangs- text mit Häufigkeiten von Wörtern Die Spalten von W stehen für Gruppen von Wörtern, die in Zusammenhang stehen Deswegen Spärlichkeit auf W erzwingen Die Spalten von H setzen die Texte wieder “zusammen”
36
Texte klassifizieren Beispiel: Texte aus einer Enzyklopädie Ein Ausschnitt aus W und H
37
Texte klassifizieren Vorteile gegenüber Vektor-Quantisierung und PCA Texte setzen sich aus einigen wenigen Wort-Gruppierungen zusammen Bei VQ würden sie sich nur aus einer Gruppe zusammensetzen Bei PCA würden sie sich aus allen Gruppen zusammensetzen
38
Rezeptive Felder mit NMF Zeige, dass NMF mit spärlicher Bedingung parallelen zu rezeptiven Feldern hat Zufällige Ausschnitte aus natürlichen Bildern werden Hochpass gefiltert Positive und negative Anteile werden in ON- und OFF-Channel aufgeteilt Führe auf beiden Kanälen NMF aus mit der Bedingung, dass H spärlich sein soll (im Beispiel 85%), aus
39
Rezeptive Felder mit NMF Ergebnisse der NMF: Bilden eine neue Matrix W' = W ON - W OFF
40
Rezeptive Felder mit NMF W' entspricht gerichteten, Gabor-ähnlichen Merkmalen – bekannt von rezeptiven Feldern Grau entspricht der „0“
41
Gliederung des Vortrags Motivation und Einführung Mathematische Formulierung des Problems Algorithmen zur Berechnung Anwendung der NMF Zusammenfassung und Ausblick
42
Zusammenfassung NMF ist eine Methode zur Dimensionsre- duktion Spärlichkeit kann erzwungen werden (mit- tels einer mathematischer Grundlage), führt aber zu weiterem Informationsverlust Generelle Aussage, welchen Algorithmus man verwendet etc. nicht möglich Hängt vom Problem ab
43
Ausblick NMF hat viele Variationen Kombination mit anderen Methode (PCA) denkbar bzw. wird schon umgesetzt Rechnersehen bleibt eine experimentelle Disziplin => probieren, probieren, probieren => Spieltrieb ist sehr vorteilhaft
Ähnliche Präsentationen
© 2025 SlidePlayer.org Inc.
All rights reserved.