Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

SS 2009Maschinelles Lernen und Neural Computation 107 Kapitel 6: Unüberwachtes Lernen.

Ähnliche Präsentationen


Präsentation zum Thema: "SS 2009Maschinelles Lernen und Neural Computation 107 Kapitel 6: Unüberwachtes Lernen."—  Präsentation transkript:

1 SS 2009Maschinelles Lernen und Neural Computation 107 Kapitel 6: Unüberwachtes Lernen

2 SS 2009Maschinelles Lernen und Neural Computation 108 Clustering Gegeben: eine Menge von Punkten (Beispielen), „ungelabelt“ (i.e. Klasse unbekannt) Gesucht: eine Menge von Clustern (Cluster- Zentren), die die Daten möglichst gut beschreiben („Vektorquantisierung“)  minimiere (Summe der Abstände zu allen Zentren, quadratischer Quantisierungsfehler)

3 SS 2009Maschinelles Lernen und Neural Computation 109 K-means Clustering Gradientenverfahren Neues Cluster-Zentrum ist Mittelwert der Punkte im Cluster Mehrere Iterationen notwendig

4 SS 2009Maschinelles Lernen und Neural Computation 110 Clustering als NC: Competitive Learning Architektur wie Perceptron f... Gauss; wie RBFN Wähle „Gewinner“ (am stärksten aktivierte Unit) Setze „Gewinner“ auf 1, alle anderen auf 0 „winner-take-all“ Gewinner lernt (Instar Regel):

5 SS 2009Maschinelles Lernen und Neural Computation 111 Geometrische Interpretation Gewichtsvektoren und Inputs sind Punkte im Raum Input Gewinner wählen = finde nähesten Gewichstvektor Resultat: Gruppen in den Daten werden gefunden Instar: Ziehe Gewichtsvektor zu Input hin stochastische Variante von k-means!  Matlab>demos>neural networks>other demos>chapter 14>competitive learning

6 SS 2009Maschinelles Lernen und Neural Computation 112 Eigenschaften Clustering nach k-means ist Gauss‘sches Clustering (symmetrische Streuung) Aufteilung des Raumes: Voronoi Tesselation Mögliche Probleme: –Lokale Minima (bei schlechter Initialisierung) –Verzerrung durch Ausreisser

7 SS 2009Maschinelles Lernen und Neural Computation 113 Gaussian Mixtures als Clustering Clustering wird als Dichteschätzung betrachtet Anschreibbar wie Klassifikationsproblem: EM-Algorithmus (max. Likelihood): Posterior des Clusters i Gaussverteilung Prior (  i ) Dichte (GMM) Gewichteter Mittelwert, analog zu k-means  Netlab>demgmm1.m

8 SS 2009Maschinelles Lernen und Neural Computation 114 Vorteile der GMM Vorteile: –Probabilitischer Rahmen –Zugehörigkeit zu Clustern angebbar (Posterior) –Ausgeprägtheit von Clustern bestimmbar –Modellauswahl möglich (anhand der Likelihood) k-means: optimale Anzahl der Clusters nicht leicht bestimmbar

9 SS 2009Maschinelles Lernen und Neural Computation 115 Erweiterungen Erweiterung auf beliebige Gauss- Verteilungen möglich K-means: entspricht „Mahalonobis Distanz“ (berücksichtigt Varianzen innerhalb der Cluster)  Netlab>demgmm3.m, demgmm4.m Gewöhnliche (sphärische) Gauss-Funktionen Beliebige Gauss-Funktionen

10 SS 2009Maschinelles Lernen und Neural Computation 116 Nicht-Gauss‘sches Clustering Nur als Mixture von Gauss‘schen Zentren beschreibbar Wenn „natürliche“ Cluster gefunden werden sollen: Nur parametrisch möglich (d.h. Form der Cluster bekannt) Ansonsten: Identifikationsproblem

11 SS 2009Maschinelles Lernen und Neural Computation 117 Andere Formen des Clustering Andere Distanz-(Ähnlichkeits-)Maße z.B. Manhattan-Distanz, Ranking Andere Fehler-(Kriteriums-)Funktionen z.B. Kohäsion innerhalb des Clusters, Entropie Hierarchisches Clustering –Dendrogramme –ART mit verschiedenen Vigilanzen

12 SS 2009Maschinelles Lernen und Neural Computation 118 Selforganizing Maps (SOM) Kohonen (1981, 1990) Nachbarschaft definiert Wie CL: winner-take-all, Instar Aber Nachbarn lernen mit Nachbarschaftsfunktion, wird im Laufe des Trainings Kleiner (Stabilisierung)

13 SS 2009Maschinelles Lernen und Neural Computation 119 SOM: Geometrische Interpretation Topologische Beziehung der Clusters bleibt weitgehend bestehen Benachbarte Units entsprechen benachbarten Clustern Datenraum wird auf die 2-dim. Struktur abgebildet („Karte“) Dient zur Visualisierung hochdimensionaler Daten 2-dim. Struktur wird in den hochdimensionalen Raum eingepasst - Projektion 3x3 SOM  Vienet2>uebung4.exe; Matlab>demos>2dim. selforganizing map

14 SS 2009Maschinelles Lernen und Neural Computation 120 Beispiel: politische Konflikte Daten: Konflikte und Vermittlungsversuche seit 1945 (Bercovitch & Langely 1993) 6 Dimensionen: –Dauer –Politische Macht A –Politische Macht B –Politische Rechte B –Initiator –Vermittlunsgerfolg 2 dim. Visualisierung  http://websom.hut.fi

15 SS 2009Maschinelles Lernen und Neural Computation 121 SOM Durch schlechte Initaliseriung kann k-means zu sub-otpimalen Lösungen führen (lokales Minimum) SOM: durch Mitziehen der Nachbarn wird der Datenraum besser abgedeckt (lokale Minima können vermieden werden) Zusätzlich: –Topologische Beziehung –Mehr Zentren in Bereichen hoher Dichte

16 SS 2009Maschinelles Lernen und Neural Computation 122 Multidimensionale Skalierung Aufgabe: Bilde hochdimensionale (n-d) Daten auf niedrige Dimensionalität (k-d) ab, sodaß Abstände zwischen den Punkten annähernd gleich bleiben (Dimensionsreduktion) Funktioniert gut, wenn Daten auf k-dim. Mannigfaltigkeit liegen (z.B. gekrümmte Fläche)

17 SS 2009Maschinelles Lernen und Neural Computation 123 SOM als MDS MDS entspricht dem Prinzip der topologischen Erhaltung in der SOM  SOM ist Clustering + MDS (mit Verzerrung abh. von Dichte)! Bereich 1 1 Bereich 2 2

18 SS 2009Maschinelles Lernen und Neural Computation 124 Topologische Darstellung Zwischenzustände durch Gewichtung mittels Distanz zu Zentren Ausgeprägte Grenzen darstellbar (U-Map, Ultsch)

19 SS 2009Maschinelles Lernen und Neural Computation 125 Alternative: Sammon Mapping Minimiere Differenz aller Abstände: Nachteil: hoher Berechnungsaufwand Lösung: zuerst Clustering, dann Sammon Mapping (weniger Punkte); Flexer 1996 Aber: Gleiche Probleme mit lokalen Minima wie k-means Abstand Originalpunkte Punkte in der Map Normalisierung

20 SS 2009Maschinelles Lernen und Neural Computation 126 Probleme der SOM Keine probabilistische Beschreibung Konvergenz nicht garantiert Es gibt keine Fehlerfunktion, die minimiert wird! Clustering und MDS beeinflussen einander (beides kann suboptimal sein) Es ist schwer abschätzbar, ob SOM gut ist oder nicht  Empfehlung: –SOM nur zur Visualisierung einsetzen! (nicht zum Clustering oder für überwachte Probleme) –Genau überlegen, was Kriterium ist; Alternativen suchen

21 SS 2009Maschinelles Lernen und Neural Computation 127 Generative Topographic Mapping (GTM) Bishop et al. (1996) Nichtlineares Mapping von einer Gitterstruktur auf eine Gaussian Mixture (z.B. durch MLP) GMM mit Randbedingungen Probabilistische Formulierung, umgeht viele der Probleme der SOM Aus Bishop et al. (1996), Neural Computation 10(1), 215-235 Aus Netlab Demo demgtm2.m  Netlab>demgtm1.m, demgtm2.m Zentrum abh. von Gitterpunkt

22 SS 2009Maschinelles Lernen und Neural Computation 128 Praktische Aspekte Auch für unüberwachte Verfahren gelten im wesentlichen die 7 Schritte: 1.Sichtung (Ausreißer) 2.Vorverarbeitung: Skalierung der Merkmale beeinflusst die Distanz  Normalisierung 3.Merkmalsselektion: irrelevante Merkmale können Clustering erschweren:

23 SS 2009Maschinelles Lernen und Neural Computation 129 Kreuzvalidierung für unüberwachtes Lernen 4.Modellschätzung mittels Kreuzvalidierung: bei k-means problematisch bei GMM: Likelihood-Funktion als Fehlerfunktion („Loss“-Funktion)

24 SS 2009Maschinelles Lernen und Neural Computation 130 Kombination von überwachtem mit unüberwachtem Lernen Unüberwachte Verfahren alleine eignen sich nur für unüberwachte Probleme! Bei überwachtem Problem (gelabelte Daten) kann unüberwachtes Verfahren eingesetzt werden als –Initialisierung –Vorstrukturierung Beispiele: –SOM oder GTM als Initialisierung eines RBFN –Learning Vector Quantization –ARTMAP

25 SS 2009Maschinelles Lernen und Neural Computation 131 Learning Vector Quantization (LVQ) Kohonen (1990) Ordne Units Klassen zu  nearest neighbor Verfahren mit Vektorquantisierung (nicht jeder Trainingspunkt gespeichert) Vergleichbar mit Dichteschätzung der class-conditionals hinbewegen, wenn richtige Klasse wegbewegen, wenn falsche Klasse

26 SS 2009Maschinelles Lernen und Neural Computation 132 Zusammenfassung Unüberwachte neuronale Netz-Verfahren reihen sich ebenfalls nahtlos in die Statistik Competitive Learning = k-means GMM als probabilistisches Clusteringverfahren SOM als Multidimensionale Skalierung + Clustering, aber mit Problemen


Herunterladen ppt "SS 2009Maschinelles Lernen und Neural Computation 107 Kapitel 6: Unüberwachtes Lernen."

Ähnliche Präsentationen


Google-Anzeigen