SS 2009Maschinelles Lernen und Neural Computation 107 Kapitel 6: Unüberwachtes Lernen.

Slides:

Advertisements

Ähnliche Präsentationen

Perceptrons and the perceptron learning rule

Advertisements

Kohonennetze für Information Retrieval mit User Feedback

Streuungsmaß 3: absolute Abweichung vom Mittelwert

Maschinelles Lernen Präsenzübung.

Simulated Annealing Marco Block & Miguel Domingo Seminar : Maschinelles Lernen und Markov KettenSommersemester 2002.

Kombinatorische Topologie in der 3d Geomodellierung

Konkurrentes Lernen AS-1

WS Algorithmentheorie 01 – Divide and Conquer (Segmentschnitt) Prof. Dr. Th. Ottmann.

Vorlesung Informatik 2 Algorithmen und Datenstrukturen (27 – Kürzeste Wege) Prof. Th. Ottmann.

Geometrisches Divide and Conquer

Computerkurs: Quantitative Auswertung biochemischer Experimente Guten Morgen.

Demoprogramm: Clustering Eine graphische Demonstration verschiedener Clusteringalgorithmen anhand des Clusterings von Punkten im zweidimensionalen Raum.

K. Desch - Statistik und Datenanalyse SS05

Institut für Angewandte Mikroelektronik und Datentechnik Fachbereich Elektrotechnik und Informationstechnik, Universität Rostock Programmierung eingebetteter.

RBF-Netze, Learning Vector Quantisation, Kohonen-Karten

Konfidenzintervalle Intervallschätzung

Die Student- oder t-Verteilung

Konfidenzintervalle Intervallschätzung Jeder Beobachtung wird ein Intervall C( ) der reellen Zahlen zugeordnet Niveau Dabei ist die Wahrscheinlichkeit,

Achtung Vorlesung am Montag, den 21. Juni Zeit: Uhr Ort: Kiste.

Neuronale Netzwerke am Beispiel eines MLP

Eigenschaften der OLS-Schätzer

Variationsformalismus für das freie Teilchen

Self Organizing Tree Algorithm

Neuronale Netze Teil II.

Ausgleichung ohne Linearisierung

Ausgleichungsrechnung II

GIS - Seminar Wintersemester 2000/2001

Quantum Computing Hartmut Klauck Universität Frankfurt WS 05/

Effiziente Algorithmen Hartmut Klauck Universität Frankfurt SS

Effiziente Algorithmen

Effiziente Algorithmen Hartmut Klauck Universität Frankfurt SS

Quantum Computing Hartmut Klauck Universität Frankfurt WS 05/

Quantum Computing Hartmut Klauck Universität Frankfurt WS 04/

Die Poisson-Verteilung: Mittelwert und Standardabweichung

STATISIK LV Nr.: 0028 SS Mai 2005.

Statistische Methoden in der Wirtschafts- und Sozialgeographie

Integration oberflächenbestimmender Objekte ins DGM Seminar GIS IV SS

SOTA Andrej Gisbrecht

Newton Verfahren.

Klassifikation und Regression mittels neuronaler Netze

Information Retrieval, Vektorraummodell

Statistik – Regression - Korrelation

Möglichkeiten der Visualisierung

Sebastian Loose DPF – A Perceptual Distance Function for Image Retrieval Proseminar SS 2005 Distanzen und Ähnlichkeitsmaße im Hochdimensionalem.

Institut für Kartographie und Geoinformation Prof. Dr. Lutz Plümer Diskrete Mathematik II Foliendesign: Jörg Steinrücken & Tobias Kahn Vorlesung

The PicSOM Retrieval System 1 Christian Steinberg.

Constraint Delaunay Triangulations

Routenplanung querfeldein - Geometric Route Planning

SS 2009Maschinelles Lernen und Neural Computation 133 Kapitel 7: Ensemble Methoden.

Maschinelles Lernen und Neural Computation

Beugung an Streuzentren

Gliederung der Vorlesung

Institut für Informationssysteme Technische Universität Braunschweig Institut für Informationssysteme Technische Universität Braunschweig Verdrängung von.

c-means clustering (FCM)

Geoinformationssysteme

Programmiersprachen II Fortsetzung Datenstrukturen Balancierte Bäume 3 Prof. Dr. Reiner Güttler Fachbereich GIS HTW.

CL Tree MW 31.1 Business Intelligence Wintersemester 2015 / 2016 Stanislav Prokupetz.

PCA Principal Component Analysis. Gliederung PCA – Warum eigentlich? PCA – Was ist zu tun? Was passiert eigentlich? Anwendungen Zusammenfassung.

Spärliche Kodierung von Videos natürlicher Szenen Vortragender: Christian Fischer.

 Gegenstandsbereich der Testtheorie: Analyse der Charakteristika von Tests:  Güte von Tests.  Struktur von Tests.  Schwierigkeit von Tests.  Gruppenunterschiede.

Clusteranalyse Wege und Arten Entstanden im Rahmen der Seminararbeit für WS09/10 Betreuer: Prof. Jobst Hoffmann Dr. Tim Hiddemann Aachen, Januar 2010.

Independent Component Analysis: Analyse natürlicher Bilder Friedrich Rau.

Generierung von Flächenrepräsentationen aus Punktdaten

Kapitel 2: Klassifikation

Kapitel 5: Der praktische Umgang mit komplexen Lernern

Präsentation transkript:

SS 2009Maschinelles Lernen und Neural Computation 107 Kapitel 6: Unüberwachtes Lernen

SS 2009Maschinelles Lernen und Neural Computation 108 Clustering Gegeben: eine Menge von Punkten (Beispielen), „ungelabelt“ (i.e. Klasse unbekannt) Gesucht: eine Menge von Clustern (Cluster- Zentren), die die Daten möglichst gut beschreiben („Vektorquantisierung“)  minimiere (Summe der Abstände zu allen Zentren, quadratischer Quantisierungsfehler)

SS 2009Maschinelles Lernen und Neural Computation 109 K-means Clustering Gradientenverfahren Neues Cluster-Zentrum ist Mittelwert der Punkte im Cluster Mehrere Iterationen notwendig

SS 2009Maschinelles Lernen und Neural Computation 110 Clustering als NC: Competitive Learning Architektur wie Perceptron f... Gauss; wie RBFN Wähle „Gewinner“ (am stärksten aktivierte Unit) Setze „Gewinner“ auf 1, alle anderen auf 0 „winner-take-all“ Gewinner lernt (Instar Regel):

SS 2009Maschinelles Lernen und Neural Computation 111 Geometrische Interpretation Gewichtsvektoren und Inputs sind Punkte im Raum Input Gewinner wählen = finde nähesten Gewichstvektor Resultat: Gruppen in den Daten werden gefunden Instar: Ziehe Gewichtsvektor zu Input hin stochastische Variante von k-means!  Matlab>demos>neural networks>other demos>chapter 14>competitive learning

SS 2009Maschinelles Lernen und Neural Computation 112 Eigenschaften Clustering nach k-means ist Gauss‘sches Clustering (symmetrische Streuung) Aufteilung des Raumes: Voronoi Tesselation Mögliche Probleme: –Lokale Minima (bei schlechter Initialisierung) –Verzerrung durch Ausreisser

SS 2009Maschinelles Lernen und Neural Computation 113 Gaussian Mixtures als Clustering Clustering wird als Dichteschätzung betrachtet Anschreibbar wie Klassifikationsproblem: EM-Algorithmus (max. Likelihood): Posterior des Clusters i Gaussverteilung Prior (  i ) Dichte (GMM) Gewichteter Mittelwert, analog zu k-means  Netlab>demgmm1.m

SS 2009Maschinelles Lernen und Neural Computation 114 Vorteile der GMM Vorteile: –Probabilitischer Rahmen –Zugehörigkeit zu Clustern angebbar (Posterior) –Ausgeprägtheit von Clustern bestimmbar –Modellauswahl möglich (anhand der Likelihood) k-means: optimale Anzahl der Clusters nicht leicht bestimmbar

SS 2009Maschinelles Lernen und Neural Computation 115 Erweiterungen Erweiterung auf beliebige Gauss- Verteilungen möglich K-means: entspricht „Mahalonobis Distanz“ (berücksichtigt Varianzen innerhalb der Cluster)  Netlab>demgmm3.m, demgmm4.m Gewöhnliche (sphärische) Gauss-Funktionen Beliebige Gauss-Funktionen

SS 2009Maschinelles Lernen und Neural Computation 116 Nicht-Gauss‘sches Clustering Nur als Mixture von Gauss‘schen Zentren beschreibbar Wenn „natürliche“ Cluster gefunden werden sollen: Nur parametrisch möglich (d.h. Form der Cluster bekannt) Ansonsten: Identifikationsproblem

SS 2009Maschinelles Lernen und Neural Computation 117 Andere Formen des Clustering Andere Distanz-(Ähnlichkeits-)Maße z.B. Manhattan-Distanz, Ranking Andere Fehler-(Kriteriums-)Funktionen z.B. Kohäsion innerhalb des Clusters, Entropie Hierarchisches Clustering –Dendrogramme –ART mit verschiedenen Vigilanzen

SS 2009Maschinelles Lernen und Neural Computation 118 Selforganizing Maps (SOM) Kohonen (1981, 1990) Nachbarschaft definiert Wie CL: winner-take-all, Instar Aber Nachbarn lernen mit Nachbarschaftsfunktion, wird im Laufe des Trainings Kleiner (Stabilisierung)

SS 2009Maschinelles Lernen und Neural Computation 119 SOM: Geometrische Interpretation Topologische Beziehung der Clusters bleibt weitgehend bestehen Benachbarte Units entsprechen benachbarten Clustern Datenraum wird auf die 2-dim. Struktur abgebildet („Karte“) Dient zur Visualisierung hochdimensionaler Daten 2-dim. Struktur wird in den hochdimensionalen Raum eingepasst - Projektion 3x3 SOM  Vienet2>uebung4.exe; Matlab>demos>2dim. selforganizing map

SS 2009Maschinelles Lernen und Neural Computation 120 Beispiel: politische Konflikte Daten: Konflikte und Vermittlungsversuche seit 1945 (Bercovitch & Langely 1993) 6 Dimensionen: –Dauer –Politische Macht A –Politische Macht B –Politische Rechte B –Initiator –Vermittlunsgerfolg 2 dim. Visualisierung 

SS 2009Maschinelles Lernen und Neural Computation 121 SOM Durch schlechte Initaliseriung kann k-means zu sub-otpimalen Lösungen führen (lokales Minimum) SOM: durch Mitziehen der Nachbarn wird der Datenraum besser abgedeckt (lokale Minima können vermieden werden) Zusätzlich: –Topologische Beziehung –Mehr Zentren in Bereichen hoher Dichte

SS 2009Maschinelles Lernen und Neural Computation 122 Multidimensionale Skalierung Aufgabe: Bilde hochdimensionale (n-d) Daten auf niedrige Dimensionalität (k-d) ab, sodaß Abstände zwischen den Punkten annähernd gleich bleiben (Dimensionsreduktion) Funktioniert gut, wenn Daten auf k-dim. Mannigfaltigkeit liegen (z.B. gekrümmte Fläche)

SS 2009Maschinelles Lernen und Neural Computation 123 SOM als MDS MDS entspricht dem Prinzip der topologischen Erhaltung in der SOM  SOM ist Clustering + MDS (mit Verzerrung abh. von Dichte)! Bereich 1 1 Bereich 2 2

SS 2009Maschinelles Lernen und Neural Computation 124 Topologische Darstellung Zwischenzustände durch Gewichtung mittels Distanz zu Zentren Ausgeprägte Grenzen darstellbar (U-Map, Ultsch)

SS 2009Maschinelles Lernen und Neural Computation 125 Alternative: Sammon Mapping Minimiere Differenz aller Abstände: Nachteil: hoher Berechnungsaufwand Lösung: zuerst Clustering, dann Sammon Mapping (weniger Punkte); Flexer 1996 Aber: Gleiche Probleme mit lokalen Minima wie k-means Abstand Originalpunkte Punkte in der Map Normalisierung

SS 2009Maschinelles Lernen und Neural Computation 126 Probleme der SOM Keine probabilistische Beschreibung Konvergenz nicht garantiert Es gibt keine Fehlerfunktion, die minimiert wird! Clustering und MDS beeinflussen einander (beides kann suboptimal sein) Es ist schwer abschätzbar, ob SOM gut ist oder nicht  Empfehlung: –SOM nur zur Visualisierung einsetzen! (nicht zum Clustering oder für überwachte Probleme) –Genau überlegen, was Kriterium ist; Alternativen suchen

SS 2009Maschinelles Lernen und Neural Computation 127 Generative Topographic Mapping (GTM) Bishop et al. (1996) Nichtlineares Mapping von einer Gitterstruktur auf eine Gaussian Mixture (z.B. durch MLP) GMM mit Randbedingungen Probabilistische Formulierung, umgeht viele der Probleme der SOM Aus Bishop et al. (1996), Neural Computation 10(1), Aus Netlab Demo demgtm2.m  Netlab>demgtm1.m, demgtm2.m Zentrum abh. von Gitterpunkt

SS 2009Maschinelles Lernen und Neural Computation 128 Praktische Aspekte Auch für unüberwachte Verfahren gelten im wesentlichen die 7 Schritte: 1.Sichtung (Ausreißer) 2.Vorverarbeitung: Skalierung der Merkmale beeinflusst die Distanz  Normalisierung 3.Merkmalsselektion: irrelevante Merkmale können Clustering erschweren:

SS 2009Maschinelles Lernen und Neural Computation 129 Kreuzvalidierung für unüberwachtes Lernen 4.Modellschätzung mittels Kreuzvalidierung: bei k-means problematisch bei GMM: Likelihood-Funktion als Fehlerfunktion („Loss“-Funktion)

SS 2009Maschinelles Lernen und Neural Computation 130 Kombination von überwachtem mit unüberwachtem Lernen Unüberwachte Verfahren alleine eignen sich nur für unüberwachte Probleme! Bei überwachtem Problem (gelabelte Daten) kann unüberwachtes Verfahren eingesetzt werden als –Initialisierung –Vorstrukturierung Beispiele: –SOM oder GTM als Initialisierung eines RBFN –Learning Vector Quantization –ARTMAP

SS 2009Maschinelles Lernen und Neural Computation 131 Learning Vector Quantization (LVQ) Kohonen (1990) Ordne Units Klassen zu  nearest neighbor Verfahren mit Vektorquantisierung (nicht jeder Trainingspunkt gespeichert) Vergleichbar mit Dichteschätzung der class-conditionals hinbewegen, wenn richtige Klasse wegbewegen, wenn falsche Klasse

SS 2009Maschinelles Lernen und Neural Computation 132 Zusammenfassung Unüberwachte neuronale Netz-Verfahren reihen sich ebenfalls nahtlos in die Statistik Competitive Learning = k-means GMM als probabilistisches Clusteringverfahren SOM als Multidimensionale Skalierung + Clustering, aber mit Problemen