Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

Demoprogramm: Clustering Eine graphische Demonstration verschiedener Clusteringalgorithmen anhand des Clusterings von Punkten im zweidimensionalen Raum.

Ähnliche Präsentationen


Präsentation zum Thema: "Demoprogramm: Clustering Eine graphische Demonstration verschiedener Clusteringalgorithmen anhand des Clusterings von Punkten im zweidimensionalen Raum."—  Präsentation transkript:

1 Demoprogramm: Clustering Eine graphische Demonstration verschiedener Clusteringalgorithmen anhand des Clusterings von Punkten im zweidimensionalen Raum. Von Markus Maier

2 Überblick Ziele des Programms Eigenschaften der verwendeten Algorithmen Eigenschaften der verwendeten Abstandsmaße Funktionalität des Programms Überblick über die Systemarchitektur Demonstration

3 Ziele des Demo Programms Visualisierung des Ablaufs der verschiedenen Algorithmen Graphische Darstellung der Ergebnisse zum Vergleich der Algorithmen und Distanzmaße Erleichterung des Tests neuer Algorithmen durch Bereitstellung einer Testumgebung

4 Verwendete Algorithmen Partitionierende Verfahren – k-means [MacQueen 67] – k-medoid – PAM [Kaufman & Rousseeuw 1990] Hierarchische Verfahren – Binäres Hierarchisches Clustering

5 k-means Sehr schnell (Laufzeitkomplexität fast linear) Nur für kontinuierliche Attribute Cluster durch einen Punkt repräsentiert Anzahl Cluster muss bekannt sein (kann durch mehrfache Durchläufe herausgefunden werden) Favorisiert runde Cluster Etwas anfällig für Ausreißer und Rauschen Stark abhängig von Wahl der Startpunkte

6 k-medoid Eigenschaften ähnlich k-means Erlaubt auch kategorische Attribute Ungenauer als k-means Noch etwas schneller (gleiche Komplexität)

7 PAM Ergebnis ähnlich k-medoid (runde Cluster, ungenau, etc) Viel weniger abhängig von Wahl der Startpunkte Erlaubt kategorische Attribute Anzahl Cluster muss bekannt sein (kann durch mehrfache Durchläufe herausgefunden werden) Extrem langsam (Komplexität etwa n 3 )

8 Binäres Hierarchisches Clustering Hierarchisches Verfahren Erlaubt kategorische Attribute Verschiedene Distanzmaße möglich, damit auch verschiedenste Clusterformen keine Parameter nötig Zurückgehen zum besten Clustering möglich Sehr langsam (Komplexität etwa quadratisch), Abhilfe bringt Caching oder Prototypenclustering

9 Verwendete Abstandsmaße Single Linkage Complete Linkage Average Linkage

10 Single Linkage Kürzeste Entfernung zwischen Punkten in zwei Clustern wird verglichen Ermöglicht beliebig geformte Cluster, sogar Cluster innerhalb anderer, hohler Cluster sind möglich Gute Trennung bei genügendem Abstand Brückenbildung durch Rauschen kann getrennte Cluster ungewünscht verbinden

11 Complete Linkage Längste Entfernung zwischen Punkten in zwei Clustern wird verglichen Favorisiert stark kompakte Cluster Längliche Cluster kaum möglich Etwas anfälliger für Rauschen

12 Average Linkage Durchschnittlicher Abstand aller Punkte in zwei Clustern wird verglichen Wenig anfällig für Ausreißer Gutes all-round Abstandsmaß

13 Funktionalität des Programms Verschiedene Algorithmen vergleichbar Einzelne Schritte der Algorithmen sichtbar Verschiedene Distanzmaße vergleichbar Beliebige Muster erzeugbar Parameter einstellbar Laden/Speichern von Mustern möglich

14 Architektur Programmiert in reinem Java TM v1.4 – platformunabhängig – startbar als Applet oder stand-alone Application – leicht erweiterbar Clusterer teilen sich viele interne Strukturen Clustering in eigenem Thread

15 Verwendete Literatur Martin Ester und Jörg Sander (2000) Knowledge Discovery in Databases. Techniken und Anwendungen. Springer Verlag. Folien zu Kapitel 3: Clustering muenchen.de/Publikationen/Buecher/Kap3.Cluste ring.ppt


Herunterladen ppt "Demoprogramm: Clustering Eine graphische Demonstration verschiedener Clusteringalgorithmen anhand des Clusterings von Punkten im zweidimensionalen Raum."

Ähnliche Präsentationen


Google-Anzeigen