Präsentation herunterladen
Die Präsentation wird geladen. Bitte warten
Veröffentlicht von:Salida Redel Geändert vor über 10 Jahren
1
Demoprogramm: Clustering Eine graphische Demonstration verschiedener Clusteringalgorithmen anhand des Clusterings von Punkten im zweidimensionalen Raum. Von Markus Maier
2
Überblick Ziele des Programms Eigenschaften der verwendeten Algorithmen Eigenschaften der verwendeten Abstandsmaße Funktionalität des Programms Überblick über die Systemarchitektur Demonstration
3
Ziele des Demo Programms Visualisierung des Ablaufs der verschiedenen Algorithmen Graphische Darstellung der Ergebnisse zum Vergleich der Algorithmen und Distanzmaße Erleichterung des Tests neuer Algorithmen durch Bereitstellung einer Testumgebung
4
Verwendete Algorithmen Partitionierende Verfahren – k-means [MacQueen 67] – k-medoid – PAM [Kaufman & Rousseeuw 1990] Hierarchische Verfahren – Binäres Hierarchisches Clustering
5
k-means Sehr schnell (Laufzeitkomplexität fast linear) Nur für kontinuierliche Attribute Cluster durch einen Punkt repräsentiert Anzahl Cluster muss bekannt sein (kann durch mehrfache Durchläufe herausgefunden werden) Favorisiert runde Cluster Etwas anfällig für Ausreißer und Rauschen Stark abhängig von Wahl der Startpunkte
6
k-medoid Eigenschaften ähnlich k-means Erlaubt auch kategorische Attribute Ungenauer als k-means Noch etwas schneller (gleiche Komplexität)
7
PAM Ergebnis ähnlich k-medoid (runde Cluster, ungenau, etc) Viel weniger abhängig von Wahl der Startpunkte Erlaubt kategorische Attribute Anzahl Cluster muss bekannt sein (kann durch mehrfache Durchläufe herausgefunden werden) Extrem langsam (Komplexität etwa n 3 )
8
Binäres Hierarchisches Clustering Hierarchisches Verfahren Erlaubt kategorische Attribute Verschiedene Distanzmaße möglich, damit auch verschiedenste Clusterformen keine Parameter nötig Zurückgehen zum besten Clustering möglich Sehr langsam (Komplexität etwa quadratisch), Abhilfe bringt Caching oder Prototypenclustering
9
Verwendete Abstandsmaße Single Linkage Complete Linkage Average Linkage
10
Single Linkage Kürzeste Entfernung zwischen Punkten in zwei Clustern wird verglichen Ermöglicht beliebig geformte Cluster, sogar Cluster innerhalb anderer, hohler Cluster sind möglich Gute Trennung bei genügendem Abstand Brückenbildung durch Rauschen kann getrennte Cluster ungewünscht verbinden
11
Complete Linkage Längste Entfernung zwischen Punkten in zwei Clustern wird verglichen Favorisiert stark kompakte Cluster Längliche Cluster kaum möglich Etwas anfälliger für Rauschen
12
Average Linkage Durchschnittlicher Abstand aller Punkte in zwei Clustern wird verglichen Wenig anfällig für Ausreißer Gutes all-round Abstandsmaß
13
Funktionalität des Programms Verschiedene Algorithmen vergleichbar Einzelne Schritte der Algorithmen sichtbar Verschiedene Distanzmaße vergleichbar Beliebige Muster erzeugbar Parameter einstellbar Laden/Speichern von Mustern möglich
14
Architektur Programmiert in reinem Java TM v1.4 – platformunabhängig – startbar als Applet oder stand-alone Application – leicht erweiterbar Clusterer teilen sich viele interne Strukturen Clustering in eigenem Thread
15
Verwendete Literatur Martin Ester und Jörg Sander (2000) Knowledge Discovery in Databases. Techniken und Anwendungen. Springer Verlag. Folien zu Kapitel 3: Clustering http://www.dbs.informatik.uni- muenchen.de/Publikationen/Buecher/Kap3.Cluste ring.ppt
Ähnliche Präsentationen
© 2024 SlidePlayer.org Inc.
All rights reserved.