Demoprogramm: Clustering Eine graphische Demonstration verschiedener Clusteringalgorithmen anhand des Clusterings von Punkten im zweidimensionalen Raum.

Slides:



Advertisements
Ähnliche Präsentationen
Präsentiert von Torben Pastuch
Advertisements


Wissensanalyse von Aufgaben mit TKS Eine Methode zur Problemlösung
Algorithmen und Komplexität Teil 1: Grundlegende Algorithmen
TECHNISCHE UNIVERSITÄT DARMSTADT Naive Bayes for Ranking
„Such-Algorithmen“ Zusammenfassung des Kapitels 11
3. Kapitel: Komplexität und Komplexitätsklassen
Typo3 Schulung.
Anwendung und Visual Basic
Übersicht DIALIGN = DIagonal ALIGNment
Sortierverfahren Richard Göbel.
Sortierverfahren Richard Göbel.
Komponentenbasierter Taschenrechner mit CORBA
Strukturen. In einer Struktur kann eine beliebige Anzahl von Komponenten (Daten) mit unterschiedlichen Datentypen (im Gegensatz zu Feldern) zusammengefaßt.
Vorlesung Informatik 2 Algorithmen und Datenstrukturen (27 – Kürzeste Wege) Prof. Th. Ottmann.
Genetische Algorithmen
Grundlegende Analysen & Zwischendarstellungen
Rigi und Web2Rsf vorgestellt von Tobias Weigand. Inhalt Ziel von Web2Rsf und Rigi Vorstellung des Parsers Web2Rsf Vorstellung des Werkzeugs Rigi Analyse.
Globaler Ansatz Hough-Transformation
Externe Datenstruktur lineare Liste
Planarisierung von Cluster Graphen
Persönliche Homepages von LehrstuhlinhaberInnen Fakultät für Sozialwissenschaften Ruhr-Universität Bochum Eine Untersuchung auch unter Berücksichtigung.
Kurzvorstellung der AG Algorithmen und Komplexität MPI Informatik
Wiederholung mit fester Anzahl (Buch S 115)
O Digitale Schriften Schööön ! Rasterschriften Umriss-Schriften

Folie 1 Reengineering-Werkzeugen für Webseiten Johannes Martin, University of Victoria Ludger Martin, Technische Universität Darmstadt WSR 2001 Bad Honnef,
1 Dienstbeschreibung mit DAML Ein graphischer Editor für DAML - Ting Zheng Betreuer: Michael Klein, Philipp Obreiter.
Algorithmen beschreiben
Datenverteilung in Ad-hoc Netzen 1/24 Adaptive Datenverteilung in mobilen Ad-hoc Netzen unter Verwendung des Area Graph basierten Bewegungsmodells S. Bittner,
Self Organizing Tree Algorithm
Herzlich Willkommen zu „Einführung in die Programmierung mit Java“
in der medizinischen Bildverarbeitung
Abschlussvortrag zur Studienarbeit
Datenbank.
Die Welt der Fraktale Eine Kurzeinführung.
Connectomics Patrick Stern Stephan Weinwurm.
Black Box Algorithmen Hartmut Klauck Universität Frankfurt SS
Quantum Computing Hartmut Klauck Universität Frankfurt WS 05/
Information und Kommunikation Hartmut Klauck Universität Frankfurt SS
Durchführung einer hierarchischen Clusteranalyse
Adaption von K-Means Algorithmen an Datenbanken
Adaption von K-Means Algorithmen an Datenbanken
Teil 2: Kurven und Flächen
Ausgabe vom Seite 1, XML Eine Einführung XML - Eine Einführung.
Factsheets und Argumentarium Generelle Facts Offene Architektur Möglichkeit eines Application Service Providings wodurch hohe Initialkosten entfallen.
Simlab®1 Prozess-Optimierung im medizinischen Labor
Using latent semantic analysis to find different names for the same entity in free text Präsentation und Diskussion des Papers Im Rahmen des PS Web-Information.
Automatisierte Worterkennung (Autocorrect) Automatisierung in der Medientechnik, Labor, KulturMediaTechnologie Lucia Winsauer SS14.
Statistische Methoden in der Wirtschafts- und Sozialgeographie
SOTA Andrej Gisbrecht
Grafische Visualisierung von Softwarestrukturen
Die Clusteranalyse Zielsetzung Datenreduktion: Zusammenfassung einer Vielzahl von Objekten oder Variablen zu Gruppen mit möglichst ähnlichem Informationsgehalt.
Geoinformation I Lutz Plümer
Direkte Darstellung von Faserinformation durch Kohärenzmaße
Organisatorische Aspekte bei Software Produktlinien Benjamin Röhl
Clusteranalyse Tamara Katschnig.
1 Prof. Dr. Andreas SchmietendorfWS06/07 Übung 3 Test der Möglichkeiten des JDBC-Interfaces.
Institut für Informationssysteme Technische Universität Braunschweig Institut für Informationssysteme Technische Universität Braunschweig Verdrängung von.
Effiziente und effektive Clustering-Methode: CLARANS Seminar zu Datenbanksystemen im SS 2007 Name: Chen Jin Betreuer: Christian Stahlhut 10.Juli 2007.
Übungen Ziele Struktur Besonderheiten Trainer Aspekte Methodische Aspekte ABC´s Quellen Übertrag Workshop.
Lehrstuhl für Wirtschaftsinformatik Univ.-Prof. Dr. Johannes Ruhland Referent: Vogel, Stephan Business Intelligence Distanzmaße
1 Einleitung Auf dem Weg zum Web 2.0 (was immer das sein mag) ist jQuery klein und fix Hängt damit die "Großen" wie Prototype, Dojo oder Mochikit ab Kreuzt.
CL Tree MW 31.1 Business Intelligence Wintersemester 2015 / 2016 Stanislav Prokupetz.
Erprobung von Interpolationsmethoden für plan-polare Antennenmesstechnik von Michael Delissen Michael Delissen, IHF, RWTH Aachen University.
Christoph Wirtz | Seminarvortrag EBC | Lehrstuhl für Gebäude- und Raumklimatechnik Ein Tool zum automatisierten Erstellen von Conversion Scripts.
Spärliche Kodierung von Videos natürlicher Szenen Vortragender: Christian Fischer.
Clusteranalyse Wege und Arten Entstanden im Rahmen der Seminararbeit für WS09/10 Betreuer: Prof. Jobst Hoffmann Dr. Tim Hiddemann Aachen, Januar 2010.
 Präsentation transkript:

Demoprogramm: Clustering Eine graphische Demonstration verschiedener Clusteringalgorithmen anhand des Clusterings von Punkten im zweidimensionalen Raum. Von Markus Maier

Überblick Ziele des Programms Eigenschaften der verwendeten Algorithmen Eigenschaften der verwendeten Abstandsmaße Funktionalität des Programms Überblick über die Systemarchitektur Demonstration

Ziele des Demo Programms Visualisierung des Ablaufs der verschiedenen Algorithmen Graphische Darstellung der Ergebnisse zum Vergleich der Algorithmen und Distanzmaße Erleichterung des Tests neuer Algorithmen durch Bereitstellung einer Testumgebung

Verwendete Algorithmen Partitionierende Verfahren – k-means [MacQueen 67] – k-medoid – PAM [Kaufman & Rousseeuw 1990] Hierarchische Verfahren – Binäres Hierarchisches Clustering

k-means Sehr schnell (Laufzeitkomplexität fast linear) Nur für kontinuierliche Attribute Cluster durch einen Punkt repräsentiert Anzahl Cluster muss bekannt sein (kann durch mehrfache Durchläufe herausgefunden werden) Favorisiert runde Cluster Etwas anfällig für Ausreißer und Rauschen Stark abhängig von Wahl der Startpunkte

k-medoid Eigenschaften ähnlich k-means Erlaubt auch kategorische Attribute Ungenauer als k-means Noch etwas schneller (gleiche Komplexität)

PAM Ergebnis ähnlich k-medoid (runde Cluster, ungenau, etc) Viel weniger abhängig von Wahl der Startpunkte Erlaubt kategorische Attribute Anzahl Cluster muss bekannt sein (kann durch mehrfache Durchläufe herausgefunden werden) Extrem langsam (Komplexität etwa n 3 )

Binäres Hierarchisches Clustering Hierarchisches Verfahren Erlaubt kategorische Attribute Verschiedene Distanzmaße möglich, damit auch verschiedenste Clusterformen keine Parameter nötig Zurückgehen zum besten Clustering möglich Sehr langsam (Komplexität etwa quadratisch), Abhilfe bringt Caching oder Prototypenclustering

Verwendete Abstandsmaße Single Linkage Complete Linkage Average Linkage

Single Linkage Kürzeste Entfernung zwischen Punkten in zwei Clustern wird verglichen Ermöglicht beliebig geformte Cluster, sogar Cluster innerhalb anderer, hohler Cluster sind möglich Gute Trennung bei genügendem Abstand Brückenbildung durch Rauschen kann getrennte Cluster ungewünscht verbinden

Complete Linkage Längste Entfernung zwischen Punkten in zwei Clustern wird verglichen Favorisiert stark kompakte Cluster Längliche Cluster kaum möglich Etwas anfälliger für Rauschen

Average Linkage Durchschnittlicher Abstand aller Punkte in zwei Clustern wird verglichen Wenig anfällig für Ausreißer Gutes all-round Abstandsmaß

Funktionalität des Programms Verschiedene Algorithmen vergleichbar Einzelne Schritte der Algorithmen sichtbar Verschiedene Distanzmaße vergleichbar Beliebige Muster erzeugbar Parameter einstellbar Laden/Speichern von Mustern möglich

Architektur Programmiert in reinem Java TM v1.4 – platformunabhängig – startbar als Applet oder stand-alone Application – leicht erweiterbar Clusterer teilen sich viele interne Strukturen Clustering in eigenem Thread

Verwendete Literatur Martin Ester und Jörg Sander (2000) Knowledge Discovery in Databases. Techniken und Anwendungen. Springer Verlag. Folien zu Kapitel 3: Clustering muenchen.de/Publikationen/Buecher/Kap3.Cluste ring.ppt