Clusteranalyse Wege und Arten Entstanden im Rahmen der Seminararbeit für WS09/10 Betreuer: Prof. Jobst Hoffmann Dr. Tim Hiddemann Aachen, Januar 2010.

Slides:



Advertisements
Ähnliche Präsentationen
Referentin: Stefanie Jahn SS 2007
Advertisements

Hier einige Hieroglyphen:
Inhalt Saarbrücken,.
Wissensanalyse von Aufgaben mit TKS Eine Methode zur Problemlösung
Constraint Satisfaction Problems
Streuungsmaß 3: absolute Abweichung vom Mittelwert
IuK 2003 Ansätze zur TeX-to-MathML Konvertierung - Semantik durch fachspezifische Usepackages Prof. Dr. Günter Törner Sebastian Pokutta Universität Duisburg-Essen.
Seminar Stochastik im WS 02/03
Ziele der Analyse sozialer Netzwerke in den Sozialwissenschaften
Sortierverfahren Richard Göbel.
Sortierverfahren Richard Göbel.
Effizienz: Indexstrukturen
Algorithmus. Ein Kochrezept, zum Beispiel: Kartoffelbrei.
WS Algorithmentheorie 05 - Treaps Prof. Dr. Th. Ottmann.
Algorithmen und Datenstrukturen
Vorlesung Informatik 2 Algorithmen und Datenstrukturen (10 - Suchverfahren) T. Lauer.
Patrick Rössler Methoden der Datenerhebung und -auswertung Vorlesung BA Kommunikationswissenschaft (G21) 1.
Demoprogramm: Clustering Eine graphische Demonstration verschiedener Clusteringalgorithmen anhand des Clusterings von Punkten im zweidimensionalen Raum.
Numerische Klassifikation TWINSPAN
Informatik Als Grund- und Leistungskurs in der ERS 1.
Grundlegende Analysen & Zwischendarstellungen
Vortrag 11: Reengineering - Refactoring
Herzlich willkommen beim 1. Workshop der AG Methodik
Präsentation der Ergebnisse von Clusteranalysen
Eingabe und Kodierung von Daten in SPSS
Statistische Methoden I WS 2004/2005 Vorlesung:Prof. Dr. Michael Schürmann Zeit:Freitag (Pause: ) Ort:Hörsaal Loefflerstraße.
Statistische Methoden I WS 2002/2003 Vorlesung:Prof. Dr. Michael Schürmann Zeit:Freitag (Pause: ) Ort:Hörsaal Loefflerstraße.
FH-Hof Algorithmen und Datenstrukturen - Einführung Richard Göbel.
Distributionspolitik
Online-Befragung Themen: 1. Vor- und Nachteile 2. Voraussetzungen
Wichtige Fachausdrücke in C
Externe Bewertung in IB-Biologie
Pagoda Systems Software Solutions
Institut für Kartographie und Geoinformation Prof. Dr. Lutz Plümer Diskrete Mathematik II Vorlesung 1 SS 2001 Algorithmus von Dijkstra.
Self Organizing Tree Algorithm
Überblick Statistik Deskriptive Statistik=beschreibende Statistik
Chi Quadrat Test Tamara Katschnig.
Überblick Statistik Deskriptive Statistik=beschreibende Statistik
Computational Thinking Online Algorithmen [Was ist es wert, die Zukunft zu kennen?] Kurt Mehlhorn Konstantinos Panagiotou.
Überblick Statistik Deskriptive Statistik=beschreibende Statistik
Erzeugen von Karten, Layern und Legenden
Quantum Computing Hartmut Klauck Universität Frankfurt WS 05/
Black Box Algorithmen Hartmut Klauck Universität Frankfurt SS
Quantum Computing Hartmut Klauck Universität Frankfurt WS 04/
Quantum Computing Hartmut Klauck Universität Frankfurt WS 05/ /23.1.
Quantum Computing Hartmut Klauck Universität Frankfurt WS 05/
Einführung in SPSS/PASW. Eckdaten Ort: ZIP-Pool Zielgruppe: Primär 3. Semester Bachelor, sekundär Diplomstudierende Zeiten: Dienstags: 10:15-11:45 Uhr.
Einführung in SPSS/PASW. Inhaltsübersicht 1. Intro ( ) 2. Deskriptive Statistik ( ) (In Buch 1 Seite 85ff.) Kennwerte (Erwartungswert,
Adaption von K-Means Algorithmen an Datenbanken
Analyse von Arbeitsaufträgen „Durch Geschichte zur Gegenwart 2“
Statistische Methoden in der Wirtschafts- und Sozialgeographie
Hochschule Fulda – FB ET Sommersemester 2014
Statistik Statistik I Seminar + Blockveranstaltung Statistik I
Institut für Kartographie und Geoinformation Prof. Dr. Lutz Plümer Geoinformation III Vorlesung 1 WS 2001/02 Punkt-in-Landkarte I (Streifenkarte)
Veranstaltung 4.
Die Clusteranalyse Zielsetzung Datenreduktion: Zusammenfassung einer Vielzahl von Objekten oder Variablen zu Gruppen mit möglichst ähnlichem Informationsgehalt.
Inhalt Einordnung und Funktion der lexikalische Analyse Grundlagen
Messen Zuordnung von Zahlen zu Objekten/Ereignissen gemäß Regeln
G. Gröger - Einführung in die Programmierung mit Java - 1. Semester - WS 02/ Übungsaufgabe vom Logische Ausdrücke 1.true & false | true 2.(10>2)
Institut für Kartographie und Geoinformation Prof. Dr. Lutz Plümer Diskrete Mathematik II Vorlesung Suche des kürzesten Weges in einem Netz.
Mathematik für BiologInnen WS 05
Optimierungs- Algorithmen Petra Mutzel Technische Universität Wien Institut für Computergraphik und Algorithmen Algorithmen und Datenstrukturen 2.
Studieneinstiegstest – Motivation, Hintergrund und Aufbau
Clusteranalyse Tamara Katschnig.
Institut für Informationssysteme Technische Universität Braunschweig Institut für Informationssysteme Technische Universität Braunschweig Verdrängung von.
Programmiersprachen II Fortsetzung Datenstrukturen Hashing Prof. Dr. Reiner Güttler Fachbereich GIS HTW.
Lehrstuhl für Wirtschaftsinformatik Univ.-Prof. Dr. Johannes Ruhland Referent: Vogel, Stephan Business Intelligence Distanzmaße
Rechen- und Kommunikationszentrum (RZ) Strukturierte Datensammlung in verteilten Systemen für den DHCP-Service Tim Becker Seminararbeit / /
Rechen- und Kommunikationszentrum (RZ) Selektionsstrategien auf Graphstrukturen Sven Porsche Seminarvorträge Aachen.
Titel des Wissenschaftsprojekts
 Präsentation transkript:

Clusteranalyse Wege und Arten Entstanden im Rahmen der Seminararbeit für WS09/10 Betreuer: Prof. Jobst Hoffmann Dr. Tim Hiddemann Aachen, Januar 2010

Übersicht Problemstellung Hintergründe Mathematik Algorithmen Schlusswort und Ausblick

Einführung in die Problemstellung

Strukturierte Daten 4 Ungeordnete Datensammlungen Ähnlichkeiten Muster Gruppen Entwicklungen Bilder Positionen Wetterdaten Verkaufszahlen Kundenkarten Flottenüberwachung Problemstellung

Einordnung der Clusteranalyse in die Verfahren der multivarianten Statistik Selbstständig arbeitendes Verfahren zur Erkennung von Strukturen. Unselbstständig arbeitendes Verfahren zur Erkennung von Strukturen. Selbstständig arbeitendes Verfahren zur Bestätigung von Strukturen. Unselbstständig arbeitendes Verfahren zur Bestätigung von Strukturen. 5

6 Eigenschaften der Clusteranalyse Selbstständig Laufend. Keine (wenige) Vorkenntnisse über die Struktur der Daten. Finden homogenen Gruppen und/oder Repräsentanten. Verfahren sind unter mehreren Namen bekannt.

7 Ziele Maximale Homogenität in der Gruppe. Möglichst große Heterogenität zwischen den Gruppen.

8 Quelle: Clusteranalysen, Eckes und Roßbach, Seite14

9 Zweck und Gefahr Datenreduktion: Repräsentanten für Datengruppen finden. Effizienz: Sehr viele Kombinationen.

Aufteilung von n Objekte auf k Cluster Stirlingsche Zahl zweiter Art Beispiel: 10 Objekte auf 3 Cluster S(10, 3) = (59049 – – 0) / 9 = 6220

Verfahren

Unvollständige Verfahren / geometrische Verfahren / Projektionsverfahren: Räumliche Darstellung von Elementen. Deterministische Verfahren: Jedes Element zu einem Cluster. Probabilistische Verfahren: Elemente zu mehreren Clustern.

Hierarchische Clustermethoden Schrittweises Aufteilen => diversive Verfahren Schrittweises Zusammenfassen => agglomerative Verfahren Vorteil: Rangfolge an den Daten ablesbar Nachteil: Getroffene Entscheidungen sind endgültig. Nachteil: Hoher Speicherbedarf.

Partitionierende Clustermethoden Gruppenanzahl wird a-priori vorgegeben. Vorteil: Es muss nur eine einzige Partitionierung berechnet werden. Nachteil: Bei falschen Eingabe lässt die Konvergenz stark nach oder ist gar nicht vorhanden.

Computerprogramme Freie Software: Statistik Labor, entwickelt von der freien Universität Berlin. PSPP, ein freier SPSS Klon. Kommerzielle Software: SPSS ALMO BMDP, urspünglich als freie Software von der UCLA entwickelt, heute von Statistical Solutions vertrieben. SAS

Einsatzgebiete Sozialwissenschaften – z.B Gruppenverhalten Wirtschaftswissenschaften – z.B. Kundengruppen, Märkte Biologie – z.B. Arten von Pflanzen und Tieren Medizin – z.B. Patientendaten Geologie - z.B. Bodenanalysen Informatik – z.B. Blogger, Malware, Kryptographie

Mathematik

Distanzmaße Ein Distanzmaß ist die Vorschrift nach der ein Abstand zwischen zwei Werten berechnet wird. Variablentypen: metrisch, nominal und ordinal

metrische Variablen Metrische Variablen sind Werte, deren Abstände sich durch einen Zahlenwert ausdrücken lassen. Der Abstand zweier Werte ist ein nicht negativer reeller Wert. Beispiel: 3, 5, 1.7

Quelle: Clusteranalysen, Eckes und Roßbach, Seite 46

Aussage über gleich oder ungleich. Gibt es nur 2 Möglichkeiten nennt man sie auch dichotome oder binäre Variablen. Beispiel: Mann Frau, Ja Nein nominale Variablen

ordinale Variablen Zusätzlich zu der Aussage über Gleichheit oder Ungleichheit der nominalen Variablen bilden ordinale Variablen eine Rangordnung ab. Beispiel: Erster, Zweiter, Dritter

Algorithmen

k-means-Verfahren 1967 von MacQueen veröffentlicht. Grundlage für Vielzahl von Verfahren Arbeitet mit quadrierten Distanzen. Ergebnis u. U. Abhängig von Reihenfolge der Daten

Ablauf k-means 1. Startbedingungen für die Clusterrepräsentanten (Clusterzentren) (Variante 1) Lauf über alle Elemente in M. » => dist(Element, Cluster) -> min 2.2. (Variante 2) Das nächste Element in M wird zugeordnet. » => dist(Element, Cluster) -> min 3. Die Clusterzentren verschieben. => d² -> min 4. Haben sich die Cluster nicht verändert => Abbruch, sonst weiter an Schritt 2.

Singe-linkage-Verfahren Nächste Nachbarn Verfahren Start: Jedes Element ein Cluster Fügt immer die Beiden Elemente/Cluster mit der geringsten Distanz zusammen. Lässt sich graphisch durch ein Dendogramm leicht darstellen.

Ausblick auf die Bachelorarbeit Analyse von mehr als Antikörpern in der eigenen Datenbank. Vergleich mit mehr als Antikörpern in Internet. Vielen Dank für Ihre Aufmerksamkeit!