Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

Clusteranalyse Wege und Arten Entstanden im Rahmen der Seminararbeit für WS09/10 Betreuer: Prof. Jobst Hoffmann Dr. Tim Hiddemann Aachen, Januar 2010.

Ähnliche Präsentationen


Präsentation zum Thema: "Clusteranalyse Wege und Arten Entstanden im Rahmen der Seminararbeit für WS09/10 Betreuer: Prof. Jobst Hoffmann Dr. Tim Hiddemann Aachen, Januar 2010."—  Präsentation transkript:

1 Clusteranalyse Wege und Arten Entstanden im Rahmen der Seminararbeit für WS09/10 Betreuer: Prof. Jobst Hoffmann Dr. Tim Hiddemann Aachen, Januar 2010

2 Übersicht Problemstellung Hintergründe Mathematik Algorithmen Schlusswort und Ausblick

3 Einführung in die Problemstellung

4 Strukturierte Daten 4 Ungeordnete Datensammlungen Ähnlichkeiten Muster Gruppen Entwicklungen Bilder Positionen Wetterdaten Verkaufszahlen Kundenkarten Flottenüberwachung Problemstellung

5 Einordnung der Clusteranalyse in die Verfahren der multivarianten Statistik Selbstständig arbeitendes Verfahren zur Erkennung von Strukturen. Unselbstständig arbeitendes Verfahren zur Erkennung von Strukturen. Selbstständig arbeitendes Verfahren zur Bestätigung von Strukturen. Unselbstständig arbeitendes Verfahren zur Bestätigung von Strukturen. 5

6 6 Eigenschaften der Clusteranalyse Selbstständig Laufend. Keine (wenige) Vorkenntnisse über die Struktur der Daten. Finden homogenen Gruppen und/oder Repräsentanten. Verfahren sind unter mehreren Namen bekannt.

7 7 Ziele Maximale Homogenität in der Gruppe. Möglichst große Heterogenität zwischen den Gruppen.

8 8 Quelle: Clusteranalysen, Eckes und Roßbach, Seite14

9 9 Zweck und Gefahr Datenreduktion: Repräsentanten für Datengruppen finden. Effizienz: Sehr viele Kombinationen.

10 Aufteilung von n Objekte auf k Cluster Stirlingsche Zahl zweiter Art Beispiel: 10 Objekte auf 3 Cluster S(10, 3) = (59049 – 3072 + 3 – 0) / 9 = 6220

11 Verfahren

12 Unvollständige Verfahren / geometrische Verfahren / Projektionsverfahren: Räumliche Darstellung von Elementen. Deterministische Verfahren: Jedes Element zu einem Cluster. Probabilistische Verfahren: Elemente zu mehreren Clustern.

13 Hierarchische Clustermethoden Schrittweises Aufteilen => diversive Verfahren Schrittweises Zusammenfassen => agglomerative Verfahren Vorteil: Rangfolge an den Daten ablesbar Nachteil: Getroffene Entscheidungen sind endgültig. Nachteil: Hoher Speicherbedarf.

14 Partitionierende Clustermethoden Gruppenanzahl wird a-priori vorgegeben. Vorteil: Es muss nur eine einzige Partitionierung berechnet werden. Nachteil: Bei falschen Eingabe lässt die Konvergenz stark nach oder ist gar nicht vorhanden.

15 Computerprogramme Freie Software: Statistik Labor, entwickelt von der freien Universität Berlin. PSPP, ein freier SPSS Klon. Kommerzielle Software: SPSS ALMO BMDP, urspünglich als freie Software von der UCLA entwickelt, heute von Statistical Solutions vertrieben. SAS

16 Einsatzgebiete Sozialwissenschaften – z.B Gruppenverhalten Wirtschaftswissenschaften – z.B. Kundengruppen, Märkte Biologie – z.B. Arten von Pflanzen und Tieren Medizin – z.B. Patientendaten Geologie - z.B. Bodenanalysen Informatik – z.B. Blogger, Malware, Kryptographie

17 Mathematik

18 Distanzmaße Ein Distanzmaß ist die Vorschrift nach der ein Abstand zwischen zwei Werten berechnet wird. Variablentypen: metrisch, nominal und ordinal

19 metrische Variablen Metrische Variablen sind Werte, deren Abstände sich durch einen Zahlenwert ausdrücken lassen. Der Abstand zweier Werte ist ein nicht negativer reeller Wert. Beispiel: 3, 5, 1.7

20 Quelle: Clusteranalysen, Eckes und Roßbach, Seite 46

21 Aussage über gleich oder ungleich. Gibt es nur 2 Möglichkeiten nennt man sie auch dichotome oder binäre Variablen. Beispiel: Mann Frau, Ja Nein nominale Variablen

22 ordinale Variablen Zusätzlich zu der Aussage über Gleichheit oder Ungleichheit der nominalen Variablen bilden ordinale Variablen eine Rangordnung ab. Beispiel: Erster, Zweiter, Dritter

23 Algorithmen

24 k-means-Verfahren 1967 von MacQueen veröffentlicht. Grundlage für Vielzahl von Verfahren Arbeitet mit quadrierten Distanzen. Ergebnis u. U. Abhängig von Reihenfolge der Daten

25 Ablauf k-means 1. Startbedingungen für die Clusterrepräsentanten (Clusterzentren). 2.1. (Variante 1) Lauf über alle Elemente in M. » => dist(Element, Cluster) -> min 2.2. (Variante 2) Das nächste Element in M wird zugeordnet. » => dist(Element, Cluster) -> min 3. Die Clusterzentren verschieben. => d² -> min 4. Haben sich die Cluster nicht verändert => Abbruch, sonst weiter an Schritt 2.

26 Singe-linkage-Verfahren Nächste Nachbarn Verfahren Start: Jedes Element ein Cluster Fügt immer die Beiden Elemente/Cluster mit der geringsten Distanz zusammen. Lässt sich graphisch durch ein Dendogramm leicht darstellen.

27 Ausblick auf die Bachelorarbeit Analyse von mehr als 200.000 Antikörpern in der eigenen Datenbank. Vergleich mit mehr als 400.000 Antikörpern in Internet. Vielen Dank für Ihre Aufmerksamkeit!


Herunterladen ppt "Clusteranalyse Wege und Arten Entstanden im Rahmen der Seminararbeit für WS09/10 Betreuer: Prof. Jobst Hoffmann Dr. Tim Hiddemann Aachen, Januar 2010."

Ähnliche Präsentationen


Google-Anzeigen