Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

Clusteranalyse von Maria Eickhold und Tobias Töpfer.

Ähnliche Präsentationen


Präsentation zum Thema: "Clusteranalyse von Maria Eickhold und Tobias Töpfer."—  Präsentation transkript:

1 Clusteranalyse von Maria Eickhold und Tobias Töpfer

2 Gliederung 1. Einführung 2. Vorstellen des Beispiels 3. Proximitätsmaße 4. Methoden zur Clusterbildung 5. Homogenitätsbeurteilung 6. Zusammenfassung

3 1. Einführung Clusteranalyse ist Sammelbegriff für verschiedene Verfahren Objekte auf Grund verschiedener Merkmale zu Klassen/ Clustern zusammen zu fassen Andere Methode: Schwellenwerte weniger objektiv Klassen sollen in sich möglichst homogen sein, untereinander aber maximal unähnliche Ausprägungen der herangezogenen Merkmale aufweisen

4 Anwendung in der Geographie: Hier dient die Clusteranalyse hauptsächlich dazu, Raumeinheiten sinnvoll zu gliedern um sie vergleichbar zu machen. Durch Clusterung wird eine große Menge von Einzel-Daten überschaubar

5 Vorraussetzungen zur Durchführung einer Clusteranalyse Verschiedene Merkmale haben verschiedene Maßeinheiten Standardisieren : unabhängige (orthogolnale) Variablen Variablen sollten auf ein Ziel/ Zweck abgestimmt sein Faktorenanalyse zum herausfiltern der wichtigsten Variablen bietet sich an (Rosner 2001: 21)

6 edu/maps/africa/ tunisia_pol_1990.jpg (Stand: ) 2.Tunesien- Beispiel Klimastation

7 3. Proximitäts-/ Ähnlichkeitsmaße Manhattan-/ City-Block Distanz d jk : Distanz der Objekte j u. k" x i : herangezogenes Merkmal x ij : Ausprägung des Merkmals i bei Objekt j Entfernung entlang der Koordinatenachsen x 1j x 1k x 2k x 2j (Bahrenberg et al. 1992: 282)

8 3.1.2 Quadratische euklidische Distanz Große Entfernungen (>1) werden stärker gewichtet, als kleine (<1) Euklidische Distanz Luftlinienentfernung x 2j x 2k x 1j x 1k x1x1 x2x2 (Bahrenberg et al. 1992: 282)

9 3.1.3 Korrelationskoeffizient zwischen zwei Variablen r jk : Korrelationskoeffizient zwischen den Objekten j u. k"; mögliche Werte zwischen +1 u.-1 (je größer der Wert, desto größer die Ähnlichkeit) x1x1 x2x2 (Bahrenberg et al. 1992: 282)

10 Ähnlichkeitsmatrix QED (Tunesien-Beispiel) Erstellt mit SPSS Grundlage: Standardisierte Werte für Temperatur und geographische Breite

11 3.2 Proximitätsmaße bei Objekten mit nominal skalierten Merkmalen Beispiele: weiblich/männlich Nationalität Voraussetzung: Binäre Variablenstruktur Ergebnis: Ähnlichkeitsmaße Wert 0 = absolute Unähnlichkeit Wert 1 = absolute Ähnlichkeit

12 Objekt1 Objekt 2 Eigenschaft vorhanden Eigenschaft nicht vorhanden Zeilensumme Eigenschaft vorhanden aca + c Eigenschaft nicht vorhanden bdb + d Spaltensummea + bc + da + b + c + d = m Nach: Backhaus et al. 1994: 265 (verändert) 3.2 Proximitätsmaße bei Objekten mit nominal skalierten Merkmalen Kombinationsmöglichkeiten binärer Variablen

13 3.2 Beispiel-Datenmatrix für Proximitäts- maße Eigenschaft Personen weiblichRentnerSchülerMonatl. Eink. > 1000 Max0101 Helmut0001 Vivian1010 Melanie1001 Jörg0101 (0: Eigenschaft nicht vorhanden; 1: Eigenschaft vorhanden)

14 3.2.1 Simple-Matching-Koeffizient (M-K.): 3.2 Proximitätsmaße bei Objekten mit nominal skalierten Merkmalen (Backhaus et al. 1994: 266) mit: S jk : Ähnlichkeit zwischen den Objekten j u. k

15 3.2.1 Beispiel für Simple-Matching- Koeffizient (M-K.) MaxHelmutVivianMelanieJörg Max1 Helmut0,751 Vivian00,251 Melanie0,50,750,51 Jörg10,7500,51

16 3.2.2 Tanimoto- bzw. Jaccard-Koeffizient: 3.2 Proximitätsmaße bei Objekten mit nominal skalierten Merkmalen (Backhaus et al. 1994: 266) mit: S jk : Ähnlichkeit zwischen den Objekten j u. k

17 3.2.2 Beispiel für Tanimoto- bzw. Jaccard-Koeffizient MaxHelmutVivianMelanieJörg Max1 Helmut0,51 Vivian001 Melanie0,5 0,331 Jörg10,500,331

18 4. Methoden zur Clusterbildung Aus: Rosner 2001: 65

19 4.1 Complete Linkage Als Entfernung zwischen 2 Clustern wird die Distanz ihrer äußersten Punkte gemessen. Fusioniert werden die Cluster mit der geringsten Distanz. Eigenschaften: Zur Zuordnung sehr nahe liegender Objekte neigend Kleinere, homogenere Cluster (Bahrenberg et al. 1992: 285)

20 Durchführung des Complete-Linkage- Verfahrens mit QED Beispiel Tunesien 1.Ausgabe der Ähnlichkeitsmatrix 2.Zuordnungsübersicht 3.Linkage Tree 4.Elbow-Diagramm zur Festlegung der Anzahl der Cluster Vorstellung der SPSS Komponenten

21 Zuordnungs- übersicht Complete- Linkage; QED Ähnlich- keitsmatrix QED

22 Linkage-Tree

23 Elbow- Diagramm ( Festlegung der Anzahl der Cluster) Distanzen Schritte

24 Clusterung mit QED und Complete Linkage am Tunesien- Beispiel mit 2 Clustern O mit 3 Clustern O Mit 4 Clustern O

25 Als Entfernung zwischen 2 Clustern wird die Distanz ihrer sich am nächsten liegenden Punkte gemessen. Fusioniert werden die Cluster mit der geringsten Distanz. Eigenschaften: Neigt dazu, entferntere Objekte zuzuordnen Entstehung wenigerer größerer Cluster Ausreißer Neigt zur Verkettung von Objekten 4.2 Single Linkage (Bahrenberg et al. 1992: 285)

26 Alle Distanzen zwischen allen Objekten eines Clusters und allen Objekten eines anderen Clusters werden addiert und durch die Anzahl aller betreffenden Objekte dividiert. (Bahrenberg et al. 1992: 285) 4.3 Average-Linkage

27 4.3 Clusterung mit QED und Average-Linkage am Tunesien- Beispiel mit 2 Clustern O mit 3 Clustern O Mit 4 Clustern O

28 Als Entfernung zwischen 2 Clustern wird die Distanz ihrer immer neu berechneten Mittelpunkte (Zentroide) gemessen. Fusioniert werden die Cluster mit der geringsten Distanz. 4.4 Zentroid Linkage Z: Zentroid (Bahrenberg et al. 1992: 285)

29 Fusionskriterium: geringe Streuung (Varianz) Voraussetzung: quadrierte euklidische Distanzen Ziel: möglichst homogene Cluster 4.5 Ward-Verfahren Vorgehen:1. Bestimmung der Clustervarianz 2. Bestimmung der Gesamtvarianz 3. Zusammenfassung von Clustern unter der Bedingung minimaler Steigerung der Gesamtvarianz Eigenschaften: - ordnet Objekte richtig den Gruppen zu - bildet in etwa gleich große Cluster

30 4. 5 Clusterung mit QED und Ward am Tunesien- Beispiel mit 2 Clustern O mit 3 Clustern O Mit 4 Clustern O

31 4.6. Übersicht über die Ergebnisse mit den Verschiedenen Clusterbildungsverfahren Zentroid Single WardAverage mit 2 Clustern O mit 3 Clustern O Mit 4 Clustern O

32 5. Homogenitätsbeurteilung mit: V(J,G): Varianz der Variablen J in Cluster G V(J): Varianz der Variablen J in der Erhebungs- gesamtheit (Backhaus et al. 1994: 310) F-Wert: Verfahren: F-Werte für alle Variablen bestimmen Ergebnis: wenn alle F-Werte < 1, dann gilt Cluster als vollkommen homogen

33 6. Zusammenfassung Clusteranalyse dient der Gruppenbildung Vielfältige Methoden – welche, abhängig von Frage und Objekten Manipulationsmöglichkeiten; Stichwort: Herbeiclustern Dokumentation der Methoden Gruppenbildung Generalisierung Informationsverlust Cluster verbal interpretieren und charakterisieren


Herunterladen ppt "Clusteranalyse von Maria Eickhold und Tobias Töpfer."

Ähnliche Präsentationen


Google-Anzeigen