Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

Clusteranalyse von Maria Eickhold und Tobias Töpfer.

Ähnliche Präsentationen


Präsentation zum Thema: "Clusteranalyse von Maria Eickhold und Tobias Töpfer."—  Präsentation transkript:

1 Clusteranalyse von Maria Eickhold und Tobias Töpfer

2 Gliederung Einführung Vorstellen des Beispiels Proximitätsmaße
Methoden zur Clusterbildung Homogenitätsbeurteilung Zusammenfassung

3 1. Einführung „Clusteranalyse“ ist Sammelbegriff für verschiedene Verfahren Objekte auf Grund verschiedener Merkmale zu Klassen/ Clustern zusammen zu fassen Andere Methode: Schwellenwerte  weniger objektiv Klassen sollen in sich möglichst homogen sein, untereinander aber maximal unähnliche Ausprägungen der herangezogenen Merkmale aufweisen

4 Anwendung in der Geographie:
Hier dient die Clusteranalyse hauptsächlich dazu, Raumeinheiten sinnvoll zu gliedern um sie vergleichbar zu machen. Durch Clusterung wird eine große Menge von Einzel-Daten überschaubar

5 Vorraussetzungen zur Durchführung einer Clusteranalyse
Verschiedene Merkmale haben verschiedene Maßeinheiten  Standardisieren : unabhängige (orthogolnale) Variablen Variablen sollten auf ein Ziel/ Zweck abgestimmt sein Faktorenanalyse zum herausfiltern der wichtigsten Variablen bietet sich an (Rosner 2001: 21)

6 Tunesien- Beispiel http://dev.lib.utexas. edu/maps/africa/
 Klimastation edu/maps/africa/ tunisia_pol_1990.jpg (Stand: )

7 3. Proximitäts-/ Ähnlichkeitsmaße
Manhattan-/ City-Block Distanz x2j (Bahrenberg et al. 1992: 282) x2k djk: Distanz der Objekte „j“ u. „k" xi: herangezogenes Merkmal xij: Ausprägung des Merkmals „i“ bei Objekt „j“ x1j x1k Entfernung entlang der Koordinatenachsen

8 Euklidische Distanz 3.1.2 Quadratische euklidische Distanz x2
x2j (Bahrenberg et al. 1992: 282) Große Entfernungen (>1) werden stärker gewichtet, als kleine (<1) x2k Euklidische Distanz x1j x1k x1 Luftlinienentfernung (Bahrenberg et al. 1992: 282)

9 3.1.3 Korrelationskoeffizient zwischen zwei Variablen
x2 (Bahrenberg et al. 1992: 282) rjk: Korrelationskoeffizient zwischen den Objekten „j“ u. „k"; mögliche Werte zwischen +1 u.-1 (je größer der Wert, desto größer die Ähnlichkeit) x1

10 Ähnlichkeitsmatrix QED (Tunesien-Beispiel)
Erstellt mit SPSS Grundlage: Standardisierte Werte für Temperatur und geographische Breite

11 3.2 Proximitätsmaße bei Objekten mit nominal skalierten Merkmalen
Beispiele: weiblich/männlich Nationalität Voraussetzung: Binäre Variablenstruktur Ergebnis: Ähnlichkeitsmaße  Wert 0 = absolute Unähnlichkeit Wert 1 = absolute Ähnlichkeit

12 3.2 Proximitätsmaße bei Objekten mit nominal skalierten Merkmalen
Kombinationsmöglichkeiten binärer Variablen Objekt1  Objekt 2  Eigenschaft vorhanden Eigenschaft nicht vorhanden Zeilensumme a c a + c b d b + d Spaltensumme a + b c + d a + b + c + d = m Nach: Backhaus et al. 1994: 265 (verändert)

13 3.2 Beispiel-Datenmatrix für Proximitäts- maße
Eigenschaft Personen weiblich Rentner Schüler Monatl. Eink. > 1000 € Max 1 Helmut Vivian Melanie Jörg (0: Eigenschaft nicht vorhanden; 1: Eigenschaft vorhanden)

14 3.2 Proximitätsmaße bei Objekten mit nominal skalierten Merkmalen
3.2.1 Simple-Matching-Koeffizient (M-K.): (Backhaus et al. 1994: 266) mit: Sjk : Ähnlichkeit zwischen den Objekten j u. k

15 3.2.1 Beispiel für Simple-Matching- Koeffizient (M-K.)
Max Helmut Vivian Melanie Jörg 1 0,75 0,25 0,5

16 3.2 Proximitätsmaße bei Objekten mit nominal skalierten Merkmalen
3.2.2 Tanimoto- bzw. Jaccard-Koeffizient: (Backhaus et al. 1994: 266) mit: Sjk : Ähnlichkeit zwischen den Objekten j u. k

17 3.2.2 Beispiel für Tanimoto- bzw. Jaccard-Koeffizient
Max Helmut Vivian Melanie Jörg 1 0,5 0,33

18 4. Methoden zur Clusterbildung
Aus: Rosner 2001: 65

19 4.1 Complete Linkage (Bahrenberg et al. 1992: 285) Als Entfernung zwischen 2 Clustern wird die Distanz ihrer äußersten Punkte gemessen. Fusioniert werden die Cluster mit der geringsten Distanz. Eigenschaften: Zur Zuordnung sehr nahe liegender Objekte neigend  Kleinere, homogenere Cluster

20 Durchführung des Complete-Linkage- Verfahrens mit QED Beispiel Tunesien
Vorstellung der SPSS Komponenten Ausgabe der Ähnlichkeitsmatrix Zuordnungsübersicht Linkage Tree Elbow-Diagramm zur Festlegung der Anzahl der Cluster

21 Ähnlich-keitsmatrix 
QED Zuordnungs-übersicht  Complete-Linkage; QED

22 Linkage-Tree

23 Elbow- Diagramm (Festlegung der Anzahl der Cluster)
Distanzen Schritte

24 Clusterung mit QED und Complete Linkage
am Tunesien- Beispiel mit 2 Clustern O mit 3 Clustern O Mit 4 Clustern O

25 4.2 Single Linkage (Bahrenberg et al. 1992: 285) Als Entfernung zwischen 2 Clustern wird die Distanz ihrer sich am nächsten liegenden Punkte gemessen. Fusioniert werden die Cluster mit der geringsten Distanz. Eigenschaften: Neigt dazu, entferntere Objekte zuzuordnen  Entstehung wenigerer größerer Cluster Ausreißer Neigt zur Verkettung von Objekten

26 4.3 Average-Linkage (Bahrenberg et al. 1992: 285) Alle Distanzen zwischen allen Objekten eines Clusters und allen Objekten eines anderen Clusters werden addiert und durch die Anzahl aller betreffenden Objekte dividiert.

27 4.3 Clusterung mit QED und Average-Linkage
am Tunesien- Beispiel mit 2 Clustern O mit 3 Clustern O Mit 4 Clustern O

28 4.4 Zentroid Linkage Z: Zentroid (Bahrenberg et al. 1992: 285) Als Entfernung zwischen 2 Clustern wird die Distanz ihrer immer neu berechneten Mittelpunkte (Zentroide) gemessen. Fusioniert werden die Cluster mit der geringsten Distanz.

29 4.5 Ward-Verfahren Fusionskriterium: geringe Streuung (Varianz)
Voraussetzung: quadrierte euklidische Distanzen Ziel: möglichst homogene Cluster Vorgehen: 1. Bestimmung der Clustervarianz 2. Bestimmung der Gesamtvarianz 3. Zusammenfassung von Clustern unter der Bedingung minimaler Steigerung der Gesamtvarianz Eigenschaften: - ordnet Objekte „richtig“ den Gruppen zu - bildet in etwa gleich große Cluster

30 4. 5 Clusterung mit QED und Ward
am Tunesien- Beispiel mit 2 Clustern O mit 3 Clustern O Mit 4 Clustern O

31 4.6. Übersicht über die Ergebnisse mit den Verschiedenen Clusterbildungsverfahren
mit 2 Clustern O mit 3 Clustern O Mit 4 Clustern O Zentroid Single Zentroid Ward Average

32 5. Homogenitätsbeurteilung
F-Wert: (Backhaus et al. 1994: 310) mit: V(J,G): Varianz der Variablen J in Cluster G V(J): Varianz der Variablen J in der Erhebungs- gesamtheit Verfahren: F-Werte für alle Variablen bestimmen Ergebnis: wenn alle F-Werte < 1, dann gilt Cluster als vollkommen homogen

33 6. Zusammenfassung Clusteranalyse dient der Gruppenbildung
Vielfältige Methoden – welche, abhängig von Frage und Objekten Manipulationsmöglichkeiten; Stichwort: Herbeiclustern Dokumentation der Methoden Gruppenbildung  Generalisierung  Informationsverlust Cluster verbal interpretieren und charakterisieren


Herunterladen ppt "Clusteranalyse von Maria Eickhold und Tobias Töpfer."

Ähnliche Präsentationen


Google-Anzeigen