Präsentation herunterladen
Die Präsentation wird geladen. Bitte warten
Veröffentlicht von:Ortrun Ebsen Geändert vor über 10 Jahren
1
Clusteranalyse von Maria Eickhold und Tobias Töpfer
2
Gliederung Einführung Vorstellen des Beispiels Proximitätsmaße
Methoden zur Clusterbildung Homogenitätsbeurteilung Zusammenfassung
3
1. Einführung „Clusteranalyse“ ist Sammelbegriff für verschiedene Verfahren Objekte auf Grund verschiedener Merkmale zu Klassen/ Clustern zusammen zu fassen Andere Methode: Schwellenwerte weniger objektiv Klassen sollen in sich möglichst homogen sein, untereinander aber maximal unähnliche Ausprägungen der herangezogenen Merkmale aufweisen
4
Anwendung in der Geographie:
Hier dient die Clusteranalyse hauptsächlich dazu, Raumeinheiten sinnvoll zu gliedern um sie vergleichbar zu machen. Durch Clusterung wird eine große Menge von Einzel-Daten überschaubar
5
Vorraussetzungen zur Durchführung einer Clusteranalyse
Verschiedene Merkmale haben verschiedene Maßeinheiten Standardisieren : unabhängige (orthogolnale) Variablen Variablen sollten auf ein Ziel/ Zweck abgestimmt sein Faktorenanalyse zum herausfiltern der wichtigsten Variablen bietet sich an (Rosner 2001: 21)
6
Tunesien- Beispiel http://dev.lib.utexas. edu/maps/africa/
Klimastation edu/maps/africa/ tunisia_pol_1990.jpg (Stand: )
7
3. Proximitäts-/ Ähnlichkeitsmaße
Manhattan-/ City-Block Distanz x2j (Bahrenberg et al. 1992: 282) x2k djk: Distanz der Objekte „j“ u. „k" xi: herangezogenes Merkmal xij: Ausprägung des Merkmals „i“ bei Objekt „j“ x1j x1k Entfernung entlang der Koordinatenachsen
8
Euklidische Distanz 3.1.2 Quadratische euklidische Distanz x2
x2j (Bahrenberg et al. 1992: 282) Große Entfernungen (>1) werden stärker gewichtet, als kleine (<1) x2k Euklidische Distanz x1j x1k x1 Luftlinienentfernung (Bahrenberg et al. 1992: 282)
9
3.1.3 Korrelationskoeffizient zwischen zwei Variablen
x2 (Bahrenberg et al. 1992: 282) rjk: Korrelationskoeffizient zwischen den Objekten „j“ u. „k"; mögliche Werte zwischen +1 u.-1 (je größer der Wert, desto größer die Ähnlichkeit) x1
10
Ähnlichkeitsmatrix QED (Tunesien-Beispiel)
Erstellt mit SPSS Grundlage: Standardisierte Werte für Temperatur und geographische Breite
11
3.2 Proximitätsmaße bei Objekten mit nominal skalierten Merkmalen
Beispiele: weiblich/männlich Nationalität Voraussetzung: Binäre Variablenstruktur Ergebnis: Ähnlichkeitsmaße Wert 0 = absolute Unähnlichkeit Wert 1 = absolute Ähnlichkeit
12
3.2 Proximitätsmaße bei Objekten mit nominal skalierten Merkmalen
Kombinationsmöglichkeiten binärer Variablen Objekt1 Objekt 2 Eigenschaft vorhanden Eigenschaft nicht vorhanden Zeilensumme a c a + c b d b + d Spaltensumme a + b c + d a + b + c + d = m Nach: Backhaus et al. 1994: 265 (verändert)
13
3.2 Beispiel-Datenmatrix für Proximitäts- maße
Eigenschaft Personen weiblich Rentner Schüler Monatl. Eink. > 1000 € Max 1 Helmut Vivian Melanie Jörg (0: Eigenschaft nicht vorhanden; 1: Eigenschaft vorhanden)
14
3.2 Proximitätsmaße bei Objekten mit nominal skalierten Merkmalen
3.2.1 Simple-Matching-Koeffizient (M-K.): (Backhaus et al. 1994: 266) mit: Sjk : Ähnlichkeit zwischen den Objekten j u. k
15
3.2.1 Beispiel für Simple-Matching- Koeffizient (M-K.)
Max Helmut Vivian Melanie Jörg 1 0,75 0,25 0,5
16
3.2 Proximitätsmaße bei Objekten mit nominal skalierten Merkmalen
3.2.2 Tanimoto- bzw. Jaccard-Koeffizient: (Backhaus et al. 1994: 266) mit: Sjk : Ähnlichkeit zwischen den Objekten j u. k
17
3.2.2 Beispiel für Tanimoto- bzw. Jaccard-Koeffizient
Max Helmut Vivian Melanie Jörg 1 0,5 0,33
18
4. Methoden zur Clusterbildung
Aus: Rosner 2001: 65
19
4.1 Complete Linkage (Bahrenberg et al. 1992: 285) Als Entfernung zwischen 2 Clustern wird die Distanz ihrer äußersten Punkte gemessen. Fusioniert werden die Cluster mit der geringsten Distanz. Eigenschaften: Zur Zuordnung sehr nahe liegender Objekte neigend Kleinere, homogenere Cluster
20
Durchführung des Complete-Linkage- Verfahrens mit QED Beispiel Tunesien
Vorstellung der SPSS Komponenten Ausgabe der Ähnlichkeitsmatrix Zuordnungsübersicht Linkage Tree Elbow-Diagramm zur Festlegung der Anzahl der Cluster
21
Ähnlich-keitsmatrix
QED Zuordnungs-übersicht Complete-Linkage; QED
22
Linkage-Tree
23
Elbow- Diagramm (Festlegung der Anzahl der Cluster)
Distanzen Schritte
24
Clusterung mit QED und Complete Linkage
am Tunesien- Beispiel mit 2 Clustern O mit 3 Clustern O Mit 4 Clustern O
25
4.2 Single Linkage (Bahrenberg et al. 1992: 285) Als Entfernung zwischen 2 Clustern wird die Distanz ihrer sich am nächsten liegenden Punkte gemessen. Fusioniert werden die Cluster mit der geringsten Distanz. Eigenschaften: Neigt dazu, entferntere Objekte zuzuordnen Entstehung wenigerer größerer Cluster Ausreißer Neigt zur Verkettung von Objekten
26
4.3 Average-Linkage (Bahrenberg et al. 1992: 285) Alle Distanzen zwischen allen Objekten eines Clusters und allen Objekten eines anderen Clusters werden addiert und durch die Anzahl aller betreffenden Objekte dividiert.
27
4.3 Clusterung mit QED und Average-Linkage
am Tunesien- Beispiel mit 2 Clustern O mit 3 Clustern O Mit 4 Clustern O
28
4.4 Zentroid Linkage Z: Zentroid (Bahrenberg et al. 1992: 285) Als Entfernung zwischen 2 Clustern wird die Distanz ihrer immer neu berechneten Mittelpunkte (Zentroide) gemessen. Fusioniert werden die Cluster mit der geringsten Distanz.
29
4.5 Ward-Verfahren Fusionskriterium: geringe Streuung (Varianz)
Voraussetzung: quadrierte euklidische Distanzen Ziel: möglichst homogene Cluster Vorgehen: 1. Bestimmung der Clustervarianz 2. Bestimmung der Gesamtvarianz 3. Zusammenfassung von Clustern unter der Bedingung minimaler Steigerung der Gesamtvarianz Eigenschaften: - ordnet Objekte „richtig“ den Gruppen zu - bildet in etwa gleich große Cluster
30
4. 5 Clusterung mit QED und Ward
am Tunesien- Beispiel mit 2 Clustern O mit 3 Clustern O Mit 4 Clustern O
31
4.6. Übersicht über die Ergebnisse mit den Verschiedenen Clusterbildungsverfahren
mit 2 Clustern O mit 3 Clustern O Mit 4 Clustern O Zentroid Single Zentroid Ward Average
32
5. Homogenitätsbeurteilung
F-Wert: (Backhaus et al. 1994: 310) mit: V(J,G): Varianz der Variablen J in Cluster G V(J): Varianz der Variablen J in der Erhebungs- gesamtheit Verfahren: F-Werte für alle Variablen bestimmen Ergebnis: wenn alle F-Werte < 1, dann gilt Cluster als vollkommen homogen
33
6. Zusammenfassung Clusteranalyse dient der Gruppenbildung
Vielfältige Methoden – welche, abhängig von Frage und Objekten Manipulationsmöglichkeiten; Stichwort: Herbeiclustern Dokumentation der Methoden Gruppenbildung Generalisierung Informationsverlust Cluster verbal interpretieren und charakterisieren
Ähnliche Präsentationen
© 2024 SlidePlayer.org Inc.
All rights reserved.