Clusteranalyse von Maria Eickhold und Tobias Töpfer
Gliederung Einführung Vorstellen des Beispiels Proximitätsmaße Methoden zur Clusterbildung Homogenitätsbeurteilung Zusammenfassung
1. Einführung „Clusteranalyse“ ist Sammelbegriff für verschiedene Verfahren Objekte auf Grund verschiedener Merkmale zu Klassen/ Clustern zusammen zu fassen Andere Methode: Schwellenwerte weniger objektiv Klassen sollen in sich möglichst homogen sein, untereinander aber maximal unähnliche Ausprägungen der herangezogenen Merkmale aufweisen
Anwendung in der Geographie: Hier dient die Clusteranalyse hauptsächlich dazu, Raumeinheiten sinnvoll zu gliedern um sie vergleichbar zu machen. Durch Clusterung wird eine große Menge von Einzel-Daten überschaubar
Vorraussetzungen zur Durchführung einer Clusteranalyse Verschiedene Merkmale haben verschiedene Maßeinheiten Standardisieren : unabhängige (orthogolnale) Variablen Variablen sollten auf ein Ziel/ Zweck abgestimmt sein Faktorenanalyse zum herausfiltern der wichtigsten Variablen bietet sich an (Rosner 2001: 21)
Tunesien- Beispiel http://dev.lib.utexas. edu/maps/africa/ Klimastation http://dev.lib.utexas. edu/maps/africa/ tunisia_pol_1990.jpg (Stand: 09.06.2002)
3. Proximitäts-/ Ähnlichkeitsmaße 3.1.1. Manhattan-/ City-Block Distanz x2j (Bahrenberg et al. 1992: 282) x2k djk: Distanz der Objekte „j“ u. „k" xi: herangezogenes Merkmal xij: Ausprägung des Merkmals „i“ bei Objekt „j“ x1j x1k Entfernung entlang der Koordinatenachsen
Euklidische Distanz 3.1.2 Quadratische euklidische Distanz x2 x2j (Bahrenberg et al. 1992: 282) Große Entfernungen (>1) werden stärker gewichtet, als kleine (<1) x2k Euklidische Distanz x1j x1k x1 Luftlinienentfernung (Bahrenberg et al. 1992: 282)
3.1.3 Korrelationskoeffizient zwischen zwei Variablen x2 (Bahrenberg et al. 1992: 282) rjk: Korrelationskoeffizient zwischen den Objekten „j“ u. „k"; mögliche Werte zwischen +1 u.-1 (je größer der Wert, desto größer die Ähnlichkeit) x1
Ähnlichkeitsmatrix QED (Tunesien-Beispiel) Erstellt mit SPSS Grundlage: Standardisierte Werte für Temperatur und geographische Breite
3.2 Proximitätsmaße bei Objekten mit nominal skalierten Merkmalen Beispiele: weiblich/männlich Nationalität Voraussetzung: Binäre Variablenstruktur Ergebnis: Ähnlichkeitsmaße Wert 0 = absolute Unähnlichkeit Wert 1 = absolute Ähnlichkeit
3.2 Proximitätsmaße bei Objekten mit nominal skalierten Merkmalen Kombinationsmöglichkeiten binärer Variablen Objekt1 Objekt 2 Eigenschaft vorhanden Eigenschaft nicht vorhanden Zeilensumme a c a + c b d b + d Spaltensumme a + b c + d a + b + c + d = m Nach: Backhaus et al. 1994: 265 (verändert)
3.2 Beispiel-Datenmatrix für Proximitäts- maße Eigenschaft Personen weiblich Rentner Schüler Monatl. Eink. > 1000 € Max 1 Helmut Vivian Melanie Jörg (0: Eigenschaft nicht vorhanden; 1: Eigenschaft vorhanden)
3.2 Proximitätsmaße bei Objekten mit nominal skalierten Merkmalen 3.2.1 Simple-Matching-Koeffizient (M-K.): (Backhaus et al. 1994: 266) mit: Sjk : Ähnlichkeit zwischen den Objekten j u. k
3.2.1 Beispiel für Simple-Matching- Koeffizient (M-K.) Max Helmut Vivian Melanie Jörg 1 0,75 0,25 0,5
3.2 Proximitätsmaße bei Objekten mit nominal skalierten Merkmalen 3.2.2 Tanimoto- bzw. Jaccard-Koeffizient: (Backhaus et al. 1994: 266) mit: Sjk : Ähnlichkeit zwischen den Objekten j u. k
3.2.2 Beispiel für Tanimoto- bzw. Jaccard-Koeffizient Max Helmut Vivian Melanie Jörg 1 0,5 0,33
4. Methoden zur Clusterbildung Aus: Rosner 2001: 65
4.1 Complete Linkage (Bahrenberg et al. 1992: 285) Als Entfernung zwischen 2 Clustern wird die Distanz ihrer äußersten Punkte gemessen. Fusioniert werden die Cluster mit der geringsten Distanz. Eigenschaften: Zur Zuordnung sehr nahe liegender Objekte neigend Kleinere, homogenere Cluster
Durchführung des Complete-Linkage- Verfahrens mit QED Beispiel Tunesien Vorstellung der SPSS Komponenten Ausgabe der Ähnlichkeitsmatrix Zuordnungsübersicht Linkage Tree Elbow-Diagramm zur Festlegung der Anzahl der Cluster
Ähnlich-keitsmatrix QED Zuordnungs-übersicht Complete-Linkage; QED
Linkage-Tree
Elbow- Diagramm (Festlegung der Anzahl der Cluster) Distanzen Schritte
Clusterung mit QED und Complete Linkage am Tunesien- Beispiel mit 2 Clustern O mit 3 Clustern O Mit 4 Clustern O
4.2 Single Linkage (Bahrenberg et al. 1992: 285) Als Entfernung zwischen 2 Clustern wird die Distanz ihrer sich am nächsten liegenden Punkte gemessen. Fusioniert werden die Cluster mit der geringsten Distanz. Eigenschaften: Neigt dazu, entferntere Objekte zuzuordnen Entstehung wenigerer größerer Cluster Ausreißer Neigt zur Verkettung von Objekten
4.3 Average-Linkage (Bahrenberg et al. 1992: 285) Alle Distanzen zwischen allen Objekten eines Clusters und allen Objekten eines anderen Clusters werden addiert und durch die Anzahl aller betreffenden Objekte dividiert.
4.3 Clusterung mit QED und Average-Linkage am Tunesien- Beispiel mit 2 Clustern O mit 3 Clustern O Mit 4 Clustern O
4.4 Zentroid Linkage Z: Zentroid (Bahrenberg et al. 1992: 285) Als Entfernung zwischen 2 Clustern wird die Distanz ihrer immer neu berechneten Mittelpunkte (Zentroide) gemessen. Fusioniert werden die Cluster mit der geringsten Distanz.
4.5 Ward-Verfahren Fusionskriterium: geringe Streuung (Varianz) Voraussetzung: quadrierte euklidische Distanzen Ziel: möglichst homogene Cluster Vorgehen: 1. Bestimmung der Clustervarianz 2. Bestimmung der Gesamtvarianz 3. Zusammenfassung von Clustern unter der Bedingung minimaler Steigerung der Gesamtvarianz Eigenschaften: - ordnet Objekte „richtig“ den Gruppen zu - bildet in etwa gleich große Cluster
4. 5 Clusterung mit QED und Ward am Tunesien- Beispiel mit 2 Clustern O mit 3 Clustern O Mit 4 Clustern O
4.6. Übersicht über die Ergebnisse mit den Verschiedenen Clusterbildungsverfahren mit 2 Clustern O mit 3 Clustern O Mit 4 Clustern O Zentroid Single Zentroid Ward Average
5. Homogenitätsbeurteilung F-Wert: (Backhaus et al. 1994: 310) mit: V(J,G): Varianz der Variablen J in Cluster G V(J): Varianz der Variablen J in der Erhebungs- gesamtheit Verfahren: F-Werte für alle Variablen bestimmen Ergebnis: wenn alle F-Werte < 1, dann gilt Cluster als vollkommen homogen
6. Zusammenfassung Clusteranalyse dient der Gruppenbildung Vielfältige Methoden – welche, abhängig von Frage und Objekten Manipulationsmöglichkeiten; Stichwort: Herbeiclustern Dokumentation der Methoden Gruppenbildung Generalisierung Informationsverlust Cluster verbal interpretieren und charakterisieren