Clusteranalyse von Maria Eickhold und Tobias Töpfer.

Clusteranalyse von Maria Eickhold und Tobias Töpfer

Gliederung Einführung Vorstellen des Beispiels Proximitätsmaße
Methoden zur Clusterbildung Homogenitätsbeurteilung Zusammenfassung

1. Einführung „Clusteranalyse“ ist Sammelbegriff für verschiedene Verfahren Objekte auf Grund verschiedener Merkmale zu Klassen/ Clustern zusammen zu fassen Andere Methode: Schwellenwerte  weniger objektiv Klassen sollen in sich möglichst homogen sein, untereinander aber maximal unähnliche Ausprägungen der herangezogenen Merkmale aufweisen

Anwendung in der Geographie:
Hier dient die Clusteranalyse hauptsächlich dazu, Raumeinheiten sinnvoll zu gliedern um sie vergleichbar zu machen. Durch Clusterung wird eine große Menge von Einzel-Daten überschaubar

Vorraussetzungen zur Durchführung einer Clusteranalyse
Verschiedene Merkmale haben verschiedene Maßeinheiten  Standardisieren : unabhängige (orthogolnale) Variablen Variablen sollten auf ein Ziel/ Zweck abgestimmt sein Faktorenanalyse zum herausfiltern der wichtigsten Variablen bietet sich an (Rosner 2001: 21)

Tunesien- Beispiel http://dev.lib.utexas. edu/maps/africa/
               Klimastation          edu/maps/africa/ tunisia_pol_1990.jpg (Stand: )

3. Proximitäts-/ Ähnlichkeitsmaße
Manhattan-/ City-Block Distanz x2j (Bahrenberg et al. 1992: 282) x2k djk: Distanz der Objekte „j“ u. „k" xi: herangezogenes Merkmal xij: Ausprägung des Merkmals „i“ bei Objekt „j“ x1j x1k Entfernung entlang der Koordinatenachsen

Euklidische Distanz 3.1.2 Quadratische euklidische Distanz x2
x2j (Bahrenberg et al. 1992: 282) Große Entfernungen (>1) werden stärker gewichtet, als kleine (<1) x2k Euklidische Distanz x1j x1k x1 Luftlinienentfernung (Bahrenberg et al. 1992: 282)

3.1.3 Korrelationskoeffizient zwischen zwei Variablen
x2 (Bahrenberg et al. 1992: 282) rjk: Korrelationskoeffizient zwischen den Objekten „j“ u. „k"; mögliche Werte zwischen +1 u.-1 (je größer der Wert, desto größer die Ähnlichkeit) x1

Ähnlichkeitsmatrix QED (Tunesien-Beispiel)
Erstellt mit SPSS Grundlage: Standardisierte Werte für Temperatur und geographische Breite

3.2 Proximitätsmaße bei Objekten mit nominal skalierten Merkmalen
Beispiele: weiblich/männlich Nationalität Voraussetzung: Binäre Variablenstruktur Ergebnis: Ähnlichkeitsmaße  Wert 0 = absolute Unähnlichkeit Wert 1 = absolute Ähnlichkeit

Kombinationsmöglichkeiten binärer Variablen Objekt1  Objekt 2  Eigenschaft vorhanden Eigenschaft nicht vorhanden Zeilensumme a c a + c b d b + d Spaltensumme a + b c + d a + b + c + d = m Nach: Backhaus et al. 1994: 265 (verändert)

3.2 Beispiel-Datenmatrix für Proximitäts- maße
Eigenschaft Personen weiblich Rentner Schüler Monatl. Eink. > 1000 € Max 1 Helmut Vivian Melanie Jörg (0: Eigenschaft nicht vorhanden; 1: Eigenschaft vorhanden)

3.2.1 Simple-Matching-Koeffizient (M-K.): (Backhaus et al. 1994: 266) mit: Sjk : Ähnlichkeit zwischen den Objekten j u. k

3.2.1 Beispiel für Simple-Matching- Koeffizient (M-K.)
Max Helmut Vivian Melanie Jörg 1 0,75 0,25 0,5

3.2.2 Tanimoto- bzw. Jaccard-Koeffizient: (Backhaus et al. 1994: 266) mit: Sjk : Ähnlichkeit zwischen den Objekten j u. k

3.2.2 Beispiel für Tanimoto- bzw. Jaccard-Koeffizient
Max Helmut Vivian Melanie Jörg 1 0,5 0,33

4. Methoden zur Clusterbildung
Aus: Rosner 2001: 65

4.1 Complete Linkage (Bahrenberg et al. 1992: 285) Als Entfernung zwischen 2 Clustern wird die Distanz ihrer äußersten Punkte gemessen. Fusioniert werden die Cluster mit der geringsten Distanz. Eigenschaften: Zur Zuordnung sehr nahe liegender Objekte neigend  Kleinere, homogenere Cluster

Durchführung des Complete-Linkage- Verfahrens mit QED Beispiel Tunesien
Vorstellung der SPSS Komponenten Ausgabe der Ähnlichkeitsmatrix Zuordnungsübersicht Linkage Tree Elbow-Diagramm zur Festlegung der Anzahl der Cluster

Ähnlich-keitsmatrix 
QED Zuordnungs-übersicht  Complete-Linkage; QED

Linkage-Tree

Elbow- Diagramm (Festlegung der Anzahl der Cluster)
Distanzen Schritte

Clusterung mit QED und Complete Linkage
am Tunesien- Beispiel mit 2 Clustern O mit 3 Clustern O Mit 4 Clustern O

4.2 Single Linkage (Bahrenberg et al. 1992: 285) Als Entfernung zwischen 2 Clustern wird die Distanz ihrer sich am nächsten liegenden Punkte gemessen. Fusioniert werden die Cluster mit der geringsten Distanz. Eigenschaften: Neigt dazu, entferntere Objekte zuzuordnen  Entstehung wenigerer größerer Cluster Ausreißer Neigt zur Verkettung von Objekten

4.3 Average-Linkage (Bahrenberg et al. 1992: 285) Alle Distanzen zwischen allen Objekten eines Clusters und allen Objekten eines anderen Clusters werden addiert und durch die Anzahl aller betreffenden Objekte dividiert.

4.3 Clusterung mit QED und Average-Linkage

4.4 Zentroid Linkage Z: Zentroid (Bahrenberg et al. 1992: 285) Als Entfernung zwischen 2 Clustern wird die Distanz ihrer immer neu berechneten Mittelpunkte (Zentroide) gemessen. Fusioniert werden die Cluster mit der geringsten Distanz.

4.5 Ward-Verfahren Fusionskriterium: geringe Streuung (Varianz)
Voraussetzung: quadrierte euklidische Distanzen Ziel: möglichst homogene Cluster Vorgehen: 1. Bestimmung der Clustervarianz 2. Bestimmung der Gesamtvarianz 3. Zusammenfassung von Clustern unter der Bedingung minimaler Steigerung der Gesamtvarianz Eigenschaften: - ordnet Objekte „richtig“ den Gruppen zu - bildet in etwa gleich große Cluster

4. 5 Clusterung mit QED und Ward

4.6. Übersicht über die Ergebnisse mit den Verschiedenen Clusterbildungsverfahren
mit 2 Clustern O mit 3 Clustern O Mit 4 Clustern O Zentroid Single Zentroid Ward Average

5. Homogenitätsbeurteilung
F-Wert: (Backhaus et al. 1994: 310) mit: V(J,G): Varianz der Variablen J in Cluster G V(J): Varianz der Variablen J in der Erhebungs- gesamtheit Verfahren: F-Werte für alle Variablen bestimmen Ergebnis: wenn alle F-Werte < 1, dann gilt Cluster als vollkommen homogen

6. Zusammenfassung Clusteranalyse dient der Gruppenbildung
Vielfältige Methoden – welche, abhängig von Frage und Objekten Manipulationsmöglichkeiten; Stichwort: Herbeiclustern Dokumentation der Methoden Gruppenbildung  Generalisierung  Informationsverlust Cluster verbal interpretieren und charakterisieren

Clusteranalyse von Maria Eickhold und Tobias Töpfer.

Ähnliche Präsentationen

Präsentation zum Thema: "Clusteranalyse von Maria Eickhold und Tobias Töpfer."— Präsentation transkript:

Ähnliche Präsentationen

Über Projekt

Feedback

Anmelden

Anmeldung über soziales Netzwerk:

Clusteranalyse von Maria Eickhold und Tobias Töpfer.

Ähnliche Präsentationen

Präsentation zum Thema: "Clusteranalyse von Maria Eickhold und Tobias Töpfer."— Präsentation transkript:

Ähnliche Präsentationen

Über Projekt

Feedback