Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

Statistische Methoden in der Wirtschafts- und Sozialgeographie

Ähnliche Präsentationen


Präsentation zum Thema: "Statistische Methoden in der Wirtschafts- und Sozialgeographie"—  Präsentation transkript:

1 Statistische Methoden in der Wirtschafts- und Sozialgeographie
Ort: Multimediapool Rechenzentrum Zeit: Mittwoch Uhr Material: Thema: Beschreibung und Analyse Wirtschafts- und Sozialgeographischen Datenmaterials mit multivariaten Statistikmethoden wie Regressions-, Faktor-, Cluster- oder Diskriminanzanalyse. Einblick in Schätz-, Test- und Modellierungstheorie Statistische Methoden WS2002/2003 Tim Hoffmann Folie 1

2 Inhalt 11. Lehrveranstaltung
11 Clusteranalyse 11.0 Problem 11.1 Voraussetzungen und Ziel 11.2 Grundidee 11.3 Distanzmaße 11.4 Fusionsprozess 11.5 Linkage-Methoden 11.6 Interpretation der Ergebnisse 11.7 Methode zur Bestimmung der Anzahl der Cluster 11.8 Ausführung mit SPSS Statistische Methoden WS2002/2003 Tim Hoffmann Folie 2 / LV11

3 11 Clusteranalyse 11.0 Problem
Ein wichtige Aufgabe der Statistiker ist die Klassifizierung. Ihr Ziel ist es, die Untersuchungsobjekte in sinnvolle Gruppen zusammenzufassen. Diese Gruppen (Klassen, Cluster) sollen sich durch gemeinsame Eigenschaften auszeichnen. Doch wie „misst“ man diese Gemeinsamkeiten? Die Clusteranalyse steht somit im Gegensatz zur Faktorenanalyse. In ihr werden Fälle gruppiert, in der Faktorenanalyse fasst man die Variablen zusammen. Statistische Methoden WS2002/2003 Tim Hoffmann Folie 3 / LV11

4 11.1 Voraussetzungen und Ziel
Hauptkomponenten- und Faktorenanalyse Zahl der Variablen: eins, zwei oder mehr (multivariates Verfahren) Art der Skalierung: intervalls- oder ordinalskalierte Variablen Erhebung: Stichproben- oder Vollerhebung Ziel: Klassifizierung (Clusterung) der Merkmalsträger (Fälle) Statistische Methoden WS2002/2003 Tim Hoffmann Folie 4 / LV11

5 11.2 Grundidee Gegeben sei eine Menge von n Variablen. Die Menge der Variablen spannen einen n-dimensionalen Raum auf. Einzelne Merkmalsträger sind Punkte (oder Vektoren) in diesem Zustandsraum. Merkmalsträger mit ähnlichen Eigenschaften, liegen in dem Raum „dicht“ beieinander. 1.Frage: Wie misst man den Abstand der Objekte im Zustandsraum? -> Distanzmaß Mit einem bestimmten Verfahren können „dicht“ liegende Objekte zusammengefasst werden. 2.Frage: Mit welchem Algorithmus werden die Cluster gebildet? -> Fusionsprozess Statistische Methoden WS2002/2003 Tim Hoffmann Folie 4 / LV11

6 Euklidische Metrik (r = 2):
11.3 Distanzmaße In der Mathematik werden Distanzmaße als Metrik bezeichnet. Zwei Punkten in einem Koordinatensystem X(x1,..,xn), Z(z1,..,zn) werden mit Hilfe der Metrik ein Abstand zugewiesen. Die bekannteste ist wohl die Euklidische Metrik: Euklidische Metrik (r = 2): x1 x2 x Z d (sinnvoll für intervallskalierte Variablen) City-Block-Metrik (r = 1): x2 Z d (sinnvoll für Rangordnungs-variablen) x x1 allgemein: Minkowski-Metrik Statistische Methoden WS2002/2003 Tim Hoffmann Folie 6 / LV11

7 11.4 Fusionsprozess Die Abstandsfrage ist nun geklärt, wie werden die die Cluster zusammengefasst? 1. Methode : Hierarchische Clusteranalyse: Startcluster sind die einzelnen Merkmalsträger. Nun werden mit einer bestimmten Linkage-Methode benachbarte Cluster erkannt und solange zusammengefasst, bis nur noch ein Cluster existiert. Analysiert man die Reihenfolge der Clusterung, kann man ähnlich, wie bei der Abschätzung der Anzahl der Faktoren bei der Faktoranalyse Aussagen zur besten Anzahl von Clustern treffen! 2. Methode : Cluster-Zentren-Analyse: Startcluster sind besondere für die spätere Gruppe sehr typische Fälle (Cluster-Zentrum). Für jeden Fall wird jetzt untersucht, welches das nächste Clusterzentrum ist und diesem zugeordnet Statistische Methoden WS2002/2003 Tim Hoffmann Folie 7 / LV11

8 11.5 Linkage-Methoden (Abstandsmaße für Cluster)
Bestehen zwei Cluster aus mehreren Fällen, gibt es verschiedene Möglichkeiten, den Abstand D der Cluster zu bestimmen: Zentroid-Clustering: D ist Abstand zwischen den Mittelpunkten der Cluster. Single Linkage („Nearest Neighbor“) Minimums-Methode : D ist der kleinste aller möglichen Abstände zwischen den Clusterbestandteilen. Es entstehen im allgemeinen lang gezogene Cluster. Gute Methode zum Ausschluss von Ausreißern! Aber: Tendenz zur Bildung von wenigen großen Gruppen denen viele kleine Gruppen gegenüberstehen. Complete Linkage („Nearest Neighbor“) Maximums-Methode : D ist der größte aller möglichen Abstände zwischen den Clusterbestandteilen. Es entstehen im allgemeinen runde Cluster. Es entstehen sehr homogene Cluster! Aber: Homogene Cluster sind manchmal nicht erwünscht! Statistische Methoden WS2002/2003 Tim Hoffmann Folie 8 / LV11

9 11.5 Linkage-Methoden (Fortsetzung - Auszug aus SPSS Online Hilfe)
Linkage zwischen den Gruppen: Kombiniert Cluster, um die Durchschnittsdistanz zwischen allen Itempaaren zu verkleinern, in denen ein Teil des Paares aus jeweils einem Cluster stammt. Diese Methode verwendet Informationen über alle Distanzpaare, nicht nur das nächstgelegene oder das Entfernteste. Linkage innerhalb der Gruppen: Kombiniert Cluster auf die Art, dass die Durchschnittsdistanz zwischen allen Items innerhalb des entstandenen Clusters so klein wie möglich ist. Die Distanz zwischen zwei Clustern wird dann als Durchschnittswert aller Distanzen zwischen allen möglichen Fallpaaren des Clusters genommen, der entstehen würde, wenn sie kombiniert wären. Median-Clustering: Die beiden kombinierten Cluster werden bei der Berechnung des Zentroidwerts gleich gewichtet; dabei spielt es keine Rolle, wie viele Fälle jeder enthält. Auf diese Weise können kleine Gruppen bei der Charakterisierung größerer Cluster, in die sie integriert werden, gleich große Effekte haben. Wards Methode: Mit dieser Methode werden zuerst die Mittelwerte für jede Variable innerhalb der einzelnen Cluster berechnet. Anschließend wird für jeden Fall die Quadrierte Euklidische Distanz zu den Cluster-Mittelwerten berechnet. Diese Distanzen werden für alle Fälle summiert. Bei jedem Schritt sind die beiden zusammengeführten Cluster diejenigen, die die geringste Zunahme in der Gesamtsumme der quadrierten Distanzen innerhalb der Gruppen ergeben. Statistische Methoden WS2002/2003 Tim Hoffmann Folie 9 / LV11

10 11.6 Interpretation der Ergebnisse
Distanzmatrix Statistische Methoden WS2002/2003 Tim Hoffmann Folie 10 / LV11

11 11.6.2 Tabelle der Aglomerationsschritte
Zeigt an, in welchem Schritt welche Cluster verbunden werden! Mit Hilfe der Werte in der Spalte Koeffizienten (Gesamtabstand in den Clustern) wird später der Scree-Plot erstellt! Statistische Methoden WS2002/2003 Tim Hoffmann Folie 11 / LV11

12 Dendrogramm Statistische Methoden WS2002/2003 Tim Hoffmann Folie 12 / LV11

13 11.7 Methode zur Bestimmung der Anzahl der Cluster
Scree-Test Ziel: Möglichst wenige Cluster mit möglichst geringem Gesamtabstand! Am schwierigsten ist jedoch, den einzelnen Clustern eine Bedeutung zuzuweisen -> das ist die wahre Kunst des Statistikers !! Statistische Methoden WS2002/2003 Tim Hoffmann Folie 13 / LV11

14 Analyse-> Klassifizierung -> Hierarchische Clusteranalyse
11.8 Ausführung mit SPSS Analyse-> Klassifizierung -> Hierarchische Clusteranalyse Variablen auswählen und Optionen festlegen! Wichtig: Variablen sollten standardisiert werden, falls die Skalenausprägung unterschiedlich ist !!! -> Muell.sav Statistische Methoden WS2002/2003 Tim Hoffmann Folie 14 / LV11


Herunterladen ppt "Statistische Methoden in der Wirtschafts- und Sozialgeographie"

Ähnliche Präsentationen


Google-Anzeigen