Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

Statistische Methoden in der Wirtschafts- und Sozialgeographie Ort: Multimediapool Rechenzentrum Zeit: Mittwoch 10.15-11-45 Uhr Material:

Ähnliche Präsentationen


Präsentation zum Thema: "Statistische Methoden in der Wirtschafts- und Sozialgeographie Ort: Multimediapool Rechenzentrum Zeit: Mittwoch 10.15-11-45 Uhr Material:"—  Präsentation transkript:

1 Statistische Methoden in der Wirtschafts- und Sozialgeographie Ort: Multimediapool Rechenzentrum Zeit: Mittwoch Uhr Material: Thema : Beschreibung und Analyse Wirtschafts- und Sozialgeographischen Datenmaterials mit multivariaten Statistikmethoden wie Regressions-, Faktor-, Cluster- oder Diskriminanzanalyse. Einblick in Schätz-, Test- und Modellierungstheorie Statistische Methoden WS2002/2003 Tim Hoffmann Folie 1

2 Inhalt 11. Lehrveranstaltung 11 Clusteranalyse 11.0 Problem 11.1 Voraussetzungen und Ziel 11.2 Grundidee 11.3 Distanzmaße 11.4 Fusionsprozess 11.5 Linkage-Methoden 11.6 Interpretation der Ergebnisse 11.7 Methode zur Bestimmung der Anzahl der Cluster 11.8 Ausführung mit SPSS Statistische Methoden WS2002/2003 Tim Hoffmann Folie 2 / LV11

3 Statistische Methoden WS2002/2003 Tim Hoffmann Folie 3 / LV11 11 Clusteranalyse 11.0 Problem Ein wichtige Aufgabe der Statistiker ist die Klassifizierung. Ihr Ziel ist es, die Untersuchungsobjekte in sinnvolle Gruppen zusammenzufassen. Diese Gruppen (Klassen, Cluster) sollen sich durch gemeinsame Eigenschaften auszeichnen. Doch wie misst man diese Gemeinsamkeiten? Die Clusteranalyse steht somit im Gegensatz zur Faktorenanalyse. In ihr werden Fälle gruppiert, in der Faktorenanalyse fasst man die Variablen zusammen.

4 11.1 Voraussetzungen und Ziel Hauptkomponenten- und Faktorenanalyse Zahl der Variablen: eins, zwei oder mehr (multivariates Verfahren) Art der Skalierung: intervalls- oder ordinalskalierte Variablen Erhebung: Stichproben- oder Vollerhebung Ziel: Klassifizierung (Clusterung) der Merkmalsträger (Fälle) Statistische Methoden WS2002/2003 Tim Hoffmann Folie 4 / LV11

5 11.2 Grundidee Statistische Methoden WS2002/2003 Tim Hoffmann Folie 4 / LV11 Gegeben sei eine Menge von n Variablen. Die Menge der Variablen spannen einen n- dimensionalen Raum auf. Einzelne Merkmalsträger sind Punkte (oder Vektoren) in diesem Zustandsraum. Merkmalsträger mit ähnlichen Eigenschaften, liegen in dem Raum dicht beieinander. 1.Frage: Wie misst man den Abstand der Objekte im Zustandsraum? -> Distanzmaß Mit einem bestimmten Verfahren können dicht liegende Objekte zusammengefasst werden. 2.Frage: Mit welchem Algorithmus werden die Cluster gebildet? -> Fusionsprozess

6 11.3 Distanzmaße Statistische Methoden WS2002/2003 Tim Hoffmann Folie 6 / LV11 In der Mathematik werden Distanzmaße als Metrik bezeichnet. Zwei Punkten in einem Koordinatensystem X(x 1,..,x n ), Z(z 1,..,z n ) werden mit Hilfe der Metrik ein Abstand zugewiesen. Die bekannteste ist wohl die Euklidische Metrik: x1x1 x2x2 x Z d City-Block-Metrik (r = 1): x1x1 x2x2 x Z d allgemein: Minkowski-Metrik (sinnvoll für intervallskalierte Variablen) (sinnvoll für Rangordnungs- variablen) Euklidische Metrik (r = 2):

7 11.4 Fusionsprozess Die Abstandsfrage ist nun geklärt, wie werden die die Cluster zusammengefasst? 1. Methode : Hierarchische Clusteranalyse: 1.Startcluster sind die einzelnen Merkmalsträger. 2.Nun werden mit einer bestimmten Linkage-Methode benachbarte Cluster erkannt und solange zusammengefasst, bis nur noch ein Cluster existiert. 3.Analysiert man die Reihenfolge der Clusterung, kann man ähnlich, wie bei der Abschätzung der Anzahl der Faktoren bei der Faktoranalyse Aussagen zur besten Anzahl von Clustern treffen! 2. Methode : Cluster-Zentren-Analyse: Startcluster sind besondere für die spätere Gruppe sehr typische Fälle. (Cluster-Zentrum). Für jeden Fall wird jetzt untersucht, welches das nächste Clusterzentrum ist und diesem zugeordnet Statistische Methoden WS2002/2003 Tim Hoffmann Folie 7 / LV11

8 Bestehen zwei Cluster aus mehreren Fällen, gibt es verschiedene Möglichkeiten, den Abstand D der Cluster zu bestimmen: Zentroid-Clustering: D ist Abstand zwischen den Mittelpunkten der Cluster. Single Linkage (Nearest Neighbor) Minimums-Methode : D ist der kleinste aller möglichen Abstände zwischen den Clusterbestandteilen. Es entstehen im allgemeinen lang gezogene Cluster. Gute Methode zum Ausschluss von Ausreißern! Aber: Tendenz zur Bildung von wenigen großen Gruppen denen viele kleine Gruppen gegenüberstehen. Complete Linkage (Nearest Neighbor) Maximums-Methode : D ist der größte aller möglichen Abstände zwischen den Clusterbestandteilen. Es entstehen im allgemeinen runde Cluster. Es entstehen sehr homogene Cluster! Aber: Homogene Cluster sind manchmal nicht erwünscht! 11.5 Linkage-Methoden (Abstandsmaße für Cluster) Statistische Methoden WS2002/2003 Tim Hoffmann Folie 8 / LV11

9 Statistische Methoden WS2002/2003 Tim Hoffmann Folie 9 / LV Linkage-Methoden (Fortsetzung - Auszug aus SPSS Online Hilfe) Linkage zwischen den Gruppen: Kombiniert Cluster, um die Durchschnittsdistanz zwischen allen Itempaaren zu verkleinern, in denen ein Teil des Paares aus jeweils einem Cluster stammt. Diese Methode verwendet Informationen über alle Distanzpaare, nicht nur das nächstgelegene oder das Entfernteste. Linkage innerhalb der Gruppen: Kombiniert Cluster auf die Art, dass die Durchschnittsdistanz zwischen allen Items innerhalb des entstandenen Clusters so klein wie möglich ist. Die Distanz zwischen zwei Clustern wird dann als Durchschnittswert aller Distanzen zwischen allen möglichen Fallpaaren des Clusters genommen, der entstehen würde, wenn sie kombiniert wären. Median-Clustering: Die beiden kombinierten Cluster werden bei der Berechnung des Zentroidwerts gleich gewichtet; dabei spielt es keine Rolle, wie viele Fälle jeder enthält. Auf diese Weise können kleine Gruppen bei der Charakterisierung größerer Cluster, in die sie integriert werden, gleich große Effekte haben. Wards Methode: Mit dieser Methode werden zuerst die Mittelwerte für jede Variable innerhalb der einzelnen Cluster berechnet. Anschließend wird für jeden Fall die Quadrierte Euklidische Distanz zu den Cluster-Mittelwerten berechnet. Diese Distanzen werden für alle Fälle summiert. Bei jedem Schritt sind die beiden zusammengeführten Cluster diejenigen, die die geringste Zunahme in der Gesamtsumme der quadrierten Distanzen innerhalb der Gruppen ergeben.

10 Statistische Methoden WS2002/2003 Tim Hoffmann Folie 10 / LV Interpretation der Ergebnisse Distanzmatrix

11 Statistische Methoden WS2002/2003 Tim Hoffmann Folie 11 / LV Tabelle der Aglomerationsschritte Zeigt an, in welchem Schritt welche Cluster verbunden werden! Mit Hilfe der Werte in der Spalte Koeffizienten (Gesamtabstand in den Clustern) wird später der Scree-Plot erstellt!

12 Statistische Methoden WS2002/2003 Tim Hoffmann Folie 12 / LV Dendrogramm

13 Scree-Test Statistische Methoden WS2002/2003 Tim Hoffmann Folie 13 / LV11 Am schwierigsten ist jedoch, den einzelnen Clustern eine Bedeutung zuzuweisen -> das ist die wahre Kunst des Statistikers !! 11.7 Methode zur Bestimmung der Anzahl der Cluster Ziel: Möglichst wenige Cluster mit möglichst geringem Gesamtabstand!

14 11.8 Ausführung mit SPSS Analyse-> Klassifizierung -> Hierarchische Clusteranalyse Variablen auswählen und Optionen festlegen! Wichtig: Variablen sollten standardisiert werden, falls die Skalenausprägung unterschiedlich ist !!! -> Muell.savMuell.sav Statistische Methoden WS2002/2003 Tim Hoffmann Folie 14 / LV11


Herunterladen ppt "Statistische Methoden in der Wirtschafts- und Sozialgeographie Ort: Multimediapool Rechenzentrum Zeit: Mittwoch 10.15-11-45 Uhr Material:"

Ähnliche Präsentationen


Google-Anzeigen