Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

Die Clusteranalyse Zielsetzung Datenreduktion: Zusammenfassung einer Vielzahl von Objekten oder Variablen zu Gruppen mit möglichst ähnlichem Informationsgehalt.

Ähnliche Präsentationen


Präsentation zum Thema: "Die Clusteranalyse Zielsetzung Datenreduktion: Zusammenfassung einer Vielzahl von Objekten oder Variablen zu Gruppen mit möglichst ähnlichem Informationsgehalt."—  Präsentation transkript:

1 Die Clusteranalyse Zielsetzung Datenreduktion: Zusammenfassung einer Vielzahl von Objekten oder Variablen zu Gruppen mit möglichst ähnlichem Informationsgehalt O- und V-Analyse, wobei die O-Analyse die verbreitetere Anwendung ist Grundlegende Idee Bildung von Gruppen, die in sich möglichst homogen sind, während die Unähnlichkeit zwischen den Gruppen möglichst groß sein soll Dipl.-Vw. Lutz Benson, Volkswirtschaftslehre, insbes. Stadt- und Regionalökonomie

2 Grundsätzliches Vorgehen bei der Clusteranalyse
Berechnung von Ähnlichkeits-, Distanzmaßen für alle möglichen Fallpaare Ähnlichstes Paar wird zum ersten Cluster zusammengefasst Erneute Berechnung der Ähnlichkeitsmaße für alle nun noch n-1 Elemente Erneute Zusammenfassung des ähnlichsten Paars entweder durch Bildung eines neuen Clusters oder schon bestehenden Clustern wird ein weiteres Element zugeschlagen maximal n-1 mal wiederholt Abbruch der Clusterbildung, wenn gewünschte Clusterzahl erreicht Vorgehen 1.  Berechnung von Ähnlichkeitsmaßen/Distanzmaßen für alle möglichen Fallpaare 2.  Das ähnlichste Paar wird zu einem ersten Cluster zusammengefaßt 3.  Erneute Berechnung der Ähnlichkeitsmaße für alle möglichen Fallpaare der nun nur noch n-1 Elemente 4.  Das ähnlichste Paar wird wiederum zusammengefaßt, indem entweder ein neues Cluster gebildet wird oder ein weiteres Element dem schon bestehenden Cluster hinzugeschlagen wird  maximal n-1 mal wiederholt ®     die Clusterbildung wird dann abgebrochen, wenn die gewünschte Clusteranzahl erreicht ist Dipl.-Vw. Lutz Benson, Volkswirtschaftslehre, insbes. Stadt- und Regionalökonomie

3 Gängige Distanz- und Ähnlichkeitsmaße
Euklidische Distanz – „Luftlinie“ Quadrierte Euklidische Distanz Manhattan-Distanz – „US-Taxifahrer“ Minkowski-Distanz Tschebyscheff Cosinus, Pearson Korrelation -> Ähnlichkeitsmaße weitere Maße für andere Skalenniveaus Maße haben jeweils Eigenarten, die das Ergebnis beeinflussen Distanz-/Ähnlichkeitsmaße (a) Euklidische Distanz: „Luftlinie“ (b)Quadrierte Euklidische Distanz (c) Manhattan-Distanz: Summe der absoluten Differenzen zwischen den Wertepaaren (Distanz, die ein Taxifahrer in den USA zurücklegen muß) (g) Minkowski-Distanz: ,  Manhattan-Distanz und Euklidische Distanz sind Spezialfälle mit r = 1 bzw. r = 2 (e) Tschebyscheff: absolut größte Differenz der Variablenausprägungen (d)Cosinus: Cosinus des Winkels zwischen den Vektoren  Ähnlichkeitsmaß (f)  Pearson-Korrelation: Korrelation der Objekte  Ähnlichkeitsmaß (h) weitere Maße für andere Skalenniveaus Dipl.-Vw. Lutz Benson, Volkswirtschaftslehre, insbes. Stadt- und Regionalökonomie

4 Zu beachten bei der Clusteranalyse
Grundvoraussetzung: Anwendung der Distanzmaße erfordert unkorrelierte Variablen Mögliche Lösung: Generierung orthogonalisierter Variablen mittels Faktorenanalyse Bei stark unterschiedlichen Wertebereichen: Variablen mit großen Wertebereichen dominieren das Ergebnis Lösung: Standardisierung der Variablen zur Vermeidung von Skaleneffekten Zu beachten: ·     Grundvoraussetzung für die Anwendung der Distanzmaße: Variablen müssen unkorreliert sein! Mögliche Lösung: Generierung orthogonalisierter Variablen mittels Faktorenanalyse und Rotation ·     Bei stark unterschiedlichen Wertebereichen wird zur Vermeidung von Skaleneffekten eine Standardisierung der Variablen nötig. Dipl.-Vw. Lutz Benson, Volkswirtschaftslehre, insbes. Stadt- und Regionalökonomie

5 Bestimmung der Distanz von Clustern
Nächstgelegener Nachbar Entferntester Nachbar Linkage zwischen den Gruppen Linkage innerhalb der Gruppen Zentroid-, Median-Clustering Ward Methoden haben ebenfalls jeweils Eigenarten, die das Ergebnis beeinflussen (a) Nächstgelegener Nachbar: Distanzmaß des ähnlichsten Paares aller möglichen Fallpaare zweier Cluster als Distanz der beiden Cluster (b)Entferntester Nachbar: Distanzmaß des unähnlichsten Paares aller möglichen Fallpaare zweier Cluster als Distanz der beiden Cluster (c) Linkage zwischen den Gruppen: Durchschnittliche Distanz aller möglichen Fallpaare zweier Cluster, wobei aus jedem der beiden Cluster jeweils ein Fall stammt (d)Linkage innerhalb der Gruppen: wie (c.) , nur werden auch Fallpaare berücksichtigt, bei denen beide Elemente aus einem Cluster stammen. (e) Zentroid-Clustering: Bildung eines „fiktiven Objekts“, dem Zentroid, das durch die Variablenmittelwerte der im Cluster enthaltenen Fälle gekennzeichnet ist. Berechnung der Distanz anhand dieses Zentroids. (f)  Median-Clustering: wie (e), nur wird nach der Fusionierung zweier Cluster der neue Mittelpunkt nicht als Mittelwert aller Fälle bestimmt, sondern als Mittelwert der Zentroide der fusionierten Cluster  beide Cluster haben bei der neuen Mittelwertbildung dasselbe Gewicht (g) Ward: Fusioniert werden jeweils die Cluster, für die der Zuwachs an Heterogenität in den Clustern minimal ist. Als Maß für die Heterogenität dient die Summe der quadrierten Euklidischen Distanzen aller Objekte eines Clusters zum jeweiligen Zentroid. Dipl.-Vw. Lutz Benson, Volkswirtschaftslehre, insbes. Stadt- und Regionalökonomie

6 Darstellung der Ergebnisse
erfolgt mittels Zuordnungsübersicht Dendrogramm Eiszapfendiagramm Darstellung der Ergebnisse mittels ·     Zuordnungsübersicht ·     Dendrogramm ·     Eiszapfendiagramm Zu beantwortende Fragen und Probleme: ·     Angemessene Anzahl der Cluster: grundlegende Fragestellung, immer im Spannungsfeld zwischen Generalisierung/Informationsverlust und Übersichtlichkeit. Anhaltspunkt neben theoretischen Überlegungen: Höhe des Distanzmaßes als Maß für die Zunahme der Heterogenität. ·     Stark unterschiedliche Clustergrößen, nur einfach besetzte Cluster: kann durch die Wahl einer geeigneten Zahl an Clustern sowie durch die Wahl des Fusionierungsverfahren und des Ähnlichkeitsmaßes beeinflußt werden. ·     Ausreißer ®     Sinnvoll ist i.d.R. ein iteratives Vorgehen unter Testen verschiedener Varianten, bei der die überzeugendste bzw. am besten interpretierbare Lösung gewählt wird! ·     Schrittweises/hierarchisches Vorgehen: einmal in einem Cluster vereint können Fälle später nicht mehr unterschiedlichen Clustern zugeordnet werden  Diskriminanzanalyse ·     Rechenbarkeit Zur Anwendung ·     klassisches Verfahren der Datenreduktion: eine Vielzahl von Objekten oder Variablen werden zu Gruppen mit möglichst ähnlichem Informationsgehalt zusammengefaßt, wobei ein großer Teil der ursprünglichen Informationen verlorengeht, die Übersichtlichkeit jedoch zunimmt ·     Zusammenfassung von Objekten Empirische Regionalforschung: „Objekte“ sind zumeist „Regionen“  Anwendung der Clusteranalyse auf Regionen ermöglicht die Identifizierung ähnlicher Regionen und ist somit ein geeignetes und gebräuchliches Instrument, wenn es um Fragestellungen der Regionsabgrenzung und ‑typisierung geht. ·     Zusammenfassung von Variablen  die Clusteranalyse unterstützt bei der Identifizierung „ähnlicher“ Variablen, die sich entweder wechselseitig stark beeinflussen oder auf gemeinsame Hintergrundfaktoren zurückzuführen sind. Sie tritt damit in Konkurrenz zu anderen Verfahren wie die Korrelations- und und die Faktorenanalyse. Haupteinsatzgebiet sind dann Fragestellungen, in denen es um die Konstruktion von Indikatoren geht. Dipl.-Vw. Lutz Benson, Volkswirtschaftslehre, insbes. Stadt- und Regionalökonomie

7 Zu beantwortende Fragen und Probleme der Clusteranalyse
Angemessene Anzahl der Cluster: Anhaltspunkt Distanzmaß Stark unterschiedliche Clustergrößen, nur einfach besetzte Cluster Ausreißer sinnvoll: iteratives Verfahren, Testen verschiedener Varianten und Auswahl der überzeugendsten, interpretierbaren Lösung „hierarchischer“ Ansatz der Clusteranalyse Durchführung einer Diskriminanzanalyse Rechenbarkeit Zu beantwortende Fragen und Probleme: Angemessene Anzahl der Cluster: grundlegende Fragestellung, immer im Spannungsfeld zwischen Generalisierung/Informationsverlust und Übersichtlichkeit. Anhaltspunkt neben theoretischen Überlegungen: Höhe des Distanzmaßes als Maß für die Zunahme der Heterogenität. Stark unterschiedliche Clustergrößen, nur einfach besetzte Cluster: kann durch die Wahl einer geeigneten Zahl an Clustern sowie durch die Wahl des Fusionierungsverfahren und des Ähnlichkeitsmaßes beeinflusst werden. Andererseits nicht unbedingt sinnvoll, einzelne Fälle in Cluster hineinzuzwingen Ausreißer Insgesamt Verfahren, das auf Änderungen der Vorgaben oder Elimination von Ausreißern äußerst sensibel, d.h. mit völlig anderen Ergebnissen reagieren kann Sinnvoll ist i.d.R. ein iteratives Vorgehen unter Testen verschiedener Varianten, bei der die überzeugendste bzw. am besten interpretierbare Lösung gewählt wird! hierarchisches Vorgehen: einmal in einem Cluster vereint können Fälle später nicht mehr unterschiedlichen Clustern zugeordnet werden  Diskriminanzanalyse Rechenbarkeit Dipl.-Vw. Lutz Benson, Volkswirtschaftslehre, insbes. Stadt- und Regionalökonomie

8 Anwendung der Clusteranalyse
klassisches Verfahren der Datenreduktion Zusammenfassung von Objekten Empirische Regionalforschung: Objekte sind i.d.R. Regionen Identifizierung „ähnlicher“ Regionen Instrument der Regionsabgrenzung und -typisierung Zusammenfassung von Variablen Identifizierung „ähnlicher“ Variablen, die sich gegenseitig beeinflussen oder auf gemeinsame Hintergrundfaktoren zurückzuführen sind; Zielsetzung ähnlich der Faktorenanalyse, Haupteinsatzgebiet dann Konstruktion von Indikatoren klassisches Verfahren der Datenreduktion: eine Vielzahl von Objekten oder Variablen werden zu Gruppen mit möglichst ähnlichem Informationsgehalt zusammengefaßt, wobei ein großer Teil der ursprünglichen Informationen verlorengeht, die Übersichtlichkeit jedoch zunimmt Zusammenfassung von Objekten Empirische Regionalforschung: „Objekte“ sind zumeist „Regionen“ Zusammenfassung von Variablen tritt damit in Konkurrenz zu anderen Verfahren wie die Korrelations- und und die Faktorenanalyse, wobei der Unterschied in der 0-1 Entscheidung besteht! Dipl.-Vw. Lutz Benson, Volkswirtschaftslehre, insbes. Stadt- und Regionalökonomie


Herunterladen ppt "Die Clusteranalyse Zielsetzung Datenreduktion: Zusammenfassung einer Vielzahl von Objekten oder Variablen zu Gruppen mit möglichst ähnlichem Informationsgehalt."

Ähnliche Präsentationen


Google-Anzeigen