Die Clusteranalyse Zielsetzung Datenreduktion: Zusammenfassung einer Vielzahl von Objekten oder Variablen zu Gruppen mit möglichst ähnlichem Informationsgehalt.

Slides:



Advertisements
Ähnliche Präsentationen
Referentin: Stefanie Jahn SS 2007
Advertisements

Kohonennetze für Information Retrieval mit User Feedback
Constraint Satisfaction Problems
Berg-Schlosser : VL : Vergleichende Politikwissenschaft Vergleichende Methoden Ausgangsbasis : Fälle: begrenzte Auswahl auf der Makro-Ebene, abhängig.
Grundlagen, zentrale Begriffe & Einführung in die Faktorenanalyse
Multivariate Analysemethoden Johannes Gutenberg Universität Mainz
Multivariate Analysemethoden Johannes Gutenberg Universität Mainz
Multivariate Analysemethoden Johannes Gutenberg Universität Mainz
„Wissenschaftliches Arbeiten“ Was soll denn das sein?
Verbrauchergruppen bei Gartenbauprodukten in Deutschland
Online-Evaluationssystems
Seminar Lehrevaluation
Geometrisches Divide and Conquer
Lösung linearer Gleichungssysteme
Demoprogramm: Clustering Eine graphische Demonstration verschiedener Clusteringalgorithmen anhand des Clusterings von Punkten im zweidimensionalen Raum.
Numerische Klassifikation TWINSPAN
Hypothesen testen: Grundidee
Was Wie Wann Zentrale Fragestellungen: ist eine Clusteranalyse?
Herzlich willkommen beim 1. Workshop der AG Methodik
Präsentation der Ergebnisse von Clusteranalysen
Der leistungsorientierte Krankenhausbetriebsvergleich Jürgen Klauber
Latente Variablen – Kennwerte zur Beurteilung von Modellen
Methodisches Problemlösen - die INVENToolbox ® der INVENT NET ® GmbH
Tutorium
Clusteranalyse von Maria Eickhold und Tobias Töpfer.
Vorlesung: Biometrie für Studierende der Veterinärmedizin
Vorlesung: Biometrie für Studierende der Veterinärmedizin
Betrügern auf der Spur WIN-Treffen 2010 Falko Meyer 04 BW.
Ein Produkt von PhysioNetzwerk. Backsupport ist eine unterstützende Maßnahme zur Optimierung der Rückenrehabilitation.
Christian Schulz, Marc Thielbeer, Sebastian Boldt
Thomas Schmitt | Sozialkompetenz |
Effiziente Algorithmen
Ausgleichungsrechnung I
Ausgangslage Mangelhafte Führungs-kompetenz Schlechtes Betriebsklima
Regionalisierte Variablen und Kriging
Quantum Computing Hartmut Klauck Universität Frankfurt WS 05/
Quantum Computing Hartmut Klauck Universität Frankfurt WS 04/
Effiziente Algorithmen Hartmut Klauck Universität Frankfurt SS
Durchführung einer hierarchischen Clusteranalyse
Adaption von K-Means Algorithmen an Datenbanken
Delphi – Befragung – Walter Geiger
Black Box Algorithmen Hartmut Klauck Universität Frankfurt SS
„Postmaterielle Werte“
Multivariate Statistische Verfahren
Statistische Methoden in der Wirtschafts- und Sozialgeographie
SOTA Andrej Gisbrecht
Forschungsmethodik II, SS 2010 Vesna Pavlovski & Julia Pichlhöfer
Statistik Statistik I Seminar + Blockveranstaltung Statistik I
Analyse von Deliktsähnlichkeiten auf der Basis von Individualdaten
Polymorphie (Vielgestaltigkeit). Wenn eine Methode, wie z.B. print für verschiedene Programmteile steht (und z.B. einmal Objekte verschiedener Klassen.
Statistik – Regression - Korrelation
Direkte Darstellung von Faserinformation durch Kohärenzmaße
Sebastian Loose DPF – A Perceptual Distance Function for Image Retrieval Proseminar SS 2005 Distanzen und Ähnlichkeitsmaße im Hochdimensionalem.
Institut für Kartographie und Geoinformation Prof. Dr. Lutz Plümer Diskrete Mathematik II Foliendesign: Jörg Steinrücken & Tobias Kahn Vorlesung
Die Faktorenanalyse.
Faktorenanalyse Tamara Katschnig.
Clusteranalyse Tamara Katschnig.
Institut für Informationssysteme Technische Universität Braunschweig Institut für Informationssysteme Technische Universität Braunschweig Verdrängung von.
Effiziente und effektive Clustering-Methode: CLARANS Seminar zu Datenbanksystemen im SS 2007 Name: Chen Jin Betreuer: Christian Stahlhut 10.Juli 2007.
c-means clustering (FCM)
Deskriptive Statistik, Korrelationen, Mittelwertvergleiche, Graphiken
CL Tree MW 31.1 Business Intelligence Wintersemester 2015 / 2016 Stanislav Prokupetz.
Statistik I Statistik I Statistische Grundbegriffe
Die klassischen Methoden der historisch-vergleichenden Forschung Universität Zürich Soziologisches Institut Seminar: Methoden des internationalen Vergleichs.
Spärliche Kodierung von Videos natürlicher Szenen Vortragender: Christian Fischer.
 Gegenstandsbereich der Testtheorie: Analyse der Charakteristika von Tests:  Güte von Tests.  Struktur von Tests.  Schwierigkeit von Tests.  Gruppenunterschiede.
Rechen- und Kommunikationszentrum (RZ) Selektionsstrategien auf Graphstrukturen Sven Porsche Seminarvorträge Aachen.
Testtheorie (Vorlesung 14: ) Testtheorie allgemein:  Ziele und Inhalte der Testtheorie:  Beurteilung der Eigenschaften von Tests  Speziell: Güte.
Clusteranalyse Wege und Arten Entstanden im Rahmen der Seminararbeit für WS09/10 Betreuer: Prof. Jobst Hoffmann Dr. Tim Hiddemann Aachen, Januar 2010.
 Präsentation transkript:

Die Clusteranalyse Zielsetzung Datenreduktion: Zusammenfassung einer Vielzahl von Objekten oder Variablen zu Gruppen mit möglichst ähnlichem Informationsgehalt O- und V-Analyse, wobei die O-Analyse die verbreitetere Anwendung ist Grundlegende Idee Bildung von Gruppen, die in sich möglichst homogen sind, während die Unähnlichkeit zwischen den Gruppen möglichst groß sein soll Dipl.-Vw. Lutz Benson, Volkswirtschaftslehre, insbes. Stadt- und Regionalökonomie

Grundsätzliches Vorgehen bei der Clusteranalyse Berechnung von Ähnlichkeits-, Distanzmaßen für alle möglichen Fallpaare Ähnlichstes Paar wird zum ersten Cluster zusammengefasst Erneute Berechnung der Ähnlichkeitsmaße für alle nun noch n-1 Elemente Erneute Zusammenfassung des ähnlichsten Paars entweder durch Bildung eines neuen Clusters oder schon bestehenden Clustern wird ein weiteres Element zugeschlagen maximal n-1 mal wiederholt Abbruch der Clusterbildung, wenn gewünschte Clusterzahl erreicht Vorgehen 1.  Berechnung von Ähnlichkeitsmaßen/Distanzmaßen für alle möglichen Fallpaare 2.  Das ähnlichste Paar wird zu einem ersten Cluster zusammengefaßt 3.  Erneute Berechnung der Ähnlichkeitsmaße für alle möglichen Fallpaare der nun nur noch n-1 Elemente 4.  Das ähnlichste Paar wird wiederum zusammengefaßt, indem entweder ein neues Cluster gebildet wird oder ein weiteres Element dem schon bestehenden Cluster hinzugeschlagen wird  maximal n-1 mal wiederholt ®     die Clusterbildung wird dann abgebrochen, wenn die gewünschte Clusteranzahl erreicht ist Dipl.-Vw. Lutz Benson, Volkswirtschaftslehre, insbes. Stadt- und Regionalökonomie

Gängige Distanz- und Ähnlichkeitsmaße Euklidische Distanz – „Luftlinie“ Quadrierte Euklidische Distanz Manhattan-Distanz – „US-Taxifahrer“ Minkowski-Distanz Tschebyscheff Cosinus, Pearson Korrelation -> Ähnlichkeitsmaße weitere Maße für andere Skalenniveaus Maße haben jeweils Eigenarten, die das Ergebnis beeinflussen Distanz-/Ähnlichkeitsmaße (a) Euklidische Distanz: „Luftlinie“ (b)Quadrierte Euklidische Distanz (c) Manhattan-Distanz: Summe der absoluten Differenzen zwischen den Wertepaaren (Distanz, die ein Taxifahrer in den USA zurücklegen muß) (g) Minkowski-Distanz: ,  Manhattan-Distanz und Euklidische Distanz sind Spezialfälle mit r = 1 bzw. r = 2 (e) Tschebyscheff: absolut größte Differenz der Variablenausprägungen (d)Cosinus: Cosinus des Winkels zwischen den Vektoren  Ähnlichkeitsmaß (f)  Pearson-Korrelation: Korrelation der Objekte  Ähnlichkeitsmaß (h) weitere Maße für andere Skalenniveaus   Dipl.-Vw. Lutz Benson, Volkswirtschaftslehre, insbes. Stadt- und Regionalökonomie

Zu beachten bei der Clusteranalyse Grundvoraussetzung: Anwendung der Distanzmaße erfordert unkorrelierte Variablen Mögliche Lösung: Generierung orthogonalisierter Variablen mittels Faktorenanalyse Bei stark unterschiedlichen Wertebereichen: Variablen mit großen Wertebereichen dominieren das Ergebnis Lösung: Standardisierung der Variablen zur Vermeidung von Skaleneffekten Zu beachten: ·     Grundvoraussetzung für die Anwendung der Distanzmaße: Variablen müssen unkorreliert sein! Mögliche Lösung: Generierung orthogonalisierter Variablen mittels Faktorenanalyse und Rotation ·     Bei stark unterschiedlichen Wertebereichen wird zur Vermeidung von Skaleneffekten eine Standardisierung der Variablen nötig. Dipl.-Vw. Lutz Benson, Volkswirtschaftslehre, insbes. Stadt- und Regionalökonomie

Bestimmung der Distanz von Clustern Nächstgelegener Nachbar Entferntester Nachbar Linkage zwischen den Gruppen Linkage innerhalb der Gruppen Zentroid-, Median-Clustering Ward Methoden haben ebenfalls jeweils Eigenarten, die das Ergebnis beeinflussen (a) Nächstgelegener Nachbar: Distanzmaß des ähnlichsten Paares aller möglichen Fallpaare zweier Cluster als Distanz der beiden Cluster (b)Entferntester Nachbar: Distanzmaß des unähnlichsten Paares aller möglichen Fallpaare zweier Cluster als Distanz der beiden Cluster (c) Linkage zwischen den Gruppen: Durchschnittliche Distanz aller möglichen Fallpaare zweier Cluster, wobei aus jedem der beiden Cluster jeweils ein Fall stammt (d)Linkage innerhalb der Gruppen: wie (c.) , nur werden auch Fallpaare berücksichtigt, bei denen beide Elemente aus einem Cluster stammen. (e) Zentroid-Clustering: Bildung eines „fiktiven Objekts“, dem Zentroid, das durch die Variablenmittelwerte der im Cluster enthaltenen Fälle gekennzeichnet ist. Berechnung der Distanz anhand dieses Zentroids. (f)  Median-Clustering: wie (e), nur wird nach der Fusionierung zweier Cluster der neue Mittelpunkt nicht als Mittelwert aller Fälle bestimmt, sondern als Mittelwert der Zentroide der fusionierten Cluster  beide Cluster haben bei der neuen Mittelwertbildung dasselbe Gewicht (g) Ward: Fusioniert werden jeweils die Cluster, für die der Zuwachs an Heterogenität in den Clustern minimal ist. Als Maß für die Heterogenität dient die Summe der quadrierten Euklidischen Distanzen aller Objekte eines Clusters zum jeweiligen Zentroid. Dipl.-Vw. Lutz Benson, Volkswirtschaftslehre, insbes. Stadt- und Regionalökonomie

Darstellung der Ergebnisse erfolgt mittels Zuordnungsübersicht Dendrogramm Eiszapfendiagramm Darstellung der Ergebnisse mittels ·     Zuordnungsübersicht ·     Dendrogramm ·     Eiszapfendiagramm Zu beantwortende Fragen und Probleme: ·     Angemessene Anzahl der Cluster: grundlegende Fragestellung, immer im Spannungsfeld zwischen Generalisierung/Informationsverlust und Übersichtlichkeit. Anhaltspunkt neben theoretischen Überlegungen: Höhe des Distanzmaßes als Maß für die Zunahme der Heterogenität. ·     Stark unterschiedliche Clustergrößen, nur einfach besetzte Cluster: kann durch die Wahl einer geeigneten Zahl an Clustern sowie durch die Wahl des Fusionierungsverfahren und des Ähnlichkeitsmaßes beeinflußt werden. ·     Ausreißer ®     Sinnvoll ist i.d.R. ein iteratives Vorgehen unter Testen verschiedener Varianten, bei der die überzeugendste bzw. am besten interpretierbare Lösung gewählt wird! ·     Schrittweises/hierarchisches Vorgehen: einmal in einem Cluster vereint können Fälle später nicht mehr unterschiedlichen Clustern zugeordnet werden  Diskriminanzanalyse ·     Rechenbarkeit Zur Anwendung ·     klassisches Verfahren der Datenreduktion: eine Vielzahl von Objekten oder Variablen werden zu Gruppen mit möglichst ähnlichem Informationsgehalt zusammengefaßt, wobei ein großer Teil der ursprünglichen Informationen verlorengeht, die Übersichtlichkeit jedoch zunimmt ·     Zusammenfassung von Objekten Empirische Regionalforschung: „Objekte“ sind zumeist „Regionen“  Anwendung der Clusteranalyse auf Regionen ermöglicht die Identifizierung ähnlicher Regionen und ist somit ein geeignetes und gebräuchliches Instrument, wenn es um Fragestellungen der Regionsabgrenzung und ‑typisierung geht. ·     Zusammenfassung von Variablen  die Clusteranalyse unterstützt bei der Identifizierung „ähnlicher“ Variablen, die sich entweder wechselseitig stark beeinflussen oder auf gemeinsame Hintergrundfaktoren zurückzuführen sind. Sie tritt damit in Konkurrenz zu anderen Verfahren wie die Korrelations- und und die Faktorenanalyse. Haupteinsatzgebiet sind dann Fragestellungen, in denen es um die Konstruktion von Indikatoren geht. Dipl.-Vw. Lutz Benson, Volkswirtschaftslehre, insbes. Stadt- und Regionalökonomie

Zu beantwortende Fragen und Probleme der Clusteranalyse Angemessene Anzahl der Cluster: Anhaltspunkt Distanzmaß Stark unterschiedliche Clustergrößen, nur einfach besetzte Cluster Ausreißer sinnvoll: iteratives Verfahren, Testen verschiedener Varianten und Auswahl der überzeugendsten, interpretierbaren Lösung „hierarchischer“ Ansatz der Clusteranalyse Durchführung einer Diskriminanzanalyse Rechenbarkeit Zu beantwortende Fragen und Probleme: Angemessene Anzahl der Cluster: grundlegende Fragestellung, immer im Spannungsfeld zwischen Generalisierung/Informationsverlust und Übersichtlichkeit. Anhaltspunkt neben theoretischen Überlegungen: Höhe des Distanzmaßes als Maß für die Zunahme der Heterogenität. Stark unterschiedliche Clustergrößen, nur einfach besetzte Cluster: kann durch die Wahl einer geeigneten Zahl an Clustern sowie durch die Wahl des Fusionierungsverfahren und des Ähnlichkeitsmaßes beeinflusst werden. Andererseits nicht unbedingt sinnvoll, einzelne Fälle in Cluster hineinzuzwingen Ausreißer Insgesamt Verfahren, das auf Änderungen der Vorgaben oder Elimination von Ausreißern äußerst sensibel, d.h. mit völlig anderen Ergebnissen reagieren kann Sinnvoll ist i.d.R. ein iteratives Vorgehen unter Testen verschiedener Varianten, bei der die überzeugendste bzw. am besten interpretierbare Lösung gewählt wird! hierarchisches Vorgehen: einmal in einem Cluster vereint können Fälle später nicht mehr unterschiedlichen Clustern zugeordnet werden  Diskriminanzanalyse Rechenbarkeit Dipl.-Vw. Lutz Benson, Volkswirtschaftslehre, insbes. Stadt- und Regionalökonomie

Anwendung der Clusteranalyse klassisches Verfahren der Datenreduktion Zusammenfassung von Objekten Empirische Regionalforschung: Objekte sind i.d.R. Regionen Identifizierung „ähnlicher“ Regionen Instrument der Regionsabgrenzung und -typisierung Zusammenfassung von Variablen Identifizierung „ähnlicher“ Variablen, die sich gegenseitig beeinflussen oder auf gemeinsame Hintergrundfaktoren zurückzuführen sind; Zielsetzung ähnlich der Faktorenanalyse, Haupteinsatzgebiet dann Konstruktion von Indikatoren klassisches Verfahren der Datenreduktion: eine Vielzahl von Objekten oder Variablen werden zu Gruppen mit möglichst ähnlichem Informationsgehalt zusammengefaßt, wobei ein großer Teil der ursprünglichen Informationen verlorengeht, die Übersichtlichkeit jedoch zunimmt Zusammenfassung von Objekten Empirische Regionalforschung: „Objekte“ sind zumeist „Regionen“ Zusammenfassung von Variablen tritt damit in Konkurrenz zu anderen Verfahren wie die Korrelations- und und die Faktorenanalyse, wobei der Unterschied in der 0-1 Entscheidung besteht! Dipl.-Vw. Lutz Benson, Volkswirtschaftslehre, insbes. Stadt- und Regionalökonomie