Clusteranalyse von Maria Eickhold und Tobias Töpfer.

Slides:



Advertisements
Ähnliche Präsentationen
Transportmittelwahl im Güterverkehr Eine Analyse unternehmerischer Präferenzen am Beispiel der Region Weser-Ems Jahrestagung des Arbeitskreises Verkehr.
Advertisements

Blue J.
Referentin: Stefanie Jahn SS 2007
Objektbewegungsdetektion in Bildfolgen
Soziologische Theorien und soziale Fakten 8. Veranstaltung.
Heute 1.F – Test zur Varianzhomogenität 2.Bartlett-Test zur Varianzhomogenität 3.Chi – Quadrat Tests für Häufigkeiten 4.Chi – Quadrat Tests zur Verteilungsanpassung.
Berg-Schlosser : VL : Vergleichende Politikwissenschaft Vergleichende Methoden Ausgangsbasis : Fälle: begrenzte Auswahl auf der Makro-Ebene, abhängig.
V.Gimpel Eine Arbeitsgruppe des selbstorganisierten Lernens im Internet.
8 Behandlung von Begriffen 8.1 Grundlagen aus Logik und Psychologie
zu einer erfolgreichen Präsentation
Einführung Blue J.
Multivariate Analysemethoden Johannes Gutenberg Universität Mainz
Numerik partieller Differentialgleichungen
Seminar zum pi-Kalkül betreut von Andreas Rossberg
Seminar Lehrevaluation
Gliederung der Vorlesung Software Engineering WS 2001/2002
Query Reformulation Seminar Multimedia-Datenbanken Sommersemester 2002 Marcus Denecke.
Geostatistik Interpolation & Kriging Geostatistik Interpolation
Einführung in die Programmierung mit Java
Mixture Regression Modelle
Was Wie Wann Zentrale Fragestellungen: ist eine Clusteranalyse?
Herzlich willkommen beim 1. Workshop der AG Methodik
Präsentation der Ergebnisse von Clusteranalysen
Der leistungsorientierte Krankenhausbetriebsvergleich Jürgen Klauber
Zhaohan Chen SS061 SIMULA-an Algol Based Simulation Language geschrieben von: Zhaohan Chen Betreuer: Prof. Dr. Rainer Manthey.
Experimentaufbau und -design
Aufgabe Der Zusammenhang zwischen einem traumatischen Erlebnis und der Entstehung einer PTBS wird von mehreren Variablen …………….: Copingstrategien, Kontrollüberzeigung,
Nachholung der Vorlesung vom Freitag
Vorlesung Die Vorlesung Statistische Methoden II nächste Woche vom 6. Juni ( nächste Woche ) wird auf den 4. Juni (Mittwoch) vorverlegt ! 14 – 16 Zeit:
Datenmatrix. Datentabelle für 2 Merkmale Kontingenztafel der absoluten Häufigkeiten.
Kolmogorov-Smirnov-Test. A. N. Kolmogorov Geboren in Tambov, Russland. Begründer der modernen Wahrscheinlichkeitstheorie.
Probeklausur Die Probeklausur findet am anstelle der Vorlesung statt. 13. Juni 2003 Nächste Woche!!
Klausur am :00 bis 13:00 Hörsaal Loefflerstraße und Hörsaal Makarenkostraße.
Prof. K. Gremminger Folie 1 Vorlesung Datenbanksysteme SS 2002 Cursor-Konzept u Zugriff auf Mengen von Ergebnistupeln u In SQLJ Iteratoren u Vergleichbar.
DFU-Standardsituationen und Werkzeuge
Analyse kategorialer Variablen
Self Organizing Tree Algorithm
DataMining Von Daten zu Informationen und Wissen
Das Allgemeine Lineare Modell (ALM)
Durchführung einer hierarchischen Clusteranalyse
Einführung in die Programmierung Wintersemester 2008/09 Prof. Dr. Günter Rudolph Lehrstuhl für Algorithm Engineering Fakultät für Informatik TU Dortmund.
! Ein Handout gestalten Zweck: - Orientierung - Begleiter Äußere Form:
„Postmaterielle Werte“
10 Regeln für einen guten Vortrag
Data Mining Georg Pölzlbauer.
EDV-Schulung Office-Team. Office-Team: EDV-Schulung 2Vorstellung Definieren Sie das Thema. Fassen Sie zusammen, was das Publikum in dieser Veranstaltung.
EDV-Schulung Office-Team AG. Office-Team: Schulung EDV 2Vorstellung Definieren Sie das Thema. Fassen Sie zusammen, was das Publikum in dieser Veranstaltung.
EDV-Schulung Office-Team.
Statistische Methoden in der Wirtschafts- und Sozialgeographie
Audiovisuelles Projekt INSA Lyon – GRAL –
Funktionen Grundrechenarten f: y = a * x + b mit a, b ϵ R V 0.1.
Analyse von Deliktsähnlichkeiten auf der Basis von Individualdaten
Abschlussprüfung Klassen 10R
Die Clusteranalyse Zielsetzung Datenreduktion: Zusammenfassung einer Vielzahl von Objekten oder Variablen zu Gruppen mit möglichst ähnlichem Informationsgehalt.
Hanno Langweg 1 Nachwuchstag IT-Sicherheit Sicherheit digitaler Signaturen gegenüber Angriffen Trojanischer Pferde Einführung Schutzbedürfnisse Sicheres.
Theorie, Anwendungen, Verallgemeinerungen
„Single Color Extraction Sebastian Bertram Proseminar SS 2005: Distanzen und Ähnlichkeitsmaße im hochdimensionalen Raum and Image Query“
SS 2009Maschinelles Lernen und Neural Computation 133 Kapitel 7: Ensemble Methoden.
Information Retrieval Methoden, die dazu dienen, unstrukturierte Daten zu beschreiben, zu speichern und später nach inhaltlichen Kriterien wieder aufzufinden.
Clusteranalyse Tamara Katschnig.
Paul, Morten, Yannick Blue J. Entwicklungsumgebung  versteht Java Programmcode  Für die Entwicklung eigener Software  Durch die Programmierung.
Präsatition Drucker! Tatjana Schreiber Eugenia Schreiber Katharina Nadkin.
Geoinformationssysteme
EIN NEUES ENSEMBLE- KLASSIFIKATIONSVERFAHREN Tim Schneider Rotation Forest.
Lehrstuhl für Wirtschaftsinformatik Univ.-Prof. Dr. Johannes Ruhland Referent: Vogel, Stephan Business Intelligence Distanzmaße
Univ.-Prof. Dr. L. Müller-HagedornSofia 2007 Marketing 1 Kapitel 4 Nach der Bearbeitung des 4. Kapitels sollten Sie in der Lage sein, q Kennzahlen aufzuzeigen,
Spärliche Kodierung von Videos natürlicher Szenen Vortragender: Christian Fischer.
Clusteranalyse Wege und Arten Entstanden im Rahmen der Seminararbeit für WS09/10 Betreuer: Prof. Jobst Hoffmann Dr. Tim Hiddemann Aachen, Januar 2010.
Titel des wissenschaftlichen Projekts
 Präsentation transkript:

Clusteranalyse von Maria Eickhold und Tobias Töpfer

Gliederung Einführung Vorstellen des Beispiels Proximitätsmaße Methoden zur Clusterbildung Homogenitätsbeurteilung Zusammenfassung

1. Einführung „Clusteranalyse“ ist Sammelbegriff für verschiedene Verfahren Objekte auf Grund verschiedener Merkmale zu Klassen/ Clustern zusammen zu fassen Andere Methode: Schwellenwerte  weniger objektiv Klassen sollen in sich möglichst homogen sein, untereinander aber maximal unähnliche Ausprägungen der herangezogenen Merkmale aufweisen

Anwendung in der Geographie: Hier dient die Clusteranalyse hauptsächlich dazu, Raumeinheiten sinnvoll zu gliedern um sie vergleichbar zu machen. Durch Clusterung wird eine große Menge von Einzel-Daten überschaubar

Vorraussetzungen zur Durchführung einer Clusteranalyse Verschiedene Merkmale haben verschiedene Maßeinheiten  Standardisieren : unabhängige (orthogolnale) Variablen Variablen sollten auf ein Ziel/ Zweck abgestimmt sein Faktorenanalyse zum herausfiltern der wichtigsten Variablen bietet sich an (Rosner 2001: 21)

Tunesien- Beispiel http://dev.lib.utexas. edu/maps/africa/                Klimastation          http://dev.lib.utexas. edu/maps/africa/ tunisia_pol_1990.jpg (Stand: 09.06.2002)

3. Proximitäts-/ Ähnlichkeitsmaße 3.1.1. Manhattan-/ City-Block Distanz x2j (Bahrenberg et al. 1992: 282) x2k djk: Distanz der Objekte „j“ u. „k" xi: herangezogenes Merkmal xij: Ausprägung des Merkmals „i“ bei Objekt „j“ x1j x1k Entfernung entlang der Koordinatenachsen

Euklidische Distanz 3.1.2 Quadratische euklidische Distanz x2 x2j (Bahrenberg et al. 1992: 282) Große Entfernungen (>1) werden stärker gewichtet, als kleine (<1) x2k Euklidische Distanz x1j x1k x1 Luftlinienentfernung (Bahrenberg et al. 1992: 282)

3.1.3 Korrelationskoeffizient zwischen zwei Variablen x2 (Bahrenberg et al. 1992: 282) rjk: Korrelationskoeffizient zwischen den Objekten „j“ u. „k"; mögliche Werte zwischen +1 u.-1 (je größer der Wert, desto größer die Ähnlichkeit) x1

Ähnlichkeitsmatrix QED (Tunesien-Beispiel) Erstellt mit SPSS Grundlage: Standardisierte Werte für Temperatur und geographische Breite

3.2 Proximitätsmaße bei Objekten mit nominal skalierten Merkmalen Beispiele: weiblich/männlich Nationalität Voraussetzung: Binäre Variablenstruktur Ergebnis: Ähnlichkeitsmaße  Wert 0 = absolute Unähnlichkeit Wert 1 = absolute Ähnlichkeit

3.2 Proximitätsmaße bei Objekten mit nominal skalierten Merkmalen Kombinationsmöglichkeiten binärer Variablen Objekt1  Objekt 2  Eigenschaft vorhanden Eigenschaft nicht vorhanden Zeilensumme a c a + c b d b + d Spaltensumme a + b c + d a + b + c + d = m Nach: Backhaus et al. 1994: 265 (verändert)

3.2 Beispiel-Datenmatrix für Proximitäts- maße Eigenschaft   Personen weiblich Rentner Schüler Monatl. Eink. > 1000 € Max 1 Helmut Vivian Melanie Jörg (0: Eigenschaft nicht vorhanden; 1: Eigenschaft vorhanden)

3.2 Proximitätsmaße bei Objekten mit nominal skalierten Merkmalen 3.2.1 Simple-Matching-Koeffizient (M-K.): (Backhaus et al. 1994: 266) mit: Sjk : Ähnlichkeit zwischen den Objekten j u. k

3.2.1 Beispiel für Simple-Matching- Koeffizient (M-K.)   Max Helmut Vivian Melanie Jörg 1 0,75 0,25 0,5

3.2 Proximitätsmaße bei Objekten mit nominal skalierten Merkmalen 3.2.2 Tanimoto- bzw. Jaccard-Koeffizient: (Backhaus et al. 1994: 266) mit: Sjk : Ähnlichkeit zwischen den Objekten j u. k

3.2.2 Beispiel für Tanimoto- bzw. Jaccard-Koeffizient   Max Helmut Vivian Melanie Jörg 1 0,5 0,33

4. Methoden zur Clusterbildung Aus: Rosner 2001: 65

4.1 Complete Linkage (Bahrenberg et al. 1992: 285) Als Entfernung zwischen 2 Clustern wird die Distanz ihrer äußersten Punkte gemessen. Fusioniert werden die Cluster mit der geringsten Distanz. Eigenschaften: Zur Zuordnung sehr nahe liegender Objekte neigend  Kleinere, homogenere Cluster

Durchführung des Complete-Linkage- Verfahrens mit QED Beispiel Tunesien Vorstellung der SPSS Komponenten Ausgabe der Ähnlichkeitsmatrix Zuordnungsübersicht Linkage Tree Elbow-Diagramm zur Festlegung der Anzahl der Cluster

Ähnlich-keitsmatrix  QED Zuordnungs-übersicht  Complete-Linkage; QED

Linkage-Tree

Elbow- Diagramm (Festlegung der Anzahl der Cluster) Distanzen Schritte

Clusterung mit QED und Complete Linkage am Tunesien- Beispiel mit 2 Clustern O mit 3 Clustern O Mit 4 Clustern O

4.2 Single Linkage (Bahrenberg et al. 1992: 285) Als Entfernung zwischen 2 Clustern wird die Distanz ihrer sich am nächsten liegenden Punkte gemessen. Fusioniert werden die Cluster mit der geringsten Distanz. Eigenschaften: Neigt dazu, entferntere Objekte zuzuordnen  Entstehung wenigerer größerer Cluster Ausreißer Neigt zur Verkettung von Objekten

4.3 Average-Linkage (Bahrenberg et al. 1992: 285) Alle Distanzen zwischen allen Objekten eines Clusters und allen Objekten eines anderen Clusters werden addiert und durch die Anzahl aller betreffenden Objekte dividiert.

4.3 Clusterung mit QED und Average-Linkage am Tunesien- Beispiel mit 2 Clustern O mit 3 Clustern O Mit 4 Clustern O

4.4 Zentroid Linkage Z: Zentroid (Bahrenberg et al. 1992: 285) Als Entfernung zwischen 2 Clustern wird die Distanz ihrer immer neu berechneten Mittelpunkte (Zentroide) gemessen. Fusioniert werden die Cluster mit der geringsten Distanz.

4.5 Ward-Verfahren Fusionskriterium: geringe Streuung (Varianz) Voraussetzung: quadrierte euklidische Distanzen Ziel: möglichst homogene Cluster Vorgehen: 1. Bestimmung der Clustervarianz 2. Bestimmung der Gesamtvarianz 3. Zusammenfassung von Clustern unter der Bedingung minimaler Steigerung der Gesamtvarianz Eigenschaften: - ordnet Objekte „richtig“ den Gruppen zu - bildet in etwa gleich große Cluster

4. 5 Clusterung mit QED und Ward am Tunesien- Beispiel mit 2 Clustern O mit 3 Clustern O Mit 4 Clustern O

4.6. Übersicht über die Ergebnisse mit den Verschiedenen Clusterbildungsverfahren mit 2 Clustern O mit 3 Clustern O Mit 4 Clustern O Zentroid Single Zentroid Ward Average

5. Homogenitätsbeurteilung F-Wert: (Backhaus et al. 1994: 310) mit: V(J,G): Varianz der Variablen J in Cluster G V(J): Varianz der Variablen J in der Erhebungs- gesamtheit Verfahren: F-Werte für alle Variablen bestimmen Ergebnis: wenn alle F-Werte < 1, dann gilt Cluster als vollkommen homogen

6. Zusammenfassung Clusteranalyse dient der Gruppenbildung Vielfältige Methoden – welche, abhängig von Frage und Objekten Manipulationsmöglichkeiten; Stichwort: Herbeiclustern Dokumentation der Methoden Gruppenbildung  Generalisierung  Informationsverlust Cluster verbal interpretieren und charakterisieren