Referentin: Stefanie Jahn SS 2007

Slides:

Advertisements

Ähnliche Präsentationen

Zerlegung von Graphen.

Advertisements

Lagemaße kritische Fragen

Streuungsmaß 3: absolute Abweichung vom Mittelwert

Verfahren zur Skalierung der Nutzbarkeit von Freizeit Oder: wie messe ich, dass Mittwoch nicht Samstag ist?

Gliederung Tabellarische und grafische Darstellung von Rohwerten mittels Histogramme und Polygone Statistische Kennwertbeschreibung mittels Tendenz- und.

Der Produkt-Moment- Korrelationskoeffizient Der Produkt-Moment Korrelationskoeffizient gibt Stärke und Richtung des linearen Zusammenhanges zweier Variablen.

Vorlesung Informatik 2 Algorithmen und Datenstrukturen (27 – Kürzeste Wege) Prof. Th. Ottmann.

Demoprogramm: Clustering Eine graphische Demonstration verschiedener Clusteringalgorithmen anhand des Clusterings von Punkten im zweidimensionalen Raum.

Hypothesen testen: Grundidee

Grundlegende Analysen & Zwischendarstellungen

Was Wie Wann Zentrale Fragestellungen: ist eine Clusteranalyse?

Herzlich willkommen beim 1. Workshop der AG Methodik

Präsentation der Ergebnisse von Clusteranalysen

Der leistungsorientierte Krankenhausbetriebsvergleich Jürgen Klauber

Aufgabe Der Zusammenhang zwischen einem traumatischen Erlebnis und der Entstehung einer PTBS wird von mehreren Variablen …………….: Copingstrategien, Kontrollüberzeigung,

So animieren Sie Kreisdiagramme mit der Eingangs-Animation „Rad“

Median Merkmal Geordneter Datensatz

Die Vorlesung Mathematik I (Prof. Kugelmann) findet heute um 14:30 Uhr im Hörsaal Loefflerstraße 70 statt.

Häufigkeiten Gegeben ist eine Datenliste (Urliste) (hier z. B. die Klausur-Noten von 50 Studenten)

Streuungsparameter für Median Mittlere Abweichung vom Median Die Ungleichung gilt für jede Konstante c.

Univariate Statistik M. Kresken.

Allgemeine Literatur Fricke & Treinies (1985): Einführung in die Metaanalyse Schwarzer (1989): Meta-Analysis Programs Gutes Manual! Beelmann & Bliesener.

Kodiersysteme und erste Umrechnungen

Sportwissenschaftliche Forschungsmethoden SS Statistischer Test.

Clusteranalyse von Maria Eickhold und Tobias Töpfer.

Analyse kategorialer Variablen

Vorlesung: Biometrie für Studierende der Veterinärmedizin

Diskrete Wahrscheinlichkeitsmodelle

Wiederholung: Einfache Regressionsgleichung

Daten auswerten Boxplots

Self Organizing Tree Algorithm

Effiziente Algorithmen

Ausgleichungsrechnung I

Ausgleichungsrechnung II

Effiziente Algorithmen

Aufgabenzettel V Statistik I

Effiziente Algorithmen Hartmut Klauck Universität Frankfurt SS

Effiziente Algorithmen

Effiziente Algorithmen Hartmut Klauck Universität Frankfurt SS

Einführung in SPSS/PASW. Inhaltsübersicht 1. Intro ( ) 2. Deskriptive Statistik ( ) (In Buch 1 Seite 85ff.) Kennwerte (Erwartungswert,

Durchführung einer hierarchischen Clusteranalyse

STATISIK LV Nr.: 0028 SS Mai 2005.

Kapitel 10 Multikollinearität

Referat über das Thema STOCHASTIK.

Data Mining Georg Pölzlbauer.

Routing Instabilitäten

Statistische Methoden in der Wirtschafts- und Sozialgeographie

SOTA Andrej Gisbrecht

Lernen durch Vergleiche

Statistik – Regression - Korrelation

Veranstaltung 4.

Vom graphischen Differenzieren

Zum Einfluss subjektiver und objektiver Merkmale auf die Wiedererkennung von Werbeplakaten Antje Bauer & Stefanie Frehse Institut für Allgemeine Psychologie.

Die Clusteranalyse Zielsetzung Datenreduktion: Zusammenfassung einer Vielzahl von Objekten oder Variablen zu Gruppen mit möglichst ähnlichem Informationsgehalt.

Messen Zuordnung von Zahlen zu Objekten/Ereignissen gemäß Regeln

setzt Linearität des Zusammenhangs voraus

Verteilungen, Varianz Tamara Katschnig.

Clusteranalyse Tamara Katschnig.

Testtheorie (Vorlesung 13: ) Wiederholung: Richtigstellung

CL Tree MW 31.1 Business Intelligence Wintersemester 2015 / 2016 Stanislav Prokupetz.

Statistik I Statistik I Statistische Grundbegriffe

PCA Principal Component Analysis. Gliederung PCA – Warum eigentlich? PCA – Was ist zu tun? Was passiert eigentlich? Anwendungen Zusammenfassung.

Spärliche Kodierung von Videos natürlicher Szenen Vortragender: Christian Fischer.

 Gegenstandsbereich der Testtheorie: Analyse der Charakteristika von Tests:  Güte von Tests.  Struktur von Tests.  Schwierigkeit von Tests.  Gruppenunterschiede.

Grafische Darstellung von Gruppenunterschieden.

Clusteranalyse Wege und Arten Entstanden im Rahmen der Seminararbeit für WS09/10 Betreuer: Prof. Jobst Hoffmann Dr. Tim Hiddemann Aachen, Januar 2010.

Independent Component Analysis: Analyse natürlicher Bilder Friedrich Rau.

Ökonometrie und Statistik Wiederholung

Präsentation transkript:

Referentin: Stefanie Jahn SS 2007 Clusteranalyse Referentin: Stefanie Jahn SS 2007

1. Problemstellung Analyse einer heterogenen Gesamtheit von Objekten Ziel: homogene Teilmengen von Objekten aus der Objektgesamtheit identifizieren Clusteranalyse verfügt über verschiedene Verfahren zur Gruppenbildung

Vorüberlegungen Anzahl der Objekte muss bei Stichproben repräsentativ sein Ausreißer ausschließen/ eliminieren nur relevante Merkmale berücksichtigen Gleichgewichtung der Merkmale -> Korrelationen wegen Verzerrungsgefahr ausschließen keine konstanten Merkmale in der Ausgangsmatrix -> Verzerrungsgefahr Vergleichbarkeit durch Standardisierung der Variablen bei unterschiedl. Skalenniveaus der Ausgangsdaten

Fehlende Werte Datensatz sollte von fehlenden Werten bereinigt sein Ausschluß von: - Variablen mit großer Anzahl fehlender Werte - Fällen mit fehlenden Werten für Variablen -> Problem: Reduktion der Fallzahl fehlende Werte durch Mittelwert ersetzen -> Problem: Ereignisverzerrung bei zu häufigem Auftreten

2. Vorgehensweise 2.1. Ähnlichkeitsermittlung 2.1.1. Binäre Variablenstruktur 2.1.2. Metrische Variablenstruktur 2.1.3. Gemischt skalierte Variablenstruktur 2.2. Auswahl des Fusionierungsalgorithmus 2.2.1. Partitionierende Verfahren 2.2.2. Hierarchische Verfahren 2.3. Bestimmung der Clusterzahl

2.1. Ähnlichkeitsermittlung Ausgangspunkt: Rohdatenmatrix mit K Objekten, die durch J Variablen beschrieben werden Matrix enthalt Proximitätsmaße (= Ähnlichkeits- und Unähnlichkeits-maße)

2.1.1. Binäre Variablenstruktur Paarvergleich: für 2 Objekte werden Eigenschaftsausprägungen miteinander verglichen

Tanimoto-, RR- und M-Koeffizient

Verwendung: wenn das Nichtvorhandensein eines Merkmals relevant ist (z.B. bei Geschlecht: 1=männlich, 0=weiblich), dann Verwendung von z.B. M-Koeffizient wenn das Nichtvorhandensein eines Merkmals nicht relevant ist, dann eher Tendenz zu Tanimoto- bzw. Jaccard-Koeff.

Verwendung der Ähnlichkeitskoeffizienten bei mehrstufigen Variablen:

2.1.2. Metrische Variablenstruktur Minkowski-Metriken bzw. L-Normen weit verbreitete Distanzmaße Differenz zwischen den Eigenschaften der Objektpaare dividiert durch absolute Differenzwerte

r=1 - City-Block-Metrik: = I1-2I+I2-3I+I1-3I = 1+1+2 = 4 bei der L1-Norm gehen alle Differenzwerte gleichgewichtig in die Berechnung ein = größte Ähnlichkeit; = größte Unähnlichkeit

r=2 - Euklidische Distanz: = I1-2I2+I2-3I2+I1-3I2 = 12+12+22 = 6 stärkere Berücksichtigung großer Differenzwerte durch das Quadrieren

Resultat: Wahl des Distanzmaßes beeinflusst Ähnlichkeitsreihenfolge der Untersuchungsobjekte wichtig: vergleichbare Maßeinheiten müssen zugrunde liegen -> sonst Standardisierung!

Q-Korrelations-koeffizient berechnet die Ähnlichkeit zwischen 2 Objekten unter Berücksichtigung aller Variablen eines Objektes = größte Ähnlichkeit; = größte Unähnlichkeit

Warum ist Rama und Weihnachtsbutter nach der Minkowski-Metrik am unähnlichsten, aber nach dem Q-Korrelationskoeffizienten am ähnlichsten? Verwendung von Distanzmaßen, wenn der absolute Abstand zw. Objekten interessiert und Unähnlichkeit steigt mit der zunehmenden Distanz -> z.B. ähnliche Umsatzgröße/-höhe im Zeitverlauf Verwendung von Ähnlichkeitsmaßen, wenn es um den Ähnlichkeitsaspekt im Gleichlauf zweier Profile geht, unabhängig vom Niveau -> z.B. ähnliche Umsatzentwicklungen im Zeitverlauf

2.1.3. Gemischt skalierte Variablenstruktur A) für die metrischen und nicht-metrischen Variablen werden die Ähnlichkeitskoeffizienten bzw. Distanzen getrennt berechnet Gesamtähnlichkeit = ungewichteter oder gewichteter Mittelwert der berechneten Größen

z.B.: Rama und Flora: M-Koeffizient Distanz = 1-0,7 = 0,3 bei den metr. Eigenschaften quadrierte euklidische Distanz = 4 => ungewichtetes arithmet. Mittel: 2,15 => Gewichtung nach metr. und nicht-metr. Abstand

B) Transformation von einem höheren in ein niedrigeres Skalenniveau Dichotomisierung: Preis bis zu 1,59€ = 0, ab 1,60€ = 1 = hoher Info-verlust, willkürl. Festlegung der Schnittstelle? Intervalle bilden oder: Preis teurer als 1,40 €? ja = 1, nein = 0 Preis teurer als 1,70 €? ja = 1, nein = 0… je kleiner die Klassenspanne, desto geringer der Info-verlust Verzerrungsgefahr durch falsche Gewichtung

2.2. Auswahl des Fusionierungsalgorithmus Zusammenfassung zu Gruppen aufgrund der Ähnlichkeitswerte die (agglomerative) Clusteranalyse fasst die betrachteten Fälle so lange zusammen, bis alle Fälle am Ende in einer Gruppe enthalten sind mögliche Unterscheidung von partitionierenden Verfahren hierarchische Verfahren

2.2.1. Partitionierende Verfahren vorgegebene Gruppeneinteilung gehen von einer gegebenen Gruppierung der Objekte aus Umordnung mit Hilfe eines Austauschalgorithmus zwischen den Gruppen bis zum Optimum

Beenden der Clusterung, wenn alle Objekte bezügl Beenden der Clusterung, wenn alle Objekte bezügl. ihrer Verlagerung untersucht wurden und sich keine Verbesserung des Varianzkriteriums mehr erreichen lässt -> Abbruch muss erfolgen, sonst zu viele Möglichkeiten -> lokales Optima erreicht statt globales Optima 2 Entscheidungsprobleme bei „Veränderung der Startpartition“: 1. Festlegen, auf wie viele Gruppen die Objekte verteilt werden sollen 2. Festlegen des Modus, nach dem die Objekte auf die Startgruppen zu verteilen sind (per Zufallszahlentabelle, entsprechend der Reihenfolge ihrer Nummerierung,…)

partitionierende Verfahren zeichnen sich durch größere Variabilität aus gegenüber agglomerativen hierarchischen Verfahren partitionierende Verfahren sind in praktischen Anwendungen geringer verbreitet Gründe: - Ergebnisse werden verstärkt durch die Zielfunktion beeinflusst - die häufig subjektive Begründung der Wahl der Startposition kann Ergebnis beeinflussen - nur lokales Optima erreichbar

2. 2. 2. Hierarchische Verfahren 2. 2. 2. 1 2.2.2. Hierarchische Verfahren 2.2.2.1. Ablauf der agglomerativen Verfahren agglomerative Verfahren - feinste Partition ist Ausgangspunkt -> Zusammenfassung von Gruppen

Unterschiede zw. den aggl Unterschiede zw. den aggl. Verfahren ergeben sich nur daraus, wie Distanzen ermittelt werden Distanz zw. Objekten P+Q zu irgendeiner Gruppe R: D(R,P+Q) = A * D(R,P) + B * D(R,Q) + E * D(P,Q) + G * ID(R;P)-D(R,Q)I mit: D(R,P): Distanz zwischen den Gruppen R und P D(R,Q): Distanz zwischen den Gruppen R und Q D(P,Q): Distanz zwischen den Gruppen P und Q

vereinigt die Objekte, die die kleinste Distanz aufweisen 2.2.2.2. Vorgehensweise der Verfahren „Single-Linkage“, „Complete-Linkage“ und „Ward“ Single-Linkage-Verfahren vereinigt die Objekte, die die kleinste Distanz aufweisen Nearest-Neighbour-Verfahren SLV zieht als neue Distanz zwischen zwei Gruppen immer den kleinsten Wert der Einzeldistanzen heran -> ist dadurch geeignet, „Ausreißer“ zu erkennen neigt dazu, viele kleine und wenig große Gruppen zu bilden -> Tendenz zur Kettenbildung

Complete-Linkage-Verfahren die größten Abstände werden als Distanzen herangezogen = Furthest-Neighbour-Verfahren Abstand entspricht jetzt dem größten Einzelabstand

tendiert eher zur Bildung kleiner Gruppen nicht zur Entdeckung von „Ausreißern“ geeignet, aufgrund der Verwendung der größten Distanzen der Einzelwerte

Ward-Verfahren Ziel: Vereinigung derjenigen Objekte, die die Streuung einer Gruppe möglichst wenig erhöhen -> dadurch Bildung möglichst homogener Cluster als Heterogenitätsmaß wird Varianzkriterium verwendet = Fehlerquadratsumme (FQS) Berechnung der quadr. euklid. Distanz zwischen allen Objekten FQS im ersten Schritt = 0, da jedes Obj. eigene Gruppe -> noch keine Streuung

4*0,5 = 2 (=FQS) 6,667*0,5 = 3,333 3,333+2 = 5,333 11*0,5 = 5,5 5,5+5,333 = 10,833

Ward-Verfahren verwendet ein Distanzmaß Variablen müssen metrisch sein keine Ausreißer unkorrelierte Variablen wichtig Erwartung gleich großer Gruppen !!! lang gestreckte Gruppen oder Gruppen mit kleiner Elementzahl nicht erkennbar !!! Empfehlung: - zuerst SLV zum Finden von Ausreißern - Ausreißer „eliminieren“ - reduzierte Objektmenge erneut untersuchen mit einem anderen agglomerativen Verfahren - Auswahl des Verfahrens hat vor dem Hintergrund der jew. Anwendungssituation zu erfolgen

2.3. Bestimmung der Clusterzahl Entscheidung, welche Clusteranzahl „beste“ Lösung ist und verwendet werden soll Lösen des Zielkonflikts zwischen Handhabbarkeit und Homogenitätsanforderung Bestimmung der Clusterzahl sollte nach statistischen Kriterien erfolgen, nicht nach sachlogischen Überlegungen zur Unterstützung der Entscheidung kann die Entwicklung des Heterogenitätsmaßes betrachtet werden (-> ist beim Ward-Verfahren die Fehlerquadratsumme) graphische Verdeutlichung liefert Dendrogramm

Heterogenitätsentwicklung wird gegen die zugehörige Clusterzahl in einem Koordinatensystem abgetragen -> 4-Cluster-Lösung

Literatur Backhaus, Klaus u.a. (2003): Multivriate Analysemethoden. Eine Anwendungsorientierte Einführung, Berlin. Jahnke, Hermann: Clusteranalyse als Verfahren der schließenden Statistik, Göttingen. Bacher, J. (1994): Clusteranalyse. Anwendungsorientierte Einführung, München Wien.