Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

Clusteranalyse Referentin: Stefanie Jahn SS 2007.

Ähnliche Präsentationen


Präsentation zum Thema: "Clusteranalyse Referentin: Stefanie Jahn SS 2007."—  Präsentation transkript:

1 Clusteranalyse Referentin: Stefanie Jahn SS 2007

2 1. Problemstellung Analyse einer heterogenen Gesamtheit von Objekten Analyse einer heterogenen Gesamtheit von Objekten Ziel: homogene Teilmengen von Objekten aus der Objektgesamtheit identifizieren Ziel: homogene Teilmengen von Objekten aus der Objektgesamtheit identifizieren Clusteranalyse verfügt über verschiedene Verfahren zur Gruppenbildung Clusteranalyse verfügt über verschiedene Verfahren zur Gruppenbildung

3 Vorüberlegungen Anzahl der Objekte muss bei Stichproben repräsentativ sein Anzahl der Objekte muss bei Stichproben repräsentativ sein Ausreißer ausschließen/ eliminieren Ausreißer ausschließen/ eliminieren nur relevante Merkmale berücksichtigen nur relevante Merkmale berücksichtigen Gleichgewichtung der Merkmale -> Korrelationen wegen Verzerrungsgefahr ausschließen Gleichgewichtung der Merkmale -> Korrelationen wegen Verzerrungsgefahr ausschließen keine konstanten Merkmale in der Ausgangsmatrix -> Verzerrungsgefahr keine konstanten Merkmale in der Ausgangsmatrix -> Verzerrungsgefahr Vergleichbarkeit durch Standardisierung der Variablen bei unterschiedl. Skalenniveaus der Ausgangsdaten Vergleichbarkeit durch Standardisierung der Variablen bei unterschiedl. Skalenniveaus der Ausgangsdaten

4 Fehlende Werte Datensatz sollte von fehlenden Werten bereinigt sein Datensatz sollte von fehlenden Werten bereinigt sein Ausschluß von: - Variablen mit großer Anzahl fehlender Werte - Fällen mit fehlenden Werten für Variablen -> Problem: Reduktion der Fallzahl Ausschluß von: - Variablen mit großer Anzahl fehlender Werte - Fällen mit fehlenden Werten für Variablen -> Problem: Reduktion der Fallzahl fehlende Werte durch Mittelwert ersetzen -> Problem: Ereignisverzerrung bei zu häufigem Auftreten fehlende Werte durch Mittelwert ersetzen -> Problem: Ereignisverzerrung bei zu häufigem Auftreten

5 2. Vorgehensweise 2.1. Ähnlichkeitsermittlung Binäre Variablenstruktur Metrische Variablenstruktur Gemischt skalierte Variablenstruktur 2.2. Auswahl des Fusionierungsalgorithmus Partitionierende Verfahren Hierarchische Verfahren 2.3. Bestimmung der Clusterzahl

6 2.1. Ähnlichkeitsermittlung Ausgangspunkt: Rohdatenmatrix mit K Objekten, die durch J Variablen beschrieben werden Ausgangspunkt: Rohdatenmatrix mit K Objekten, die durch J Variablen beschrieben werden Matrix enthalt Proximitätsmaße (= Ähnlichkeits- und Unähnlichkeits- maße) Matrix enthalt Proximitätsmaße (= Ähnlichkeits- und Unähnlichkeits- maße)

7 Binäre Variablenstruktur Paarvergleich: für 2 Objekte werden Eigenschaftsa usprägungen miteinander verglichen Paarvergleich: für 2 Objekte werden Eigenschaftsa usprägungen miteinander verglichen

8 Tanimoto-, RR- und M-Koeffizient

9 Verwendung: Verwendung: wenn das Nichtvorhandensein eines Merkmals relevant ist (z.B. bei Geschlecht: 1=männlich, 0=weiblich), dann Verwendung von z.B. M-Koeffizient wenn das Nichtvorhandensein eines Merkmals relevant ist (z.B. bei Geschlecht: 1=männlich, 0=weiblich), dann Verwendung von z.B. M-Koeffizient wenn das Nichtvorhandensein eines Merkmals nicht relevant ist, dann eher Tendenz zu Tanimoto- bzw. Jaccard-Koeff. wenn das Nichtvorhandensein eines Merkmals nicht relevant ist, dann eher Tendenz zu Tanimoto- bzw. Jaccard-Koeff.

10 Verwendung der Ähnlichkeitskoeffizienten bei mehrstufigen Variablen: Verwendung der Ähnlichkeitskoeffizienten bei mehrstufigen Variablen:

11 Metrische Variablenstruktur Minkowski-Metriken bzw. L-Normen Minkowski-Metriken bzw. L-Normen weit verbreitete Distanzmaße weit verbreitete Distanzmaße Differenz zwischen den Eigenschaften der Objektpaare dividiert durch absolute Differenzwerte Differenz zwischen den Eigenschaften der Objektpaare dividiert durch absolute Differenzwerte

12 r=1 - City-Block-Metrik: = I1-2I+I2-3I+I1-3I = 1+1+2= 4 r=1 - City-Block-Metrik: = I1-2I+I2-3I+I1-3I = 1+1+2= 4 bei der L1-Norm gehen alle Differenzwerte gleichgewichtig in die Berechnung ein bei der L1-Norm gehen alle Differenzwerte gleichgewichtig in die Berechnung ein = größte Ähnlichkeit; = größte Unähnlichkeit = größte Ähnlichkeit; = größte Unähnlichkeit

13 r=2 - Euklidische Distanz: = I1-2I+I2-3I+I1-3I = = 6 r=2 - Euklidische Distanz: = I1-2I 2 +I2-3I 2 +I1-3I 2 = = 6 stärkere Berücksichtigung großer Differenzwerte durch das Quadrieren stärkere Berücksichtigung großer Differenzwerte durch das Quadrieren

14 Resultat: Wahl des Distanzmaßes beeinflusst Ähnlichkeitsreihenfolge der Untersuchungsobjekte Resultat: Wahl des Distanzmaßes beeinflusst Ähnlichkeitsreihenfolge der Untersuchungsobjekte wichtig: vergleichbare Maßeinheiten müssen zugrunde liegen -> sonst Standardisierung! wichtig: vergleichbare Maßeinheiten müssen zugrunde liegen -> sonst Standardisierung!

15 Q-Korrelations- koeffizient Q-Korrelations- koeffizient berechnet die Ähnlichkeit zwischen 2 Objekten unter Berücksichtigung aller Variablen eines Objektes berechnet die Ähnlichkeit zwischen 2 Objekten unter Berücksichtigung aller Variablen eines Objektes = größte Ähnlichkeit; = größte Unähnlichkeit = größte Ähnlichkeit; = größte Unähnlichkeit

16 Warum ist Rama und Weihnachtsbutter nach der Minkowski- Metrik am unähnlichsten, aber nach dem Q- Korrelationskoeffizienten am ähnlichsten? Warum ist Rama und Weihnachtsbutter nach der Minkowski- Metrik am unähnlichsten, aber nach dem Q- Korrelationskoeffizienten am ähnlichsten? Verwendung von Distanzmaßen, wenn der absolute Abstand zw. Objekten interessiert und Unähnlichkeit steigt mit der zunehmenden Distanz -> z.B. ähnliche Umsatzgröße/-höhe im Zeitverlauf Verwendung von Distanzmaßen, wenn der absolute Abstand zw. Objekten interessiert und Unähnlichkeit steigt mit der zunehmenden Distanz -> z.B. ähnliche Umsatzgröße/-höhe im Zeitverlauf Verwendung von Ähnlichkeitsmaßen, wenn es um den Ähnlichkeitsaspekt im Gleichlauf zweier Profile geht, unabhängig vom Niveau -> z.B. ähnliche Umsatzentwicklungen im Zeitverlauf Verwendung von Ähnlichkeitsmaßen, wenn es um den Ähnlichkeitsaspekt im Gleichlauf zweier Profile geht, unabhängig vom Niveau -> z.B. ähnliche Umsatzentwicklungen im Zeitverlauf

17 Gemischt skalierte Variablenstruktur A) für die metrischen und nicht- metrischen Variablen werden die Ähnlichkeitskoeffizienten bzw. Distanzen getrennt berechnet A) für die metrischen und nicht- metrischen Variablen werden die Ähnlichkeitskoeffizienten bzw. Distanzen getrennt berechnet Gesamtähnlichkeit = ungewichteter oder gewichteter Mittelwert der berechneten Größen Gesamtähnlichkeit = ungewichteter oder gewichteter Mittelwert der berechneten Größen

18 z.B.: Rama und Flora: z.B.: Rama und Flora: M-Koeffizient Distanz = 1-0,7 = 0,3 M-Koeffizient Distanz = 1-0,7 = 0,3 bei den metr. Eigenschaften quadrierte euklidische Distanz = 4 => ungewichtetes arithmet. Mittel: 2,15 => Gewichtung nach metr. und nicht-metr. Abstand bei den metr. Eigenschaften quadrierte euklidische Distanz = 4 => ungewichtetes arithmet. Mittel: 2,15 => Gewichtung nach metr. und nicht-metr. Abstand

19 B)Transformation von einem höheren in ein niedrigeres Skalenniveau B)Transformation von einem höheren in ein niedrigeres Skalenniveau Dichotomisierung: Preis bis zu 1,59 = 0, ab 1,60 = 1 = hoher Info-verlust, willkürl. Festlegung der Schnittstelle? Dichotomisierung: Preis bis zu 1,59 = 0, ab 1,60 = 1 = hoher Info-verlust, willkürl. Festlegung der Schnittstelle? Intervalle bilden oder: Preis teurer als 1,40 ? ja = 1, nein = 0 Preis teurer als 1,70 ? ja = 1, nein = 0… Intervalle bilden oder: Preis teurer als 1,40 ? ja = 1, nein = 0 Preis teurer als 1,70 ? ja = 1, nein = 0… je kleiner die Klassenspanne, desto geringer der Info-verlust je kleiner die Klassenspanne, desto geringer der Info-verlust Verzerrungsgefahr durch falsche Gewichtung Verzerrungsgefahr durch falsche Gewichtung

20 2.2. Auswahl des Fusionierungsalgorithmus Zusammenfassung zu Gruppen aufgrund der Ähnlichkeitswerte Zusammenfassung zu Gruppen aufgrund der Ähnlichkeitswerte die (agglomerative) Clusteranalyse fasst die betrachteten Fälle so lange zusammen, bis alle Fälle am Ende in einer Gruppe enthalten sind die (agglomerative) Clusteranalyse fasst die betrachteten Fälle so lange zusammen, bis alle Fälle am Ende in einer Gruppe enthalten sind mögliche Unterscheidung von mögliche Unterscheidung von partitionierenden Verfahren partitionierenden Verfahren hierarchische Verfahren hierarchische Verfahren

21 Partitionierende Verfahren vorgegebene Gruppeneinteilung vorgegebene Gruppeneinteilung gehen von einer gegebenen Gruppierung der Objekte aus gehen von einer gegebenen Gruppierung der Objekte aus Umordnung mit Hilfe eines Austauschalgorithmus zwischen den Gruppen bis zum Optimum Umordnung mit Hilfe eines Austauschalgorithmus zwischen den Gruppen bis zum Optimum

22

23 Beenden der Clusterung, wenn alle Objekte bezügl. ihrer Verlagerung untersucht wurden und sich keine Verbesserung des Varianzkriteriums mehr erreichen lässt -> Abbruch muss erfolgen, sonst zu viele Möglichkeiten -> lokales Optima erreicht statt globales Optima Beenden der Clusterung, wenn alle Objekte bezügl. ihrer Verlagerung untersucht wurden und sich keine Verbesserung des Varianzkriteriums mehr erreichen lässt -> Abbruch muss erfolgen, sonst zu viele Möglichkeiten -> lokales Optima erreicht statt globales Optima 2 Entscheidungsprobleme bei Veränderung der Startpartition: 1. Festlegen, auf wie viele Gruppen die Objekte verteilt werden sollen 2. Festlegen des Modus, nach dem die Objekte auf die Startgruppen zu verteilen sind (per Zufallszahlentabelle, entsprechend der Reihenfolge ihrer Nummerierung,…) 2 Entscheidungsprobleme bei Veränderung der Startpartition: 1. Festlegen, auf wie viele Gruppen die Objekte verteilt werden sollen 2. Festlegen des Modus, nach dem die Objekte auf die Startgruppen zu verteilen sind (per Zufallszahlentabelle, entsprechend der Reihenfolge ihrer Nummerierung,…)

24 partitionierende Verfahren zeichnen sich durch größere Variabilität aus gegenüber agglomerativen hierarchischen Verfahren partitionierende Verfahren zeichnen sich durch größere Variabilität aus gegenüber agglomerativen hierarchischen Verfahren partitionierende Verfahren sind in praktischen Anwendungen geringer verbreitet Gründe: - Ergebnisse werden verstärkt durch die Zielfunktion beeinflusst - die häufig subjektive Begründung der Wahl der Startposition kann Ergebnis beeinflussen - nur lokales Optima erreichbar partitionierende Verfahren sind in praktischen Anwendungen geringer verbreitet Gründe: - Ergebnisse werden verstärkt durch die Zielfunktion beeinflusst - die häufig subjektive Begründung der Wahl der Startposition kann Ergebnis beeinflussen - nur lokales Optima erreichbar

25 Hierarchische Verfahren Ablauf der agglomerativen Verfahren agglomerative Verfahren - feinste Partition ist Ausgangspunkt -> Zusammenfassung von Gruppen agglomerative Verfahren - feinste Partition ist Ausgangspunkt -> Zusammenfassung von Gruppen

26 Unterschiede zw. den aggl. Verfahren ergeben sich nur daraus, wie Distanzen ermittelt werden Unterschiede zw. den aggl. Verfahren ergeben sich nur daraus, wie Distanzen ermittelt werden Distanz zw. Objekten P+Q zu irgendeiner Gruppe R: D(R,P+Q) = A * D(R,P) + B * D(R,Q) + E * D(P,Q) + G * ID(R;P)-D(R,Q)I mit: D(R,P): Distanz zwischen den Gruppen R und P D(R,Q):Distanz zwischen den Gruppen R und Q D(P,Q):Distanz zwischen den Gruppen P und Q Distanz zw. Objekten P+Q zu irgendeiner Gruppe R: D(R,P+Q) = A * D(R,P) + B * D(R,Q) + E * D(P,Q) + G * ID(R;P)-D(R,Q)I mit: D(R,P): Distanz zwischen den Gruppen R und P D(R,Q):Distanz zwischen den Gruppen R und Q D(P,Q):Distanz zwischen den Gruppen P und Q

27

28 Vorgehensweise der Verfahren Single- Linkage, Complete-Linkage und Ward Single-Linkage-Verfahren vereinigt die Objekte, die die kleinste Distanz aufweisen vereinigt die Objekte, die die kleinste Distanz aufweisen Nearest-Neighbour-Verfahren Nearest-Neighbour-Verfahren SLV zieht als neue Distanz zwischen zwei Gruppen immer den kleinsten Wert der Einzeldistanzen heran -> ist dadurch geeignet, Ausreißer zu erkennen SLV zieht als neue Distanz zwischen zwei Gruppen immer den kleinsten Wert der Einzeldistanzen heran -> ist dadurch geeignet, Ausreißer zu erkennen neigt dazu, viele kleine und wenig große Gruppen zu bilden -> Tendenz zur Kettenbildung neigt dazu, viele kleine und wenig große Gruppen zu bilden -> Tendenz zur Kettenbildung

29

30 Complete-Linkage-Verfahren die größten Abstände werden als Distanzen herangezogen = Furthest- Neighbour- Verfahren die größten Abstände werden als Distanzen herangezogen = Furthest- Neighbour- Verfahren Abstand entspricht jetzt dem größten Einzelabstand Abstand entspricht jetzt dem größten Einzelabstand

31 tendiert eher zur Bildung kleiner Gruppen tendiert eher zur Bildung kleiner Gruppen nicht zur Entdeckung von Ausreißern geeignet, aufgrund der Verwendung der größten Distanzen der Einzelwerte nicht zur Entdeckung von Ausreißern geeignet, aufgrund der Verwendung der größten Distanzen der Einzelwerte

32 Ward-Verfahren Ziel: Vereinigung derjenigen Objekte, die die Streuung einer Gruppe möglichst wenig erhöhen -> dadurch Bildung möglichst homogener Cluster Ziel: Vereinigung derjenigen Objekte, die die Streuung einer Gruppe möglichst wenig erhöhen -> dadurch Bildung möglichst homogener Cluster als Heterogenitätsmaß wird Varianzkriterium verwendet = Fehlerquadratsumme (FQS) als Heterogenitätsmaß wird Varianzkriterium verwendet = Fehlerquadratsumme (FQS) Berechnung der quadr. euklid. Distanz zwischen allen Objekten Berechnung der quadr. euklid. Distanz zwischen allen Objekten FQS im ersten Schritt = 0, da jedes Obj. eigene Gruppe -> noch keine Streuung FQS im ersten Schritt = 0, da jedes Obj. eigene Gruppe -> noch keine Streuung

33 4*0,5 = 2 (=FQS) 4*0,5 = 2 (=FQS) 6,667*0,5 = 3,333 6,667*0,5 = 3,333 3,333+2 = 5,333 3,333+2 = 5,333 11*0,5 = 5,5 11*0,5 = 5,5 5,5+5,333 = 10,833 5,5+5,333 = 10,833

34 Ward-Verfahren Ward-Verfahren verwendet ein Distanzmaß verwendet ein Distanzmaß Variablen müssen metrisch sein Variablen müssen metrisch sein keine Ausreißer keine Ausreißer unkorrelierte Variablen wichtig unkorrelierte Variablen wichtig Erwartung gleich großer Gruppen Erwartung gleich großer Gruppen !!! lang gestreckte Gruppen oder Gruppen mit kleiner Elementzahl nicht erkennbar !!! !!! lang gestreckte Gruppen oder Gruppen mit kleiner Elementzahl nicht erkennbar !!! Empfehlung: - zuerst SLV zum Finden von Ausreißern - Ausreißer eliminieren - reduzierte Objektmenge erneut untersuchen mit einem anderen agglomerativen Verfahren - Auswahl des Verfahrens hat vor dem Hintergrund der jew. Anwendungssituation zu erfolgen Empfehlung: - zuerst SLV zum Finden von Ausreißern - Ausreißer eliminieren - reduzierte Objektmenge erneut untersuchen mit einem anderen agglomerativen Verfahren - Auswahl des Verfahrens hat vor dem Hintergrund der jew. Anwendungssituation zu erfolgen

35 2.3. Bestimmung der Clusterzahl Entscheidung, welche Clusteranzahl beste Lösung ist und verwendet werden soll Entscheidung, welche Clusteranzahl beste Lösung ist und verwendet werden soll Lösen des Zielkonflikts zwischen Handhabbarkeit und Homogenitätsanforderung Lösen des Zielkonflikts zwischen Handhabbarkeit und Homogenitätsanforderung Bestimmung der Clusterzahl sollte nach statistischen Kriterien erfolgen, nicht nach sachlogischen Überlegungen Bestimmung der Clusterzahl sollte nach statistischen Kriterien erfolgen, nicht nach sachlogischen Überlegungen zur Unterstützung der Entscheidung kann die Entwicklung des Heterogenitätsmaßes betrachtet werden (-> ist beim Ward-Verfahren die Fehlerquadratsumme) zur Unterstützung der Entscheidung kann die Entwicklung des Heterogenitätsmaßes betrachtet werden (-> ist beim Ward-Verfahren die Fehlerquadratsumme) graphische Verdeutlichung liefert Dendrogramm graphische Verdeutlichung liefert Dendrogramm

36 Heterogenitätsentwicklung wird gegen die zugehörige Clusterzahl in einem Koordinatensystem abgetragen -> 4-Cluster-Lösung Heterogenitätsentwicklung wird gegen die zugehörige Clusterzahl in einem Koordinatensystem abgetragen -> 4-Cluster-Lösung

37 Literatur Backhaus, Klaus u.a. (2003): Multivriate Analysemethoden. Eine Anwendungsorientierte Einführung, Berlin. Jahnke, Hermann: Clusteranalyse als Verfahren der schließenden Statistik, Göttingen. Bacher, J. (1994): Clusteranalyse. Anwendungsorientierte Einführung, München Wien.


Herunterladen ppt "Clusteranalyse Referentin: Stefanie Jahn SS 2007."

Ähnliche Präsentationen


Google-Anzeigen