Statistik mit SPSS Dipl.-Volkswirt Paul Böhm

Slides:



Advertisements
Ähnliche Präsentationen
Quanti Tutorium
Advertisements

T - Test Prüfung des Mittelwerteunterschieds bei abhängigen und unabhängigen Stichproben.
Heute 1.F – Test zur Varianzhomogenität 2.Bartlett-Test zur Varianzhomogenität 3.Chi – Quadrat Tests für Häufigkeiten 4.Chi – Quadrat Tests zur Verteilungsanpassung.
Forschungsstrategien Johannes Gutenberg Universität Mainz
Gliederung Tabellarische und grafische Darstellung von Rohwerten mittels Histogramme und Polygone Statistische Kennwertbeschreibung mittels Tendenz- und.
Forschungsstatistik II
Forschungsstatistik II Prof. Dr. G. Meinhardt SS 2005 Fachbereich Sozialwissenschaften, Psychologisches Institut Johannes Gutenberg Universität Mainz KLW-24.
Heute Prüfung der Produkt-Moment Korrelation
Forschungsstatistik II Prof. Dr. G. Meinhardt SS 2006 Fachbereich Sozialwissenschaften, Psychologisches Institut Johannes Gutenberg Universität Mainz KLW-18.
Der Binomialtest Man habe einen wahren Anteil P.
Mehrfachregressionen
Quantitative Methoden I
Hypothesen testen: Grundidee
Statistische Methoden I
Statistische Methoden II
Die Vorlesung Statistische Methoden II findet am (nächste Woche) nicht nicht statt. Diese Vorlesung wird zu einem späteren Termin, der noch bekannt.
Konzentrationsmaße (Gini-Koeffizient, Lorenz-Kurve) Konzentrationsmaße Kennwert für die wirtschaftliche Konzentration Typische Beispiele: Verteilung des.
Konfidenzintervalle Intervallschätzung
TESTS. Worum es geht Man möchte testen, ob eine bestimmte Annahme (Hypothese) über Parameter der Realität entspricht oder nicht. Beobachtung (Stichprobe)
Die Student- oder t-Verteilung
Konfidenzintervalle Intervallschätzung Jeder Beobachtung wird ein Intervall C( ) der reellen Zahlen zugeordnet Niveau Dabei ist die Wahrscheinlichkeit,
Statistische Methoden I SS 2005 Vorlesung:Prof. Dr. Michael Schürmann Zeit:Freitag (Pause: ) Ort:Hörsaal Loefflerstraße Übungen.
Datenmatrix. Datentabelle für 2 Merkmale Kontingenztafel der absoluten Häufigkeiten.
Klausurtermin (laut Prüfungsamt) Probeklausur Freitag, 13. Juni 2003 statt Vorlesung.
Achtung Vorlesung am Montag, den 21. Juni Zeit: Uhr Ort: Kiste.
Die Vorlesung am 14. Mai (Tag nach Himmelfahrt) wird auf Montag, den 17. Mai verlegt! Zeit: 16 Uhr Ort: Kiste Nächste Woche!!!!
Statistische Methoden II SS 2003 Vorlesung:Prof. Dr. Michael Schürmann Zeit:Freitag (Pause: ) Ort:Hörsaal Loefflerstraße Übungen.
III. Induktive Statistik
Statistische Methoden II SS 2003
Datenmatrix.
Streuungsparameter für Median Mittlere Abweichung vom Median Die Ungleichung gilt für jede Konstante c.
Univariate Statistik M. Kresken.
Tutorium
Tutorium
Tutorium
Unser letztes Tutorium
Vorlesung: Biometrie für Studierende der Veterinärmedizin
Diskrete Wahrscheinlichkeitsmodelle
Vorlesung: Biometrie für Studierende der Veterinärmedizin
Eigenschaften der OLS-Schätzer
Multikollinearität Wann spricht man von Multikollinearität?
Wiederholung: Einfache Regressionsgleichung
Einführung in die beurteilende Statistik
Chi Quadrat Test Tamara Katschnig.
STATISIK LV Nr.: 1375 SS März 2005.
Überblick Statistik Deskriptive Statistik=beschreibende Statistik
STATISIK LV Nr.: 1375 SS März 2005.
Wiederholung BSP 2.1.
STATISIK LV Nr.: 0028 SS Mai 2005.
Statistik: Mehr zur Regression.
STATISIK LV Nr.: 0028 SS Mai 2005.
STATISIK LV Nr.: 1852 WS 2005/ Dezember 2005.
STATISIK LV Nr.: 0021 WS 2005/ Oktober 2005.
STATISIK LV Nr.: 1852 WS 2005/ Dezember 2005.
Kapitel 10 Multikollinearität
Kapitel 9 Analyse der Modellstruktur Hackl, Einführung in die Ökonometrie 2 Rekursive OLS-Schätzung Spezifiziertes Modell: y = X + u y, u:
Konfidenzintervall und Testen für den Mittelwert und Anteile
Mehr zum Testen von Hypothesen
STATISIK LV Nr.: 0021 WS 2005/ November 2005.
Statistische Methoden in der Wirtschafts- und Sozialgeographie
Statistik Statistik I Seminar + Blockveranstaltung Statistik I
Veranstaltung 4.
Die Clusteranalyse Zielsetzung Datenreduktion: Zusammenfassung einer Vielzahl von Objekten oder Variablen zu Gruppen mit möglichst ähnlichem Informationsgehalt.
setzt Linearität des Zusammenhangs voraus
Phi-Koeffizient: Alternative Berechnungsart
STATISIK LV Nr.: 1375 SS März 2005.
Clusteranalyse Wege und Arten Entstanden im Rahmen der Seminararbeit für WS09/10 Betreuer: Prof. Jobst Hoffmann Dr. Tim Hiddemann Aachen, Januar 2010.
Ökonometrie und Statistik Wiederholung
Ökonometrie und Statistik Wiederholung
Ökonometrie und Statistik Wiederholung
 Präsentation transkript:

Statistik mit SPSS Dipl.-Volkswirt Paul Böhm Kurs im Sommersemester 2009 Dipl.-Volkswirt Paul Böhm Dipl.-Kaufmann Tim Rathjen Forschungsinstitut Freie Berufe Leuphana Universität Lüneburg

Organisatorisches (I) Termine: Freitag 10:00 – 12:00 C 12.108 (Theorie) 12:00 – 13:00 Pause 13:00 – 19:00 7.111 und 7.114 (Praxis) Samstag 13:00 – 16:00 Literatur: - Skript - Backhaus, u.a.: „Multivariate Analysemethoden“

Organisatorisches (II) Prüfungsleistung Diplomstudiengänge: 4 CP (Wahlpflichtfach EWF oder Freier Bereich) Hausarbeit: - Aufgaben (ohne Zusatzaufgabe) - 1-2 Personen - Umfang: ca. 20 Seiten - Download der Daten für Hausarbeit: ab 1. Juli 2009: ffb.uni-lueneburg.de - Abgabetermin: 15. September 2009 Prüfungsleistung Komplementärstudium 5 CP Hausarbeit: - Aufgaben (mit Zusatzaufgabe) - Umfang: ca. 25 Seiten Alternativ: Teilnahmeschein (+ PCP)

Übersicht 1. Arten von Merkmalen 2. Deskriptive Statistik 3. Induktive Statistik 4. Korrelation 5. Regression → Kurzeinführung in SPSS 6. Logistische Regression 7. Faktorenanalyse 8. Clusteranalyse Tag 1 Tag 2

1. Arten von Merkmalen – Skalenniveaus Nominalskala Ordinalskala Metrische Skalen Unterscheidung möglich Geschlecht, Staatsangehörigkeit, … + Reihenfolge Schulnoten, Güteklassen, … + konstanter Wertabstand Größenangaben, Geld, Stückzahlen, Alter,…

1. Arten von Merkmalen – Skalenniveaus Entscheidungsbaum Lassen sich die Merkmalsausprägungen in eine sinnvolle Reihenfolge bringen? nein ja Nominalskala (Z.B. Geschlecht) Sind die Abstände quantifizierbar? nein ja Ordinalskala (Z.B. Güteklassen) Metrische Skalen (Z.B. Einkommen)

2. Deskriptive Statistik Ziel: Verdichtung von Informationen Methoden: - Darstellung von Häufigkeiten (HK) → von einem Merkmal → von zwei Merkmalen - Lage- und Streuungsparameter

HK-Verteilung: Darstellung eines Merkmals Absolute Häufigkeit ni einer Merkmalsausprägung Relative Häufigkeit hi einer Merkmalsausprägung Grafen: Balken- und Säulendiagramme, Kreisdiagramme, Histogramme, Boxplots, … Merkmal Geschlecht ni hi männlich 300 0,3 weiblich 700 0,7

HK-Verteilung: Darstellung zweier Merkmale Kreuztabellen Grafen: Zweidimensionale Balkendiagramme, … Stadt Land männlich h11=20% h12=25% weiblich h21=25% h22=30%

Lage- und Streuungsparameter Lageparameter: Geben die Position des Datenfeldes wieder. Streuungsparameter: Geben die ‚Form‘ des Datenfeldes (in Bezug auf einen Lageparameter) wieder.

Lageparameter: Position des Datenfeldes - Median - Modus Bsp.: - Arithmetisches Mittel - Median - Modus - Quantile (Quartile/Dezile/Perzentile) Streuungsparameter: ‚Form‘ des Datenfeldes Bsp.: - Spannweite - Varianz (mittlere quadratische Abweichung vom arithm. Mittel) - Standardabweichung

3. Induktive Statistik Ziel: Schließen von Kennzahlen einer (zufällig gezogenen) Stichprobe auf unbekannte Parameter der Grundgesamtheit Methoden: 1. Punktschätzung 2. Intervallschätzung 3. Statistische Tests Beispiel: Wahlprognose (Stichprobe: n = 1000;Grundgesamtheit: N = 50 Mio.)

Intervall- und Punktschätzung Beispiel: Wahlprognose Stichprobe: n = 1000 Grundgesamtheit: N = 50 Mio. Partei Stichprobe Punkt- schätzung IV (95%) (99%) CDU 36,0 33,0 39,0 32,1 39,9 SPD 28,0 25,2 30,8 24,3 31,7 FDP 10,0 8,1 11,9 7,6 12,4 Grüne Linke 12,0 14,0 9,4 14,6

Statistische Tests Theorie: Aufbau eines Tests in fünf Schritten Formulierung der zu überprüfenden Hypothesen (H0 und HA) → überprüfbare Hypothese ist HA → Gleichheitszeichen in H0 2. Festlegen der zulässigen Fehlerwahrscheinlichkeit des späteren Testergebnisses (α = 0,05; 0,01; …) 3. Berechnung einer Prüfgröße (Teststatistik), die sich aus der Stichprobe ermitteln lässt 4. Bestimmung eines kritischen Wertes, dessen Unter- oder Überschreiten zur Ablehnung der Nullhypothese führt 5. Vergleich von Prüfgröße und kritischem Wert und Entscheidung

Beispiele für Hypothesen: Erreicht Schwarz-Gelb die absolute Mehrheit? (Rechtsseitig) H0: pSchwarz/Gelb ≤ 0,50 HA: pSchwarz/Gelb > 0,50 Fällt die SPD unter die 25%-Grenze? (Linksseitig) H0: pSPD ≥ 0,25 HA: pSPD < 0,25 Ist die Differenz zwischen Grünen und Linken signifikant? (Zweiseitig) H0: pGRÜNE = pLINKE H0: pGRÜNE ≠ pLINKE

Hypothesen und Fehlerarten: → Fehler 1. Art (α) → Fehler 2. Art (β) Entscheidung In Wirklichkeit gilt H0 ablehnen („HA“) H0 beibehalten („H0“) H0 ist richtig Fehler 1. Art (α) P („HA“| H0) kein Fehler H0 ist falsch Fehler 2. Art (β)

Testen mit SPSS – einfaches Beispiel (konstruiert): Beispiel: Ist die mittlere Temperatur im Januar von Null verschieden? 1. H0: μ=0 HA: μ≠0 (zweiseitiger Test) 2. Fehlerwahrscheinlichkeit α=0,05. D.h. uns soll der Fehler erster Art mit einer Wahrscheinlichkeit von höchstens 5% unterlaufen 3. Berechnung der Prüfgröße: , mit 4. Bestimmung des kritischen Wertes aus der (theoretischen) t- Verteilung 5. Vergleich der Prüfgröße mit dem kritischen Wert: H0 wird abgelehnt wenn:

Testentscheidung H0: μ = 0 HA: μ ≠ 0 σ α/2 tkrit μ0=0 H0 ablehnen H0 annehmen

Anmerkungen zu Tests mit SPSS: SPSS berechnet für Tests einen Sig.-Wert (= P-Value). Dieser gibt den exakten Fehler an, den man begeht, wenn man H0 ablehnen würde. → Ist Sig. kleiner als das vorgegebene Signifikanzniveau α, dann wird H0 abgelehnt. Häufig: Sig. < 0,05: „ HA“ Sig. > 0,05: „ H0“ SPSS berechnet während einiger Testprozeduren auch Konfidenzintervalle. Über diese können dann auch Testentscheidungen getroffen werden.

Beispieloutput von SPSS: Einstichprobentest mit H0: μ = 0

Mögliche Tests mit SPSS: Mit SPSS besteht die Möglichkeit, aus einer großen Anzahl von Tests auszuwählen. Beispiele: 1. Einstichprobentest - Test auf den Erwartungswert μ - Test auf einen Anteilswert p - (...) 2. Zweistichprobentests – Test auf Differenz ... - zweier Erwartungswerte μ - zweier Anteilswerte p weitere Tests - Tests bei Regressionsanalyse (F-Test, t-Test, …) - Verteilungs- und Unabhängigkeitstests (Chi²-Tests, …)

4. Korrelation Liegt ein Zusammenhang von zwei Merkmalen vor? Interdependenzanalyse (keine kausale Richtung der Abhängigkeit) Arten: Kontingenzkoef.  Mindestens ein Merkmal nominal skaliert Normierung: 0 ≤ KK ≤ 1 (Stärke) Spearman  Beide Merkmale mindestens ordinal skaliert Normierung: -1 (Absolut gegenläufig) 0 (Kein Zusammenhang) +1 (Absolut gleichläufig) (Stärke und Richtung) Pearson  Beide Merkmale metrisch skaliert Normier. und Interpr. wie bei Spearman

Korrelation - Kontingenzkoeffizient (In SPSS: Analysieren, Deskript. Stat., Kreuztabellen, Statistik) Gibt es einen Zusammenhang von Berufswahl und Geschlecht? Geschlecht und Tätigkeit sind nominalskaliert → Analyse mit dem Kontingenzkoeffizienten 54,4 % 45,6 % 76,6 % 5,7 % 76,6 % 17,7 % 100 %

Korrelation - Kontingenzkoeffizient Ist der Zusammenhang signifikant? (α =0,05) Hypothesen: H0: ρ = 0 HA: ρ > 0 Testentscheidung über Signifikanzwert: 0,05 = α > Sig. = 0,000 → H0 kann abgelehnt werden → signifikanter Zusammenhang

Korrelation – Spearman Gibt es einen Zusammenhang von polit. Einstellung und Schulbildung?

Korrelation – Spearman Ist der Zusammenhang signifikant? (α =0,05) Hypothesen: H0: ρ = 0 HA: ρ ≠ 0 Testentscheidung über Signifikanzwert: 0,05 = α > Sig. = 0,008 → H0 kann abgelehnt werden → signifikant negativer Zusammenhang

Korrelation – Bravais Pearson Korrelieren die Schuljahre mit dem Einkommen? → Schuljahre und Einkommen sind beide metrisch skaliert → Bravais Pearson Korrelationskoeffizient Einkommen Ist der Zusammenhang signifikant? (α =0,05) Hypothesen: H0: ρ = 0 HA: ρ ≠ 0 Testentscheidung über Signifikanzwert: 0,05 = α > Sig. = 0,000 → H0 kann abgelehnt werden → signifikant positiver Zusammenhang

5. Regression Dependenzanalyse (Richtung des Zusammenhangs bekannt) Abhängige Variable: Metrisch (=erklärte Variable; =endogene Variable) Unabhängige Variablen: Metrisch (=erklärende Variable; =exogene Variable) Ordinale Variablen  Umwandlung in Dummyvariablen (0/1) !!! Nominale Variablen  Umwandlung in Dummyvariablen (0/1) !!!

x unabhängige Variable Regression: Methode der kleinsten Quadrate y abhängige Variable (Z.B. Konsum) x unabhängige Variable (Z.B. Einkommen)

x unabhängige Variable Regression: Methode der kleinsten Quadrate ei ei2 y abhängige Variable (Z.B. Konsum) x unabhängige Variable (Z.B. Einkommen)

Regression: Interpretation Schätzung des Modells: yi = β0 + β1x1i + β2x2i + …+ βKxKi + εi β0 entspricht Ordinatenabschnitt im x-y-Diagramm β1 entspricht der Steigung der Geraden im x-y-Diagramm Interpretation des Ausdrucks: Gesamterklärungsgüte: R², F-Test Koeffizienten: b, t-Tests

Ausprägung des jeweiligen Dummys für … Nominal/Ordinalskalierte Merkmale in der Regression Umwandlung in Dummys: Beispiel Familienstand Es liegt das Merkmal „Familienstand“ mit folgenden Ausprägungen vor: 1 = verheiratet; 2 = ledig; 3 = geschieden Erstellung von 3 Dummyvariablen (je Ausprägung eine Dummyvariable) Bei der Regressionsanalyse muss ein Dummy als Referenzkategorie ausgelassen werden. Interpretation der Koeffizienten der verbleibenden Dummys nur in Bezug auf die Referenzkategorie!! Ausprägung des jeweiligen Dummys für … Verheiratete Ledige Geschiedene Dummy verheiratet. 1 Dummy ledig Dummy geschieden

Regression – Beispiel SPSS Output Wagei = β0 + β1*Alteri + β2*Manni + β3*Realschulei+ β4*Abituri+ β5*UniFHi+εi Mann Wagei = 6,499 + 0,109*Alteri + 2,725*Manni + 0,717*Realschulei + 2,477*Abituri + 4,063*UniFHi + εi

Regression – Beispiel SPSS Output Bestimmtheitsmaß/R² Wie viel der Varianz in der abhängigen Variable kann durch die Varianz der unabhängigen Variablen erklärt werden? R2 = 0,210 21 Prozent der Varianz im Lohnsatz (Wage) der befragten Personen ist durch die Variablen Alter, Geschlecht und Schulabschluss erklärbar.

Regression – Beispiel SPSS Output F-Test Ist das geschätzte Modell insgesamt signifikant? H0: β1= β2= β3=… βk = 0 (alle Koeffizienten β1 bis βk =0; gemeinsam nicht signifikant) HA: βk ≠ 0 (k=1,…, K) Testentscheidung: 0,05 = α > Sig. = 0,000  H0 kann abgelehnt werden  Modell insgesamt signifikant

Ansichten in SPSS SPSS öffnet mehrere Fenster zur Erledigung verschiedener Aufgaben: Hauptfenster  Variablenansicht  Datenansicht Ausgabefenster verschiedene Editorenfenster Syntaxfenster für die Skriptsprache

Hauptfenster  Variablenansicht (Var. definieren) Variablentyp Variablenlabel Wertelabel Messniveau

Hauptfenster  Datenansicht

Ausgabefenster

Syntax Fenster

6. Logistische Regression Bisher: lineare Regression → abhängige Variable ist metrisch Jetzt: Schätzung einer Gruppenzugehörigkeit → abhängige Variable ist kategorial Beispiele: Produktkauf oder kein Produktkauf nach Marketingmaßnahme? beschäftigt oder arbeitslos nach einer Ausbildung? Person unterhalb der Armutsgrenze? etc. → binäre (dichotome oder zweiwertige) abhängige Variablen → Binäre Logistische Regression

Binäre logistische Regression 1 y abhängige Variable (Z.B. Produktkauf) x unabhängige Variable (Z.B. Einkommen)

Logistische Regression Geschätzt wird die Wahrscheinlichkeit, dass ein Ereignis eintritt: P(Y=1|x) Nicht linearer Zusammenhang Schätzung über Maximum Likelihood

Binäre logistische Regression Beispiel: ehrenamtliche Aktivität Beobachtet wird, ob eine Person ehrenamtlich aktiv ist oder nicht. Abhängige Variable: Dummy_Ehrenamt (1=ja; 0=nein) Die Wahrscheinlichkeit, ob eine Person ehrenamtlich aktiv ist wird mit Hilfe der binären logistischen Regression geschätzt. Als erklärende Größen wurden ausgewählt: Geschlecht Alter Erwerbstätigkeit Berufsgruppe

Binäre logistische Regression: Beispiel Ehrenamt Marginale Effekte im Logit/Probit: → Abhängig vom Niveau aller x-Ausprägungen Koeffizienteninterpretation: → marginaler Effekt ist abhängig vom Niveau aller x-Ausprägungen → nicht linearer Zusammenhang; nur Vorzeichen interpretierbar → positives Vorzeichen: mit steigendem x steigt die Wahrscheinlichkeit, dass Y=1

Binäre logistische Regression: Beispiel Ehrenamt „Bestimmtheitsmaße“ - Vergleich unterschiedlicher Modelle Omnibus Test: - wie F-Test in der linearen Regression; testet den Gesamtansatz auf Signifikanz Wie viele der Beobachtungen wurden vom Modell richtig zugeordnet?

Übersicht Skalierung & Regressionsmodelle Regressand Abhängige Variable Regressoren Unabhängige Variablen Modell metrisch metrisch dichotom lineare Regression OLS dichotom Dummy (0/1) Logit / Probit polytom Multinomiales Logit ordinal Ordered Logit/Probit

7. Faktorenanalyse Ziel: Dimensionsreduktion einer gegebenen Anzahl von Variablen → Zusammenfassung vorhandener Variablen zu wenigen nicht-beobachtbaren (latenten), i.d.R. voneinander unabhängigen Faktoren. Var 1 Var 2 Var 3 Var 4 Var 5 Var 6 Var 7 Var 8 Faktor 1 Faktor 2 Faktor 3

Hier: Deutsch, Englisch, Physik und Mathematik Beispiel: Schulnoten in vier Fächern: Gibt es Faktoren wie „sprachliche Begabung“ oder „mathematische Begabung“? Hier: Deutsch, Englisch, Physik und Mathematik Schritt 1: Korrelationsmatrix Deutsch Englisch Physik Mathe 1,00 0,58 0,25 0,30 0,17 0,74

Faktorenanalyse – Das Modell Ansatz: zwei Variablen und ein Faktor f z1k: Wert von Variable 1 (standardisiert: ) fk: Wert des Faktors a1: Faktorladung der ersten Variable (= Maßzahl für den Zsh. zw. Faktor und Variable) k: Beobachtung k Generelle Schreibweise: P Variablen und M Faktoren i: Variable k: Beobachtung Faktorwerte • Faktorladungen

Zur Interpretation der Faktorladungen (aij): (1) Kommunalitäten: Die Kommunalität der i-ten Variable gibt den Anteil der Varianz der (standardisierten) Variablen i (mit Varianz gleich eins) wieder, die durch alle Faktoren gemeinsam aufgeklärt wird. (2) Eigenwert eines Faktors: Der Eigenwert des j-ten Faktors gibt an, welcher Anteil der Gesamtvarianz aller (standardisierten) beobachteten Variablen durch diesen Faktor j aufgeklärt wird.

Faktorenanalyse – Generelle Vorgehensweise Korrelationsmatrix berechnen Sind die Variablen für Faktoranalyse geeignet? (r ≠ 0) Gängigstes Maß: Kaiser-Meyer-Olkin-Kriterium → mindestens 0,5 – möglichst größer 0,8 Schätzung der Faktorladungen → Kommunalitäten/Eigenwerte Bestimmung der Faktorenzahl Gängigstes Kriterium: Kaiser-Kriterium → nur Faktoren mit Eigenwert größer 1 Rotation der Faktoren VARIMAX-Methode (Ziel: möglichst eindeutige Faktorladungen) Interpretation der Faktoren und Bestimmung der Faktorwerte i: Variable k: Beobachtung

Faktorenanalyse – Beispiel → Wichtigkeitsfragen bei Autos (1 – 10)

(1) Korrelationsmatrix Kaiser-Meyer-Olkin-Kriterium = 0,824

(2a) Eigenwerte → Wie viel der Gesamtvarianz wird durch die einzelnen Faktoren erklärt? Kaiser-Kriterium: Wahl von zwei Faktoren

(2b) Kommunalitäten → Wie viel % der Varianz einer Variablen wird durch die Faktoren erklärt?

(3) Rotation der Faktoren

(4) Interpretation der Faktoren Sicherheit und Luxus

8. Clusteranalyse Ziel: Zusammenfassung von Objekten (Merkmalsträger) zu möglichst homogenen Untergruppen (Cluster) Die gefundenen Cluster sollen in sich homogen sein, wohingegen sich die Cluster im Vergleich miteinander unterscheiden sollen. Person Var 1 (Alter) Var 2 (Einkommen) 1 (…) 2 3 4 5 Cluster 1 N: gespannt, ängstlich, nervös, launisch, empfindlich, reizbar und furchtsam E: gesellig, selbstsicher, aktiv, gesprächig, energisch, heiter und optimistisch O: Interesse an neuen Erfahrungen V: Altruismus, Verständnis, Wohlwollen und Mitgefühl mit anderen G: handeln organisiert, sorgfältig, planend, effektiv, verantwortlich, zuverlässig und überlegt Cluster 2 Anwendungsgebiete: Identifikation ähnlicher Kunden, Regionen, Wähler, …

Clusteranalyse – Einführung Hierarchische agglomerative Clustermethoden: jedes Objekt bildet zunächst seinen eigenen Cluster sukzessives Zusammenfügen zu (temporären) Clustern → Ähnlichkeits- bzw. Distanzmaß → Fusionierungsalgorithmus schließlich fusionieren alle Objekte zu einem einzelnen Cluster. Beispiel:

Clusteranalyse – Distanzmaße Schritt 1: Bestimmung einer Distanzmatrix Distanzmaße stehen für die (Un-)Ähnlichkeit von Objekten i und j Je größer die Distanz, desto unähnlicher sind die beiden betrachteten Objekte Distanzmaße (metrische Variablen): Quadrierte Euklidische Distanz Euklidische Distanz Distanzmaße (nominalskalierte Variablen): → vgl. Backhaus et al.

Distanzmatrix auf Basis der euklidischen Distanz: Beispiel: (nur 1 Var.) Distanzmatrix auf Basis der euklidischen Distanz: Person (Alter) 1 43 2 38 3 6 4 47 5 37 9 → Exemplarisch: Distanz zwischen erster (i=1) und zweiter (j=2) Person

Clusteranalyse – Fusionierungsalgorithmen Schritt 2: Fusionierung der Objekte Grundproblem: Nach welchem Kriterium werden die Objekte zusammengefasst? Algorithmen: (1) Single Linkage (‚nächster Nachbar‘) (2) Complete Linkage (‚entferntester Nachbar‘) → s. Backhaus (3) Ward-Verfahren

(1) Single Linkage (‚nächster Nachbar‘), Basis: Euklid. Distanz Fusionierung von Person 2 und Person 5 Nächster Nachbar:

Dendogramm (Single Linkage)

Beispiel in SPSS:

(2) Ward-Verfahren (möglichst geringe Varianzerhöhung durch Fusion) Basis: Quadr. Euklid. Distanz Fusionierung von Person 2 und Person 5 Ward:

Beispiel in SPSS:

Vergleich Fusionierungsalgorithmen: (1) Single Linkage (‚nächster Nachbar‘) Vereinigung von Objekten, die die kleinste Distanz aufweisen es entstehen viel kleine und wenig große Cluster Problem: Kettenbildung (2) Ward-Verfahren es werden die Objekte zu Gruppen zusammengefasst, die die Varianz in einer Gruppe so wenig wie möglich erhöhen bildet etwa gleich große Gruppen