Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

P. Böhm, T. Rathjen, Statistik mit SPSS, Leuphana Universität Lüneburg Statistik mit SPSS Kurs im Sommersemester 2009 Dipl.-Volkswirt Paul Böhm Dipl.-Kaufmann.

Ähnliche Präsentationen


Präsentation zum Thema: "P. Böhm, T. Rathjen, Statistik mit SPSS, Leuphana Universität Lüneburg Statistik mit SPSS Kurs im Sommersemester 2009 Dipl.-Volkswirt Paul Böhm Dipl.-Kaufmann."—  Präsentation transkript:

1 P. Böhm, T. Rathjen, Statistik mit SPSS, Leuphana Universität Lüneburg Statistik mit SPSS Kurs im Sommersemester 2009 Dipl.-Volkswirt Paul Böhm Dipl.-Kaufmann Tim Rathjen Forschungsinstitut Freie Berufe Leuphana Universität Lüneburg

2 P. Böhm, T. Rathjen, Statistik mit SPSS, Leuphana Universität Lüneburg Statistik mit SPSS Organisatorisches (I) Freitag10:00 – 12:00C (Theorie) 12:00 – 13:00Pause 13:00 – 19: und (Praxis) Samstag10:00 – 12:00C (Theorie) 12:00 – 13:00Pause 13:00 – 16: und (Praxis) Literatur: - Skript - Backhaus, u.a.: Multivariate Analysemethoden Termine:

3 P. Böhm, T. Rathjen, Statistik mit SPSS, Leuphana Universität Lüneburg Statistik mit SPSS Organisatorisches (II) Prüfungsleistung Diplomstudiengänge: 4 CP (Wahlpflichtfach EWF oder Freier Bereich) Hausarbeit:-Aufgaben (ohne Zusatzaufgabe) -1-2 Personen -Umfang: ca. 20 Seiten -Download der Daten für Hausarbeit: ab 1. Juli 2009: ffb.uni-lueneburg.de - Abgabetermin: 15. September 2009 Prüfungsleistung Komplementärstudium 5 CP Hausarbeit:-Aufgaben (mit Zusatzaufgabe) -1-2 Personen -Umfang: ca. 25 Seiten -Download der Daten für Hausarbeit: ab 1. Juli 2009: ffb.uni-lueneburg.de - Abgabetermin: 15. September 2009 Alternativ: Teilnahmeschein (+ PCP)

4 P. Böhm, T. Rathjen, Statistik mit SPSS, Leuphana Universität Lüneburg Statistik mit SPSS 1. Arten von Merkmalen 2. Deskriptive Statistik 3. Induktive Statistik 4. Korrelation 5. Regression Kurzeinführung in SPSS 6. Logistische Regression 7. Faktorenanalyse 8. Clusteranalyse Übersicht Tag 1 Tag 2

5 P. Böhm, T. Rathjen, Statistik mit SPSS, Leuphana Universität Lüneburg Statistik mit SPSS 1.Arten von Merkmalen – Skalenniveaus Nominalskala Ordinalskala Metrische Skalen Unterscheidung möglich +Reihenfolge Geschlecht, Staatsangehörigkeit, … Größenangaben, Geld, Stückzahlen, Alter,… +konstanter Wertabstand Schulnoten, Güteklassen, …

6 P. Böhm, T. Rathjen, Statistik mit SPSS, Leuphana Universität Lüneburg Statistik mit SPSS 1.Arten von Merkmalen – Skalenniveaus Entscheidungsbaum Lassen sich die Merkmalsausprägungen in eine sinnvolle Reihenfolge bringen? Nominalskala (Z.B. Geschlecht) neinja Sind die Abstände quantifizierbar? neinja Ordinalskala (Z.B. Güteklassen) Metrische Skalen (Z.B. Einkommen)

7 P. Böhm, T. Rathjen, Statistik mit SPSS, Leuphana Universität Lüneburg Statistik mit SPSS 2.Deskriptive Statistik Ziel:Verdichtung von Informationen Methoden:-Darstellung von Häufigkeiten (HK) von einem Merkmal von zwei Merkmalen -Lage- und Streuungsparameter

8 P. Böhm, T. Rathjen, Statistik mit SPSS, Leuphana Universität Lüneburg Statistik mit SPSS HK-Verteilung: Darstellung eines Merkmals Absolute Häufigkeit n i einer Merkmalsausprägung Relative Häufigkeit h i einer Merkmalsausprägung Grafen: Balken- und Säulendiagramme, Kreisdiagramme, Histogramme, Boxplots, … Merkmal Geschlechtnini hihi männlich3000,3 weiblich7000,7

9 P. Böhm, T. Rathjen, Statistik mit SPSS, Leuphana Universität Lüneburg Statistik mit SPSS HK-Verteilung: Darstellung zweier Merkmale Kreuztabellen Grafen: Zweidimensionale Balkendiagramme, … StadtLand männlichh 11 =20%h 12 =25% weiblichh 21 =25%h 22 =30%

10 P. Böhm, T. Rathjen, Statistik mit SPSS, Leuphana Universität Lüneburg Statistik mit SPSS Lage- und Streuungsparameter Lageparameter: Geben die Position des Datenfeldes wieder. Streuungsparameter: Geben die Form des Datenfeldes (in Bezug auf einen Lageparameter) wieder.

11 P. Böhm, T. Rathjen, Statistik mit SPSS, Leuphana Universität Lüneburg Statistik mit SPSS Lageparameter: Position des Datenfeldes Bsp.: - Arithmetisches Mittel - Median - Modus - Quantile (Quartile/Dezile/Perzentile) Streuungsparameter: Form des Datenfeldes Bsp.: - Spannweite - Varianz (mittlere quadratische Abweichung vom arithm. Mittel) - Standardabweichung

12 P. Böhm, T. Rathjen, Statistik mit SPSS, Leuphana Universität Lüneburg Statistik mit SPSS Ziel:Schließen von Kennzahlen einer (zufällig gezogenen) Stichprobe auf unbekannte Parameter der Grundgesamtheit Methoden:1.Punktschätzung 2.Intervallschätzung 3.Statistische Tests Beispiel: Wahlprognose (Stichprobe: n = 1000;Grundgesamtheit: N = 50 Mio.) 3.Induktive Statistik

13 P. Böhm, T. Rathjen, Statistik mit SPSS, Leuphana Universität Lüneburg Statistik mit SPSS Intervall- und Punktschätzung Beispiel: Wahlprognose Stichprobe: n = 1000 Grundgesamtheit: N = 50 Mio. ParteiStichprobe Punkt- schätzung IV (95%) IV (99%) CDU36,0 33,039,032,139,9 SPD28,0 25,230,824,331,7 FDP10,0 8,111,97,612,4 Grüne10,0 8,111,97,612,4 Linke12,0 10,014,09,414,6

14 P. Böhm, T. Rathjen, Statistik mit SPSS, Leuphana Universität Lüneburg Statistik mit SPSS Theorie: Aufbau eines Tests in fünf Schritten 1.Formulierung der zu überprüfenden Hypothesen (H 0 und H A ) überprüfbare Hypothese ist H A Gleichheitszeichen in H 0 2. Festlegen der zulässigen Fehlerwahrscheinlichkeit des späteren Testergebnisses (α = 0,05; 0,01; …) 3. Berechnung einer Prüfgröße (Teststatistik), die sich aus der Stichprobe ermitteln lässt 4. Bestimmung eines kritischen Wertes, dessen Unter- oder Überschreiten zur Ablehnung der Nullhypothese führt 5. Vergleich von Prüfgröße und kritischem Wert und Entscheidung Statistische Tests

15 P. Böhm, T. Rathjen, Statistik mit SPSS, Leuphana Universität Lüneburg Statistik mit SPSS Beispiele für Hypothesen: Erreicht Schwarz-Gelb die absolute Mehrheit? (Rechtsseitig) H 0 : p Schwarz/Gelb 0,50 H A : p Schwarz/Gelb > 0,50 Fällt die SPD unter die 25%-Grenze? (Linksseitig) H 0 : p SPD 0,25 H A : p SPD < 0,25 Ist die Differenz zwischen Grünen und Linken signifikant? (Zweiseitig) H 0 : p GRÜNE = p LINKE H 0 : p GRÜNE p LINKE

16 P. Böhm, T. Rathjen, Statistik mit SPSS, Leuphana Universität Lüneburg Statistik mit SPSS Hypothesen und Fehlerarten: Fehler 1. Art (α) Fehler 2. Art (β) Entscheidung In Wirklichkeit giltH 0 ablehnen (H A )H 0 beibehalten (H 0 ) H 0 ist richtig Fehler 1. Art (α) P (H A | H 0 ) kein Fehler H 0 ist falschkein FehlerFehler 2. Art (β)

17 P. Böhm, T. Rathjen, Statistik mit SPSS, Leuphana Universität Lüneburg Statistik mit SPSS Beispiel: Ist die mittlere Temperatur im Januar von Null verschieden? 1. H 0 : μ=0 H A : μ0(zweiseitiger Test) 2. Fehlerwahrscheinlichkeit α=0,05. D.h. uns soll der Fehler erster Art mit einer Wahrscheinlichkeit von höchstens 5% unterlaufen 3. Berechnung der Prüfgröße:, mit 4. Bestimmung des kritischen Wertes aus der (theoretischen) t- Verteilung 5. Vergleich der Prüfgröße mit dem kritischen Wert: H 0 wird abgelehnt wenn: Testen mit SPSS – einfaches Beispiel (konstruiert):

18 P. Böhm, T. Rathjen, Statistik mit SPSS, Leuphana Universität Lüneburg Statistik mit SPSS μ 0 =0 σ t krit α/2 H 0 ablehnen H 0 annehmen H 0 ablehnen Testentscheidung H 0 : μ = 0 H A : μ 0

19 P. Böhm, T. Rathjen, Statistik mit SPSS, Leuphana Universität Lüneburg Statistik mit SPSS SPSS berechnet für Tests einen Sig.-Wert (= P-Value). Dieser gibt den exakten Fehler an, den man begeht, wenn man H 0 ablehnen würde. Ist Sig. kleiner als das vorgegebene Signifikanzniveau α, dann wird H 0 abgelehnt. Häufig: Sig. < 0,05: H A Sig. > 0,05: H 0 SPSS berechnet während einiger Testprozeduren auch Konfidenzintervalle. Über diese können dann auch Testentscheidungen getroffen werden. Anmerkungen zu Tests mit SPSS:

20 P. Böhm, T. Rathjen, Statistik mit SPSS, Leuphana Universität Lüneburg Statistik mit SPSS Einstichprobentest mit H 0 : μ = 0 Beispieloutput von SPSS:

21 P. Böhm, T. Rathjen, Statistik mit SPSS, Leuphana Universität Lüneburg Statistik mit SPSS Mit SPSS besteht die Möglichkeit, aus einer großen Anzahl von Tests auszuwählen. Beispiele: 1. Einstichprobentest -Test auf den Erwartungswert μ -Test auf einen Anteilswert p -(...) 2.Zweistichprobentests – Test auf Differenz... -zweier Erwartungswerte μ -zweier Anteilswerte p -(...) 3.weitere Tests -Tests bei Regressionsanalyse (F-Test, t-Test, …) -Verteilungs- und Unabhängigkeitstests (Chi²-Tests, …) -(...) Mögliche Tests mit SPSS:

22 P. Böhm, T. Rathjen, Statistik mit SPSS, Leuphana Universität Lüneburg Statistik mit SPSS Liegt ein Zusammenhang von zwei Merkmalen vor? Interdependenzanalyse (keine kausale Richtung der Abhängigkeit) Arten: Kontingenzkoef. Mindestens ein Merkmal nominal skaliert Normierung: 0 KK 1 (Stärke) Spearman Beide Merkmale mindestens ordinal skaliert Normierung: -1 (Absolut gegenläufig) 0 (Kein Zusammenhang) +1 (Absolut gleichläufig) (Stärke und Richtung) Pearson Beide Merkmale metrisch skaliert Normier. und Interpr. wie bei Spearman 4.Korrelation

23 P. Böhm, T. Rathjen, Statistik mit SPSS, Leuphana Universität Lüneburg Statistik mit SPSS Gibt es einen Zusammenhang von Berufswahl und Geschlecht? Geschlecht und Tätigkeit sind nominalskaliert Analyse mit dem Kontingenzkoeffizienten Korrelation - Kontingenzkoeffizient (In SPSS: Analysieren, Deskript. Stat., Kreuztabellen, Statistik) 54,4 % 45,6 % 100 %76,6 %5,7 %76,6 %17,7 %

24 P. Böhm, T. Rathjen, Statistik mit SPSS, Leuphana Universität Lüneburg Statistik mit SPSS Ist der Zusammenhang signifikant? (α =0,05) Hypothesen: H 0 : ρ = 0 H A : ρ > 0 Testentscheidung über Signifikanzwert: 0,05 = α > Sig. = 0,000 H 0 kann abgelehnt werden signifikanter Zusammenhang Korrelation - Kontingenzkoeffizient

25 P. Böhm, T. Rathjen, Statistik mit SPSS, Leuphana Universität Lüneburg Statistik mit SPSS Korrelation – Spearman Gibt es einen Zusammenhang von polit. Einstellung und Schulbildung?

26 P. Böhm, T. Rathjen, Statistik mit SPSS, Leuphana Universität Lüneburg Statistik mit SPSS Korrelation – Spearman Ist der Zusammenhang signifikant? (α =0,05) Hypothesen:H 0 : ρ = 0 H A : ρ 0 Testentscheidung über Signifikanzwert: 0,05 = α > Sig. = 0,008 H 0 kann abgelehnt werden signifikant negativer Zusammenhang

27 P. Böhm, T. Rathjen, Statistik mit SPSS, Leuphana Universität Lüneburg Statistik mit SPSS Korrelation – Bravais Pearson Korrelieren die Schuljahre mit dem Einkommen? Schuljahre und Einkommen sind beide metrisch skaliert Bravais Pearson Korrelationskoeffizient Ist der Zusammenhang signifikant? (α =0,05) Hypothesen:H 0 : ρ = 0 H A : ρ 0 Testentscheidung über Signifikanzwert: 0,05 = α > Sig. = 0,000 H 0 kann abgelehnt werden signifikant positiver Zusammenhang Einkommen

28 P. Böhm, T. Rathjen, Statistik mit SPSS, Leuphana Universität Lüneburg Statistik mit SPSS Dependenzanalyse (Richtung des Zusammenhangs bekannt) Abhängige Variable:Metrisch (=erklärte Variable; =endogene Variable) Unabhängige Variablen:Metrisch (=erklärende Variable; =exogene Variable) Ordinale Variablen Umwandlung in Dummyvariablen (0/1) !!! Nominale Variablen Umwandlung in Dummyvariablen (0/1) !!! 5.Regression

29 P. Böhm, T. Rathjen, Statistik mit SPSS, Leuphana Universität Lüneburg Statistik mit SPSS Regression: Methode der kleinsten Quadrate y abhängige Variable (Z.B. Konsum) x unabhängige Variable (Z.B. Einkommen)

30 P. Böhm, T. Rathjen, Statistik mit SPSS, Leuphana Universität Lüneburg Statistik mit SPSS Regression: Methode der kleinsten Quadrate eiei ei2ei2 y abhängige Variable (Z.B. Konsum) x unabhängige Variable (Z.B. Einkommen)

31 P. Böhm, T. Rathjen, Statistik mit SPSS, Leuphana Universität Lüneburg Statistik mit SPSS Regression: Interpretation Interpretation des Ausdrucks: Gesamterklärungsgüte: R², F-Test Koeffizienten: b, t-Tests Schätzung des Modells: y i = β 0 + β 1 x 1i + β 2 x 2i + …+ β K x Ki + ε i β 0 entspricht Ordinatenabschnitt im x-y-Diagramm β 1 entspricht der Steigung der Geraden im x-y-Diagramm

32 P. Böhm, T. Rathjen, Statistik mit SPSS, Leuphana Universität Lüneburg Statistik mit SPSS Umwandlung in Dummys: Beispiel Familienstand Es liegt das Merkmal Familienstand mit folgenden Ausprägungen vor: 1 = verheiratet; 2 = ledig; 3 = geschieden Erstellung von 3 Dummyvariablen (je Ausprägung eine Dummyvariable) Bei der Regressionsanalyse muss ein Dummy als Referenzkategorie ausgelassen werden. Interpretation der Koeffizienten der verbleibenden Dummys nur in Bezug auf die Referenzkategorie!! Nominal/Ordinalskalierte Merkmale in der Regression Ausprägung des jeweiligen Dummys für … VerheirateteLedigeGeschiedene Dummy verheiratet. 100 Dummy ledig 010 Dummy geschieden 001

33 P. Böhm, T. Rathjen, Statistik mit SPSS, Leuphana Universität Lüneburg Statistik mit SPSS Wage i = β 0 + β 1 *Alter i + β 2 *Mann i + β 3 *Realschule i + β 4 *Abitur i + β 5 *UniFH i +ε i Regression – Beispiel SPSS Output Mann Wage i = 6, ,109*Alter i + 2,725*Mann i + 0,717*Realschule i + 2,477*Abitur i + 4,063*UniFH i + ε i

34 P. Böhm, T. Rathjen, Statistik mit SPSS, Leuphana Universität Lüneburg Statistik mit SPSS Bestimmtheitsmaß/R² Wie viel der Varianz in der abhängigen Variable kann durch die Varianz der unabhängigen Variablen erklärt werden? R 2 = 0, Prozent der Varianz im Lohnsatz (Wage) der befragten Personen ist durch die Variablen Alter, Geschlecht und Schulabschluss erklärbar. Regression – Beispiel SPSS Output

35 P. Böhm, T. Rathjen, Statistik mit SPSS, Leuphana Universität Lüneburg Statistik mit SPSS F-Test Ist das geschätzte Modell insgesamt signifikant? H 0 : β 1 = β 2 = β 3 =… β k = 0 (alle Koeffizienten β 1 bis β k =0; gemeinsam nicht signifikant) H A : β k 0 (k=1,…, K) Testentscheidung:0,05 = α > Sig. = 0,000 H 0 kann abgelehnt werden Modell insgesamt signifikant Regression – Beispiel SPSS Output

36 P. Böhm, T. Rathjen, Statistik mit SPSS, Leuphana Universität Lüneburg Statistik mit SPSS Ansichten in SPSS SPSS öffnet mehrere Fenster zur Erledigung verschiedener Aufgaben: Hauptfenster Variablenansicht Datenansicht Ausgabefenster verschiedene Editorenfenster Syntaxfenster für die Skriptsprache

37 P. Böhm, T. Rathjen, Statistik mit SPSS, Leuphana Universität Lüneburg Statistik mit SPSS Hauptfenster Variablenansicht (Var. definieren) Variablentyp Variablenlabel Wertelabel Messniveau

38 P. Böhm, T. Rathjen, Statistik mit SPSS, Leuphana Universität Lüneburg Statistik mit SPSS Hauptfenster Datenansicht

39 P. Böhm, T. Rathjen, Statistik mit SPSS, Leuphana Universität Lüneburg Statistik mit SPSS Ausgabefenster

40 P. Böhm, T. Rathjen, Statistik mit SPSS, Leuphana Universität Lüneburg Statistik mit SPSS Syntax Fenster

41 P. Böhm, T. Rathjen, Statistik mit SPSS, Leuphana Universität Lüneburg Statistik mit SPSS 6.Logistische Regression Bisher: lineare Regression abhängige Variable ist metrisch Jetzt: Schätzung einer Gruppenzugehörigkeit abhängige Variable ist kategorial Beispiele: Produktkauf oder kein Produktkauf nach Marketingmaßnahme? beschäftigt oder arbeitslos nach einer Ausbildung? Person unterhalb der Armutsgrenze? etc. binäre (dichotome oder zweiwertige) abhängige Variablen Binäre Logistische Regression

42 P. Böhm, T. Rathjen, Statistik mit SPSS, Leuphana Universität Lüneburg Statistik mit SPSS Binäre logistische Regression x unabhängige Variable (Z.B. Einkommen) y abhängige Variable (Z.B. Produktkauf) 0 1

43 P. Böhm, T. Rathjen, Statistik mit SPSS, Leuphana Universität Lüneburg Statistik mit SPSS Geschätzt wird die Wahrscheinlichkeit, dass ein Ereignis eintritt: P(Y=1|x) Nicht linearer Zusammenhang Schätzung über Maximum Likelihood Logistische Regression

44 P. Böhm, T. Rathjen, Statistik mit SPSS, Leuphana Universität Lüneburg Statistik mit SPSS Beispiel: ehrenamtliche Aktivität Beobachtet wird, ob eine Person ehrenamtlich aktiv ist oder nicht. Abhängige Variable: Dummy_Ehrenamt (1=ja; 0=nein) Die Wahrscheinlichkeit, ob eine Person ehrenamtlich aktiv ist wird mit Hilfe der binären logistischen Regression geschätzt. Als erklärende Größen wurden ausgewählt: -Geschlecht -Alter -Erwerbstätigkeit -Berufsgruppe Binäre logistische Regression

45 P. Böhm, T. Rathjen, Statistik mit SPSS, Leuphana Universität Lüneburg Statistik mit SPSS Marginale Effekte im Logit/Probit: Abhängig vom Niveau aller x-Ausprägungen Koeffizienteninterpretation: marginaler Effekt ist abhängig vom Niveau aller x-Ausprägungen nicht linearer Zusammenhang; nur Vorzeichen interpretierbar positives Vorzeichen: mit steigendem x steigt die Wahrscheinlichkeit, dass Y=1 Binäre logistische Regression: Beispiel Ehrenamt

46 P. Böhm, T. Rathjen, Statistik mit SPSS, Leuphana Universität Lüneburg Statistik mit SPSS Binäre logistische Regression: Beispiel Ehrenamt Wie viele der Beobachtungen wurden vom Modell richtig zugeordnet? Bestimmtheitsmaße - Vergleich unterschiedlicher Modelle Omnibus Test: - wie F-Test in der linearen Regression; testet den Gesamtansatz auf Signifikanz

47 P. Böhm, T. Rathjen, Statistik mit SPSS, Leuphana Universität Lüneburg Statistik mit SPSS Regressand Abhängige Variable Regressoren Unabhängige Variablen Modell metrisch metrisch dichotom lineare Regression OLS dichotom Dummy (0/1) metrisch dichotom Logit / Probit polytom metrisch dichotom Multinomiales Logit ordinal metrisch dichotom Ordered Logit/Probit Übersicht Skalierung & Regressionsmodelle

48 P. Böhm, T. Rathjen, Statistik mit SPSS, Leuphana Universität Lüneburg Statistik mit SPSS 7.Faktorenanalyse Ziel: Dimensionsreduktion einer gegebenen Anzahl von Variablen Zusammenfassung vorhandener Variablen zu wenigen nicht-beobachtbaren (latenten), i.d.R. voneinander unabhängigen Faktoren. Var 1Var 2Var 3Var 4Var 5Var 6Var 7Var 8 Faktor 1Faktor 2Faktor 3

49 P. Böhm, T. Rathjen, Statistik mit SPSS, Leuphana Universität Lüneburg Statistik mit SPSS Beispiel: Schulnoten in vier Fächern: Gibt es Faktoren wie sprachliche Begabung oder mathematische Begabung? Hier: Deutsch, Englisch, Physik und Mathematik Schritt 1: Korrelationsmatrix DeutschEnglischPhysikMathe Deutsch1,00 Englisch0,581,00 Physik0,250,301,00 Mathe0,170,250,741,00

50 P. Böhm, T. Rathjen, Statistik mit SPSS, Leuphana Universität Lüneburg Statistik mit SPSS Faktorenanalyse – Das Modell Ansatz: zwei Variablen und ein Faktor f z 1k :Wert von Variable 1 (standardisiert: ) f k :Wert des Faktors a 1 :Faktorladung der ersten Variable (= Maßzahl für den Zsh. zw. Faktor und Variable) k:Beobachtung k Generelle Schreibweise: P Variablen und M Faktoren Faktorwerte Faktorladungen

51 P. Böhm, T. Rathjen, Statistik mit SPSS, Leuphana Universität Lüneburg Statistik mit SPSS Zur Interpretation der Faktorladungen (a ij ): (1)Kommunalitäten: Die Kommunalität der i-ten Variable gibt den Anteil der Varianz der (standardisierten) Variablen i (mit Varianz gleich eins) wieder, die durch alle Faktoren gemeinsam aufgeklärt wird. (2)Eigenwert eines Faktors: Der Eigenwert des j-ten Faktors gibt an, welcher Anteil der Gesamtvarianz aller (standardisierten) beobachteten Variablen durch diesen Faktor j aufgeklärt wird.

52 P. Böhm, T. Rathjen, Statistik mit SPSS, Leuphana Universität Lüneburg Statistik mit SPSS Faktorenanalyse – Generelle Vorgehensweise (1)Korrelationsmatrix berechnen Sind die Variablen für Faktoranalyse geeignet? (r 0) Gängigstes Maß: Kaiser-Meyer-Olkin-Kriterium mindestens 0,5 – möglichst größer 0,8 (2)Schätzung der Faktorladungen Kommunalitäten/Eigenwerte Bestimmung der Faktorenzahl Gängigstes Kriterium: Kaiser-Kriterium nur Faktoren mit Eigenwert größer 1 (3)Rotation der Faktoren VARIMAX-Methode (Ziel: möglichst eindeutige Faktorladungen) (4)Interpretation der Faktoren und Bestimmung der Faktorwerte

53 P. Böhm, T. Rathjen, Statistik mit SPSS, Leuphana Universität Lüneburg Statistik mit SPSS Faktorenanalyse – Beispiel Wichtigkeitsfragen bei Autos (1 – 10)

54 P. Böhm, T. Rathjen, Statistik mit SPSS, Leuphana Universität Lüneburg Statistik mit SPSS (1)Korrelationsmatrix Kaiser-Meyer-Olkin-Kriterium = 0,824

55 P. Böhm, T. Rathjen, Statistik mit SPSS, Leuphana Universität Lüneburg Statistik mit SPSS (2a)Eigenwerte Kaiser-Kriterium: Wahl von zwei Faktoren Wie viel der Gesamtvarianz wird durch die einzelnen Faktoren erklärt?

56 P. Böhm, T. Rathjen, Statistik mit SPSS, Leuphana Universität Lüneburg Statistik mit SPSS (2b)Kommunalitäten Wie viel % der Varianz einer Variablen wird durch die Faktoren erklärt?

57 P. Böhm, T. Rathjen, Statistik mit SPSS, Leuphana Universität Lüneburg Statistik mit SPSS (3)Rotation der Faktoren

58 P. Böhm, T. Rathjen, Statistik mit SPSS, Leuphana Universität Lüneburg Statistik mit SPSS (4)Interpretation der Faktoren

59 P. Böhm, T. Rathjen, Statistik mit SPSS, Leuphana Universität Lüneburg Statistik mit SPSS 8.Clusteranalyse Ziel: Zusammenfassung von Objekten (Merkmalsträger) zu möglichst homogenen Untergruppen (Cluster) Die gefundenen Cluster sollen in sich homogen sein, wohingegen sich die Cluster im Vergleich miteinander unterscheiden sollen. PersonVar 1 (Alter)Var 2 (Einkommen) 1(…) Cluster 1 Cluster 2 Anwendungsgebiete: Identifikation ähnlicher Kunden, Regionen, Wähler, …

60 P. Böhm, T. Rathjen, Statistik mit SPSS, Leuphana Universität Lüneburg Statistik mit SPSS Clusteranalyse – Einführung Hierarchische agglomerative Clustermethoden: jedes Objekt bildet zunächst seinen eigenen Cluster sukzessives Zusammenfügen zu (temporären) Clustern Ähnlichkeits- bzw. Distanzmaß Fusionierungsalgorithmus schließlich fusionieren alle Objekte zu einem einzelnen Cluster. Beispiel:

61 P. Böhm, T. Rathjen, Statistik mit SPSS, Leuphana Universität Lüneburg Statistik mit SPSS Clusteranalyse – Distanzmaße Schritt 1: Bestimmung einer Distanzmatrix Distanzmaße stehen für die (Un-)Ähnlichkeit von Objekten i und j Je größer die Distanz, desto unähnlicher sind die beiden betrachteten Objekte Distanzmaße (metrische Variablen): -Quadrierte Euklidische Distanz -Euklidische Distanz Distanzmaße (nominalskalierte Variablen): vgl. Backhaus et al.

62 P. Böhm, T. Rathjen, Statistik mit SPSS, Leuphana Universität Lüneburg Statistik mit SPSS Exemplarisch: Distanz zwischen erster (i=1) und zweiter (j=2) Person Beispiel: (nur 1 Var.) Distanzmatrix auf Basis der euklidischen Distanz: Person(Alter)

63 P. Böhm, T. Rathjen, Statistik mit SPSS, Leuphana Universität Lüneburg Statistik mit SPSS Clusteranalyse – Fusionierungsalgorithmen Schritt 2: Fusionierung der Objekte Grundproblem: Nach welchem Kriterium werden die Objekte zusammengefasst? Algorithmen: (1) Single Linkage (nächster Nachbar) (2) Complete Linkage (entferntester Nachbar) s. Backhaus (3)Ward-Verfahren

64 P. Böhm, T. Rathjen, Statistik mit SPSS, Leuphana Universität Lüneburg Statistik mit SPSS (1) Single Linkage (nächster Nachbar), Basis: Euklid. Distanz Fusionierung von Person 2 und Person 5 Nächster Nachbar:

65 P. Böhm, T. Rathjen, Statistik mit SPSS, Leuphana Universität Lüneburg Statistik mit SPSS Dendogramm (Single Linkage)

66 P. Böhm, T. Rathjen, Statistik mit SPSS, Leuphana Universität Lüneburg Statistik mit SPSS Beispiel in SPSS:

67 P. Böhm, T. Rathjen, Statistik mit SPSS, Leuphana Universität Lüneburg Statistik mit SPSS (2) Ward-Verfahren (möglichst geringe Varianzerhöhung durch Fusion) Basis: Quadr. Euklid. Distanz Fusionierung von Person 2 und Person 5 Ward:

68 P. Böhm, T. Rathjen, Statistik mit SPSS, Leuphana Universität Lüneburg Statistik mit SPSS Beispiel in SPSS:

69 P. Böhm, T. Rathjen, Statistik mit SPSS, Leuphana Universität Lüneburg Statistik mit SPSS (1) Single Linkage (nächster Nachbar) Vereinigung von Objekten, die die kleinste Distanz aufweisen es entstehen viel kleine und wenig große Cluster Problem: Kettenbildung (2) Ward-Verfahren es werden die Objekte zu Gruppen zusammengefasst, die die Varianz in einer Gruppe so wenig wie möglich erhöhen bildet etwa gleich große Gruppen Vergleich Fusionierungsalgorithmen:


Herunterladen ppt "P. Böhm, T. Rathjen, Statistik mit SPSS, Leuphana Universität Lüneburg Statistik mit SPSS Kurs im Sommersemester 2009 Dipl.-Volkswirt Paul Böhm Dipl.-Kaufmann."

Ähnliche Präsentationen


Google-Anzeigen