Statistik mit SPSS Dipl.-Volkswirt Paul Böhm

Statistik mit SPSS Dipl.-Volkswirt Paul Böhm
Kurs im Sommersemester 2009 Dipl.-Volkswirt Paul Böhm Dipl.-Kaufmann Tim Rathjen Forschungsinstitut Freie Berufe Leuphana Universität Lüneburg

Organisatorisches (I)
Termine: Freitag 10:00 – 12:00 C (Theorie) 12:00 – 13:00 Pause 13:00 – 19:00 7.111 und (Praxis) Samstag 13:00 – 16:00 Literatur: - Skript - Backhaus, u.a.: „Multivariate Analysemethoden“

Organisatorisches (II)
Prüfungsleistung Diplomstudiengänge: 4 CP (Wahlpflichtfach EWF oder Freier Bereich) Hausarbeit: - Aufgaben (ohne Zusatzaufgabe) - 1-2 Personen - Umfang: ca. 20 Seiten - Download der Daten für Hausarbeit: ab 1. Juli 2009: ffb.uni-lueneburg.de - Abgabetermin: 15. September 2009 Prüfungsleistung Komplementärstudium 5 CP Hausarbeit: - Aufgaben (mit Zusatzaufgabe) - Umfang: ca. 25 Seiten Alternativ: Teilnahmeschein (+ PCP)

Übersicht 1. Arten von Merkmalen 2. Deskriptive Statistik 3. Induktive Statistik 4. Korrelation 5. Regression → Kurzeinführung in SPSS 6. Logistische Regression 7. Faktorenanalyse 8. Clusteranalyse Tag 1 Tag 2

1. Arten von Merkmalen – Skalenniveaus
Nominalskala Ordinalskala Metrische Skalen Unterscheidung möglich Geschlecht, Staatsangehörigkeit, … + Reihenfolge Schulnoten, Güteklassen, … + konstanter Wertabstand Größenangaben, Geld, Stückzahlen, Alter,…

1. Arten von Merkmalen – Skalenniveaus
Entscheidungsbaum Lassen sich die Merkmalsausprägungen in eine sinnvolle Reihenfolge bringen? nein ja Nominalskala (Z.B. Geschlecht) Sind die Abstände quantifizierbar? nein ja Ordinalskala (Z.B. Güteklassen) Metrische Skalen (Z.B. Einkommen)

2. Deskriptive Statistik
Ziel: Verdichtung von Informationen Methoden: - Darstellung von Häufigkeiten (HK) → von einem Merkmal → von zwei Merkmalen - Lage- und Streuungsparameter

HK-Verteilung: Darstellung eines Merkmals
Absolute Häufigkeit ni einer Merkmalsausprägung Relative Häufigkeit hi einer Merkmalsausprägung Grafen: Balken- und Säulendiagramme, Kreisdiagramme, Histogramme, Boxplots, … Merkmal Geschlecht ni hi männlich 300 0,3 weiblich 700 0,7

HK-Verteilung: Darstellung zweier Merkmale
Kreuztabellen Grafen: Zweidimensionale Balkendiagramme, … Stadt Land männlich h11=20% h12=25% weiblich h21=25% h22=30%

Lage- und Streuungsparameter
Lageparameter: Geben die Position des Datenfeldes wieder. Streuungsparameter: Geben die ‚Form‘ des Datenfeldes (in Bezug auf einen Lageparameter) wieder.

Lageparameter: Position des Datenfeldes - Median - Modus
Bsp.: - Arithmetisches Mittel - Median - Modus - Quantile (Quartile/Dezile/Perzentile) Streuungsparameter: ‚Form‘ des Datenfeldes Bsp.: - Spannweite - Varianz (mittlere quadratische Abweichung vom arithm. Mittel) - Standardabweichung

3. Induktive Statistik Ziel: Schließen von Kennzahlen einer (zufällig gezogenen) Stichprobe auf unbekannte Parameter der Grundgesamtheit Methoden: 1. Punktschätzung 2. Intervallschätzung 3. Statistische Tests Beispiel: Wahlprognose (Stichprobe: n = 1000;Grundgesamtheit: N = 50 Mio.)

Intervall- und Punktschätzung
Beispiel: Wahlprognose Stichprobe: n = 1000 Grundgesamtheit: N = 50 Mio. Partei Stichprobe Punkt- schätzung IV (95%) (99%) CDU 36,0 33,0 39,0 32,1 39,9 SPD 28,0 25,2 30,8 24,3 31,7 FDP 10,0 8,1 11,9 7,6 12,4 Grüne Linke 12,0 14,0 9,4 14,6

Statistische Tests Theorie: Aufbau eines Tests in fünf Schritten
Formulierung der zu überprüfenden Hypothesen (H0 und HA) → überprüfbare Hypothese ist HA → Gleichheitszeichen in H0 2. Festlegen der zulässigen Fehlerwahrscheinlichkeit des späteren Testergebnisses (α = 0,05; 0,01; …) 3. Berechnung einer Prüfgröße (Teststatistik), die sich aus der Stichprobe ermitteln lässt 4. Bestimmung eines kritischen Wertes, dessen Unter- oder Überschreiten zur Ablehnung der Nullhypothese führt 5. Vergleich von Prüfgröße und kritischem Wert und Entscheidung

Beispiele für Hypothesen:
Erreicht Schwarz-Gelb die absolute Mehrheit? (Rechtsseitig) H0: pSchwarz/Gelb ≤ 0,50 HA: pSchwarz/Gelb > 0,50 Fällt die SPD unter die 25%-Grenze? (Linksseitig) H0: pSPD ≥ 0,25 HA: pSPD < 0,25 Ist die Differenz zwischen Grünen und Linken signifikant? (Zweiseitig) H0: pGRÜNE = pLINKE H0: pGRÜNE ≠ pLINKE

Hypothesen und Fehlerarten: → Fehler 1. Art (α) → Fehler 2. Art (β)
Entscheidung In Wirklichkeit gilt H0 ablehnen („HA“) H0 beibehalten („H0“) H0 ist richtig Fehler 1. Art (α) P („HA“| H0) kein Fehler H0 ist falsch Fehler 2. Art (β)

Testen mit SPSS – einfaches Beispiel (konstruiert):
Beispiel: Ist die mittlere Temperatur im Januar von Null verschieden? 1. H0: μ=0 HA: μ≠0 (zweiseitiger Test) 2. Fehlerwahrscheinlichkeit α=0,05. D.h. uns soll der Fehler erster Art mit einer Wahrscheinlichkeit von höchstens 5% unterlaufen 3. Berechnung der Prüfgröße: , mit 4. Bestimmung des kritischen Wertes aus der (theoretischen) t- Verteilung 5. Vergleich der Prüfgröße mit dem kritischen Wert: H0 wird abgelehnt wenn:

Testentscheidung H0: μ = 0 HA: μ ≠ 0 σ α/2 tkrit μ0=0 H0 ablehnen
H0 annehmen

Anmerkungen zu Tests mit SPSS:
SPSS berechnet für Tests einen Sig.-Wert (= P-Value). Dieser gibt den exakten Fehler an, den man begeht, wenn man H0 ablehnen würde. → Ist Sig. kleiner als das vorgegebene Signifikanzniveau α, dann wird H0 abgelehnt. Häufig: Sig. < 0,05: „ HA“ Sig. > 0,05: „ H0“ SPSS berechnet während einiger Testprozeduren auch Konfidenzintervalle. Über diese können dann auch Testentscheidungen getroffen werden.

Beispieloutput von SPSS:
Einstichprobentest mit H0: μ = 0

Mögliche Tests mit SPSS:
Mit SPSS besteht die Möglichkeit, aus einer großen Anzahl von Tests auszuwählen. Beispiele: 1. Einstichprobentest - Test auf den Erwartungswert μ - Test auf einen Anteilswert p - (...) 2. Zweistichprobentests – Test auf Differenz ... - zweier Erwartungswerte μ - zweier Anteilswerte p weitere Tests - Tests bei Regressionsanalyse (F-Test, t-Test, …) - Verteilungs- und Unabhängigkeitstests (Chi²-Tests, …)

4. Korrelation Liegt ein Zusammenhang von zwei Merkmalen vor?
Interdependenzanalyse (keine kausale Richtung der Abhängigkeit) Arten: Kontingenzkoef.  Mindestens ein Merkmal nominal skaliert Normierung: 0 ≤ KK ≤ 1 (Stärke) Spearman  Beide Merkmale mindestens ordinal skaliert Normierung: -1 (Absolut gegenläufig) 0 (Kein Zusammenhang) +1 (Absolut gleichläufig) (Stärke und Richtung) Pearson  Beide Merkmale metrisch skaliert Normier. und Interpr. wie bei Spearman

Korrelation - Kontingenzkoeffizient
(In SPSS: Analysieren, Deskript. Stat., Kreuztabellen, Statistik) Gibt es einen Zusammenhang von Berufswahl und Geschlecht? Geschlecht und Tätigkeit sind nominalskaliert → Analyse mit dem Kontingenzkoeffizienten 54,4 % 45,6 % 76,6 % 5,7 % 76,6 % 17,7 % 100 %

Korrelation - Kontingenzkoeffizient
Ist der Zusammenhang signifikant? (α =0,05) Hypothesen: H0: ρ = 0 HA: ρ > 0 Testentscheidung über Signifikanzwert: 0,05 = α > Sig. = 0,000 → H0 kann abgelehnt werden → signifikanter Zusammenhang

Korrelation – Spearman
Gibt es einen Zusammenhang von polit. Einstellung und Schulbildung?

Korrelation – Spearman
Ist der Zusammenhang signifikant? (α =0,05) Hypothesen: H0: ρ = 0 HA: ρ ≠ 0 Testentscheidung über Signifikanzwert: 0,05 = α > Sig. = 0,008 → H0 kann abgelehnt werden → signifikant negativer Zusammenhang

Korrelation – Bravais Pearson
Korrelieren die Schuljahre mit dem Einkommen? → Schuljahre und Einkommen sind beide metrisch skaliert → Bravais Pearson Korrelationskoeffizient Einkommen Ist der Zusammenhang signifikant? (α =0,05) Hypothesen: H0: ρ = HA: ρ ≠ 0 Testentscheidung über Signifikanzwert: 0,05 = α > Sig. = 0,000 → H0 kann abgelehnt werden → signifikant positiver Zusammenhang

5. Regression Dependenzanalyse (Richtung des Zusammenhangs bekannt)
Abhängige Variable: Metrisch (=erklärte Variable; =endogene Variable) Unabhängige Variablen: Metrisch (=erklärende Variable; =exogene Variable) Ordinale Variablen  Umwandlung in Dummyvariablen (0/1) !!! Nominale Variablen  Umwandlung in Dummyvariablen (0/1) !!!

x unabhängige Variable
Regression: Methode der kleinsten Quadrate y abhängige Variable (Z.B. Konsum) x unabhängige Variable (Z.B. Einkommen)

x unabhängige Variable
Regression: Methode der kleinsten Quadrate ei ei2 y abhängige Variable (Z.B. Konsum) x unabhängige Variable (Z.B. Einkommen)

Regression: Interpretation
Schätzung des Modells: yi = β0 + β1x1i + β2x2i + …+ βKxKi + εi β0 entspricht Ordinatenabschnitt im x-y-Diagramm β1 entspricht der Steigung der Geraden im x-y-Diagramm Interpretation des Ausdrucks: Gesamterklärungsgüte: R², F-Test Koeffizienten: b, t-Tests

Ausprägung des jeweiligen Dummys für …
Nominal/Ordinalskalierte Merkmale in der Regression Umwandlung in Dummys: Beispiel Familienstand Es liegt das Merkmal „Familienstand“ mit folgenden Ausprägungen vor: 1 = verheiratet; 2 = ledig; 3 = geschieden Erstellung von 3 Dummyvariablen (je Ausprägung eine Dummyvariable) Bei der Regressionsanalyse muss ein Dummy als Referenzkategorie ausgelassen werden. Interpretation der Koeffizienten der verbleibenden Dummys nur in Bezug auf die Referenzkategorie!! Ausprägung des jeweiligen Dummys für … Verheiratete Ledige Geschiedene Dummy verheiratet. 1 Dummy ledig Dummy geschieden

Regression – Beispiel SPSS Output
Wagei = β0 + β1*Alteri + β2*Manni + β3*Realschulei+ β4*Abituri+ β5*UniFHi+εi Mann Wagei = 6, ,109*Alteri + 2,725*Manni + 0,717*Realschulei + 2,477*Abituri + 4,063*UniFHi + εi

Bestimmtheitsmaß/R² Wie viel der Varianz in der abhängigen Variable kann durch die Varianz der unabhängigen Variablen erklärt werden? R2 = 0,210 21 Prozent der Varianz im Lohnsatz (Wage) der befragten Personen ist durch die Variablen Alter, Geschlecht und Schulabschluss erklärbar.

F-Test Ist das geschätzte Modell insgesamt signifikant? H0: β1= β2= β3=… βk = 0 (alle Koeffizienten β1 bis βk =0; gemeinsam nicht signifikant) HA: βk ≠ 0 (k=1,…, K) Testentscheidung: 0,05 = α > Sig. = 0,000  H0 kann abgelehnt werden  Modell insgesamt signifikant

Ansichten in SPSS SPSS öffnet mehrere Fenster zur Erledigung verschiedener Aufgaben: Hauptfenster  Variablenansicht  Datenansicht Ausgabefenster verschiedene Editorenfenster Syntaxfenster für die Skriptsprache

Hauptfenster  Variablenansicht (Var. definieren)
Variablentyp Variablenlabel Wertelabel Messniveau

Hauptfenster  Datenansicht

Ausgabefenster

Syntax Fenster

6. Logistische Regression
Bisher: lineare Regression → abhängige Variable ist metrisch Jetzt: Schätzung einer Gruppenzugehörigkeit → abhängige Variable ist kategorial Beispiele: Produktkauf oder kein Produktkauf nach Marketingmaßnahme? beschäftigt oder arbeitslos nach einer Ausbildung? Person unterhalb der Armutsgrenze? etc. → binäre (dichotome oder zweiwertige) abhängige Variablen → Binäre Logistische Regression

Binäre logistische Regression
1 y abhängige Variable (Z.B. Produktkauf) x unabhängige Variable (Z.B. Einkommen)

Logistische Regression
Geschätzt wird die Wahrscheinlichkeit, dass ein Ereignis eintritt: P(Y=1|x) Nicht linearer Zusammenhang Schätzung über Maximum Likelihood

Binäre logistische Regression
Beispiel: ehrenamtliche Aktivität Beobachtet wird, ob eine Person ehrenamtlich aktiv ist oder nicht. Abhängige Variable: Dummy_Ehrenamt (1=ja; 0=nein) Die Wahrscheinlichkeit, ob eine Person ehrenamtlich aktiv ist wird mit Hilfe der binären logistischen Regression geschätzt. Als erklärende Größen wurden ausgewählt: Geschlecht Alter Erwerbstätigkeit Berufsgruppe

Binäre logistische Regression: Beispiel Ehrenamt
Marginale Effekte im Logit/Probit: → Abhängig vom Niveau aller x-Ausprägungen Koeffizienteninterpretation: → marginaler Effekt ist abhängig vom Niveau aller x-Ausprägungen → nicht linearer Zusammenhang; nur Vorzeichen interpretierbar → positives Vorzeichen: mit steigendem x steigt die Wahrscheinlichkeit, dass Y=1

Binäre logistische Regression: Beispiel Ehrenamt
„Bestimmtheitsmaße“ - Vergleich unterschiedlicher Modelle Omnibus Test: - wie F-Test in der linearen Regression; testet den Gesamtansatz auf Signifikanz Wie viele der Beobachtungen wurden vom Modell richtig zugeordnet?

Übersicht Skalierung & Regressionsmodelle
Regressand Abhängige Variable Regressoren Unabhängige Variablen Modell metrisch metrisch dichotom lineare Regression OLS dichotom Dummy (0/1) Logit / Probit polytom Multinomiales Logit ordinal Ordered Logit/Probit

7. Faktorenanalyse Ziel:
Dimensionsreduktion einer gegebenen Anzahl von Variablen → Zusammenfassung vorhandener Variablen zu wenigen nicht-beobachtbaren (latenten), i.d.R voneinander unabhängigen Faktoren. Var 1 Var 2 Var 3 Var 4 Var 5 Var 6 Var 7 Var 8 Faktor 1 Faktor 2 Faktor 3

Hier: Deutsch, Englisch, Physik und Mathematik
Beispiel: Schulnoten in vier Fächern: Gibt es Faktoren wie „sprachliche Begabung“ oder „mathematische Begabung“? Hier: Deutsch, Englisch, Physik und Mathematik Schritt 1: Korrelationsmatrix Deutsch Englisch Physik Mathe 1,00 0,58 0,25 0,30 0,17 0,74

Faktorenanalyse – Das Modell
Ansatz: zwei Variablen und ein Faktor f z1k: Wert von Variable 1 (standardisiert: ) fk: Wert des Faktors a1: Faktorladung der ersten Variable (= Maßzahl für den Zsh. zw. Faktor und Variable) k: Beobachtung k Generelle Schreibweise: P Variablen und M Faktoren i: Variable k: Beobachtung Faktorwerte • Faktorladungen

Zur Interpretation der Faktorladungen (aij):
(1) Kommunalitäten: Die Kommunalität der i-ten Variable gibt den Anteil der Varianz der (standardisierten) Variablen i (mit Varianz gleich eins) wieder, die durch alle Faktoren gemeinsam aufgeklärt wird. (2) Eigenwert eines Faktors: Der Eigenwert des j-ten Faktors gibt an, welcher Anteil der Gesamtvarianz aller (standardisierten) beobachteten Variablen durch diesen Faktor j aufgeklärt wird.

Faktorenanalyse – Generelle Vorgehensweise
Korrelationsmatrix berechnen Sind die Variablen für Faktoranalyse geeignet? (r ≠ 0) Gängigstes Maß: Kaiser-Meyer-Olkin-Kriterium → mindestens 0,5 – möglichst größer 0,8 Schätzung der Faktorladungen → Kommunalitäten/Eigenwerte Bestimmung der Faktorenzahl Gängigstes Kriterium: Kaiser-Kriterium → nur Faktoren mit Eigenwert größer 1 Rotation der Faktoren VARIMAX-Methode (Ziel: möglichst eindeutige Faktorladungen) Interpretation der Faktoren und Bestimmung der Faktorwerte i: Variable k: Beobachtung

Faktorenanalyse – Beispiel
→ Wichtigkeitsfragen bei Autos (1 – 10)

(1) Korrelationsmatrix
Kaiser-Meyer-Olkin-Kriterium = 0,824

(2a) Eigenwerte → Wie viel der Gesamtvarianz wird durch die einzelnen Faktoren erklärt? Kaiser-Kriterium: Wahl von zwei Faktoren

(2b) Kommunalitäten → Wie viel % der Varianz einer Variablen wird durch die Faktoren erklärt?

(3) Rotation der Faktoren

(4) Interpretation der Faktoren
Sicherheit und Luxus

8. Clusteranalyse Ziel: Zusammenfassung von Objekten (Merkmalsträger) zu möglichst homogenen Untergruppen (Cluster) Die gefundenen Cluster sollen in sich homogen sein, wohingegen sich die Cluster im Vergleich miteinander unterscheiden sollen. Person Var 1 (Alter) Var 2 (Einkommen) 1 (…) 2 3 4 5 Cluster 1 N: gespannt, ängstlich, nervös, launisch, empfindlich, reizbar und furchtsam E: gesellig, selbstsicher, aktiv, gesprächig, energisch, heiter und optimistisch O: Interesse an neuen Erfahrungen V: Altruismus, Verständnis, Wohlwollen und Mitgefühl mit anderen G: handeln organisiert, sorgfältig, planend, effektiv, verantwortlich, zuverlässig und überlegt Cluster 2 Anwendungsgebiete: Identifikation ähnlicher Kunden, Regionen, Wähler, …

Clusteranalyse – Einführung
Hierarchische agglomerative Clustermethoden: jedes Objekt bildet zunächst seinen eigenen Cluster sukzessives Zusammenfügen zu (temporären) Clustern → Ähnlichkeits- bzw. Distanzmaß → Fusionierungsalgorithmus schließlich fusionieren alle Objekte zu einem einzelnen Cluster. Beispiel:

Clusteranalyse – Distanzmaße
Schritt 1: Bestimmung einer Distanzmatrix Distanzmaße stehen für die (Un-)Ähnlichkeit von Objekten i und j Je größer die Distanz, desto unähnlicher sind die beiden betrachteten Objekte Distanzmaße (metrische Variablen): Quadrierte Euklidische Distanz Euklidische Distanz Distanzmaße (nominalskalierte Variablen): → vgl. Backhaus et al.

Distanzmatrix auf Basis der euklidischen Distanz:
Beispiel: (nur 1 Var.) Distanzmatrix auf Basis der euklidischen Distanz: Person (Alter) 1 43 2 38 3 6 4 47 5 37 9 → Exemplarisch: Distanz zwischen erster (i=1) und zweiter (j=2) Person

Clusteranalyse – Fusionierungsalgorithmen
Schritt 2: Fusionierung der Objekte Grundproblem: Nach welchem Kriterium werden die Objekte zusammengefasst? Algorithmen: (1) Single Linkage (‚nächster Nachbar‘) (2) Complete Linkage (‚entferntester Nachbar‘) → s. Backhaus (3) Ward-Verfahren

(1) Single Linkage (‚nächster Nachbar‘), Basis: Euklid. Distanz
Fusionierung von Person 2 und Person 5 Nächster Nachbar:

Dendogramm (Single Linkage)

Beispiel in SPSS:

(2) Ward-Verfahren (möglichst geringe Varianzerhöhung durch Fusion)
Basis: Quadr. Euklid. Distanz Fusionierung von Person 2 und Person 5 Ward:

Beispiel in SPSS:

Vergleich Fusionierungsalgorithmen:
(1) Single Linkage (‚nächster Nachbar‘) Vereinigung von Objekten, die die kleinste Distanz aufweisen es entstehen viel kleine und wenig große Cluster Problem: Kettenbildung (2) Ward-Verfahren es werden die Objekte zu Gruppen zusammengefasst, die die Varianz in einer Gruppe so wenig wie möglich erhöhen bildet etwa gleich große Gruppen

Statistik mit SPSS Dipl.-Volkswirt Paul Böhm

Ähnliche Präsentationen

Präsentation zum Thema: "Statistik mit SPSS Dipl.-Volkswirt Paul Böhm"— Präsentation transkript:

Ähnliche Präsentationen

Über Projekt

Feedback

Anmelden

Anmeldung über soziales Netzwerk:

Statistik mit SPSS Dipl.-Volkswirt Paul Böhm

Ähnliche Präsentationen

Präsentation zum Thema: "Statistik mit SPSS Dipl.-Volkswirt Paul Böhm"— Präsentation transkript:

Ähnliche Präsentationen

Über Projekt

Feedback