Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

Methoden der Politikwissenschaft Regressionsanalyse Siegfried Schumann

Ähnliche Präsentationen


Präsentation zum Thema: "Methoden der Politikwissenschaft Regressionsanalyse Siegfried Schumann"—  Präsentation transkript:

1 Methoden der Politikwissenschaft Regressionsanalyse Siegfried Schumann

2 Prognosegleichung Backhaus-Formel für den Regressionskoeffizienten (S. 16) äquivalent zum Grundkurs! aber: Rohwerte! in SPSS: B Backhaus-Formel für die Regressionskonstante (S. 16) wie im Grundkurs aber Benennung: b0! in SPSS: CONST

3 Standardisierte Regressionskoeffizienten
ˆ bei Backhaus: → Standardisierung entspricht dem Koeffizienten für z-standardisierte Variablen! Sinn: Vergleichbarkeit innerhalb einer Gleichung herstellen! In SPSS: BETA

4 Arbeitsblatt 1: Eine unabhängige Variable
r aus Gleichungen u. 2 errechenbar? Konstante = ? SYCDU x 10 1 Jahr (Alter) Jahre

5 Multiple Regression Regressionsgleichung:
Zielfunktion der multiplen Regressionsfunktion: e = Residuum

6 Arbeitsblatt 1: y-Werte für Gleichung y = 2x1 + x2 - 4
Lego-Modell!

7 Demonstration am Modell:
Regressionsgerade → Regressionsebene Regressionskoeffizienten: Steigung unabhängig von den übrigen UVs! Interpretationen: Regressionskoeffizienten Regressionskonstante analog zum bivariaten Modell

8 Arbeitsblatt 1: z-Standardisierung / Unabhängigkeit
Hätte R2 auch kleiner sein können als in vorhergehender Tabelle? bereits bekannt? Nächste Zeile: Welche Werte sind bekannt?

9 Wdh: Bestimmtheitsmaß R2 – Zerlegung eines Werts
Regressionsgerade

10 Wdh: Zerlegung eines y-Wertes
x Abweichung vom arithmetischen Mittel Regressionsgerade arithmetisches Mittel Werte für Beispiel 2 (Grundkurs)

11 Wdh: Berechnung von R2

12 Bestimmtheitsmaß R2 Prüfung der Regressionsfunktion insgesamt
Backhaus: R2 → r2 R2 wird beeinflusst von: Zahl der Regressoren Größe der Stichprobe Korrigiertes Bestimmtheitsmaß: Bei großen Fallzahlen kaum bedeutsam. Beispiel: N=K=1000, J=5: r2 = 0.81 → r2korr = r2 = 0.49 → r2korr = r2 = 0.09 → r2korr = Anmerkung: R = r = Multipler Korrelationskoeffizient J = Anzahl der Regressoren K = Zahl der Beobachtungen ?

13 Prüfung des Bestimmtheitsmaßes
F-Test: Hat sich R2emp ≠ 0 zufällig ergeben, (Backhaus: r2emp ≠ 0) obwohl in der Grundgesamtheit R2 gleich „0“ ist? H0: Kein Zusammenhang zwischen der AV und den UVs (in der Grundgesamtheit) H1: Zusammenhang zwischen der AV und den UVs (in der Grundgesamtheit) Testgröße: F-Verteilung: (Dichte) Zähler- bzw. Nennerfreiheitsgrade J = Anzahl der Regressoren K = Zahl der Beobachtungen ––––––––– df. Zähler: df. Nenner: 5 df. Zähler: 10 df. Nenner: 10 nach Bortz 1989: 107

14 F-Tabelle - Vertrauenswahrscheinlichkeit 0.95 / 0.99
Beispiel: J = 1 K = 10 Femp = 4.23 → n.s. f1 = J: Anzahl der UVs f2 = K - J - 1: Fallzahl - Anzahl der UVs - 1 aus: Clauß u.a. 1994: 366 f. (Tabellen in Backhaus: S. 576ff.; Auszug: S. 27)

15 Weiteres Gütemaß Standardfehler der Schätzung Im Beispiel:
Bezogen auf den Mittelwert von Y (1806.8) beträgt der Standardfehler der Schätzung 21% was nicht als gut bewertet werden kann (Backhaus u.a : 73) Gibt an, welcher mittlere Fehler bei der Verwendung der Regressionsfunktion zur Schätzung der AV gemacht wird. (Backhaus u.a. 2006: 73)

16 Prüfung der Regressionskoeffizienten
Für jede der unabhängigen Variablen (UV) ist H0 gegen H1 zu prüfen: H0: Der Regressionskoeffizient hat in der Grundgesamtheit den Wert „0“ (kein „Einfluss“ der betreffenden UV auf die AV!) H1: Der Regressionskoeffizient hat in der Grundgesamtheit einen Wert ≠ „0“ („Einfluss“ der betreffenden UV auf die AV!) Testgröße: T-Verteilung (Dichte) (aus: Bleymüller u.a. 1992: 63)

17 Kritische Werte der t-Verteilung (Wdh.)
df.: K-J-1 J = Anzahl der Regressoren K = Zahl der Beobachtungen Beispiel: K = 10 J = 1 α = 0.05 → SNV Tafel 4 aus: Clauß u.a. 1994:

18 Konfidenzintervalle für Regressionskoeffizienten
Berechnung des Konfidenzintervalls (KI): mit: = Regressionskoeffizient des j-ten Regressors = Standardfehler des j-ten Regressionskoeffizienten t = t-Wert für gewählte Vertrauenswahrscheinlichkeit Interpretation? Intervall liegt mit einer Wahrscheinlichkeit von [Vertrauenswahrscheinlichkeit] so, dass es den Regressionskoeffizienten in der Grundgesamtheit umschließt. Je größer das KI, desto unsicherer die Schätzung der Steigung des Regressionskoeffizienten. Gilt insbesondere bei Vorzeichenwechsel innerhalb des KI!

19 Prämissen / Prämissenverletzungen (PV) linearen Regressionsmodell
beim linearen Regressionsmodell

20 Annahmen des linearen Regressionsmodells
Das Modell ist richtig spezifiziert. Es ist linear in den Parametern βj. Es enthält die relevanten UVs (und nur diese!). Zahl der zu schätzenden Parameter (J+1) < Zahl der Beobachtungen (K). Die Störgrößen haben den Erwartungswert Null. Keine Korrelation zwischen den UVs und der Störgröße Störgrößen haben eine konstante Varianz (Homoskedaszidität) Störgrößen sind unkorreliert (keine Autokorrelation) Keine lineare Abhängigkeit zwischen den UVs (keine perfekte Multikollinearität). Die Störgrößen sind normalverteilt. (→ relevant bei statistischen Tests!) Praktisches Problem: Ausreichende Varianz der UVs in der Stichprobe! nach Backhaus u.a. 2006: 79

21 PV: Nicht lineare Regressionsbeziehung
PV = Prämissenverletzung! PV: Nicht lineare Regressionsbeziehung oder: Strukturbruch? Lineare Regressionsfunktion Y = β0 + β1 · X Nichtlineare Regressionsfunktion Y = β0 + β1 · X0.5 nach Backhaus u.a. 2006: 82

22 PV: Nicht lineare Regressionsbeziehung II
Strukturbruch: Niveauänderung Strukturbruch: Trendänderung nach Backhaus u.a. 2006: 82

23 PV: nicht alle relevanten UVs im Modell enthalten
Sympathie J. Fischer Sympathie J. Trittin „Irak“ gerechtfertigt Zuzug Ausländer ↓ AKWs „abschalten“ Zufried. Grüne in Koalition NEO-FFI: OE NEO-FFI: GW Links-Rechts Selbsteinstufung Erklärte Varianz R2: Abhängige Variable (AV) jeweils: Sympathie für die Grünen Zahlenwerte: standardisierte Regressionskoeffizienten nicht signifikant (unter Signifikanzniveau „.05“) - - - - + - - +

24 PV: Nicht konstante Varianz der Störgrößen
Homoskedaszidität: Alle bedingten Verteilungen der ui haben Erwertungswert 0 und konstante Varianz σu (Bleymüller, 1992: 149) Heteroskedaszidität I Heteroskedaszidität II Relevant vor allem bei Zeitreihen! nach Backhaus u.a. 2006: 87

25 PV: Nicht unkorrelierte Störgrößen (Autokorrelation)
Positive Autokorrelation Negative Autokorrelation Relevant vor allem bei Zeitreihen! nach Backhaus u.a. 2006: 87

26 Erkennen von Autokorrelation (Zeitreihen!)
Optische Inspektion (Residuen) Durbin-Watson-Test = + Beziehung? Berechnung? : (Standardfehler der Residuen in der Grundgesamtheit!) (aus Backhaus u.a. 2006: 101)

27 Test auf Autokorrelation (Durbin-Watson-Formel)
Kritische Werte (Tabelle!) ? Empirischer Wert der Prüfgröße „d“

28 Durbin-Watson Tabelle
Vertrauenswahrscheinlichkeit: einseitig 0.975, zweiseitig 0.95 K = Zahl der Beobachtungen J = Zahl der Regressoren d+u = unterer Grenzwert des Unschärfebereichs d+o = unterer Grenzwert Beispiel: aus Backhaus u.a. 2006: 820

29 Test auf Autokorrelation (Durbin-Watson-Formel)
Beispiel: d+u (hier: du) = 1.21 d+o (hier: do) = 1.56 4 - do = 2.44 4 - du = 2.79 d = 2.02 Ho „keine Auto-korrelation“ kann nicht zurückge-wiesen werden! 1.21 1.56 2.44 2.79 d = 2.02

30 Test auf Autokorrelation: Beispiel 1
d = Indexwert für die Prüfung auf Autokorrelation ek = Residualgröße für den Beobachtungswert in Periode k (k = 1, 2, …, K) ?

31 Test auf Autokorrelation: Beispiel 2
d = Indexwert für die Prüfung auf Autokorrelation ek = Residualgröße für den Beobachtungswert in Periode k (k = 1, 2, …, K) ?

32 Keine perfekte Multikollinearität
PV: Starke d.h. Forderung: Keine perfekte lineare Abhängigkeit der UVs Prüfung auf Multikollinearität: 1. Prüfung: Korrelationsmatrix der UVs 2. multiple Korrelation R2 1 – R2 (Toleranz) Variance Inflation Factor (VIF) = Kehrwert der Toleranz Abhilfemöglichkeiten: Variablen (UVs) entfernen Ersetzung von Variablen durch Faktoren

33 Beispiele für Regressionsmodelle

34 Bivariates Modell: Lineare Einfachregression
/MISSING LISTWISE /STATISTICS COEFF OUTS CI R ANOVA TOL /CRITERIA=PIN(.05) POUT(.10) /NOORIGIN /DEPENDENT fr4_3 /METHOD=ENTER fr9_5 /CASEWISE DEPENDENT PRED RESID OUTLIRE (0) 0,000 : = Zusammenhang?

35 t-Verteilung → Standardnormalverteilung
z = 1.96 γ = 0.05 z = 2.58 γ = 0.01 0.0035 0.0035 z = γ = 0.007 SPSS z = γ = 0.007

36 Multiple Regression – Modell 1 (Ausgangsmodell)
/MISSING LISTWISE /STATISTICS COEFF OUTS CI R ANOVA TOL /CRITERIA=PIN(.05) POUT(.10) /NOORIGIN /DEPENDENT fr4_3 /METHOD=ENTER fr6_2 fr9_ fr29_4 fr29_10 fr40_24 /RESIDUALS HIST(ZRESID). ? Y: erklärte Streuung K=2262 ? ? ? Y: nicht erklärte Streuung : J = Quotient : K-J-1 = K-1 Y: Gesamt- Streuung SAQy

37 Fs.: Multiple Regression – Modell 1

38 Fs.: Multiple Regression – Modell 1
Normalverteilung der Residuen?

39 Fs.: Multiple Regression – Modell 1

40 Multiple Regression – Modell 2 (+ LIRE)
vorher: .113 vorher: .000 vorher: .259 .090 -.136

41 Multiple Regression – Modell 3 (+ Symp. CDU)
vorher: .173 vorher: .000 .043 .001

42 Multiple Regression – Modell 4 (+ Symp. CSU)
vorher: .434 rCDU CSU = .86 ?

43 Multiple Regression – Modell 4

44 Zusammenfassung / Überblick zu den Modellen

45 linearen Regressionsmodell
Produktvariablen im linearen Regressionsmodell

46 Produktvariablen - 1 Interaktion: Offenheit x Bildung? R2 = .281
Ausgangsmodell R2 = .281 Interaktion: Offenheit x Bildung? R2 = .285 nur: Produktvariable

47 Korrelationsmatrix symmetrisch!
Produktvariablen - 2 Korrelationsmatrix symmetrisch! BI und OE sind korreliert ! „Explodieren“ des Zusammenhangs durch Produktbildung Abhilfe: Mittelwert herausnehmen (zentrieren reicht!)

48 Produktvariablen - 3 x2 Werte der z-standardisierten Produktvariablen x1 · x2 Für z-standardisierte Varaiblen: x1

49 Produktvariablen - 4 R2 = .281 R2 = .285 Ausgangsmodell
Ausgangsmodell mit z-standardisierter Produktvariable R2 = .285 z - Produktvariable

50 Interpretation des Interaktionseffekts I
(extrem) rechte Einstellungen Produktvariable negative Werte: ∙ Bildung, keine OE ∙ keine Bildung, OE positive Werte: ∙ Bildung, OE ∙ keine Bildung, keine OE

51 Interpretation des Interaktionseffekts II
Gruppenmittelwerte (empirisch ermittelt) OFFENHEIT über Mittelwert unter Mittelwert 2.67 2.69 (n = 353) 2.32 2.30 (n = 758) Geschätzte Werte (aus Modell ohne Interaktionseffekt) 2.94 2.93 (n = 689) 2.72 2.75 (n = 464) unter Mittelwert über Mittelwert BILDUNG

52 Dichotome unabhängige Variablen linearen Regressionsmodell
im linearen Regressionsmodell

53 Vorstellung der Variablen
NBL = 1 ABL = 0 hohe Werte: Rechts dichotome Variable Umfrage 2003 ABL NBL

54 Modell 1: AV = LIX, UV = NBL LIX 0 (ABL) 1 (NBL) NBL Interpretation?

55 Modell 2: AV = LIX,UV = LIRE (getrennt: ABL,NBL)
Weiteres Vorgehen: LIX Ein Modell? leichter Interaktionseffekt? 1-5 LIRE 1-11 ABL R2=.035 NBL R2=.073

56 Modell 3: AV = LIX, UV = LIRE und NBL
Interaktion? LIX LIX LIX 1-5 NBL 1 LIRE 1-5 1-11 LIRE LIRE 1-11 ABL + NBL R2=.035 + R2=.073 R2=.230

57 Modell 4: AV = LIX, UV = LIRE und NBL + Interaktion

58 Dummyvariablen als unabhängige Variablen linearen Regressionsmodell
im linearen Regressionsmodell

59 Bildung der Dummyvariablen
Ausgangsvariable nachfolgende Berechnungen: Daten aus der Studie 2003 AV: Sympathie für die CSU (-5 … +5)

60 Lineare Abhängigkeit der Dummyvariablen
Katholiken: kath = 1 ev = 0 NoKo = → Σ = 1 Protestanten: kath = 0 ev = 1 NoKo = → Σ = 1 keine Konf.: kath = 0 ev = 0 NoKo = → Σ = 1

61 Bivariate Regressionen

62 AV: Sympathie CSU, UV: 2 der 3 Dummyvariablen

63 Umrechnung der unstandardisierten Koeffizienten

64 Empirische Ergebnisse zum Vergleich (Wdh.)

65 Dummyvariablen zentriert

66 Dummyregression zentriert

67 Dummyvariablen zentriert (Wdh.)

68 Dummyvariablen z-standardisiert

69 Dummyregression z-standardisiert – Teil I

70 Dummyregression z-standardisiert – Teil II
zentrierte Werte SDs dividieren!

71 Dummyvariablen z-standardisiert (Wdh.)

72 (SPSS) AV: Sympathie CSU; UVs: ev, kath, NoKo
REGRESSION /MISSING LISTWISE /STATISTICS COEFF OUTS R ANOVA TOL /CRITERIA=PIN(.05) POUT(.10) /NOORIGIN /DEPENDENT fr5_3 (Sympathie/Antipathie CSU) /METHOD=ENTER ev kath NoKo /RESIDUALS HIST(ZRESID).

73 Vielen Dank für Ihre Aufmerksamkeit!

74


Herunterladen ppt "Methoden der Politikwissenschaft Regressionsanalyse Siegfried Schumann"

Ähnliche Präsentationen


Google-Anzeigen