Methoden der Politikwissenschaft Regressionsanalyse Siegfried Schumann
Prognosegleichung Backhaus-Formel für den Regressionskoeffizienten (S. 16) äquivalent zum Grundkurs! aber: Rohwerte! in SPSS: B Backhaus-Formel für die Regressionskonstante (S. 16) wie im Grundkurs aber Benennung: b0! in SPSS: CONST
Standardisierte Regressionskoeffizienten ˆ bei Backhaus: → Standardisierung entspricht dem Koeffizienten für z-standardisierte Variablen! Sinn: Vergleichbarkeit innerhalb einer Gleichung herstellen! In SPSS: BETA
Arbeitsblatt 1: Eine unabhängige Variable r aus Gleichungen 1 u. 2 errechenbar? Konstante = ? SYCDU x 10 1 Jahr (Alter) 10 Jahre
Multiple Regression Regressionsgleichung: Zielfunktion der multiplen Regressionsfunktion: e = Residuum
Arbeitsblatt 1: y-Werte für Gleichung y = 2x1 + x2 - 4 Lego-Modell!
Demonstration am Modell: Regressionsgerade → Regressionsebene Regressionskoeffizienten: Steigung unabhängig von den übrigen UVs! Interpretationen: Regressionskoeffizienten Regressionskonstante analog zum bivariaten Modell
Arbeitsblatt 1: z-Standardisierung / Unabhängigkeit Hätte R2 auch kleiner sein können als in vorhergehender Tabelle? bereits bekannt? Nächste Zeile: Welche Werte sind bekannt?
Wdh: Bestimmtheitsmaß R2 – Zerlegung eines Werts Regressionsgerade
Wdh: Zerlegung eines y-Wertes x Abweichung vom arithmetischen Mittel Regressionsgerade arithmetisches Mittel Werte für Beispiel 2 (Grundkurs)
Wdh: Berechnung von R2
Bestimmtheitsmaß R2 Prüfung der Regressionsfunktion insgesamt Backhaus: R2 → r2 R2 wird beeinflusst von: Zahl der Regressoren Größe der Stichprobe Korrigiertes Bestimmtheitsmaß: Bei großen Fallzahlen kaum bedeutsam. Beispiel: N=K=1000, J=5: r2 = 0.81 → r2korr = 0.8090 r2 = 0.49 → r2korr = 0.4874 r2 = 0.09 → r2korr = 0.0854 Anmerkung: R = r = Multipler Korrelationskoeffizient J = Anzahl der Regressoren K = Zahl der Beobachtungen ?
Prüfung des Bestimmtheitsmaßes F-Test: Hat sich R2emp ≠ 0 zufällig ergeben, (Backhaus: r2emp ≠ 0) obwohl in der Grundgesamtheit R2 gleich „0“ ist? H0: Kein Zusammenhang zwischen der AV und den UVs (in der Grundgesamtheit) H1: Zusammenhang zwischen der AV und den UVs (in der Grundgesamtheit) Testgröße: F-Verteilung: (Dichte) Zähler- bzw. Nennerfreiheitsgrade J = Anzahl der Regressoren K = Zahl der Beobachtungen ––––––––– df. Zähler: 1 df. Nenner: 5 - - - - - - - - - df. Zähler: 10 df. Nenner: 10 nach Bortz 1989: 107
F-Tabelle - Vertrauenswahrscheinlichkeit 0.95 / 0.99 Beispiel: J = 1 K = 10 Femp = 4.23 → n.s. f1 = J: Anzahl der UVs f2 = K - J - 1: Fallzahl - Anzahl der UVs - 1 aus: Clauß u.a. 1994: 366 f. (Tabellen in Backhaus: S. 576ff.; Auszug: S. 27)
Weiteres Gütemaß Standardfehler der Schätzung Im Beispiel: Bezogen auf den Mittelwert von Y (1806.8) beträgt der Standardfehler der Schätzung 21% was nicht als gut bewertet werden kann (Backhaus u.a.. 2006: 73) Gibt an, welcher mittlere Fehler bei der Verwendung der Regressionsfunktion zur Schätzung der AV gemacht wird. (Backhaus u.a. 2006: 73)
Prüfung der Regressionskoeffizienten Für jede der unabhängigen Variablen (UV) ist H0 gegen H1 zu prüfen: H0: Der Regressionskoeffizient hat in der Grundgesamtheit den Wert „0“ (kein „Einfluss“ der betreffenden UV auf die AV!) H1: Der Regressionskoeffizient hat in der Grundgesamtheit einen Wert ≠ „0“ („Einfluss“ der betreffenden UV auf die AV!) Testgröße: T-Verteilung (Dichte) (aus: Bleymüller u.a. 1992: 63)
Kritische Werte der t-Verteilung (Wdh.) df.: K-J-1 J = Anzahl der Regressoren K = Zahl der Beobachtungen Beispiel: K = 10 J = 1 α = 0.05 → SNV Tafel 4 aus: Clauß u.a. 1994: 364-365
Konfidenzintervalle für Regressionskoeffizienten Berechnung des Konfidenzintervalls (KI): mit: = Regressionskoeffizient des j-ten Regressors = Standardfehler des j-ten Regressionskoeffizienten t = t-Wert für gewählte Vertrauenswahrscheinlichkeit Interpretation? Intervall liegt mit einer Wahrscheinlichkeit von [Vertrauenswahrscheinlichkeit] so, dass es den Regressionskoeffizienten in der Grundgesamtheit umschließt. Je größer das KI, desto unsicherer die Schätzung der Steigung des Regressionskoeffizienten. Gilt insbesondere bei Vorzeichenwechsel innerhalb des KI!
Prämissen / Prämissenverletzungen (PV) linearen Regressionsmodell beim linearen Regressionsmodell
Annahmen des linearen Regressionsmodells Das Modell ist richtig spezifiziert. Es ist linear in den Parametern βj. Es enthält die relevanten UVs (und nur diese!). Zahl der zu schätzenden Parameter (J+1) < Zahl der Beobachtungen (K). Die Störgrößen haben den Erwartungswert Null. Keine Korrelation zwischen den UVs und der Störgröße Störgrößen haben eine konstante Varianz (Homoskedaszidität) Störgrößen sind unkorreliert (keine Autokorrelation) Keine lineare Abhängigkeit zwischen den UVs (keine perfekte Multikollinearität). Die Störgrößen sind normalverteilt. (→ relevant bei statistischen Tests!) Praktisches Problem: Ausreichende Varianz der UVs in der Stichprobe! nach Backhaus u.a. 2006: 79
PV: Nicht lineare Regressionsbeziehung PV = Prämissenverletzung! PV: Nicht lineare Regressionsbeziehung oder: Strukturbruch? Lineare Regressionsfunktion Y = β0 + β1 · X Nichtlineare Regressionsfunktion Y = β0 + β1 · X0.5 nach Backhaus u.a. 2006: 82
PV: Nicht lineare Regressionsbeziehung II Strukturbruch: Niveauänderung Strukturbruch: Trendänderung nach Backhaus u.a. 2006: 82
PV: nicht alle relevanten UVs im Modell enthalten Sympathie J. Fischer .24 .35 .23 Sympathie J. Trittin .27 .35 .26 „Irak“ gerechtfertigt -.07 -.05 -.12 -.13 -.06 -.08 Zuzug Ausländer ↓ -.04 -.11 -.05 -.19 -.03 -.16 AKWs „abschalten“ .04 .07 .07 .16 .04 -.14 Zufried. Grüne in Koalition .34 .54 .33 NEO-FFI: OE .08 .10 .11 .18 .07 .15 NEO-FFI: GW .02 .00 .01 -.03 .02 -.02 Links-Rechts Selbsteinstufung -.08 -.24 Erklärte Varianz R2: .54 .46 .41 .17 .54 .47 Abhängige Variable (AV) jeweils: Sympathie für die Grünen Zahlenwerte: standardisierte Regressionskoeffizienten nicht signifikant (unter Signifikanzniveau „.05“) - - - - + - - +
PV: Nicht konstante Varianz der Störgrößen Homoskedaszidität: Alle bedingten Verteilungen der ui haben Erwertungswert 0 und konstante Varianz σu2. (Bleymüller, 1992: 149) Heteroskedaszidität I Heteroskedaszidität II Relevant vor allem bei Zeitreihen! nach Backhaus u.a. 2006: 87
PV: Nicht unkorrelierte Störgrößen (Autokorrelation) Positive Autokorrelation Negative Autokorrelation Relevant vor allem bei Zeitreihen! nach Backhaus u.a. 2006: 87
Erkennen von Autokorrelation (Zeitreihen!) Optische Inspektion (Residuen) Durbin-Watson-Test = + Beziehung? Berechnung? 165.5190 : 155.3195 (Standardfehler der Residuen in der Grundgesamtheit!) (aus Backhaus u.a. 2006: 101)
Test auf Autokorrelation (Durbin-Watson-Formel) Kritische Werte (Tabelle!) ? Empirischer Wert der Prüfgröße „d“
Durbin-Watson Tabelle Vertrauenswahrscheinlichkeit: einseitig 0.975, zweiseitig 0.95 K = Zahl der Beobachtungen J = Zahl der Regressoren d+u = unterer Grenzwert des Unschärfebereichs d+o = unterer Grenzwert Beispiel: aus Backhaus u.a. 2006: 820
Test auf Autokorrelation (Durbin-Watson-Formel) Beispiel: d+u (hier: du) = 1.21 d+o (hier: do) = 1.56 4 - do = 2.44 4 - du = 2.79 d = 2.02 Ho „keine Auto-korrelation“ kann nicht zurückge-wiesen werden! 1.21 1.56 2.44 2.79 d = 2.02
Test auf Autokorrelation: Beispiel 1 d = Indexwert für die Prüfung auf Autokorrelation ek = Residualgröße für den Beobachtungswert in Periode k (k = 1, 2, …, K) ?
Test auf Autokorrelation: Beispiel 2 d = Indexwert für die Prüfung auf Autokorrelation ek = Residualgröße für den Beobachtungswert in Periode k (k = 1, 2, …, K) ?
Keine perfekte Multikollinearität PV: Starke d.h. Forderung: Keine perfekte lineare Abhängigkeit der UVs Prüfung auf Multikollinearität: 1. Prüfung: Korrelationsmatrix der UVs 2. multiple Korrelation R2 1 – R2 (Toleranz) Variance Inflation Factor (VIF) = Kehrwert der Toleranz Abhilfemöglichkeiten: Variablen (UVs) entfernen Ersetzung von Variablen durch Faktoren
Beispiele für Regressionsmodelle
Bivariates Modell: Lineare Einfachregression /MISSING LISTWISE /STATISTICS COEFF OUTS CI R ANOVA TOL /CRITERIA=PIN(.05) POUT(.10) /NOORIGIN /DEPENDENT fr4_3 /METHOD=ENTER fr9_5 /CASEWISE DEPENDENT PRED RESID OUTLIRE (0) 0,000 : = Zusammenhang?
t-Verteilung → Standardnormalverteilung z = 1.96 γ = 0.05 z = 2.58 γ = 0.01 0.0035 0.0035 z = -2.716 γ = 0.007 SPSS z = 2.716 γ = 0.007
Multiple Regression – Modell 1 (Ausgangsmodell) /MISSING LISTWISE /STATISTICS COEFF OUTS CI R ANOVA TOL /CRITERIA=PIN(.05) POUT(.10) /NOORIGIN /DEPENDENT fr4_3 /METHOD=ENTER fr6_2 fr9_5 fr29_4 fr29_10 fr40_24 /RESIDUALS HIST(ZRESID). ? Y: erklärte Streuung K=2262 ? ? ? Y: nicht erklärte Streuung : J = Quotient : K-J-1 = K-1 Y: Gesamt- Streuung SAQy
Fs.: Multiple Regression – Modell 1
Fs.: Multiple Regression – Modell 1 Normalverteilung der Residuen?
Fs.: Multiple Regression – Modell 1
Multiple Regression – Modell 2 (+ LIRE) vorher: .113 vorher: .000 vorher: .259 .090 -.136
Multiple Regression – Modell 3 (+ Symp. CDU) vorher: .173 vorher: .000 .043 .001
Multiple Regression – Modell 4 (+ Symp. CSU) vorher: .434 rCDU CSU = .86 ?
Multiple Regression – Modell 4
Zusammenfassung / Überblick zu den Modellen
linearen Regressionsmodell Produktvariablen im linearen Regressionsmodell
Produktvariablen - 1 Interaktion: Offenheit x Bildung? R2 = .281 Ausgangsmodell R2 = .281 Interaktion: Offenheit x Bildung? R2 = .285 nur: Produktvariable
Korrelationsmatrix symmetrisch! Produktvariablen - 2 Korrelationsmatrix symmetrisch! BI und OE sind korreliert ! „Explodieren“ des Zusammenhangs durch Produktbildung Abhilfe: Mittelwert herausnehmen (zentrieren reicht!)
Produktvariablen - 3 x2 Werte der z-standardisierten Produktvariablen x1 · x2 Für z-standardisierte Varaiblen: x1
Produktvariablen - 4 R2 = .281 R2 = .285 Ausgangsmodell Ausgangsmodell mit z-standardisierter Produktvariable R2 = .285 z - Produktvariable
Interpretation des Interaktionseffekts I (extrem) rechte Einstellungen Produktvariable negative Werte: ∙ Bildung, keine OE ∙ keine Bildung, OE positive Werte: ∙ Bildung, OE ∙ keine Bildung, keine OE
Interpretation des Interaktionseffekts II Gruppenmittelwerte (empirisch ermittelt) OFFENHEIT über Mittelwert unter Mittelwert 2.67 2.69 (n = 353) 2.32 2.30 (n = 758) Geschätzte Werte (aus Modell ohne Interaktionseffekt) 2.94 2.93 (n = 689) 2.72 2.75 (n = 464) unter Mittelwert über Mittelwert BILDUNG
Dichotome unabhängige Variablen linearen Regressionsmodell im linearen Regressionsmodell
Vorstellung der Variablen NBL = 1 ABL = 0 hohe Werte: Rechts dichotome Variable Umfrage 2003 ABL NBL
Modell 1: AV = LIX, UV = NBL LIX 0 (ABL) 1 (NBL) NBL Interpretation?
Modell 2: AV = LIX,UV = LIRE (getrennt: ABL,NBL) Weiteres Vorgehen: LIX Ein Modell? leichter Interaktionseffekt? 1-5 LIRE 1-11 ABL R2=.035 NBL R2=.073
Modell 3: AV = LIX, UV = LIRE und NBL Interaktion? LIX LIX LIX 1-5 NBL 1 LIRE 1-5 1-11 LIRE LIRE 1-11 ABL + NBL R2=.035 + R2=.073 R2=.230
Modell 4: AV = LIX, UV = LIRE und NBL + Interaktion
Dummyvariablen als unabhängige Variablen linearen Regressionsmodell im linearen Regressionsmodell
Bildung der Dummyvariablen Ausgangsvariable nachfolgende Berechnungen: Daten aus der Studie 2003 AV: Sympathie für die CSU (-5 … +5)
Lineare Abhängigkeit der Dummyvariablen Katholiken: kath = 1 ev = 0 NoKo = 0 → Σ = 1 Protestanten: kath = 0 ev = 1 NoKo = 0 → Σ = 1 keine Konf.: kath = 0 ev = 0 NoKo = 1 → Σ = 1
Bivariate Regressionen
AV: Sympathie CSU, UV: 2 der 3 Dummyvariablen
Umrechnung der unstandardisierten Koeffizienten
Empirische Ergebnisse zum Vergleich (Wdh.)
Dummyvariablen zentriert
Dummyregression zentriert
Dummyvariablen zentriert (Wdh.)
Dummyvariablen z-standardisiert
Dummyregression z-standardisiert – Teil I
Dummyregression z-standardisiert – Teil II zentrierte Werte SDs dividieren!
Dummyvariablen z-standardisiert (Wdh.)
(SPSS) AV: Sympathie CSU; UVs: ev, kath, NoKo REGRESSION /MISSING LISTWISE /STATISTICS COEFF OUTS R ANOVA TOL /CRITERIA=PIN(.05) POUT(.10) /NOORIGIN /DEPENDENT fr5_3 (Sympathie/Antipathie CSU) /METHOD=ENTER ev kath NoKo /RESIDUALS HIST(ZRESID).
Vielen Dank für Ihre Aufmerksamkeit!