Methoden der Politikwissenschaft Regressionsanalyse Siegfried Schumann

Slides:



Advertisements
Ähnliche Präsentationen
Anzahl der ausgefüllten und eingesandten Fragebögen: 211
Advertisements

Vorlesung: 1 Betriebliche Informationssysteme 2003 Prof. Dr. G. Hellberg Studiengang Informatik FHDW Vorlesung: Betriebliche Informationssysteme Teil3.
Modellprämissen der linearen Regression
LS 2 / Informatik Datenstrukturen, Algorithmen und Programmierung 2 (DAP2)
Telefonnummer.
Modelle und Methoden der Linearen und Nichtlinearen Optimierung (Ausgewählte Methoden und Fallstudien) U N I V E R S I T Ä T H A M B U R G November 2011.
1 JIM-Studie 2010 Jugend, Information, (Multi-)Media Landesanstalt für Kommunikation Baden-Württemberg (LFK) Landeszentrale für Medien und Kommunikation.
= = = = 47 = 47 = 48 = =
Statistiken und Tabellen
EF: Standards + H2O red = H2O.
Forschungsstatistik II
Forschungsstatistik II
Rechneraufbau & Rechnerstrukturen, Folie 2.1 © W. Oberschelp, G. Vossen W. Oberschelp G. Vossen Kapitel 2.
Mehrfachregressionen
Ein frohes und erfolgreiches Jahr
Vorlesung: 1 Betriebliche Informationssysteme 2003 Prof. Dr. G. Hellberg Studiengang Informatik FHDW Vorlesung: Betriebliche Informationssysteme Teil2.
Differentielles Paar UIN rds gm UIN
Maxwell-Boltzmann Ausgewählte Themen des analogen Schaltungsentwurfs
Prof. Dr. Bernhard Wasmayr
Studienverlauf im Ausländerstudium
Methoden der Politikwissenschaft Varianzanalyse Siegfried Schumann.
Prof. Dr. Bernhard Wasmayr VWL 2. Semester
AWA 2007 Natur und Umwelt Natürlich Leben
Tutorium
Tutorium
Tutorium
Rechneraufbau & Rechnerstrukturen, Folie 12.1 © W. Oberschelp, G. Vossen W. Oberschelp G. Vossen Kapitel 12.
Eigenschaften der OLS-Schätzer
Multikollinearität Wann spricht man von Multikollinearität?
Wiederholung: Einfache Regressionsgleichung
Prof. Dr. Günter Gerhardinger Soziale Arbeit mit Einzelnen und Familien Übersicht über die Lehrveranstaltung Grundlegende Bestimmungsfaktoren der Praxis.
20:00.
Zusatzfolien zu B-Bäumen
Eine Einführung in die CD-ROM
Dokumentation der Umfrage
für Weihnachten oder als Tischdekoration für das ganze Jahr
Where Europe does business Lück, JDZB | Seite © GfW NRW 252 a.
Wir üben die Malsätzchen
Überblick Statistik Deskriptive Statistik=beschreibende Statistik
Syntaxanalyse Bottom-Up und LR(0)
Statistik: Mehr zur Regression.
Addieren und Subtrahieren von Dezimalzahlen
Konfidenzintervall und Testen für den Mittelwert und Anteile
STATISIK LV Nr.: 0021 WS 2005/ November 2005.
Der Ablauf eines Clear Rex Klärzyklus
PROCAM Score Alter (Jahre)
Ertragsteuern, 5. Auflage Christiana Djanani, Gernot Brähler, Christian Lösel, Andreas Krenzin © UVK Verlagsgesellschaft mbH, Konstanz und München 2012.
Geometrische Aufgaben
Symmetrische Blockchiffren DES – der Data Encryption Standard
Szenisches Lernen Wie Theaterelemente den Unterricht bereichern
Zahlentheorie und Zahlenspiele Hartmut Menzer, Ingo Althöfer ISBN: © 2014 Oldenbourg Wissenschaftsverlag GmbH Abbildungsübersicht / List.
MINDREADER Ein magisch - interaktives Erlebnis mit ENZO PAOLO
1 (C)2006, Hermann Knoll, HTW Chur, FHO Quadratische Reste Definitionen: Quadratischer Rest Quadratwurzel Anwendungen.
Parkplatz-Orga Diese Version ist vom finale Version!
Sachbezugswerte 2007 (SV-Entgeltverordnung) Sachbezugswerte für freie Verpflegung FrühstückMittagessenAbendessen 1,50 2,67 Monatlicher Wert Verpflegung.
Kamin- und Kachelöfen in Oberösterreich
Zusammengestellt von OE3DSB
Folie Beispiel für eine Einzelauswertung der Gemeindedaten (fiktive Daten)
Regression Maria Morozova Lisa Ochsenhofer. Einführung Francis Galton 1886 Größe von Vater und Sohn Regression zum Mittelwert.
Unternehmensbewertung Thomas Hering ISBN: © 2014 Oldenbourg Wissenschaftsverlag GmbH Abbildungsübersicht / List of Figures Tabellenübersicht.
Forschungsprojekt Statistik 2013 „Jugend zählt“ – Folie 1 Statistik 2013 „Jugend zählt“: Daten zur Arbeit mit Kindern und Jugendlichen.
Tutorium Statistik II Übung IV Philipp Schäpers Mi – 11.45
Bürgermeister Absolute Stimmen Gesamt. Bürgermeister Prozentuale Aufteilung Gesamt.
Folie Einzelauswertung der Gemeindedaten
Datum:17. Dezember 2014 Thema:IFRS Update zum Jahresende – die Neuerungen im Überblick Referent:Eberhard Grötzner, EMA ® Anlass:12. Arbeitskreis Internationale.
Die einfache/multiple lineare Regression
1 Medienpädagogischer Forschungsverbund Südwest KIM-Studie 2014 Landesanstalt für Kommunikation Baden-Württemberg (LFK) Landeszentrale für Medien und Kommunikation.
setzt Linearität des Zusammenhangs voraus
Untersuchung von Zusammenhängen mittels Umfragen Siegfried Schumann
Die einfache/multiple lineare Regression
 Präsentation transkript:

Methoden der Politikwissenschaft Regressionsanalyse Siegfried Schumann

Prognosegleichung Backhaus-Formel für den Regressionskoeffizienten (S. 16) äquivalent zum Grundkurs! aber: Rohwerte! in SPSS: B Backhaus-Formel für die Regressionskonstante (S. 16) wie im Grundkurs aber Benennung: b0! in SPSS: CONST

Standardisierte Regressionskoeffizienten ˆ bei Backhaus: → Standardisierung entspricht dem Koeffizienten für z-standardisierte Variablen! Sinn: Vergleichbarkeit innerhalb einer Gleichung herstellen! In SPSS: BETA

Arbeitsblatt 1: Eine unabhängige Variable r aus Gleichungen 1 u. 2 errechenbar? Konstante = ? SYCDU x 10 1 Jahr (Alter) 10 Jahre

Multiple Regression Regressionsgleichung: Zielfunktion der multiplen Regressionsfunktion: e = Residuum

Arbeitsblatt 1: y-Werte für Gleichung y = 2x1 + x2 - 4 Lego-Modell!

Demonstration am Modell: Regressionsgerade → Regressionsebene Regressionskoeffizienten: Steigung unabhängig von den übrigen UVs! Interpretationen: Regressionskoeffizienten Regressionskonstante analog zum bivariaten Modell

Arbeitsblatt 1: z-Standardisierung / Unabhängigkeit Hätte R2 auch kleiner sein können als in vorhergehender Tabelle? bereits bekannt? Nächste Zeile: Welche Werte sind bekannt?

Wdh: Bestimmtheitsmaß R2 – Zerlegung eines Werts Regressionsgerade

Wdh: Zerlegung eines y-Wertes x Abweichung vom arithmetischen Mittel Regressionsgerade arithmetisches Mittel Werte für Beispiel 2 (Grundkurs)

Wdh: Berechnung von R2

Bestimmtheitsmaß R2 Prüfung der Regressionsfunktion insgesamt Backhaus: R2 → r2 R2 wird beeinflusst von: Zahl der Regressoren Größe der Stichprobe Korrigiertes Bestimmtheitsmaß: Bei großen Fallzahlen kaum bedeutsam. Beispiel: N=K=1000, J=5: r2 = 0.81 → r2korr = 0.8090 r2 = 0.49 → r2korr = 0.4874 r2 = 0.09 → r2korr = 0.0854 Anmerkung: R = r = Multipler Korrelationskoeffizient J = Anzahl der Regressoren K = Zahl der Beobachtungen ?

Prüfung des Bestimmtheitsmaßes F-Test: Hat sich R2emp ≠ 0 zufällig ergeben, (Backhaus: r2emp ≠ 0) obwohl in der Grundgesamtheit R2 gleich „0“ ist? H0: Kein Zusammenhang zwischen der AV und den UVs (in der Grundgesamtheit) H1: Zusammenhang zwischen der AV und den UVs (in der Grundgesamtheit) Testgröße: F-Verteilung: (Dichte) Zähler- bzw. Nennerfreiheitsgrade J = Anzahl der Regressoren K = Zahl der Beobachtungen ––––––––– df. Zähler: 1 df. Nenner: 5 - - - - - - - - - df. Zähler: 10 df. Nenner: 10 nach Bortz 1989: 107

F-Tabelle - Vertrauenswahrscheinlichkeit 0.95 / 0.99 Beispiel: J = 1 K = 10 Femp = 4.23 → n.s. f1 = J: Anzahl der UVs f2 = K - J - 1: Fallzahl - Anzahl der UVs - 1 aus: Clauß u.a. 1994: 366 f. (Tabellen in Backhaus: S. 576ff.; Auszug: S. 27)

Weiteres Gütemaß Standardfehler der Schätzung Im Beispiel: Bezogen auf den Mittelwert von Y (1806.8) beträgt der Standardfehler der Schätzung 21% was nicht als gut bewertet werden kann (Backhaus u.a.. 2006: 73) Gibt an, welcher mittlere Fehler bei der Verwendung der Regressionsfunktion zur Schätzung der AV gemacht wird. (Backhaus u.a. 2006: 73)

Prüfung der Regressionskoeffizienten Für jede der unabhängigen Variablen (UV) ist H0 gegen H1 zu prüfen: H0: Der Regressionskoeffizient hat in der Grundgesamtheit den Wert „0“ (kein „Einfluss“ der betreffenden UV auf die AV!) H1: Der Regressionskoeffizient hat in der Grundgesamtheit einen Wert ≠ „0“ („Einfluss“ der betreffenden UV auf die AV!) Testgröße: T-Verteilung (Dichte) (aus: Bleymüller u.a. 1992: 63)

Kritische Werte der t-Verteilung (Wdh.) df.: K-J-1 J = Anzahl der Regressoren K = Zahl der Beobachtungen Beispiel: K = 10 J = 1 α = 0.05 → SNV Tafel 4 aus: Clauß u.a. 1994: 364-365

Konfidenzintervalle für Regressionskoeffizienten Berechnung des Konfidenzintervalls (KI): mit: = Regressionskoeffizient des j-ten Regressors = Standardfehler des j-ten Regressionskoeffizienten t = t-Wert für gewählte Vertrauenswahrscheinlichkeit Interpretation? Intervall liegt mit einer Wahrscheinlichkeit von [Vertrauenswahrscheinlichkeit] so, dass es den Regressionskoeffizienten in der Grundgesamtheit umschließt. Je größer das KI, desto unsicherer die Schätzung der Steigung des Regressionskoeffizienten. Gilt insbesondere bei Vorzeichenwechsel innerhalb des KI!

Prämissen / Prämissenverletzungen (PV) linearen Regressionsmodell beim linearen Regressionsmodell

Annahmen des linearen Regressionsmodells Das Modell ist richtig spezifiziert. Es ist linear in den Parametern βj. Es enthält die relevanten UVs (und nur diese!). Zahl der zu schätzenden Parameter (J+1) < Zahl der Beobachtungen (K). Die Störgrößen haben den Erwartungswert Null. Keine Korrelation zwischen den UVs und der Störgröße Störgrößen haben eine konstante Varianz (Homoskedaszidität) Störgrößen sind unkorreliert (keine Autokorrelation) Keine lineare Abhängigkeit zwischen den UVs (keine perfekte Multikollinearität). Die Störgrößen sind normalverteilt. (→ relevant bei statistischen Tests!) Praktisches Problem: Ausreichende Varianz der UVs in der Stichprobe! nach Backhaus u.a. 2006: 79

PV: Nicht lineare Regressionsbeziehung PV = Prämissenverletzung! PV: Nicht lineare Regressionsbeziehung oder: Strukturbruch? Lineare Regressionsfunktion Y = β0 + β1 · X Nichtlineare Regressionsfunktion Y = β0 + β1 · X0.5 nach Backhaus u.a. 2006: 82

PV: Nicht lineare Regressionsbeziehung II Strukturbruch: Niveauänderung Strukturbruch: Trendänderung nach Backhaus u.a. 2006: 82

PV: nicht alle relevanten UVs im Modell enthalten Sympathie J. Fischer .24 .35 .23 Sympathie J. Trittin .27 .35 .26 „Irak“ gerechtfertigt -.07 -.05 -.12 -.13 -.06 -.08 Zuzug Ausländer ↓ -.04 -.11 -.05 -.19 -.03 -.16 AKWs „abschalten“ .04 .07 .07 .16 .04 -.14 Zufried. Grüne in Koalition .34 .54 .33 NEO-FFI: OE .08 .10 .11 .18 .07 .15 NEO-FFI: GW .02 .00 .01 -.03 .02 -.02 Links-Rechts Selbsteinstufung -.08 -.24 Erklärte Varianz R2: .54 .46 .41 .17 .54 .47 Abhängige Variable (AV) jeweils: Sympathie für die Grünen Zahlenwerte: standardisierte Regressionskoeffizienten nicht signifikant (unter Signifikanzniveau „.05“) - - - - + - - +

PV: Nicht konstante Varianz der Störgrößen Homoskedaszidität: Alle bedingten Verteilungen der ui haben Erwertungswert 0 und konstante Varianz σu2. (Bleymüller, 1992: 149) Heteroskedaszidität I Heteroskedaszidität II Relevant vor allem bei Zeitreihen! nach Backhaus u.a. 2006: 87

PV: Nicht unkorrelierte Störgrößen (Autokorrelation) Positive Autokorrelation Negative Autokorrelation Relevant vor allem bei Zeitreihen! nach Backhaus u.a. 2006: 87

Erkennen von Autokorrelation (Zeitreihen!) Optische Inspektion (Residuen) Durbin-Watson-Test = + Beziehung? Berechnung? 165.5190 : 155.3195 (Standardfehler der Residuen in der Grundgesamtheit!) (aus Backhaus u.a. 2006: 101)

Test auf Autokorrelation (Durbin-Watson-Formel) Kritische Werte (Tabelle!) ? Empirischer Wert der Prüfgröße „d“

Durbin-Watson Tabelle Vertrauenswahrscheinlichkeit: einseitig 0.975, zweiseitig 0.95 K = Zahl der Beobachtungen J = Zahl der Regressoren d+u = unterer Grenzwert des Unschärfebereichs d+o = unterer Grenzwert Beispiel: aus Backhaus u.a. 2006: 820

Test auf Autokorrelation (Durbin-Watson-Formel) Beispiel: d+u (hier: du) = 1.21 d+o (hier: do) = 1.56 4 - do = 2.44 4 - du = 2.79 d = 2.02 Ho „keine Auto-korrelation“ kann nicht zurückge-wiesen werden! 1.21 1.56 2.44 2.79 d = 2.02

Test auf Autokorrelation: Beispiel 1 d = Indexwert für die Prüfung auf Autokorrelation ek = Residualgröße für den Beobachtungswert in Periode k (k = 1, 2, …, K) ?

Test auf Autokorrelation: Beispiel 2 d = Indexwert für die Prüfung auf Autokorrelation ek = Residualgröße für den Beobachtungswert in Periode k (k = 1, 2, …, K) ?

Keine perfekte Multikollinearität PV: Starke d.h. Forderung: Keine perfekte lineare Abhängigkeit der UVs Prüfung auf Multikollinearität: 1. Prüfung: Korrelationsmatrix der UVs 2. multiple Korrelation R2 1 – R2 (Toleranz) Variance Inflation Factor (VIF) = Kehrwert der Toleranz Abhilfemöglichkeiten: Variablen (UVs) entfernen Ersetzung von Variablen durch Faktoren

Beispiele für Regressionsmodelle

Bivariates Modell: Lineare Einfachregression /MISSING LISTWISE /STATISTICS COEFF OUTS CI R ANOVA TOL /CRITERIA=PIN(.05) POUT(.10) /NOORIGIN /DEPENDENT fr4_3 /METHOD=ENTER fr9_5 /CASEWISE DEPENDENT PRED RESID OUTLIRE (0) 0,000 : = Zusammenhang?

t-Verteilung → Standardnormalverteilung z = 1.96 γ = 0.05 z = 2.58 γ = 0.01 0.0035 0.0035 z = -2.716 γ = 0.007 SPSS z = 2.716 γ = 0.007

Multiple Regression – Modell 1 (Ausgangsmodell) /MISSING LISTWISE /STATISTICS COEFF OUTS CI R ANOVA TOL /CRITERIA=PIN(.05) POUT(.10) /NOORIGIN /DEPENDENT fr4_3 /METHOD=ENTER fr6_2 fr9_5 fr29_4 fr29_10 fr40_24 /RESIDUALS HIST(ZRESID). ? Y: erklärte Streuung K=2262 ? ? ? Y: nicht erklärte Streuung : J = Quotient : K-J-1 = K-1 Y: Gesamt- Streuung SAQy

Fs.: Multiple Regression – Modell 1

Fs.: Multiple Regression – Modell 1 Normalverteilung der Residuen?

Fs.: Multiple Regression – Modell 1

Multiple Regression – Modell 2 (+ LIRE) vorher: .113 vorher: .000 vorher: .259 .090 -.136

Multiple Regression – Modell 3 (+ Symp. CDU) vorher: .173 vorher: .000 .043 .001

Multiple Regression – Modell 4 (+ Symp. CSU) vorher: .434 rCDU CSU = .86 ?

Multiple Regression – Modell 4

Zusammenfassung / Überblick zu den Modellen

linearen Regressionsmodell Produktvariablen im linearen Regressionsmodell

Produktvariablen - 1 Interaktion: Offenheit x Bildung? R2 = .281 Ausgangsmodell R2 = .281 Interaktion: Offenheit x Bildung? R2 = .285 nur: Produktvariable

Korrelationsmatrix symmetrisch! Produktvariablen - 2 Korrelationsmatrix symmetrisch! BI und OE sind korreliert ! „Explodieren“ des Zusammenhangs durch Produktbildung Abhilfe: Mittelwert herausnehmen (zentrieren reicht!)

Produktvariablen - 3 x2 Werte der z-standardisierten Produktvariablen x1 · x2 Für z-standardisierte Varaiblen: x1

Produktvariablen - 4 R2 = .281 R2 = .285 Ausgangsmodell Ausgangsmodell mit z-standardisierter Produktvariable R2 = .285 z - Produktvariable

Interpretation des Interaktionseffekts I (extrem) rechte Einstellungen Produktvariable negative Werte: ∙ Bildung, keine OE ∙ keine Bildung, OE positive Werte: ∙ Bildung, OE ∙ keine Bildung, keine OE

Interpretation des Interaktionseffekts II Gruppenmittelwerte (empirisch ermittelt) OFFENHEIT über Mittelwert unter Mittelwert 2.67 2.69 (n = 353) 2.32 2.30 (n = 758) Geschätzte Werte (aus Modell ohne Interaktionseffekt) 2.94 2.93 (n = 689) 2.72 2.75 (n = 464) unter Mittelwert über Mittelwert BILDUNG

Dichotome unabhängige Variablen linearen Regressionsmodell im linearen Regressionsmodell

Vorstellung der Variablen NBL = 1 ABL = 0 hohe Werte: Rechts dichotome Variable Umfrage 2003 ABL NBL

Modell 1: AV = LIX, UV = NBL LIX 0 (ABL) 1 (NBL) NBL Interpretation?

Modell 2: AV = LIX,UV = LIRE (getrennt: ABL,NBL) Weiteres Vorgehen: LIX Ein Modell? leichter Interaktionseffekt? 1-5 LIRE 1-11 ABL R2=.035 NBL R2=.073

Modell 3: AV = LIX, UV = LIRE und NBL Interaktion? LIX LIX LIX 1-5 NBL 1 LIRE 1-5 1-11 LIRE LIRE 1-11 ABL + NBL R2=.035 + R2=.073 R2=.230

Modell 4: AV = LIX, UV = LIRE und NBL + Interaktion

Dummyvariablen als unabhängige Variablen linearen Regressionsmodell im linearen Regressionsmodell

Bildung der Dummyvariablen Ausgangsvariable nachfolgende Berechnungen: Daten aus der Studie 2003 AV: Sympathie für die CSU (-5 … +5)

Lineare Abhängigkeit der Dummyvariablen Katholiken: kath = 1 ev = 0 NoKo = 0 → Σ = 1 Protestanten: kath = 0 ev = 1 NoKo = 0 → Σ = 1 keine Konf.: kath = 0 ev = 0 NoKo = 1 → Σ = 1

Bivariate Regressionen

AV: Sympathie CSU, UV: 2 der 3 Dummyvariablen

Umrechnung der unstandardisierten Koeffizienten

Empirische Ergebnisse zum Vergleich (Wdh.)

Dummyvariablen zentriert

Dummyregression zentriert

Dummyvariablen zentriert (Wdh.)

Dummyvariablen z-standardisiert

Dummyregression z-standardisiert – Teil I

Dummyregression z-standardisiert – Teil II zentrierte Werte SDs dividieren!

Dummyvariablen z-standardisiert (Wdh.)

(SPSS) AV: Sympathie CSU; UVs: ev, kath, NoKo REGRESSION /MISSING LISTWISE /STATISTICS COEFF OUTS R ANOVA TOL /CRITERIA=PIN(.05) POUT(.10) /NOORIGIN /DEPENDENT fr5_3 (Sympathie/Antipathie CSU) /METHOD=ENTER ev kath NoKo /RESIDUALS HIST(ZRESID).

Vielen Dank für Ihre Aufmerksamkeit!