Induktive Statistik: Regressionsanalyse

Slides:

Advertisements

Ähnliche Präsentationen

Tutorat Statistik II im SS 09 Multiple Regression

Advertisements

Modellprämissen der linearen Regression

Kurzeinführung in SPSS und Regressionsanalyse

Theorie psychometrischer Tests, III

Forschungsstatistik I Prof. Dr. G. Meinhardt WS 2006/2007 Fachbereich Sozialwissenschaften, Psychologisches Institut Johannes Gutenberg Universität Mainz.

Forschungsstatistik I

Forschungsstatistik I Prof. Dr. G. Meinhardt WS 2004/2005 Fachbereich Sozialwissenschaften, Psychologisches Institut Johannes Gutenberg Universität Mainz.

Forschungsstatistik I Prof. Dr. G. Meinhardt WS 2004/2005 Fachbereich Sozialwissenschaften, Psychologisches Institut Johannes Gutenberg Universität Mainz.

Der Zusammenhang metrischer Merkmale

Mehrfachregressionen

Quantitative Methoden I

2. Univariate Regressionsanalyse 2.1 Das statische Regressionsmodell

Tutorat II Multiple Korrelation Mediator- Moderatoranalyse

Konfidenzintervalle Intervallschätzung

III. Induktive Statistik

Korrelationskoeffizient nach Bravais-Pearson Eigenschaften X und Y unabhängig.

Datentabelle für 2 Merkmale

Maximum-Likelihood-Schätzer ( diskreter Fall) Likelihood-Funktion mit oder M-L-Schätzer.

Unser letztes Tutorium

Tutorium Aufgabe 1 a) E(eIX)= 0 E(eIX)= E(Y-E(YIX)IX) = E(YIX)- E (E(YIX)IX) = E(YIX)- E(YIX) = 0 Im Mittel macht man mit seiner Schätzung keinen.

Unser letztes Tutorium Output – das Modell gut11 gut12 gut21 gut22 gut31 gut32 state1 state2 state3 XI MF

Unser zehntes Tutorium Materialien unter:

Tutorium Aufgabe 1 Informationen in Designmatrix in: - Darin sind die Prädiktoren enthalten - Aber sagt uns noch mehr! Untersuchungsdesign darin.

Unser sechstes Tutorium Materialien unter:

Vorlesung: ANOVA I

Dummy-Variablen Gleicher Lohn bei gleicher Qualifikation: Frauen verdienen im Durchschnitt zwar weniger als Männer, aber ist die Ursache dafür in der Diskriminierung.

Eigenschaften der OLS-Schätzer

Einfache Regressionsgleichung

Probleme der Modellspezifikation

Multikollinearität Wann spricht man von Multikollinearität?

Wiederholung: Einfache Regressionsgleichung

Kapitel 9 Analyse der Modellstruktur

Ausgleichungsrechnung II

Überblick Statistik Deskriptive Statistik=beschreibende Statistik

Chi Quadrat Test Tamara Katschnig.

Logistische Regression

Globale Interpolations- und Prädiktionsverfahren

Seminar: Datenerhebung

Einführung in SPSS/PASW. Inhaltsübersicht 1. Intro ( ) 2. Deskriptive Statistik ( ) (In Buch 1 Seite 85ff.) Kennwerte (Erwartungswert,

Statistik: Mehr zur Regression.

Kapitel 10 Multikollinearität

SStotal SStotal SStreat SSerror SStreat SSerror Biomasse (g) wenig

STATISIK LV Nr.: 1375 SS April 2005.

Kapitel 9 Analyse der Modellstruktur Hackl, Einführung in die Ökonometrie 2 Rekursive OLS-Schätzung Spezifiziertes Modell: y = X + u y, u:

Kapitel 2 Das klassische Regressionsmodell

Kapitel 18 Dynamische Modelle: Schätzen der Parameter

Ökonometrie I Analyse der Modellstruktur Ökonometrie I2 Rekursive OLS-Schätzung Spezifiziertes Modell: y = X + u y, u: n-Vektoren; X: Ordnung.

Kapitel 11 Heteroskedastizität

Einfache und multiple Regression

Kapitel 4 Annahmen des linearen Regressionsmodells

Kapitel 18 Dynamische Modelle: Schätzen der Parameter.

STATISIK LV Nr.: 0021 WS 2005/ November 2005.

Kapitel 11 Heteroskedastizität

1 STATISIK LV Nr.: 0021 WS 2005/ November 2005.

Regression Maria Morozova Lisa Ochsenhofer. Einführung Francis Galton 1886 Größe von Vater und Sohn Regression zum Mittelwert.

Statistik Statistik I Seminar + Blockveranstaltung Statistik I

Statistik – Regression - Korrelation

Die einfache/multiple lineare Regression

STATISIK LV Nr.: 1852 WS 2005/ Jänner 2006.

setzt Linearität des Zusammenhangs voraus

Die einfache/multiple lineare Regression

Varianzanalyse und Eta²

 Gegenstandsbereich der Testtheorie: Analyse der Charakteristika von Tests:  Güte von Tests.  Struktur von Tests.  Schwierigkeit von Tests.  Gruppenunterschiede.

Grafische Darstellung von Gruppenunterschieden.

Außenhandelsbeziehungen zwischen China, USA, EU Makroökonometrie Vorlesung Dr. Oliver Bode.

Die einfache/multiple lineare Regression

Präsentation transkript:

Induktive Statistik: Regressionsanalyse

Regression -> Output analysieren/Regression/Linear; abhängige & unabhängige Variable einfügen/ OK . zu erklärende Variable erklärende Variablen Regressionskoeffizient b t-Werte p-Wert R² F-Wert Anzahl der Beobachtungen N: df: Freiheitsgrade

OrdinaryLeastSquare-Regression statistische Zusammenhänge zwischen zwei oder mehreren Variablen univariate OLS-Regression: nur eine erklärende Variable in der Schätzgleichung Schätzgleichung: y = a+bx+e y: zu erklärende Variable a: Schnittpunkt mit y-Achse bzw. vertikaler Achsenabschnitt: „Konstante“, d.h. der Wert der abhängigen Variable, bei dem alle unabhängigen Variablen = 0 b: Steigung der Regressionsgerade (Regressionskoeffizient): Wert besagt, um wie viel sich die AV verändert (+/-), wenn die UV um 1 Einheit steigt positive/ negative Steigung entspricht einem positiven/ negativen Zusammenhang x: erklärende Variable

OLS-Regression e: Fehlerterm = Residuen = unerklärte Abweichungen von einer möglichen Regressionsgeraden diese werden quadriert, so daß größere Abweichungen stärker gewichtet werden OLS: Lage der Regressionsgerade derart, daß die Summe der Quadrate aller Abweichungen der Punkte von der Geraden minimiert werden => Minimierung des Fehlerterms e² (d.h. der Summe der quadrierten Fehler): macht z.B. SPSS je niedriger die Summe von e² relativ zur Gesamtvarianz der zu erklärenden Variable, desto besser das Modell positive oder negative Korrelation: wachsenden x-Werten entsprechen steigende y-Werte oder umgekehrt mögliches Problem: Scheinkorrelation: nicht meßbare Variablen beeinflussen erklärende und zu erklärende Variablen

OLS-Regression: Annahmen 1. e ist normalverteilt (sonst Fehlspezifikation) Überprüfung: Analysieren/ Regression/ Linear; Abhängige & unabhängige Variable einfügen & zusätzlich unter Speichern: Residuen Nicht standardisiert ankreuzen/ Weiter/ OK im Dateneditor erscheinen nun die Residuen als neue Variable res_1 (bei weiteren Regressionen mit fortlaufender Nummer) mit dem Kolmogorov-Smirnov-Test die Residuen auf Normalverteilung überprüfen: Analysieren/ Nichtparametrische Tests/ K-S bei einer Stichprobe/ Testvariablen/ res_1 2. E(e)=0 (kein systematischer Einfluß des Störterms auf y)

OLS-Regression: Annahmen II 3. var(e)=constant (Homoskedastie der Residuen ) 4. cov(eiet)=0 (Residuen korrelieren nicht miteinander) 5. cov(xiet)=0 (Residuen korrelieren nicht mit exogenen Variablen) bei Verletzung der Annahmen führt die OLS-Methode zu Schätzfehlern aber: Überprüfung der Variablen auf Schiefe und Umformung schließt viele Fehler aus

Präzision einzelner Regressionskoeffizienten und t-Wert da die Residuen einer zufällig gezogenen Störvariable entsprechen, würden wir bei einer erneuten Ziehung andere Werte für die abhängige Variable erhalten, damit könnte sich auch der berechnete Regressionskoeffizient ändern Wie verläßlich ist dieser also? Erste Ziehung Zweite Ziehung b < b Überprüfung der Signifikanz der Regressionskoeffizienten anhand sog. t-Werte zeigt an, ob eine einzelne Variable einflußreich wenn > 2 => signifikanter Unterschied: d.h. es gibt Zusammenhang +/-: positiver/ negativer Zusammenhang

OLS-Regression: Güte des Modells Bestimmtheitsmaß R² Güte einer Schätzung läßt sich mit Hilfe des Bestimmtheitsmaßes R² bestimmen Interpretation: Anteil der durch das Schätzmodell erklärten Varianz an der Gesamtvarianz der abhängigen Variablen 0< R²<1  je näher an 1, desto besser das Modell; die Angabe von R² in der Regressionstabelle ist notwendig das R² * 100 wird im Text als Prozent interpretiert (R²=0,65: „mit dem Modell können 65% der Varianz erklärt werden“ Vorteil von R2: Werte verschiedener Grundgesamtheiten können direkt miteinander verglichen werden Angabe von R² ist immer notwendig! adjustiertes R² bei Modellen mit mehreren Variablen (s. multiple Regression)

OLS-Regression: Signifikanz zur Angabe der Signifikanz entweder Verwendung des „p-Werts der Signifikanz“ oder anhand der t-Statistik (Daumenregel: ist t-Wert betragsmäßig größer als 2, dürfte der p-Wert kleiner als 0,05 sein) p-Wert: Maßzahl für Signifikanz: ermöglicht Beurteilung, wie „systematisch“ (Unterschiede) eine(r) UV eine AV beeinflußt bzw.: Wie wahrscheinlich ist es, daß ein Zusammenhang besteht zwischen exogenen und endogener Variablen? eigentlich: Test, ob bzw. wie hoch die Fehlerwahrscheinlichkeit, daß der Koeffizient oder die Konstante ungleich Null sind, und daher allgemeinere Schlüsse aus dieser Stichprobe gezogen werden dürfen

OLS-Regression: Signifikanz II Signifikanzniveau/ Sicherheitsniveau: wenn p-Wert < 0,01 oder 0,05 oder 0,1 => signifikanter Einfluß der UV: auf 1%, 5% oder 10%-Level „besser“, desto näher an Null aber: Wahl des Signifikanzniveaus kann von der Meßqualität der Daten abhängig gemacht werden Z.B.: 1%-Niveau: Wahrscheinlichkeit von 99%, daß signifikanter Koeffizient einflußreich ist, Irrtumswahrscheinlichkeit: 1%

OLS-Regression: Streudiagramm nur für univariate Regression rechtwinkliges Koordinatensystem: Streudiagramm – linearer, nichtlinearer oder kein Zusammenhang abhängige (=zu erklärende, endogene) Variable: wird auf der y- Achse abgetragen (z. B.: Körpergröße) erklärende (=exogene, unabhängige) Variable: wird auf der x-Achse abgetragen (z. B.: Zeit) Graphiken/ Streudiagramm/ Einfach Definieren/ erklärende Variable in x-Achse & zu erklärende Variable in y-Achse/ (Fallbeschriftung) / OK Einfügen der Regressionsgeraden 2X auf Streudiagramm klicken, führt zum Grafikeditor; darin auf Diagramme/ Optionen/ Kreuz bei Anpassungslinie gesamt/ OK Veranschaulichung der Zusammenhänge zwischen UV & AV

OLS-Regression: Einflußreiche Ausreißer Verteilung der Beobachtungen: Berücksichtigung möglicher Ausreißer => verschiedene Streudiagramme identifizieren einflußreiche Ausreißer Def.: Beobachtungen, die von den mittleren 50% der Werte mehr als drei mal dieser Distanz entfernt liegen (Daumenregel) Regressionsgerade reagiert möglicherweise sehr sensitiv auf Ausreißer Lösung: Regression mit und eine ohne Ausreißer durchführen und Veränderung der Regressionskoeffizienten betrachten Ergebnisse, die auf Ausreißern basieren, sind unglaubwürdig Ausreißer raus!

Multiple Regression mehrere erklärende Variable im Schätzmodell große Stärke der Regressionsanalyse: es können Einflüsse von mehreren erklärenden Variablen geschätzt werden graphisch kaum vorstellbar wichtig: statistische Kennzahlen und Tests, die Hinweise auf ein korrektes Schätzmodell geben, richtig auszuwerten (z.B. die bereits erwähnten p-Werte)

Multiple Regression und korrigiertes R2 das „adjustierte R²“ ist hier ein besseres Maß für den Erklärungsanteil des Modells es ist so konstruiert, daß es sinkt, wenn viele nicht erklärungskräftige Variablen mitberücksichtigt werden bei Modellen mit mehreren Variablen, nimmt der Erklärungsanteil mit der Anzahl der erklärenden Variablen zu Extremfall: für jede Beobachtung gibt es eine erklärende Variable R²=1 normales Bestimmtheitsmaß ist nicht mehr aussagekräftig Anpassung um die Anzahl der erklärenden Variablen v Modelle mit höherem R²adj sind vorzuziehen, auch wenn R² kleiner ist wenn R²adj nach Variablenausschluß stark reduziert Kolliniarität übersehen

Multiple Regressionen: Sensitivitätsanalyse wie robust sind die Ergebnisse bei geringfügigen Änderungen in der Modellspezifikation? Ergebnisse sind unglaubwürdig, falls sich Vorzeichen und Signifikanz der Koeffizienten durch geringfügige Änderungen stark ändern Aufnahme und Ausschluß von zweifelhaften Variablen und Betrachtung der Auswirkung auf die Schlüsselvariablen

Multiple Regressionen: Teststrategie Vorgehensweise nach dem Grundsatz „general to specific modelling“, um Verzerrung der Regressions-koeffizienten durch unberücksichtigte Variablen zu vermeiden zuerst umfassendes Modell mit allen Variablen schätzen, die auch rivalisierende Erklärungen einschließen dann: insignifikante Variablen aus dem Modell ausschließen: allmählich zum „wahren“ Modell vorarbeiten (hier Multikollinearität möglich) notwendig: Überprüfung, ob die Annahmen der OLS-Schätzmethode erfüllt sind

Multikollinearität Def.: Vorhandensein von Kollinearitäten (Abhängigkeiten) zwischen den erklärenden Variablen in multiplen Regressionsmodellen treten aber fast immer (schwache) Abhängigkeiten zwischen den UV auf OLS-Schätzungen bleiben unverzerrt bei starker Multikollinearität kann Variabilität der Koeffizienten- schätzung zunehmen: d.h. schon mit einer geringfügig anderen Modellspezifikation ganz andere Schätzergebnisse möglich

Multikollinearität II „täuschende“ Insignifikanz bei einer oder mehreren UV möglich => Einfluß einer UV wird übersehen (bei geringen t-Werten) Auslassen von Variablen mit niedrigen t-Werten kann zu einer Verzerrung der anderen Schätzer führen Interpretation der Regressionskoeffizienten gestaltet sich schwieriger aber: R² nicht betroffen Überprüfung der Kollinearitäten hilfreich, um die Ergebnisse richtig einschätzen zu können

Bestimmung von Multikollinearität oft als erste Approximation: Überprüfung der Korrelationskoeffizienten => Schwankungen nach Ausschluß von Variablen die in engem Zusammenhang mit Schlüsselvariable Bestimmung von Multikollinearität: z.B. mit Variance Inflation Factor (VIF): Werte > 10 deuten auf Multikollinearität (z.B. in SPSS im Regressionsfenster unter „Statistiken“ die Option „Multikollinearitätsdiagnose“ aktivieren) Daumenregel: kein Problem, wenn R2 > R2 irgendeiner UV auf die anderen UV, oder wenn alles signifikant

Dummy-Variablen auch Indikator-/ und Kategorienvariablen qualitative Variablen, die keine Ordnung im mathematischen Sinne angeben Dummies bei 2 Kategorien: nehmen nur Werte 0 oder 1 an, z.B. x=1, falls Mann & x=0, falls Frau oder x=1, falls zum Römischen Reich gehörig & x=0, falls sonstige Dummy-Variablen können auch zwischen unterschiedlichen Zeitspannen trennen: z.B. 1500-1550=0, 1551-1600=1

Interaktionsterme um den Einfluß einer Interaktion zwischen zwei Dummyvariablen zu schätzen, werden diese miteinander multipliziert ergibt eine neue Dummyvariable: mit Wert=1 falls Zugehörigkeit zu beiden Ausgangskategorien Wert=0, falls Zugehörigkeit zu einer oder keiner der beiden Ausgangskategorien in SPSS: transformieren -> berechnen... zugehöriger Regressionskoeffizient besagt ob eine Kombination der Charakteristika signifikant unterschiedlich ist von einer bloßen Addition der Koeffizienten der Ausgangsdummies

Dummy-Variablen II Dummies bei mehr als 2 Kategorien: insbes. bei mehreren Möglichkeiten qualitativer Charakteristika: z.B. Ständegesellschaft:1.Stand/ 2.Stand/ 3.Stand Region: Nordosteuropa/ Zentraleuropa/Südeuropa usw. mehr Dummies: z.B. Ständegesellschaft: stand1=1, falls 1.Stand/sonstige Kategorien stand1=0 stand2=1, falls 2. Stand/sonst stand2=0 stand3=1, falls 3. Stand/sonst stand3=0 Vorteil: Kategorien lassen sich unterscheiden, ohne daß Anzahl der Beobachtungen in separaten Regressionen reduziert wird => Präzision der Regressionskoeffizienten bleibt erhalten

Homoskedastie Varianz der Residuen var(e)=konstant

Heteroskedastie keine konstante Varianz der Residuen (graphische Überprüfung: Trichterform!) x3 a x x1 x2 y y=a+bx Regressionskoeffizienten werden weiterhin unverzerrt geschätzt auf diesen basierende Konfidenzintervalle sind un- gültig: t-Werte falsch geschätzt x OLS-Schätzmethode nicht länger effizient

Heteroskedastie II Überprüfung durch ‚Modifizierten White-Test‘ vereinfacht: Residuen werden quadriert, um festzustellen, ob ‚Trichterform‘ signifikant e² =c+d1ŷ+d2ŷ²+Fehlerterm ŷ = erwartete, geschätzte Werte der abhängigen Variable c = Konstante d = Regressionskoeffizienten in SPSS: 1. Regression durchführen; dabei unstandardisierte Residuen und unstandardisierte vorhergesagte Werte speichern (im Regressionsfenster unter Speichern/ Residuen (nicht standardisiert) und vorhergesagte Werte (nicht standardisiert) ankreuzen)

Heteroskedastie III 2.Quadrate der vorhergesagten Werte und Residuen bilden (Transformieren/ Berechnen) 3. Regression durchführen, mit AV: quadrierte Residuen; UV: vorhergesagte Werte und quadrierte vorhergesagte Werte => Unterscheiden sich die Regressoren gemeinsam signifikant von 0 = wenn F-Wertes signifikant = Heteroskedastie verschiedene Möglichkeiten Heteroskedastie zu beheben meist hilfreich: Transformation der Variablen (insbes. Logarithmierung) Aufnahme von weiteren exogenen Variablen