Modellprämissen der linearen Regression

Slides:



Advertisements
Ähnliche Präsentationen
T - Test Prüfung des Mittelwerteunterschieds bei abhängigen und unabhängigen Stichproben.
Advertisements

Heute 1.F – Test zur Varianzhomogenität 2.Bartlett-Test zur Varianzhomogenität 3.Chi – Quadrat Tests für Häufigkeiten 4.Chi – Quadrat Tests zur Verteilungsanpassung.
Induktive Statistik: Regressionsanalyse
Theorie psychometrischer Tests, III
Thema der Stunde I. Einführung in die Varianzanalyse:
Regression und Korrelation
Gliederung Der Begriff der Stichprobe, Stichprobenfehler
Forschungsstatistik II
Forschungsstatistik II Prof. Dr. G. Meinhardt SS 2005 Fachbereich Sozialwissenschaften, Psychologisches Institut Johannes Gutenberg Universität Mainz KLW-24.
Forschungsstatistik II
Heute Prüfung der Produkt-Moment Korrelation
Forschungsstatistik I Prof. Dr. G. Meinhardt WS 2004/2005 Fachbereich Sozialwissenschaften, Psychologisches Institut Johannes Gutenberg Universität Mainz.
Forschungsstatistik II Prof. Dr. G. Meinhardt SS 2006 Fachbereich Sozialwissenschaften, Psychologisches Institut Johannes Gutenberg Universität Mainz KLW-26.
Forschungsstatistik II Prof. Dr. G. Meinhardt SS 2006 Fachbereich Sozialwissenschaften, Psychologisches Institut Johannes Gutenberg Universität Mainz KLW-18.
Der Binomialtest Man habe einen wahren Anteil P.
Das Allgemeine lineare Modell (ALM) - Varianz als Schlüsselkonzept
Mehrfachregressionen
Quantitative Methoden I
Hypothesen testen: Grundidee
2. Univariate Regressionsanalyse 2.1 Das statische Regressionsmodell
Aufgabe Der Zusammenhang zwischen einem traumatischen Erlebnis und der Entstehung einer PTBS wird von mehreren Variablen …………….: Copingstrategien, Kontrollüberzeigung,
Test auf Normalverteilung
Maximum-Likelihood-Schätzer ( diskreter Fall) Likelihood-Funktion mit oder M-L-Schätzer.
Methoden der Politikwissenschaft Regressionsanalyse Siegfried Schumann
Tutorium
Tutorium
Tutorium
Unser siebentes Tutorium
5. Abbildende versus erklärende Modelle –
Eigenschaften der OLS-Schätzer
Einfache Regressionsgleichung
Probleme der Modellspezifikation
Multikollinearität Wann spricht man von Multikollinearität?
Wiederholung: Einfache Regressionsgleichung
Deutsch als Zweitsprache: Experimentelle Methoden WS 2013/2014
Ausgleichungsrechnung II
Seminar: Datenerhebung
Seminar: Datenerhebung
Statistik: Mehr zur Regression.
Kapitel 10 Multikollinearität
Modul Statistische Datenanalyse
SStotal SStotal SStreat SSerror SStreat SSerror Biomasse (g) wenig
STATISIK LV Nr.: 1375 SS April 2005.
Kapitel 2 Das klassische Regressionsmodell
Lineare Restriktionen
Kapitel 18 Dynamische Modelle: Schätzen der Parameter
Bewertung von Regressionsbeziehungen
Kapitel 11 Heteroskedastizität
Kapitel 18 Dynamische Modelle: Schätzen der Parameter.
STATISIK LV Nr.: 0021 WS 2005/ November 2005.
Kapitel 11 Heteroskedastizität
2.4 Residualkomponente und Korrelogramm
Multiple Regressionsanalyse
1 STATISIK LV Nr.: 0021 WS 2005/ November 2005.
Regression Maria Morozova Lisa Ochsenhofer. Einführung Francis Galton 1886 Größe von Vater und Sohn Regression zum Mittelwert.
Forschungsmethodik II, SS 2010 Vesna Pavlovski & Julia Pichlhöfer
Die einfache/multiple lineare Regression
2.4 Residualkomponente und Korrelogramm
STATISIK LV Nr.: 1852 WS 2005/ Jänner 2006.
setzt Linearität des Zusammenhangs voraus
Die einfache/multiple lineare Regression
Der Binomialtest Man habe einen wahren Anteil P. Kann man aufgrund von p sagen, daß in der Population tatsächlich der Anteil P zugrunde liegt? [Beispiele]
Thema der Stunde I. Die Form der Stichprobenkennwerteverteilung
Prüft ebenfalls die Annahme der Varianzhomogenität (exakter)
Testtheorie (Vorlesung 13: ) Wiederholung: Richtigstellung
Forschungsstrategien Johannes Gutenberg Universität Mainz
 Gegenstandsbereich der Testtheorie: Analyse der Charakteristika von Tests:  Güte von Tests.  Struktur von Tests.  Schwierigkeit von Tests.  Gruppenunterschiede.
Grafische Darstellung von Gruppenunterschieden.
Außenhandelsbeziehungen zwischen China, USA, EU Makroökonometrie Vorlesung Dr. Oliver Bode.
Multivariate Analysemethoden Johannes Gutenberg Universität Mainz
 Präsentation transkript:

Modellprämissen der linearen Regression Anzahl der erklärenden Variablen < Anzahl der Fälle Linearität in den Regressionsparametern Keine exakte Multikollinearität (keine exakte Abhängigkeit der Prädiktoren)  relevant bei der multiplen Regressionsanalyse Residuendiagnostik (ei): Residuen haben einen Erwartungswert von Null Homoskedastizität (alle Residuen besitzen die gleiche konstante Varianz) Normalverteilung der Residuen Keine Autokorrelation (für jedes Residuenpaar ei und ej ist die Korrelation gleich Null)  relevant bei der Analyse von Zeit-reihen

Linearität (Modellverstoß: keine Linearität): Im Fall von Nichtlinearität liefert die Regressionsgerade nicht mehr die besten Schätzer (d.h. sie minimieren nicht mehr den Abstand zwischen tatsächlichen und geschätzten Werten) Die Folge ist eine Verzerrung der Schätzwerte der Parameter, d.h. die Schätzwerte bj streben mit wachsendem Stichprobenumfang nicht mehr gegen die wahren Werte βj.   Prüfung: Begutachtung der Punkteverteilung im Streudiagramm (Plot) Begutachtung der Partialdiagramme: Regression der bereinigten Regressoren auf das bereinigte Kriterium (Partielle Korrelation, Korrelation der Regressionsresiduen)

Begutachtung der Punkteverteilung im Streudiagramm: Begutachtung der Partialdiagramme:  Nach Elimination der Effekte der anderen Einflussgrößen verbleibt ein starker linearer Zusammenhang zwischen X und Y. Grundsätzliche Lösungstrategie: Transformation der unabhängigen Variablen, z.B. Quadrierung: y = a + b ∙ x2, Logarithmierung: y = a + b ∙ ln(x)

(Keine exakte) Multikollinearität: Mit zunehmender Multikollinearität werden die Schätzungen der Regressionsparameter unzuverlässiger. Dies macht sich bemerk-bar am Standardfehler der Regressionskoeffizienten (sb), der größer wird. Bei perfekter Multikollinearität ist eine Schätzung der Regressi-onskoeffizienten bj nicht mehr möglich. Prüfung: Betrachtung der Korrelationsmatrix der unabhängigen Variablen Besser: Durchführung von Regressionsanalysen jeder unab-hängigen Variablen X auf die übrigen unabhängigen Variablen Am besten: Berechnung der Toleranz und des VIF-Wertes

Toleranz der Regressoren: Koeffizient der Nichtdetermination: Der Wertebereich ist [0; 1] R2j: Bestimmtheitsmaß, unter Zugrundelegung eines Regressionsmodells, in dem Xj die abhängige Variable und die übrigen X des ursprünglichen Regressions-modells die unabhängigen Variablen bilden. Die Toleranz einer Variablen gibt den Varianzanteil wieder, der durch die anderen unabhängigen Variablen in der Modellgleichung nicht erklärt wird. Eine Variable mit einer geringen Toleranz wird durch die anderen unabhängigen Variablen in hohem Maße determiniert. Grenzwert der Toleranz: R = 0,7 (Grenzwert, ab da großes Anwachsen von sb)  R2 = 0,49, Tj = 1 - 0,49 = 0,51 R = 0,8 (Grenzwert in der Praxis)  R2 = 0,64, Tj = 1 - 0,64 = 0,36

Variance Inflation Factor (VIF) der Regressoren: VIF ist der Kehrwert (Inverse) der Toleranz. Der Standardfehler wird um den Faktor √VIF erhöht. Beispiel: Tj = 0,51  VIF = 1,96, Tj = 0,36  VIF = 2,78 Allgemein gilt: Bei T- und VIF-Werten nahe 1 kann (nahezu) von linearer Unabhängigkeit der Regressoren ausgegangen werden. Niedrige Toleranzwerte und hohe VIF-Werte weisen dagegen auf Multikollinearitätsprobleme hin. Lösungsstrategie: Entfernung von Prädiktor(en) mit hoher Multikollinearität Zusammenfassung von hoch korrelierenden Prädiktoren (z.B. Indexbildung)

Erwartungswert der Residuen ist gleich Null (E(e/ε) = 0) (Modellverstoß: E(ε) ≠ 0): Residuen erfassen nur zufällige Effekte. D.h. Schwankungen der Residuen gleichen sich im Mittel aus. E(ε) ≠ 0 (Systematik in den Fehlertermen): Wenn relevante Regressoren nicht berücksichtigt sind, eine falsche funktionale Form angenommen wird, die Stichprobenaus-wahl nicht zufällig ist, die Messwerte von Y systematisch zu hoch/niedrig gemessen werden, dann erfassen die Residuen systematische Effekte. Folge: Der systematische Fehler geht in die Berechnung von a ein (verzerrte Schätzung), Schätzverfahren sind nicht mehr erwar-tungstreu und ungültig.

Homoskedastizität (Varianzhomogenität der Residuen) (Modellverstoß: Heteroskedastizität): Wenn die Streuung der Residuen in einer Reihe von Werten der prognostizierten abhängigen Variablen nicht konstant ist, d.h. wenn die Fehlerterme systematisch streuen, dann liegt Heteroske-dastizität vor. Heteroskedastizität führt zu Ineffizienz der Schätzung und verfälscht den Standardfehler des Regressionskoeffizienten. Damit wird auch die Schätzung des Konfidenzintervalls und der Testverfahren ungenau und unzuverlässig. Möglicher Grund: Residualwerte sind abhängig von einem oder mehreren Regressoren Prüfung: Residuenplot: Standardisierte Residuen werden gegen die standardisierten geschätzten yi-Werte geplottet.

Berechnung standardisierter vorhergesagter Werte: Mittelwert = 0, s = 1 Berechnung standardisierter Residuen: Mittelwert = 0, s = 1 ei = yi - y’i se = Standardfehler des Schätzers

Residuenplot: Idealtypisch ist, wenn die Residuen unsystematisch um die Nulllinie schwanken.

Ein statistischer Test zur Prüfung von Heteroskedastizität: Goldfeld-Quandt-Test: Unterteilung der Stichprobe in zwei Unterstichproben z.B. nach: a. dem Zeitfaktor t bei Zeitreihen b. einer bestimmten Variablen bei Querschnittsdaten (z.B. Schulbildung) 2. Getrennte OLS-Regression und Vergleich der Varianzen auf signifikante Unterschiede Grundidee: Bestimmte Variable verursacht die Heteroskedastizi-tät und muss beseitigt werden. Nachteil: Nur einfache Formen von Heteroskedastizität (d.h. von einer Variable ausgehend) identifizierbar. Mit dem White-Test können höhere Formen von Heteroskedastizität geprüft werden.

Normalverteilung der Residuen: Bei Verletzung der Linearitäts- oder Varianzhomogenitätsan-nahme kann die Normalverteilung der Residuen nicht geprüft werden. Die Annahme ist für die Durchführung statistischer Tests (T-Test, F-Test) von Bedeutung. Hierbei wird unterstellt, dass b0 und bj normalverteilt sind. Wäre dies nicht der Fall, wären auch die Tests nicht gültig. Aber: Je größer die Stichprobe ist, desto eher kann man von einer asymptotischen Normalverteilung der Fehler ausgehen. Prüfung: Histogramm für die standardisierten Residuen mit eingezeichneter Normalverteilungskurve und P-P-Diagramm der erwarteten Residuen bei Normalverteilung versus tatsächliche Residuen. - Zudem Statistische Tests zur Prüfung der Normalverteilungsannahme: Kolmogorov-Smirnov-Test, Skewness-Kurtosis Test, Shapiro-Wilk Test

Histogramm für die standardi-sierten Residuen mit eingezeich-neter Normalverteilungskurve: P-P-Diagramm der erwarteten Residuen bei Normalverteilung versus tatsächliche Residuen: Residuen weichen nicht von Normal-verteilung ab: kein Verstoß Vergleich: Häufigkeitsverteilung der standardisierten Residuen mit Normalverteilungskurve. Vergleich: Kumulierte Häufigkeitsver-teilung der standardisierten Residuen mit kumulierter Normalverteilung (durchgezogene Linie).

(Keine) Autokorrelation: Autokorrelation (Korrelation zwischen zwei aufeinander folgen-de Residualgrößen ei und ej) tritt vor allem bei Zeitreihen auf. Die Abweichungen von der Regressionsgeraden sind dann nicht mehr zufällig, sondern von den Abweichungen der vorangehen-den Werte abhängig. Autokorrelation führt zu Verzerrungen bei der Ermittlung des Standardfehlers der Regressionskoeffizienten. Damit wird auch die Schätzung des Konfidenzintervalls verzerrt. Prüfung: Durbin-Watson-Test

Durbin-Watson-Test: Berechnung des Durbin-Watson-Wertes d: Es gilt: d = 0  Perfekt positive Autokorrelation d = 2  Keine Autokorrelation d = 4  Perfekt negative Autokorrelation Wertebereich: 0 < d < 4

Die Nullhypothese (H0) lautet: Es liegt keine Autokorrelation vor (ρ = 0). Die Alternativhypothese (H1) lautet: Es liegt Autokorrelation vor (ρ  0). Zusammenhang zwischen d und ρ : d = 0  ρ = 1  Perfekt positive Autokorrelation d = 2  ρ = 0  Keine Autokorrelation d = 4  ρ = -1  Perfekt negative Autokorrelation ρ gibt die Stärke der Autokorrelation an Anhand einer Tabelle (Kritischer Wert der Durbin-Watson-Statis-tik) kann der Vertrauensbereich abgelesen werden. Liegt d außer-halb dieses Bereichs, wird H0 abgelehnt. Berechnung: