Kapitel 10 Multikollinearität

Slides:

Advertisements

Ähnliche Präsentationen

Modellprämissen der linearen Regression

Advertisements

Modellierung und Schätzung von Variogrammen

Seminar „Extrapolationsmethoden für zufällige Felder“

Regression und Korrelation

Numerik partieller Differentialgleichungen

Forschungsstatistik II

Forschungsstatistik I Prof. Dr. G. Meinhardt WS 2004/2005 Fachbereich Sozialwissenschaften, Psychologisches Institut Johannes Gutenberg Universität Mainz.

Forschungsstatistik II Prof. Dr. G. Meinhardt SS 2006 Fachbereich Sozialwissenschaften, Psychologisches Institut Johannes Gutenberg Universität Mainz KLW-26.

Der Binomialtest Man habe einen wahren Anteil P.

Mehrfachregressionen

Vorlesung: ANOVA I

Eigenschaften der OLS-Schätzer

Einfache Regressionsgleichung

Probleme der Modellspezifikation

Multikollinearität Wann spricht man von Multikollinearität?

Wiederholung: Einfache Regressionsgleichung

Matrix-Algebra Grundlagen 1. Matrizen und Vektoren

Kapitel 9 Analyse der Modellstruktur

Kapitel 15 Instrumentvariablen- Schätzung

Lineare Algebra Komplizierte technologische Abläufe können übersichtlich mit Matrizen dargestellt werden. Prof. Dr. E. Larek

Folie 1 Kapitel IV. Matrizen Inhalt: Matrizen als eigenständige mathematische Objekte Zusammenhang zwischen Matrizen und linearen Abbildungen Produkt von.

Statistik: Mehr zur Regression.

Kapitel 13 Zeitreihen und Zeitreihen-Modelle

Kapitel 15 Instrumentvariablen- Schätzung

Kapitel 12 Autokorrelation in den Residuen

Kapitel 9 Analyse der Modellstruktur Hackl, Einführung in die Ökonometrie 2 Rekursive OLS-Schätzung Spezifiziertes Modell: y = X + u y, u:

Kapitel 6 Variablenauswahl und Missspezifikation

Kapitel 2 Das klassische Regressionsmodell

Lineare Restriktionen

Ökonometrie II Multikollinearität.

Kapitel 18 Dynamische Modelle: Schätzen der Parameter

Ökonometrie I Analyse der Modellstruktur Ökonometrie I2 Rekursive OLS-Schätzung Spezifiziertes Modell: y = X + u y, u: n-Vektoren; X: Ordnung.

Kapitel 1 Der Begriff „Ökonometrie“

Missspezifikation: Konsequenzen und Tests

Kapitel 5 Statistische Bewertung von Regressionsbezie-hungen

Kapitel 19 Kointegration

Kapitel 10 Multikollinearität

Kapitel 3 Lineare Regression: Schätzverfahren

Kapitel 21 Mehrgleichungs-Modelle: Schätzverfahren

Kapitel 16 Ökonometrische Modelle

Kapitel 20 Mehrgleichungs-Modelle: Konzepte

Kapitel 14 Trends und Unit-root-Tests

Kapitel 13 Zeitreihen und Zeitreihen-Modelle

Ökonometrie I Variablenauswahl.

Bewertung von Regressionsbeziehungen

OLS-Schätzer und seine Eigenschaften

Kapitel 11 Heteroskedastizität

Einfache und multiple Regression

Annahmen des lineare Regressionsmodells

Kapitel 4 Annahmen des linearen Regressionsmodells

Kapitel 8 Prognose und Prognosequalität

Ökonometrie I Modellvergleich (Übersicht) Ökonometrie I2 Vergleich von Modellen Fragestellungen für Modellvergleich 1.Fehlende Regressoren.

Kapitel 18 Dynamische Modelle: Schätzen der Parameter.

Kapitel 20 Mehrgleichungs- Modelle: Konzepte

Kapitel 21 Mehrgleichungs- Modelle: Schätzverfahren.

STATISIK LV Nr.: 0021 WS 2005/ November 2005.

Kapitel 9 Analyse der Modellstruktur

Kapitel 11 Heteroskedastizität

Multivariate Statistische Verfahren

Kapitel 14 Trends und Unit-root-Tests

1 STATISIK LV Nr.: 0021 WS 2005/ November 2005.

Statistik – Regression - Korrelation

STATISIK LV Nr.: 1852 WS 2005/ Jänner 2006.

setzt Linearität des Zusammenhangs voraus

Thema der Stunde I. Die Form der Stichprobenkennwerteverteilung

Prüft ebenfalls die Annahme der Varianzhomogenität (exakter)

 Gegenstandsbereich der Testtheorie: Analyse der Charakteristika von Tests:  Güte von Tests.  Struktur von Tests.  Schwierigkeit von Tests.  Gruppenunterschiede.

Präsentation transkript:

Kapitel 10 Multikollinearität Exakte Multikollinearität Beinahe Multikollinearität

Exakte Multikollinearität Unser Modell lautet y = Xb + u, Dimension von X: n x k Annahme : rg(X) = k Wenn sich eine oder mehrere Spalte von X als Linearkombinationen anderer Spalten darstellen lassen („Rangabfall“) spricht man von exakter oder perfekter Multkollinearität. Es gilt dann: rg(X) < k bzw. rg(X‘X) < k Der OLS Schätzer b = (X‘X)-1X‘y kann nicht berechnet werde, da die Inverse von (X‘X) nicht existiert. Hackl, Einführung in die Ökonometrie (10)

Hackl, Einführung in die Ökonometrie (10) Exkurs: Matrizen Sei A eine quadratische Matrix k x k. Folgende Aussagen sind äquivalent: rg(A) = k V A hat vollen Rang V A ist regulär V det(A) ≠ 0 V A-1 existiert V alle Eigenwerte von A λ(A) ≠ 0 oder rg(A) < k V A hat nicht vollen Rang k V A ist singulär V det(A) = 0 V A-1 existiert nicht V ein Eigenwert von A ist null Hackl, Einführung in die Ökonometrie (10)

Hackl, Einführung in die Ökonometrie (10) Bsp. 1: Konsumfunktion C = b0 + b1 Ya + b2 Ye + b3 Yt + u C: Privater Konsum Ya: Einkommen aus unselbständiger Erwerbstätigkeit Ye: Einkommen aus Besitz und Unternehmung Yt: gesamtes Einkommen (Yt =Ye + Ya) Die Matrix der unabhängigen Variablen X hat die Dimension (n x 4), aber rg(X) = rg(X‘X) = 3. Yt , Yt =Ye + Ya, läßt sich als Linearkombination der anderen Variablen darstellen. Man sagt auch: Der Parameter b3 ist nicht identifiziert. Hackl, Einführung in die Ökonometrie (10)

Bsp. 2: Nicht identifizierte Parameter C = a + b1 Ya + b2 Ye + u Ang. ist liegt lineare Abhängigkeit vor: Ye = c Ya Das Modell reduziert sich daher zu C = a + (b1 + cb2 )Ya + u = a + g Ya + u OLS-Schätzer für g = b1 + cb2 kann problemlos berechnet werden, nicht aber für b1 und b2. Man sagt: g ist identifiziert, b1 und b2 sind nicht identifiziert. Hackl, Einführung in die Ökonometrie (10)

Numerisches Bsp zur exakten Multikollinearität In der folgenden X Matrix sind 2 Spalten identisch. Es wurde irrtümlich eine x-Variable zweimal in die Regression aufgenommen. rg(X‘X) = 2 < 3 det(X‘X) = 0 Die Inverse (X‘X)-1 kann nicht berechnet werden. Die Korrelation zwischen 2-ter und 3-ter Spalte von X ist 1! Das OLS Problem ist nicht lösbar. Hackl, Einführung in die Ökonometrie (10)

Beinahe Multikollinearität Unser Modell lautet y = Xb + u, Dimension von X: n x k Die Annahme rg(X) = k ist erfüllt aber: Eine oder mehrere Spalten von X können sich beinahe exakt als Linearkombinationen anderer Spalten darstellen lassen. det(X‘X) ~ 0 … Die Determinante ist beinahe null. Einige Regressoren korrelieren sehr hoch. Fragestellungen: Welche Konsequenzen hat beinahe Multikollinearität? Möglichkeiten zur Identifikation von Multikollinearität Verhinderung von Multikollinearität Hackl, Einführung in die Ökonometrie (10)

Bsp. beinahe Multikollinearität (1) Die Datenmatrix X wird nur geringfügig abgeändert. Die Inverse von (X‘X) existiert nun, weist aber sehr große Werte auf. (2) Die Datenmatrix X wird deutlich abgeändert. Die Elemente der Inversen von (X‘X) sind freundlich. Hackl, Einführung in die Ökonometrie (10)

Beinahe Multikollinearität und t-Statistik Die t-Statistik zum OLS Schätzer von bi im Modell y = Xb + u ist Der t-Wert zum i-ten Koeffizient ist der geschätzte Wert dividiert durch seinen Standardfehler. Der Standardfehler errechnet sich aus dem i-ten Hauptdiagonalelement der Matrix (X‘X)-1. s2 ist die geschätzte Fehlervarianz. Je größer das Hauptdiagonalelement, desto kleiner der t-Wert. Hackl, Einführung in die Ökonometrie (10)

Hoch korrelierte Regressoren, beinahe Multikollinearität Ordnung von X: n x k X‘X ist eine nahezu singuläre Matrix Invertieren von X‘X liefert sehr große Werte Wegen Var{bt} = s2 (Xt’Xt)-1 sind die Standardabweichungen der Schätzer sehr gross Die t-Werte sind klein, die Macht der t-Tests ist reduziert Unter der Annahme, dass unser Modell korrekt spezifiziert ist, bedeuten die zu niedrigen t-Werte, dass im geschätzten Modell eine Variable als nicht signifikant ausgewiesen wird, obwohl sie es sein sollte. Hackl, Einführung in die Ökonometrie (10)

Hackl, Einführung in die Ökonometrie (10) Konsumfunktion für 1980-2009 Datensatz DatS01 (Konsum und Einkommen) C = b0 + b1 YDR + b2 MP + b3 t + u C: Privater Konsum YDR: verfügbares Einkommen der Haushalte MP: privates Geldvermögen t : Zeit (linearer Trend) Hackl, Einführung in die Ökonometrie (10)

Hackl, Einführung in die Ökonometrie (10) Konsumfunktion, Forts. Hackl, Einführung in die Ökonometrie (10)

Hackl, Einführung in die Ökonometrie (10) Konsumfunktion, Forts. Hackl, Einführung in die Ökonometrie (10)

Ursachen von Multikollinearität Häufige Ursachen für beinahe Multikollinearität sind - gemeinsame Trends, oder - zu viele erklärende Variable, die fast dasselbe messen. Hackl, Einführung in die Ökonometrie (10)

Eigenschaften der Schätzer unter Multikollinearität Unter der Ann das wahre Modell ist y = Xb + u, gilt mit b = (X’X)-1X’y : E(b) = b und Var{b} = s2 (X’X)-1 unter den üblichen Eigenschaften des Fehlers u. b ist der beste erwartungstreue Schätzer. In kleinen Stichproben ist allerdings die Matrix (X‘X)-1 schlecht konditioniert, d.h. sie kann sehr große Werte aufweisen. Somit können sehr große Standardfehler (Insignifikanzen beim t-Test) auftreten, obwohl alle Variable im Modell eingeschlossen sein sollten. Das Problem schwächt sich mit zunehmendem Stichprobenumfang ab. Hackl, Einführung in die Ökonometrie (10)

Ein Maß für Multikollinearität Ri2 ist das Bestimmtheitsmaß der Regression der Variablen Xi als abhängige Variable auf alle Spalten von X ohne der Variablen Xi („Hilfsregression“) Ri2 ≈ 1: Xi ist gut durch eine lineare Funktion der anderen erklärenden Variablen darstellbar. Xi wird zur Erklärung nicht benötigt. Ri2 << 1: Xi ist nicht gut durch eine lineare Funktion der anderen erklärenden Variablen darstellbar. Xi enthält neue Info. Hackl, Einführung in die Ökonometrie (10)

Indikatoren für Multikollinearität Bestimmtheitsmaße Ri2 der Hilfsregressionen VIFi (variance inflation factors) Determinante der Matrix der Korrelationskoeffizienten der Regressoren (ein Wert nahe bei Null zeigt Multikollinearität an) Konditionszahl (condition number) k von X‘X: lmax (lmin) ist maximaler (minimaler) Eigenwert von X‘X; ein großer Wert (>20) von k ist Hinweis auf Multikollinearität Hackl, Einführung in die Ökonometrie (10)

Indikatoren für Multikollinearität Effekt des Hinzufügens eines Regressors auf se(bi): Der Regressor ist relevant: se(bi) wird kleiner; Er ist multikollinear: se(bi) wird größer Hackl, Einführung in die Ökonometrie (10) 18

Hackl, Einführung in die Ökonometrie (10) Die Größen VIFi und Ri2 variance inflation factor von bi VIFi ≈ 1: Ri2 ≈ 0, Corr{Xi,Xj} ≈ 0 für alle i ≠ j; Es liegt sicher kein Problem mit Multikollinearität vor. VIFi sehr groß für mindestens ein i: Ri2 ≈ 1 Xi ist lineare Funktion der Spalten von X ohne Xi. Es liegt möglicherweise Multikollinearität vor. REGEL: Ist VIFi > 9 so ist mit Multikollinearität durch die Variable Xi in Stichproben mit Umfang n=50 zu rechnen. Hackl, Einführung in die Ökonometrie (10)

Maßnahmen bei Multikollinearität Vergrößern der in die Schätzung einbezogenen Datenmenge Eliminieren der für Multikollinearität verantwortlichen Regressoren Bei gemeinsamen Trends: Spezifikation des Modells in Differenzen statt in Niveauwerten Berücksichtigen von Information über Struktur der Parameter Siehe das Simulationsbeispiel zur Ermittlung der Verteilung der geschätzten Parameter in kleinen Stichproben unter Multikollinearität. (multicoll.prg) Hackl, Einführung in die Ökonometrie (10)