Multikollinearität Wann spricht man von Multikollinearität?

Slides:



Advertisements
Ähnliche Präsentationen
T - Test Prüfung des Mittelwerteunterschieds bei abhängigen und unabhängigen Stichproben.
Advertisements

Tutorat Statistik II im SS 09 Mediator- & Moderatoranalyse
Statistik-Tutorat SS 2009 Christina
Modellprämissen der linearen Regression
Induktive Statistik: Regressionsanalyse
Regression und Korrelation
Gliederung Vertrauensintervalle Arten von Hypothesen
Forschungsstatistik II
Forschungsstatistik II
Forschungsstatistik II Prof. Dr. G. Meinhardt SS 2005 Fachbereich Sozialwissenschaften, Psychologisches Institut Johannes Gutenberg Universität Mainz KLW-24.
Forschungsstatistik I Prof. Dr. G. Meinhardt WS 2004/2005 Fachbereich Sozialwissenschaften, Psychologisches Institut Johannes Gutenberg Universität Mainz.
Forschungsstatistik I Prof. Dr. G. Meinhardt WS 2004/2005 Fachbereich Sozialwissenschaften, Psychologisches Institut Johannes Gutenberg Universität Mainz.
Forschungsstatistik II Prof. Dr. G. Meinhardt SS 2006 Fachbereich Sozialwissenschaften, Psychologisches Institut Johannes Gutenberg Universität Mainz KLW-26.
Forschungsstatistik II Prof. Dr. G. Meinhardt SS 2006 Fachbereich Sozialwissenschaften, Psychologisches Institut Johannes Gutenberg Universität Mainz KLW-18.
Der Zusammenhang metrischer Merkmale
Mehrfachregressionen
Hypothesen testen: Grundidee
2. Univariate Regressionsanalyse 2.1 Das statische Regressionsmodell
K. Desch - Statistik und Datenanalyse SS05
Latente Variablen – Kennwerte zur Beurteilung von Modellen
Tutorat Deskriptive Statistik und Wahrscheinlichkeitstheorie
Strukturgleichungsmodelle
Konfidenzintervalle Intervallschätzung
M-L-Schätzer Erwartungswert
Konfidenzintervalle Intervallschätzung Jeder Beobachtung wird ein Intervall C( ) der reellen Zahlen zugeordnet Niveau Dabei ist die Wahrscheinlichkeit,
Maximum-Likelihood-Schätzer ( diskreter Fall) Likelihood-Funktion mit oder M-L-Schätzer.
Tutorium
Tutorium
Tutorium
Tutorium
Tutorium Aufgabe 1 a) E(eIX)= 0 E(eIX)= E(Y-E(YIX)IX) = E(YIX)- E (E(YIX)IX) = E(YIX)- E(YIX) = 0 Im Mittel macht man mit seiner Schätzung keinen.
Unser siebentes Tutorium
Unser zehntes Tutorium Materialien unter:
Tutorium Aufgabe 1 Informationen in Designmatrix in: - Darin sind die Prädiktoren enthalten - Aber sagt uns noch mehr! Untersuchungsdesign darin.
5. Abbildende versus erklärende Modelle –
Dummy-Variablen Gleicher Lohn bei gleicher Qualifikation: Frauen verdienen im Durchschnitt zwar weniger als Männer, aber ist die Ursache dafür in der Diskriminierung.
Eigenschaften der OLS-Schätzer
Einfache Regressionsgleichung
Probleme der Modellspezifikation
Wiederholung: Einfache Regressionsgleichung
Kapitel 15 Instrumentvariablen- Schätzung
Einführung in die beurteilende Statistik
Partielle Autokorrelation
Ausgleichungsrechnung II
Chi Quadrat Test Tamara Katschnig.
Statistik: Mehr zur Regression.
Kapitel 10 Multikollinearität
SStotal SStotal SStreat SSerror SStreat SSerror Biomasse (g) wenig
STATISIK LV Nr.: 1375 SS April 2005.
Kapitel 2 Das klassische Regressionsmodell
Lineare Restriktionen
Kapitel 18 Dynamische Modelle: Schätzen der Parameter
Kapitel 19 Kointegration
Kapitel 14 Trends und Unit-root-Tests
Einfache und multiple Regression
STATISIK LV Nr.: 0021 WS 2005/ November 2005.
Kapitel 14 Trends und Unit-root-Tests
1 STATISIK LV Nr.: 0021 WS 2005/ November 2005.
Forschungsmethodik II, SS 2010 Vesna Pavlovski & Julia Pichlhöfer
Tutorium Statistik II Übung IV Philipp Schäpers Mi – 11.45
Statistik – Regression - Korrelation
Die einfache/multiple lineare Regression
STATISIK LV Nr.: 1852 WS 2005/ Jänner 2006.
Stochastik ganz kurz Beispiel diskret Würfelwurf Beispiel stetig
setzt Linearität des Zusammenhangs voraus
Die einfache/multiple lineare Regression
Varianzanalyse und Eta²
Faktorenanalyse Tamara Katschnig.
Statistiken je nach Messniveau
Außenhandelsbeziehungen zwischen China, USA, EU Makroökonometrie Vorlesung Dr. Oliver Bode.
 Präsentation transkript:

Multikollinearität Wann spricht man von Multikollinearität? Wenn zwei oder mehrere erklärende Variablen in einem linearen Zusammenhang zueinander stehen. Dabei ist die zugrundeliegende Frage nicht, ob Multikollinearität besteht oder nicht, sondern wie stark diese ausgeprägt ist. Da sich Multikollinearität auf die nicht stochastischen exogenen Variablen bezieht, ist sie eine Eigenschaft der Stichprobe und nicht der Grundgesamtheit. Einige Faustregeln zur Erkennung von Multikollinearität: Hohes R2, bei gleichzeitig insignifikanten t-Werten Bei zwei erklärenden Variablen: der Korrelationskoeffizient ist hoch, d.h. > 0.8 Bei mehr als zwei erklärenden Variablen: Überprüfung der partiellen Korrelationskoeffizienten Um in einer Mehrfachregression zu prüfen, welche Variablen sich wie beeinflussen, kann eine Hilfsregression durchgeführt werden

Multikollinearität Beispiel : Hohe Korrelation zwischen erklärenden Variablen x1 und x2 kann ein Indiz für Multikollinearität sein Sichtbar an: r1,2  1 (Korrelationskoeffizient misst die lineare Abhängigkeit zwischen zwei exogenen Variablen; hier = 0,977, d.h. hoch)

Multikollinearität Eigenschaften: Perfekte Multikollinearität liegt fast nie vor Wird Multikollinearität „diagnostiziert“, handelt es sich dabei meistens um sog. imperfekte Multikollinearität, d.h. den erklärenden Daten – exogenen Variablen – mangelt es an Informationsgehalt Multikollinearität bedeutet nicht zwingend schlechte Datenqualität, wenn z.B. die Störgröße einen geringen Einfluss hat

Multikollinearität Je höher die Multikollinearität, umso höher die Varianz der Schätzer Bei Regression mit zwei erklärenden Variablen lautet Varianz von b1: Hohe Multikollinearität kann durch große Variation s211 oder durch geringe Störgrößenvarianz 2 kompensiert werden:

Multikollinearität Allgemein gilt: Genauigkeit eines Schätzers ist um so größer (Varianz und Standardfehler umso kleiner), je größer die Varianz der erklärenden Variablen ist.

Multikollinearität Multikollinearität kann nicht nur in einer Zweifach-, sondern auch in einer Mehrfachregression vorliegen: y =  +... + ß1 ·x1 + ß2 ·x2 + ß3 ·x2 2 + ß4 ·x4 + u, x1 = Schuljahre, x2 = Berufserfahrung, x3 = x2 2 , x4 = Alter Wenn der Korrelationskoeffizient in einer Regression mit zwei exogenen Variablen ein Indikator für Multikollinearität war, ist es nun das Bestimmtheitsmaß R24_123...n einer sog. Hilfsregression in Falle von Mehrfachregressionen, wobei n für die mögliche Anzahl der exogenen Variablen steht: x4 =  +... + ß1 ·x1 + ß2 ·x2 + ß3 ·x2 2 + u, x4 = Alter Interpretation: R24_123...n misst die Erklärungskraft der Variablen x1 , x2 usw. für die Werte der Variable x4 , wobei hohes R24_123..n hohe Multikollinearität signalisiert Analoge Berechnung der Bestimmtheitsmaße für alle exogenen Variablen der Mehrfachregression

Multikollinearität Beispiel : r4_12...n = 0.999787

Multikollinearität Praktische Konsequenzen der Multikollinearität: Trotz der BLUE-Eigenschaft, besitzen die OLS-Schätzer große Varianzen sowie Kovarianzen, was ihre Schätzgenauigkeit beeinträchtigt Die hohen Varianzen bzw. Kovarianzen führen zu breiten Konfidenzintervallen, und somit zu - einer höheren Akzeptanz der Nullhypothese: Ho=0 , d.h. Irrtumswahrscheinlichkeit  für den Fehler 2. Art – falsche Hypothese wird nicht verworfen – steigt - insignifikanten t-Werte, trotz hohen Bestimmtheitsmaßes R2

Multikollinearität Darstellung von Varianzen und Kovarianzen einzelner Variablen einer Zweifachregression: F D C G E L I H K J A B  Überschneidungen E und F: geringe Multikollinearität Lediglich C und D liefern Informationen für die Parameterschätzung Informationen in E sind den exogenen Variablen nicht individuell zurechenbar: gemeinsamer Einfluss G ist Variation der endogenen Variable, die nicht durch die exogenen Variablen erklärt werden kann: Einfluss der Störgrößen  Keine Überschneidung zwischen den Variationen der zwei exogenen Variablen: Variablen unabhängig, KEINE Multikollinearität  Überschneidungen mit der endogenen Variable (A und B) dienen zu Parameterschätzung  Überschneidungen J und K zwischen den Variationen der exogenen Variablen J > E , aber L < G: d.h. stärkere Multikollinearität, ABER höhere Erklärungsgüte H und I liefern Informationen für die Parameterschätzung

Multikollinearität Veranschaulichung der Folgen anhand der Variablen Berufserfahrung und Alter y =  +... + ß1 ·x1 + ß2 ·x2 + ß3 ·x2 2 + ß4 ·x4 + u, x1 = Schuljahre, x2 = Berufserfahrung, x3 = x2 2 , x4 = Alter Schwierigkeiten, getrennte Effekte beider Variablen nachzuweisen ungenaue Schätzer, d.h. sehr hohe Varianz niedrige t-Werte, insignifikante Koeffizienten

Multikollinearität

Multikollinearität Interpretation des Outputs, bei dem zwei erklärende Variablen – Alter und Berufserfahrung - hoch korreliert sind: Die Koeffizienten für die korrelierten Variablen sind nicht signifikant von Null verschieden, da die Werte der t-Statistik I t I < 2 sind: I tAlter I = 1,06 und I tBerufserf I = 1,38 Auch haben die Variablen Alter und Berufserfahrung vergleichsweise hohe Standardfehler Die -Fehlerwahrscheinlichkeit ist mit Prob.Alter=29% und Prob.Berufserf=17% hoch Insignifikant Lösungen?

Multikollinearität 1. Lösungsansatz: Erhöhung der Anzahl der Observationen - Zeitreihen: z.B. Quartalsdaten statt Jahresdaten - Querschnitt: z.B. OECD statt G7 - Paneldaten 2. Lösungsansatz: Erhöhung der Varianz der exogenen Variablen 3. Lösungsansatz: Indexbildung für ähnliche exogene Variablen 4. Lösungsansatz: Entfernen einer der korrelierten Variablen, kann allerdings auch zu Verzerrung der Schätzung führen, falls die exogene Variable trotz Korrelation einen großen Erklärungsgehalt hat