Probleme der Modellspezifikation

Slides:



Advertisements
Ähnliche Präsentationen
TECHNISCHE UNIVERSITÄT DARMSTADT Naive Bayes for Ranking
Advertisements

Induktive Statistik: Regressionsanalyse
Seminar „Extrapolationsmethoden für zufällige Felder“
Gliederung Vertrauensintervalle Arten von Hypothesen
Forschungsstatistik II Prof. Dr. G. Meinhardt SS 2005 Fachbereich Sozialwissenschaften, Psychologisches Institut Johannes Gutenberg Universität Mainz KLW-24.
Forschungsstatistik II
Forschungsstatistik II Prof. Dr. G. Meinhardt SS 2006 Fachbereich Sozialwissenschaften, Psychologisches Institut Johannes Gutenberg Universität Mainz KLW-26.
Forschungsstatistik II Prof. Dr. G. Meinhardt SS 2006 Fachbereich Sozialwissenschaften, Psychologisches Institut Johannes Gutenberg Universität Mainz KLW-18.
Der Zusammenhang metrischer Merkmale
Mehrfachregressionen
Anwendungsseminar: Kausale Modellbildung
Quantitative Methoden I
Hypothesen testen: Grundidee
2. Univariate Regressionsanalyse 2.1 Das statische Regressionsmodell
Latente Variablen – Kennwerte zur Beurteilung von Modellen
Tutorat Deskriptive Statistik und Wahrscheinlichkeitstheorie
Strukturgleichungsmodelle
Konzentrationsmaße (Gini-Koeffizient, Lorenz-Kurve) Konzentrationsmaße Kennwert für die wirtschaftliche Konzentration Typische Beispiele: Verteilung des.
4. Markov-Ketten 4.1. Übergangsmatrizen
Datenmatrix. Datentabelle für 2 Merkmale Kontingenztafel der absoluten Häufigkeiten.
Datenmatrix.
Korrelationskoeffizient nach Bravais-Pearson Eigenschaften X und Y unabhängig.
Maximum-Likelihood-Schätzer ( diskreter Fall) Likelihood-Funktion mit oder M-L-Schätzer.
Allgemeine Literatur Fricke & Treinies (1985): Einführung in die Metaanalyse Schwarzer (1989): Meta-Analysis Programs Gutes Manual! Beelmann & Bliesener.
Tutorium
Tutorium
Tutorium
Tutorium
Unser siebentes Tutorium
Vorlesung: ANOVA I
Einführung in die Metaanalyse
Dummy-Variablen Gleicher Lohn bei gleicher Qualifikation: Frauen verdienen im Durchschnitt zwar weniger als Männer, aber ist die Ursache dafür in der Diskriminierung.
Eigenschaften der OLS-Schätzer
Einfache Regressionsgleichung
Multikollinearität Wann spricht man von Multikollinearität?
Wiederholung: Einfache Regressionsgleichung
Externe Bewertung in IB-Biologie
Kapitel 15 Instrumentvariablen- Schätzung
Einführung in die beurteilende Statistik
Logistische Regression
Überblick Statistik Deskriptive Statistik=beschreibende Statistik
Statistik: Mehr zur Regression.
Kapitel 15 Instrumentvariablen- Schätzung
Kapitel 10 Multikollinearität
Kapitel 9 Analyse der Modellstruktur Hackl, Einführung in die Ökonometrie 2 Rekursive OLS-Schätzung Spezifiziertes Modell: y = X + u y, u:
Kapitel 2 Das klassische Regressionsmodell
Lineare Restriktionen
Kapitel 18 Dynamische Modelle: Schätzen der Parameter
Missspezifikation: Konsequenzen und Tests
Kapitel 19 Kointegration
Kapitel 16 Ökonometrische Modelle
Ökonometrie I Variablenauswahl.
Kapitel 11 Heteroskedastizität
Einfache und multiple Regression
Ökonometrie I Modellvergleich (Übersicht) Ökonometrie I2 Vergleich von Modellen Fragestellungen für Modellvergleich 1.Fehlende Regressoren.
Kapitel 18 Dynamische Modelle: Schätzen der Parameter.
STATISIK LV Nr.: 0021 WS 2005/ November 2005.
Kapitel 11 Heteroskedastizität
1 STATISIK LV Nr.: 0021 WS 2005/ November 2005.
Regression Maria Morozova Lisa Ochsenhofer. Einführung Francis Galton 1886 Größe von Vater und Sohn Regression zum Mittelwert.
Statistik – Regression - Korrelation
Die einfache/multiple lineare Regression
Die einfache/multiple lineare Regression
Testtheorie (Vorlesung 13: ) Wiederholung: Richtigstellung
Geoinformationssysteme
 Gegenstandsbereich der Testtheorie: Analyse der Charakteristika von Tests:  Güte von Tests.  Struktur von Tests.  Schwierigkeit von Tests.  Gruppenunterschiede.
Klasse Klassenzufriedenheit Strukturmerkmale (Schultyp, Anteil Knaben, Anteil plagender Kinder) Eltern Einstellungen (Erwartungen,Attribution) Verhalten.
Außenhandelsbeziehungen zwischen China, USA, EU Makroökonometrie Vorlesung Dr. Oliver Bode.
Exkurs: Chi-quadrat und Modellgüte 1. ist ein Distanzmaß, welches die Distanz zwischen Modellvorhersage und Daten misst.  Je kleiner desto besser ist.
 Präsentation transkript:

Probleme der Modellspezifikation Wichtige Spezifikationsprobleme: Nicht-Berücksichtigung einer relevanten Variable Berücksichtigung einer überflüssigen Variable Falsche funktionale Form der Schätzgleichung

Probleme der Modellspezifikation 1. Nicht-Berücksichtigung einer relevanten Variable, die eigentlich in der Schätzgleichung sein sollte: 1. y=α+β1x1+ β2x2+u aber man berücksichtigt nicht, dass x2 auch eine Rolle spielt und schätzt: 2. y=α+β1x1+ u  es kommt zu einer Verzerrung Konsequenzen: s.e. und t-Test sind ungültig

Probleme der Modellspezifikation y=α+β1x1+ β2x2 +β3x3+u Lohn= α+ β1Schuljahre + β2Berufserf + β3Betriebszug + u

Probleme der Modellspezifikation Wirkungen der Nichtberücksichtigung einer relevanten Variablen: 1.Beispiel: 1. Wenn Betriebszug. fehlt, dann entsteht eine Verzerrung: E(b2) =β2+Verzerrung 2. b2 = -0,0003357, bei einer Schätzung von x1, x2 und x3 b2 = 0,0058886 bei einer Schätzung von x1, x2 Ergebnisse: - b2 ist nach oben verzerrt bei einer Schätzung ohne x3 - Überschätzung des Einflusses der erklärenden Variable - Grund: positive Korrelation zwischen x2 und x3 Verzerrung hängt ab von der Korrelation zwischen x2 und x3. Je höher die Korrelation, desto größer die Verzerrung, d.h. keine Verzerrung bei einer Korrelation von 0.

Probleme der Modellspezifikation y=α+β1x1+ β2x2 +β3x3+β4x4+u Lohn= α+ β1Schuljahre + β2Berufserf + β3Betriebszug + β4West+ u

Probleme der Modellspezifikation 2.Beispiel: 1. Fehlt die Dummyvariable „West“ in der Spezifikation, so entsteht folgende Verzerrung: E(b1) =β1+Verzerrung 2. b1 = 0,0647688 , bei einer Schätzung von x1, x2, x3 und x4 b1 = 0,059183 , bei einer Schätzung von x1, x2 und x3 Ergebnisse: - b1 ist nach unten verzerrt - Unterschätzung des Einflusses der erklärenden Variable - Grund: negative Korrelation zwischen x1 und x4 (Westdeutsche haben durchschnittlich weniger Schuljahre als Ostdeutsche)

Probleme der Modellspezifikation Ausweg für das Problem fehlender Variablen bei fehlender Datenverfügbarkeit: Proxy Variable. Idee: Es ist besser eine fehlende Variable durch eine Ersatzvariable, für die Daten vorliegen, zu schätzen als die Variable vollständig zu ignorieren. Beispiel: Fähigkeit eines Arbeitnehmers ist schwer zu messen. Proxy ist z.B. Bildungsabschluss Wahres ökonometrisches Modell: y=α+β1x1+ β2x2 +…+βkxk+u Es liegen aber keine Daten für x1 vor, sondern nur für z.  x1=λ+μz Annahme: Zwischen z und x1 besteht eine lineare Beziehung. Neuformulierung des Modells: y=α+β1(λ+μz)+ β2x2 +…+βkxk+u =α+β1λ+ β1μz+ β2x2 +…+βkxk+u

Probleme der Modellspezifikation Eigenschaften von Proxies: 1. Die Koeffizienten von x2,...,xk werden gleich sein, als ob x1 anstelle von z eingesetzt worden wäre. 2. Der Standardfehler und die t-Statistik der Koeffizienten x2,...,xk werden gleich sein, als ob x1 anstelle von z eingesetzt worden wäre. 3. R2 wird gleich sein, als ob x1 anstelle von z eingesetzt worden wäre. 4. Der Koeffizient von z wird ein Schätzer von 1 sein. 5. Jedoch ist die t-Statistik für z die gleiche wie die, die man für x1 erhalten hätte, so dass man die Signifikanz von x1 beurteilen kann, selbst wenn man nicht in der Lage ist, den Koeffizienten zu schätzen.

Probleme der Modellspezifikation 2. Effekt der Schätzung einer überflüssigen Variablen Wahres ökonometrisches Modell: y=α+β1x1+u Schätzung: y=α+β1x1+ β2x2 +u Ergebnis: Koeffizienten sind unverzerrt, aber ineffizient. Dichte-funktion nutzt die Information, dass nutzt nicht die Information, Quelle: Dougherty

3. Falsche funktionale Form der Schätzgleichung Probleme der Modellspezifikation Gefahr: Alle Variablen, die zur Verfügung stehen, werden in die Regressionsanalysen einbezogen und alle signifikanten Variablen werden als relevant erklärt. Weshalb ist das gefährlich? -> Theorie muss die Auswahl der Variablen leiten! Zur Beurteilung der Relevanz der Variablen werden t-Werte, F-Test und herangezogen und die Störgrößen untersucht. 3. Falsche funktionale Form der Schätzgleichung Unter Umständen kann auch die funktionale Form der Gleichung falsch sein:

Probleme der Modellspezifikation Einfacher Ramsey Reset Test: RESET= Regression Specification Error Test y=α+β1x1+u Aus dieser Schätzgleichung erhalten wir einen Schätzwert ŷ Neue Spezifikation (fiktives Beispiel) ŷ² und ŷ³ enthalten nicht-lineare Funktionen von x1 Vergleich der R² der beiden Schätzungen Ist der berechnete F-Wert signifikant, kann die Nullhypothese (= altes Modell ist nicht fehlspezifiziert) verworfen werden. (Intuition: Je größer Term im Zähler, desto besser scheint neues Modell y zu erklären)

Probleme der Modellspezifikation Beispiel: y=166.467+19993x1 (19.021) (3.066) R2=0.8409 2. y=2140.7723 + 476.6987x1 - 0.09189ŷ² + 0.000118ŷ³ (132.0044) (33.3951) (0.00620) (0.0000074) R2=0.9983 3. Da F > F crit wird die Nullhypothese verworfen.  altes Modell ist fehlspezifiziert.

Probleme der Modellspezifikation Weitere Spezifikationstests (werden hier nur nachrichtlich genannt) Likelihood Ratio Test Wald Test Lagrange Multiplier Test Hausman Test