Wiederholung: Einfache Regressionsgleichung

Slides:



Advertisements
Ähnliche Präsentationen
Tutorat Statistik II im SS 09 Multiple Regression
Advertisements

Statistik-Tutorat SS 2009 Christina
Modellprämissen der linearen Regression
Induktive Statistik: Regressionsanalyse
Thema der Stunde I. Einführung in die Varianzanalyse:
Forschungsstatistik I Prof. Dr. G. Meinhardt WS 2006/2007 Fachbereich Sozialwissenschaften, Psychologisches Institut Johannes Gutenberg Universität Mainz.
Forschungsstatistik II Prof. Dr. G. Meinhardt SS 2005 Fachbereich Sozialwissenschaften, Psychologisches Institut Johannes Gutenberg Universität Mainz KLW-24.
Forschungsstatistik II
Forschungsstatistik I
Forschungsstatistik I Prof. Dr. G. Meinhardt WS 2004/2005 Fachbereich Sozialwissenschaften, Psychologisches Institut Johannes Gutenberg Universität Mainz.
Forschungsstatistik II Prof. Dr. G. Meinhardt SS 2006 Fachbereich Sozialwissenschaften, Psychologisches Institut Johannes Gutenberg Universität Mainz KLW-26.
Der Zusammenhang metrischer Merkmale
Mehrfachregressionen
Ein frohes und erfolgreiches Jahr
Quantitative Methoden I
Hypothesen testen: Grundidee
Latente Variablen – Kennwerte zur Beurteilung von Modellen
Was steht in einer ANOVA - Tabelle?
Tutorat II Multiple Korrelation Mediator- Moderatoranalyse
Die Student- oder t-Verteilung
Sportwissenschaftliche Forschungsmethoden SS Statistischer Test.
Tutorium
Tutorium
Tutorium
Unser letztes Tutorium
Tutorium
Tutorium Aufgabe 1 a) E(eIX)= 0 E(eIX)= E(Y-E(YIX)IX) = E(YIX)- E (E(YIX)IX) = E(YIX)- E(YIX) = 0 Im Mittel macht man mit seiner Schätzung keinen.
Unser letztes Tutorium Output – das Modell gut11 gut12 gut21 gut22 gut31 gut32 state1 state2 state3 XI MF
Unser siebentes Tutorium
Unser zehntes Tutorium Materialien unter:
Tutorium Aufgabe 1 Informationen in Designmatrix in: - Darin sind die Prädiktoren enthalten - Aber sagt uns noch mehr! Untersuchungsdesign darin.
5. Abbildende versus erklärende Modelle –
Vorlesung: ANOVA I
Dummy-Variablen Gleicher Lohn bei gleicher Qualifikation: Frauen verdienen im Durchschnitt zwar weniger als Männer, aber ist die Ursache dafür in der Diskriminierung.
Eigenschaften der OLS-Schätzer
Einfache Regressionsgleichung
Probleme der Modellspezifikation
Multikollinearität Wann spricht man von Multikollinearität?
Deutsch als Zweitsprache: Experimentelle Methoden WS 2013/2014
Formulierung und Überprüfung von Hypothesen
Logistische Regression
Kapitel 17 Erwartungen, Wirtschaftsaktivität und Politik
Black Box Algorithmen Hartmut Klauck Universität Frankfurt SS
Beweissysteme Hartmut Klauck Universität Frankfurt WS 06/
Wiederholung BSP 2.1.
Statistik: Mehr zur Regression.
Kapitel 10 Multikollinearität
Modul Statistische Datenanalyse
SStotal SStotal SStreat SSerror SStreat SSerror Biomasse (g) wenig
Kapitel 2 Das klassische Regressionsmodell
Lineare Restriktionen
Kapitel 14 Trends und Unit-root-Tests
Ökonometrie I Modellvergleich (Übersicht) Ökonometrie I2 Vergleich von Modellen Fragestellungen für Modellvergleich 1.Fehlende Regressoren.
STATISIK LV Nr.: 0021 WS 2005/ November 2005.
Kapitel 14 Trends und Unit-root-Tests
1 STATISIK LV Nr.: 0021 WS 2005/ November 2005.
4. Nichtstationarität und Kointegration
Statistik – Regression - Korrelation
Die einfache/multiple lineare Regression
STATISIK LV Nr.: 1852 WS 2005/ Jänner 2006.
Varianzanalyse Teststatistik: F – Test -> vergleich zweier Varianzen -> Grundlage der Varianzanalyse Welche „Varianzen“ werden miteinander verglichen?
setzt Linearität des Zusammenhangs voraus
Die einfache/multiple lineare Regression
Phi-Koeffizient: Alternative Berechnungsart
Statistiken je nach Messniveau
Testtheorie (Vorlesung 13: ) Wiederholung: Richtigstellung
Grafische Darstellung von Gruppenunterschieden.
Außenhandelsbeziehungen zwischen China, USA, EU Makroökonometrie Vorlesung Dr. Oliver Bode.
Die einfache/multiple lineare Regression
Kapitel 2: Testtheorie / Testmodelle
 Präsentation transkript:

Wiederholung: Einfache Regressionsgleichung Interpretation des ß-Koeffizienten: (Da semilog. Spezifizierung) Verlängert sich die Schuldauer um 1 Jahr, steigt der Lohn um 7,6%

Analyseschritte bei der Interpretation von Einfachregressionen 1. Schritt: Interpretation des Regressionskoeffizienten (s.o.) 2. Schritt: Ist der Koeffizient signifikant? Blick auf den t-Test Daumenregel: Betrag des t-Werts größer als 2 entspricht signifikantem Ergebnis 3. Schritt: Wie sieht das Bestimmtheitmaß R2 aus?

Ausführliche Analyse der Regressionsgleichung 2a. t-Test a) Schuljahre: b) const. c: 2b. p-Wert (implizites Signifikanzniveau) = Type-I-Error a) 0.000 hoch signifikant b) 0,000 hoch signifikant

Beispiel für multiple (multivariate) Regression Multiple Regressionsanalysen Beispiel für multiple (multivariate) Regression Aufnahme der Variable Berufserfahrung in die Lohngleichung aus der 2. Sitzung: y =log(Lohn), x1 = Schuljahre , x2 = Berufserfahrung in Jahren y =  + ß1 ·x1 + ß2 ·x2 + u

Multiple Regressionsanalysen

Korrigiertes R2 y =  + ß1 ·x1 + ß2 ·x2 + …+ ßk ·xk +u Gegeben ist ein Regressionsmodell mit k erklärenden Variablen: y =  + ß1 ·x1 + ß2 ·x2 + …+ ßk ·xk +u y =  + ß1 ·x1 + ß2 ·x2 + …+ ßk ·xk + ßk+1 ·xk+1 +u Modell k+1: Frage: Ist das Bestimmtheitsmaß R2 als Gütekriterium geeignet, um die Erklärungskraft beider Modelle zu vergleichen? Antwort: Nein, denn das Bestimmtheitsmaß kann per constructionem durch Hinzufügen weiterer erklärender Variablen nie sinken, auch wenn diese nicht zur Erklärungskraft des Modells beitragen. Vergleich: Rk2 = 0.146701 versus Rk+12 = 0.217034

Korrigiertes R2 Korrigiertes Bestimmtheitsmaß bestraft weitere Aufnahme erklärender Variablen: Erinnerung: Je größer K (Anzahl erklärender Variablen), desto kleiner ist das korrigierte Bestimmtheitsmaß! Beispiel: Daher korr. Bestimmtheitsmaß relevantes Gütekriterium !!

Der F-Test Gegeben ist ein Regressionsmodell mit k Variablen: y =  + ß1 ·x1 + ß2 ·x2 + …+ ßk ·xk +u Die Nullhypothese H0 lautet: H0: ß1 = ß2 =…= ßk =0 Aussage: Sind alle Regressionskoeffizienten (außer  ) simultan gleich Null? (Gesamtsignifikanztest des Modells) Alternativhypothese H1 : Nicht alle Regressionskoeffizienten sind gleichzeitig null.

Der F-Test Teststatistik ist H0 wird abgelehnt, wenn F>F1-  (k, n-k-1) , wobei  das Signifikanzniveau darstellt. Intuition: Je größer der F-Wert, desto größer ist der Anteil der durch das Modell erklärten Varianz im Verhältnis zur Varianz der Residuen.

Der F-Test Fcrit : F0,99 =4,61 siehe Tabelle zum F-Test,  = 0,01) Unser Beispiel: F= 73.46 Fcrit : F0,99 =4,61 siehe Tabelle zum F-Test,  = 0,01) Da F >Fcrit , wird die Nullhypothese H0 abgelehnt. Interpretation: Wenn Nullypothese wahr ist (also das Modell tatsächlich keine Erklärungskraft besitzt), dann wird nur mit 1-prozentiger Wahrscheinlichkeit fälschlicherweise geschlossen, dass es doch Erklärungskraft besitzt.

Wichtige Beziehung zwischen R² und F Bei einer Normalverteilung des Störterms u und bei H0: ß1 = ß2 =…= ßk =0 ist F-verteilt mit k und (n-k-1) Freiheitsgraden. Dies kann auch so geschrieben werden: wobei R²=ESS/TSS Diese zwei Statistiken sind also miteinander verknüpft: • Wenn R²=0, dann F=0. • Je größer R², desto höher der F-Wert • Bei R²=1, F Unser Bsp.:

Multiple Regressionsanalysen y =  + ß1 ·x1 + ß2 ·x2 + u y = Lohn, x1 = Schuljahre , x2 = Berufserfahrung in Jahren Ergebnis der Interpretation des Outputs: ß1 und ß2 sind signifikant von Null verschieden F-Test signifikant Korrigiertes gegenüber Regression aus Sitzung 2 gestiegen

Multiple Regressionsanalysen y =  + ß1 ·x1 + ß2 ·x2 + u y = log(Lohn), x1 = Schuljahre , x2 = Berufserfahrung in Jahren Wie werden Koeffizienten ß1 und ß2 interpretiert? und ß1 gibt an, um wie viele Einheiten sich y verändert, wenn sich x1 um eine Einheit verändert und x2 konstant gehalten wird (=Ertragsrate eines zusätzlichen Schuljahres bei sonst gleicher Berufserfahrung). ß2 gibt an, um wie viele Einheiten sich y verändert, wenn sich x2 um eine Einheit verändert und x1 konstant gehalten wird (= Ertragsrate eines weiteren Jahres Berufserfahrung bei gleichen Schuljahren).

Multiple Regressionsanalysen Bislang: Einfluss der Berufserfahrung auf Lohnsatz linear, denn: mit y =  + ß1 ·x1 + ß2 ·x2 + u ist also konstant (und pos.) Hypothese: Einfluss der Berufserfahrung auf Lohn nimmt mit zunehmender Berufserfahrung ab und wird unter Umständen negativ. Warum? In jungen Jahren wird mehr Humankapital gebildet (je älter man wird, desto schwieriger wird die Bildung von Humankapital, außerdem ist in jungen Jahren das Gehalt noch niedrig und somit die Opportunitätskosten gering!) Außerdem entwertet sich mit zunehmendem Alter das in jungen Jahren gebildete Humankapital.

Multiple Regressionsanalysen Hypothese: nicht-lineare Beziehung zwischen Berufserfahrung x2 und Lohn y y = Lohn x2 = Berufserfahrung

Multiple Regressionsanalysen Wie kann diese Hypothese getestet werden? y =  + ß1 ·x1 + ß2 ·x2 + ß3 ·x22 + u Dann ist der Einfluss von x2 auf y : d.h. durch Aufnahme des quadratischen Terms x22 hängt der Einfluss von x2 auf y vom Niveau von x2 ab! Wir vermuten, dass der Koeffizient ß3 negativ ist , d.h. je größer x2, desto kleiner der Effekt auf y, d.h. desto kleiner ist der Zuwachs von y, wenn x2 sich um eine Einheit verändert.

Multiple Regressionsanalysen

Multiple Regressionsanalysen Ergebnis der Interpretation des Outputs: ß1 , ß2 sowie ß3 sind signifikant von Null verschieden d.h. Hypothese eines nicht-linearen Verlaufs wird nicht abgelehnt F-Test signifikant Korrigiertes gegenüber Regression y =  + ß1 ·x1 + ß2 ·x2 + u gestiegen.