Ökonometrie und Statistik Mehrfachregression

Slides:

Advertisements

Ähnliche Präsentationen

Modellprämissen der linearen Regression

Advertisements

Aufgabe Analyse (Friedman-Test) von letzter Stunde wiederholen

Mehrfachregressionen

Hypothesen testen: Grundidee

2. Univariate Regressionsanalyse 2.1 Das statische Regressionsmodell

Effektgrößen, Kontraste & Post-hoc-Tests

Aufgabe Der Zusammenhang zwischen einem traumatischen Erlebnis und der Entstehung einer PTBS wird von mehreren Variablen …………….: Copingstrategien, Kontrollüberzeigung,

Was steht in einer ANOVA - Tabelle?

TESTS. Worum es geht Man möchte testen, ob eine bestimmte Annahme (Hypothese) über Parameter der Realität entspricht oder nicht. Beobachtung (Stichprobe)

Tutorium Aufgabe 1 Informationen in Designmatrix in: - Darin sind die Prädiktoren enthalten - Aber sagt uns noch mehr! Untersuchungsdesign darin.

Vorlesung: Biometrie für Studierende der Veterinärmedizin

Vorlesung: ANOVA I

Multikollinearität Wann spricht man von Multikollinearität?

Wiederholung: Einfache Regressionsgleichung

Chi Quadrat Test Tamara Katschnig.

Globale Interpolations- und Prädiktionsverfahren

Statistik: Mehr zur Regression.

Kapitel 10 Multikollinearität

SStotal SStotal SStreat SSerror SStreat SSerror Biomasse (g) wenig

1 STATISIK LV Nr.: 0021 WS 2005/ November 2005.

Forschungsmethodik II, SS 2010 Vesna Pavlovski & Julia Pichlhöfer

STATISIK LV Nr.: 1852 WS 2005/ Jänner 2006.

Die einfache/multiple lineare Regression

Der Binomialtest Man habe einen wahren Anteil P. Kann man aufgrund von p sagen, daß in der Population tatsächlich der Anteil P zugrunde liegt? [Beispiele]

Signifikanzprüfung Peter Wilhelm Herbstsemester 2015.

Grafische Darstellung von Gruppenunterschieden.

Außenhandelsbeziehungen zwischen China, USA, EU Makroökonometrie Vorlesung Dr. Oliver Bode.

Kapitel 2: Testtheorie / Testmodelle  Multivariate (p-variate) Normalverteil- ung :  Mittelwertstruktur: p Mittelwerte  Kovarianzstruktur: p·(p+1)/2.

SPSS – Kurs Lösungen. Lösung 1 2) z.B. über Transformieren  Werte in Fällen zählen dann noch bei der Schalt- fläche „Werte definieren“ die „1“ angeben.

Ein Dozent hat mittels eines Fragebogens die Körpergröße seiner Studenten festgestellt. Anhand der erfassten Daten weiß er, dass der kleinste Student 158.

Exkurs: Chi-quadrat und Modellgüte 1. ist ein Distanzmaß, welches die Distanz zwischen Modellvorhersage und Daten misst.  Je kleiner desto besser ist.

/ SES.125 Parameterschätzung

Multivariate Analysemethoden Johannes Gutenberg Universität Mainz

7.2 Theoretische Kennwerte

Multivariate Analysemethoden Johannes Gutenberg Universität Mainz

Töne, Akkorde und Tonleitern

Analysen univariater Stichproben

Die einfache/multiple lineare Regression

Kovarianz, Korrelation, (lineare) Regression

Multivariate Analysemethoden Johannes Gutenberg Universität Mainz

Ökonometrie und Statistik Datamining und Big Data anhand von Fallbeispielen Dr. Bertram Wassermann.

Die PowerPoint-Arbeitsfläche

Ökonometrie und Statistik Logistische Regression

Ökonometrie und Statistik Wiederholung

Kapitel 2: Testtheorie / Testmodelle

Ökonometrie und Statistik Unabhängigkeitstest, c² - Test (Chi Quadrat Test) Dr. Bertram Wassermann.

Vergleich Eindimensionaler Stichproben

10 Statistisches Schätzen

12 Das lineare Regressionsmodell

Forschungsstrategien Johannes Gutenberg Universität Mainz

Ökonometrie und Statistik Wiederholung

Ökonometrie und Statistik Einfach Regression

Ökonometrie und Statistik Varianzanalyse Beispiele

Ökonometrie und Statistik Unabhängigkeitstest, c² - Test (Chi Quadrat Test) Dr. Bertram Wassermann.

Ökonometrie und Statistik Prüfungsthemen

Kapitel 2: Testtheorie / Testmodelle

Die Varianzanalyse Jonathan Harrington library(ggplot2) library(dplyr)

Konfidenzintervalle und Tests auf Normalverteilung

Ökonometrie und Statistik Mehrfachregression

ANOVA für unabhängige Daten.

Ökonometrie und Statistik Logistische Regression

Ökonometrie und Statistik Varianzanalyse Beispiele

Fortgeschrittene statistische Methoden SS2020

Multivariate Analysemethoden Johannes Gutenberg Universität Mainz

Ökonometrie und Statistik Unabhängigkeitstest, c² - Test (Chi Quadrat Test) Dr. Bertram Wassermann.

Ökonometrie und Statistik Wiederholung

Präsentation transkript:

Ökonometrie und Statistik Mehrfachregression Bertram Wassermann

Übersicht I Lineare Regression II Beispiel: Regression mit SPSS III Beispiel: Käse (mehrfach, log Transformation, Modellauswahl) IV Beispiel: Bremsweg (einfach, nicht-linear, sachliche Widersprüche, Berichtsbeispiel) V Beispiel: Biometrische Daten (mehrfach, Kolliniarität) VI Beispiel: Alkohol und Tabak (einfach, Ausreißer, Indikatorvariable) VII Beispiel: Geschirr polieren (mehrfach, mehrere Indikatorvariable, log Transformation)

Lineare Regression: Modellgleichung Bivariat: Multivariat: Zugehöriges Modell: Annahme bei Hochrechnung einer Stichprobe auf ihre Grundgesamtheit: Störterme sind unabhängig und Matrixschreibweise: y = X b X …Design-Matrix

Lineare Regression: R² . R: multiple Korrelation zwischen allen Variablen im Modell. (Bei einer Einfach Regression ist es der Korrelationskoeffizient.) . R²: multiples Bestimmtheitsmaß, ein Maß für die Güte des Modells. Je näher sein Wert bei 1 liegt desto besser. . Korrigiertes R²: gleiche Funktion wie R², berücksichtig aber die Anzahl der erklärenden Variablen im Modell. (Je mehr Variablen im Modell, desto größer wird R²)

Lineare Regression: Varianzzerlegungseigenschaft Gesamt-quadratsumme: Erklärte Quadratsumme: Nicht erklärte Quadratsumme: Varianzzerlegungseigenschaft: SQT = SQE + SQR Für das multiple Bestimmtheitsmaß gilt:

Lineare Regression: Der F - Test Test, ob wenigstens ein Regressor einen Einfluss auf die abhängige Variable hat: H0: b1 = b2 = …= bk = 0, H1: bi ≠ 0 für mindestens einen Regressor Teststatistik: folgt einer F-Verteilung (Siehe Buch S. 207) k und n-k-1 sind die so genannten Freiheitsgrade

Lineare Regression: Koeffizienten Beachten Sie: Testen und Signifikanz machen nur dann sind, wenn die Daten einer Zufallsstichprobe entstammen, und die Residuen bestimmte Kriterien erfüllen. . Modell: Liste der im Modell enthaltenen Variablen . B: Der Koeffizient des linearen Modells zur Variable, die sich in der selben Zeile befindet. . Standardfehler: Der zum Koeffizienten gehörige Standardfehler (sbi ) . T: Teststatistik für den Test, dass der betroffene Parameterwert von 0 verschieden ist. T = bi / sbi . Signifikanz: Ist dieser Wert kleiner oder gleich dem vorab gewählten a, dann wird die Nullhypothese des T - Tests (H0: Der Wert des Koeffizienten in der Grundgesamtheit ist gleich 0.) verworfen.

Lineare Regression: Modellkritik Zur Modellkritik und Modellauswahl betrachten Sie: Wert von R²: Grundsätzlich gilt, groß ist gut. Wert der F-Statistik: Die Teststatistik des F-Tests sollte so groß sein, dass die Null-Hypothese verworfen werden kann. Auch hier gilt, groß ist gut. Allerdings, wenn man Variablen ins Modell aufnimmt, wird R² zumindest tendenziell größer, die Teststatistik des F-Test möglicherweise kleiner. Es gilt die richtige Balance zu finde. Wert der Koeffizienten: Wie groß ist der Einfluss der Variablen auf die Prognose und somit auf das Modell? (z.B. Vergleiche Prognose mittels erstem und dritten Quartil einer Variable) T-Test: Ist der Koeffizient signifikant von 0 verschieden Residuen (Linearität): Kein Restmuster, und wenn Restmuster -> Untersuchung, Erklärung, Begründung, … Residuen (Hochrechnung): Normalverteilt, unabhängig, Varianz konstant (z.B. kein Trichter) Ausreißer: Vorsicht, es gibt zwei Arten, solche, die nicht ins Muster passen, und solche, die so gut ins Muster passen, dass sie eigentlich hauptsächlich für das gute R² verantwortlich sind. (Einfluss einzelner Datenpunkte auf die Koeffizientenschätzer!) Sachliche Plausibilität: Und immer gilt, das beste Modell ist absolut wertlos, wenn es Werte prognostiziert, die bestehendem, sachlichem Wissen widersprechen.

Übersicht I Lineare Regression II Beispiel: Regression mit SPSS III Beispiel: Käse (mehrfach, log Transformation, Modellauswahl) IV Beispiel: Bremsweg (einfach, nicht-linear, sachliche Widersprüche, Berichtsbeispiel) V Beispiel: Biometrische Daten (mehrfach, Kolliniarität) VI Beispiel: Alkohol und Tabak (einfach, Ausreißer, Indikatorvariable) VII Beispiel: Geschirr polieren (mehrfach, mehrere Indikatorvariable, log Transformation)

Übersicht I Beispieldaten II Univariate Analysen und Grafik III Bivariate Analysen und Grafik IV Regression V Regression: ANOVA Tabelle VI Regression: Tabelle der Koeffizienten VII Regression: Residuen Plots

Beispieldaten Anz Mitarbeiter Minuten Anz_Standorte_grp 2 161 4 182 2 161 4 182 1701 1 227 2187 3 459 922 333 5 264 318 1504 194 266 285 195 651 53 135 834 6 876 180 1062 177 960 7 1423 1075 175 1290 752 1948 348 2410 247 220 758 1199 2244 480 16 10 2043 582 299 8 1264 1189 586 1567 1875 268 527 110 383 14 3262 554 127 1636 57 78 313 355 27 312 1081 729

Übersicht I Beispieldaten II Univariate Analysen und Grafik III Bivariate Analysen und Grafik IV Regression V Regression: ANOVA Tabelle VI Regression: Tabelle der Koeffizienten VII Regression: Residuen Plots

SPSS: Univariate Analysen, Kennzahlen Menü: . Analysieren > Deskriptive Statistiken > Deskriptive Statistiken . Variablen auswählen . Optionen… wählen . OK Auf was Sie achten sollten: Verteilung der Daten: eng, breit, schief, verzerrt, wohin? Wertebereich: in welchem Bereich liegen die Daten, in welchem liegen sie hauptsächlich? Macht das Sinn?

SPSS: Univariate Analysen, Boxplot Menü: . Grafiken > Boxplot… . Im erscheinenden Optionen Fenster sollte Einfach Auswertung über verschiedene Variablen ausgewählt sein. . Definieren . Variablen auswählen . OK Auf was Sie achten sollten: Verteilung der Daten: eng, breit, schief, verzerrt, wohin? Wertebereich: in welchem Bereich liegen die Daten, in welchem liegen sie hauptsächlich? Macht das Sinn? Ausreißer? Warum?

SPSS: Univariate Analysen, Histogramm Menü: . Grafiken > Histogramm… . Man muss die Variablen einzeln wählen . OK Auf was Sie achten sollten: Verteilung der Daten: eng, breit, schief, verzerrt, wohin? Wertebereich: in welchem Bereich liegen die Daten, in welchem liegen sie hauptsächlich? Macht das Sinn? Ausreißer? Warum? Vorsicht! SPSS bildet Klassen automatisch.

Übersicht I Beispieldaten II Univariate Analysen und Grafik III Bivariate Analysen und Grafik IV Regression V Regression: ANOVA Tabelle VI Regression: Tabelle der Koeffizienten VII Regression: Residuen Plots

SPSS: Bivariate Analysen, Streudiagramm einfach Menü: . Grafiken > Streudiagramm… . Im erscheinenden Optionen Fenster sollte Einfach ausgewählt sein. . Definieren . X und Y Variable auswählen . OK Beantworten Sie die vier Fragen zum Streudiagramm.

SPSS: Bivariate Analysen, Streudiagramm Matrix Menü: . Grafiken > Streudiagramm… . Im erscheinenden Optionen Fenster Matrix auswählen. . Definieren . Mindestens 3 Variablen auswählen . OK Gehen Sie die vier Fragen zum Streudiagramm für jedes der Diagramme durch. Überlegen Sie, welche Variablen einen stärkeren und welche einen schwächeren Zusammenhang haben.

SPSS: Bivariate Analysen, Korrelationsmatrix Menü: . Analysieren > Korrelation > Bivariat … . Im erscheinenden Optionen Fenster die gewünschten Variablen auswählen. . Beachten Sie, ob folgende Optionen gewählt sind: Korrelationskoeffizienten: Pearson Signifikante Korrelationen markieren . Abschließen mit OK Beachten Sie, mit welchen Variablen die Zielvariable stark korreliert ist und mit welchen nicht. Merken Sie sich aber auch, welche der erklärenden Variablen miteinander stark korreliert sind.

Übersicht I Beispieldaten II Univariate Analysen und Grafik III Bivariate Analysen und Grafik IV Regression V Regression: ANOVA Tabelle VI Regression: Tabelle der Koeffizienten VII Regression: Residuen Plots

SPSS: Lineare Regression Menü: . Analysieren > Regression > Linear… . Die abhängige Variable wählen . Eine oder mehrere unabhängige Variablen wählen . Stellen Sie sicher, dass als Methode: Einschluß gewählt ist. . OK Output ->

SPSS: Lineare Regression, Output . Eine kurze Übersicht der verwendeten Variablen: Welche ist die abhängige? Welche sind die unabhängigen? . Methode: Eingeben entspricht Methode: Einschluß. (Bug) . Bei anderen Methoden wählt SPSS aus den vorgegebenen Variablen jene aus, welche ins Modell aufgenommen werden. Welche das sind, wird dann an dieser Stelle beschrieben.

SPSS: Lineare Regression, Output . R: multiple Korrelation zwischen allen Variablen im Modell. (Bei einer Einfach Regression ist es der Korrelationskoeffizient.) . R-Quadrat: multiples Bestimmtheitsmaß, ein Maß für die Güte des Modells. Je näher sein Wert bei 1 liegt desto besser. . Korrigiertes R-Quadrat: gleiche Funktion wie R-Quadrat, berücksichtig aber die Anzahl der erklärenden Variablen im Modell. (Je mehr Variablen im Modell, desto größer wird R-Quadrat)

Übersicht I Beispieldaten II Univariate Analysen und Grafik III Bivariate Analysen und Grafik IV Regression V Regression: ANOVA Tabelle VI Regression: Tabelle der Koeffizienten VII Regression: Residuen Plots

SPSS: Lineare Regression, Output . ANOVA: ANalysis Of VAriance Tabelle . Um diese zu verstehen, muss man die so genannte Varianzzerlegungseigenschaft kenne.

Einschub: Varianzzerlegungseigenschaft Gesamt-quadratsumme: Erklärte Quadratsumme: Nicht erklärte Quadratsumme: Varianzzerlegungseigenschaft: SQT = SQE + SQR Für das multiple Bestimmtheitsmaß gilt:

SPSS: Lineare Regression, Output QS df MQS= QS / df F MQE / MQR Regression (erklärte Varianz) SQE k MQE f Residuen (nicht erklärte Varianz) SQR n-k-1 MQR Gesamt (Gesamtvarianz) SQT n-1

Einschub: Der F - Test Test, ob wenigstens ein Regressor einen Einfluss auf die abhängige Variable hat: H0: b1 = b2 = …= bk = 0, H1: bi ≠ 0 für mindestens einen Regressor Teststatistik: folgt einer F-Verteilung (Siehe Buch S. 207) k und n-k-1 sind die so genannten Freiheitsgrade

SPSS: Lineare Regression, Output . Wert der Teststatistik für F -Test . Ist dieser Wert kleiner oder gleich dem vorab gewählten a, dann wird die Nullhypothese des F - Tests verworfen. Beachten Sie: Testen und Signifikanz machen nur dann sind, wenn die Daten einer Zufallsstichprobe entstammen, und die Residuen bestimmte Kriterien erfüllen. QS df MQS= QS / df F Regression (erklärte Varianz) SQE k MQE f Residuen (nicht erklärte Varianz) SQR n-k-1 MQR Gesamt SQT n-1

Übersicht I Beispieldaten II Univariate Analysen und Grafik III Bivariate Analysen und Grafik IV Regression V Regression: ANOVA Tabelle VI Regression: Tabelle der Koeffizienten VII Regression: Residuen Plots

SPSS: Lineare Regression, Output Beachten Sie: Testen und Signifikanz machen nur dann sind, wenn die Daten einer Zufallsstichprobe entstammen, und die Residuen bestimmte Kriterien erfüllen. . Modell: Liste der im Modell enthaltenen Variablen . B: Der Koeffizient des linearen Modells zur Variable, die sich in der selben Zeile befindet. . Standardfehler: Der zum Koeffizienten gehörige Standardfehler (sbi ) . T: Teststatistik für den Test, dass der betroffene Parameterwert von 0 verschieden ist. T = bi / sbi . Signifikanz: Ist dieser Wert kleiner oder gleich dem vorab gewählten a, dann wird die Nullhypothese des T - Tests (H0: Der Wert des Koeffizienten in der Grundgesamtheit ist gleich 0.) verworfen.

SPSS: Lineare Regression: KI für Koeffizienten Menü: . Analysieren > Regression > Linear… . … weiter wie vorher . Statistiken… . Kontrollkästchen von Konfidenzintervalle aktivieren. . Weiter . OK . 95%-Konfidenzintervalle für B: Man kann sich zusätzlich KIe für die Koeffizienten ausgeben lassen.

Übersicht I Beispieldaten II Univariate Analysen und Grafik III Bivariate Analysen und Grafik IV Regression V Regression: ANOVA Tabelle VI Regression: Tabelle der Koeffizienten VII Regression: Residuen Plots

Einschub: Zweck von Residuen Plots Zweck der Residuen Plots ist die Beurteilung zweier Fragekomplexe: Zusammenhang . Gibt es einen Zusammenhang? . Ist er Linear? . Wie stark ist er? . Gibt es Ausreißer, solche die gar nicht ins Muster passen, oder solche die das Muster erst besonders erscheinen lassen? Hochrechnung . Ist die Stichprobe zufällig, hatte also jedes Element der Grund-gesamtheit die selbe Chance in die Stichprobe zu gelangen? . Sind die Residuen normalverteilt? . Sind die Residuen unabhängig? . Haben sie die selbe Varianz? Gibt es kein Restmuster in den Residuen?

SPSS: Residuen Plots: Histogramm Menü: . Analysieren > Regression > Linear… . … . Diagramme… . Kontrollkästchen von Histogramm Normalverteilungsdiagramm aktivieren. . Weiter . OK Zur Überprüfung der Normalverteilungsbedingung wird ein Histogramm der Residuen gegen eine entsprechende Normalverteilung gezeichnet. Sollten gut zusammenpassen.

SPSS: Residuen Plots: P-P-Diagramm Menü: . Analysieren > Regression > Linear… . … . Diagramme… . Kontrollkästchen von Histogramm Normalverteilungsdiagramm aktivieren. . Weiter . OK Perfekt normalverteilte Residuen (rote Punkte) stimmen in dieser Grafik mit der Gerade (grüne Linie) exakt überein.

SPSS: Residuen Plots: Residuen vs. Regressand Menü: . Analysieren > Regression > Linear… . … . Diagramme… . Wähle links oben *ZRESID . Weise zu dem Feld Y: . Wähle links oben DEPENDNT . Weise zu dem Feld X: . Weiter (rechts oben) . OK ZRESID sind standardisierte Residuen, d.h. Residuen dividiert durch ihre Standardabweichung. Streudiagramm von abhängiger Variable und standardisierten Residuen. (Im Beispiel sieht man deutlich, kleine Werte der Zielvariable werden überschätzt, große unterschätzt.)

SPSS: Residuen Plots: Residuen vs. Prognose Menü: . Analysieren > Regression > Linear… . … . Diagramme… . Wähle links oben *ZRESID . Weise zu dem Feld Y: . Wähle links oben *ZPRED . Weise zu dem Feld X: . Weiter (rechts oben) . OK ZPRED sind standardisierte prognostizierte Werte, d.h. die Differenz von Prognosen und ihrem Erwartungswert dividiert durch die Standardabweichung der Prognosen. Streudiagramm von standardisierten geschätzten Werten und standardisierten Residuen. (Im Beispiel sieht man, die Varianz der Residuen nimmt mit der Größe der geschätzten Werte zu.)