Ökonometrie und Statistik Mehrfachregression

Ökonometrie und Statistik Mehrfachregression
Bertram Wassermann

Übersicht I Lineare Regression II Beispiel: Regression mit SPSS III
Beispiel: Käse (mehrfach, log Transformation, Modellauswahl) IV Beispiel: Bremsweg (einfach, nicht-linear, sachliche Widersprüche, Berichtsbeispiel) V Beispiel: Biometrische Daten (mehrfach, Kolliniarität) VI Beispiel: Alkohol und Tabak (einfach, Ausreißer, Indikatorvariable) VII Beispiel: Geschirr polieren (mehrfach, mehrere Indikatorvariable, log Transformation)

Lineare Regression: Modellgleichung
Bivariat: Multivariat: Zugehöriges Modell: Annahme bei Hochrechnung einer Stichprobe auf ihre Grundgesamtheit: Störterme sind unabhängig und Matrixschreibweise: y = X b X …Design-Matrix

Lineare Regression: R²
. R: multiple Korrelation zwischen allen Variablen im Modell. (Bei einer Einfach Regression ist es der Korrelationskoeffizient.) . R²: multiples Bestimmtheitsmaß, ein Maß für die Güte des Modells. Je näher sein Wert bei 1 liegt desto besser. . Korrigiertes R²: gleiche Funktion wie R², berücksichtig aber die Anzahl der erklärenden Variablen im Modell. (Je mehr Variablen im Modell, desto größer wird R²)

Lineare Regression: Varianzzerlegungseigenschaft
Gesamt-quadratsumme: Erklärte Quadratsumme: Nicht erklärte Quadratsumme: Varianzzerlegungseigenschaft: SQT = SQE + SQR Für das multiple Bestimmtheitsmaß gilt:

Lineare Regression: Der F - Test
Test, ob wenigstens ein Regressor einen Einfluss auf die abhängige Variable hat: H0: b1 = b2 = …= bk = 0, H1: bi ≠ 0 für mindestens einen Regressor Teststatistik: folgt einer F-Verteilung (Siehe Buch S. 207) k und n-k-1 sind die so genannten Freiheitsgrade

Lineare Regression: Koeffizienten
Beachten Sie: Testen und Signifikanz machen nur dann sind, wenn die Daten einer Zufallsstichprobe entstammen, und die Residuen bestimmte Kriterien erfüllen. . Modell: Liste der im Modell enthaltenen Variablen . B: Der Koeffizient des linearen Modells zur Variable, die sich in der selben Zeile befindet. . Standardfehler: Der zum Koeffizienten gehörige Standardfehler (sbi ) . T: Teststatistik für den Test, dass der betroffene Parameterwert von 0 verschieden ist T = bi / sbi . Signifikanz: Ist dieser Wert kleiner oder gleich dem vorab gewählten a, dann wird die Nullhypothese des T - Tests (H0: Der Wert des Koeffizienten in der Grundgesamtheit ist gleich 0.) verworfen.

Lineare Regression: Modellkritik
Zur Modellkritik und Modellauswahl betrachten Sie: Wert von R²: Grundsätzlich gilt, groß ist gut. Wert der F-Statistik: Die Teststatistik des F-Tests sollte so groß sein, dass die Null-Hypothese verworfen werden kann. Auch hier gilt, groß ist gut. Allerdings, wenn man Variablen ins Modell aufnimmt, wird R² zumindest tendenziell größer, die Teststatistik des F-Test möglicherweise kleiner. Es gilt die richtige Balance zu finde. Wert der Koeffizienten: Wie groß ist der Einfluss der Variablen auf die Prognose und somit auf das Modell? (z.B. Vergleiche Prognose mittels erstem und dritten Quartil einer Variable) T-Test: Ist der Koeffizient signifikant von 0 verschieden Residuen (Linearität): Kein Restmuster, und wenn Restmuster -> Untersuchung, Erklärung, Begründung, … Residuen (Hochrechnung): Normalverteilt, unabhängig, Varianz konstant (z.B. kein Trichter) Ausreißer: Vorsicht, es gibt zwei Arten, solche, die nicht ins Muster passen, und solche, die so gut ins Muster passen, dass sie eigentlich hauptsächlich für das gute R² verantwortlich sind. (Einfluss einzelner Datenpunkte auf die Koeffizientenschätzer!) Sachliche Plausibilität: Und immer gilt, das beste Modell ist absolut wertlos, wenn es Werte prognostiziert, die bestehendem, sachlichem Wissen widersprechen.

Übersicht I Lineare Regression II Beispiel: Regression mit SPSS III
Beispiel: Käse (mehrfach, log Transformation, Modellauswahl) IV Beispiel: Bremsweg (einfach, nicht-linear, sachliche Widersprüche, Berichtsbeispiel) V Beispiel: Biometrische Daten (mehrfach, Kolliniarität) VI Beispiel: Alkohol und Tabak (einfach, Ausreißer, Indikatorvariable) VII Beispiel: Geschirr polieren (mehrfach, mehrere Indikatorvariable, log Transformation)

Übersicht I Beispieldaten II Univariate Analysen und Grafik III
Bivariate Analysen und Grafik IV Regression V Regression: ANOVA Tabelle VI Regression: Tabelle der Koeffizienten VII Regression: Residuen Plots

Beispieldaten Anz Mitarbeiter Minuten Anz_Standorte_grp 2 161 4 182
2 161 4 182 1701 1 227 2187 3 459 922 333 5 264 318 1504 194 266 285 195 651 53 135 834 6 876 180 1062 177 960 7 1423 1075 175 1290 752 1948 348 2410 247 220 758 1199 2244 480 16 10 2043 582 299 8 1264 1189 586 1567 1875 268 527 110 383 14 3262 554 127 1636 57 78 313 355 27 312 1081 729

SPSS: Univariate Analysen, Kennzahlen
Menü: . Analysieren > Deskriptive Statistiken > Deskriptive Statistiken . Variablen auswählen . Optionen… wählen . OK Auf was Sie achten sollten: Verteilung der Daten: eng, breit, schief, verzerrt, wohin? Wertebereich: in welchem Bereich liegen die Daten, in welchem liegen sie hauptsächlich? Macht das Sinn?

SPSS: Univariate Analysen, Boxplot
Menü: . Grafiken > Boxplot… . Im erscheinenden Optionen Fenster sollte Einfach Auswertung über verschiedene Variablen ausgewählt sein. . Definieren . Variablen auswählen . OK Auf was Sie achten sollten: Verteilung der Daten: eng, breit, schief, verzerrt, wohin? Wertebereich: in welchem Bereich liegen die Daten, in welchem liegen sie hauptsächlich? Macht das Sinn? Ausreißer? Warum?

SPSS: Univariate Analysen, Histogramm
Menü: . Grafiken > Histogramm… . Man muss die Variablen einzeln wählen . OK Auf was Sie achten sollten: Verteilung der Daten: eng, breit, schief, verzerrt, wohin? Wertebereich: in welchem Bereich liegen die Daten, in welchem liegen sie hauptsächlich? Macht das Sinn? Ausreißer? Warum? Vorsicht! SPSS bildet Klassen automatisch.

SPSS: Bivariate Analysen, Streudiagramm einfach
Menü: . Grafiken > Streudiagramm… . Im erscheinenden Optionen Fenster sollte Einfach ausgewählt sein. . Definieren . X und Y Variable auswählen . OK Beantworten Sie die vier Fragen zum Streudiagramm.

SPSS: Bivariate Analysen, Streudiagramm Matrix
Menü: . Grafiken > Streudiagramm… . Im erscheinenden Optionen Fenster Matrix auswählen. . Definieren . Mindestens 3 Variablen auswählen . OK Gehen Sie die vier Fragen zum Streudiagramm für jedes der Diagramme durch. Überlegen Sie, welche Variablen einen stärkeren und welche einen schwächeren Zusammenhang haben.

SPSS: Bivariate Analysen, Korrelationsmatrix
Menü: . Analysieren > Korrelation > Bivariat … . Im erscheinenden Optionen Fenster die gewünschten Variablen auswählen. . Beachten Sie, ob folgende Optionen gewählt sind: Korrelationskoeffizienten: Pearson Signifikante Korrelationen markieren . Abschließen mit OK Beachten Sie, mit welchen Variablen die Zielvariable stark korreliert ist und mit welchen nicht. Merken Sie sich aber auch, welche der erklärenden Variablen miteinander stark korreliert sind.

SPSS: Lineare Regression
Menü: . Analysieren > Regression > Linear… . Die abhängige Variable wählen . Eine oder mehrere unabhängige Variablen wählen . Stellen Sie sicher, dass als Methode: Einschluß gewählt ist. . OK Output ->

SPSS: Lineare Regression, Output
. Eine kurze Übersicht der verwendeten Variablen: Welche ist die abhängige? Welche sind die unabhängigen? . Methode: Eingeben entspricht Methode: Einschluß. (Bug) . Bei anderen Methoden wählt SPSS aus den vorgegebenen Variablen jene aus, welche ins Modell aufgenommen werden. Welche das sind, wird dann an dieser Stelle beschrieben.

. R: multiple Korrelation zwischen allen Variablen im Modell. (Bei einer Einfach Regression ist es der Korrelationskoeffizient.) . R-Quadrat: multiples Bestimmtheitsmaß, ein Maß für die Güte des Modells. Je näher sein Wert bei 1 liegt desto besser. . Korrigiertes R-Quadrat: gleiche Funktion wie R-Quadrat, berücksichtig aber die Anzahl der erklärenden Variablen im Modell. (Je mehr Variablen im Modell, desto größer wird R-Quadrat)

. ANOVA: ANalysis Of VAriance Tabelle . Um diese zu verstehen, muss man die so genannte Varianzzerlegungseigenschaft kenne.

Einschub: Varianzzerlegungseigenschaft
Gesamt-quadratsumme: Erklärte Quadratsumme: Nicht erklärte Quadratsumme: Varianzzerlegungseigenschaft: SQT = SQE + SQR Für das multiple Bestimmtheitsmaß gilt:

QS df MQS= QS / df F MQE / MQR Regression (erklärte Varianz) SQE k MQE f Residuen (nicht erklärte Varianz) SQR n-k-1 MQR Gesamt (Gesamtvarianz) SQT n-1

Einschub: Der F - Test Test, ob wenigstens ein Regressor einen Einfluss auf die abhängige Variable hat: H0: b1 = b2 = …= bk = 0, H1: bi ≠ 0 für mindestens einen Regressor Teststatistik: folgt einer F-Verteilung (Siehe Buch S. 207) k und n-k-1 sind die so genannten Freiheitsgrade

. Wert der Teststatistik für F -Test . Ist dieser Wert kleiner oder gleich dem vorab gewählten a, dann wird die Nullhypothese des F - Tests verworfen. Beachten Sie: Testen und Signifikanz machen nur dann sind, wenn die Daten einer Zufallsstichprobe entstammen, und die Residuen bestimmte Kriterien erfüllen. QS df MQS= QS / df F Regression (erklärte Varianz) SQE k MQE f Residuen (nicht erklärte Varianz) SQR n-k-1 MQR Gesamt SQT n-1

Beachten Sie: Testen und Signifikanz machen nur dann sind, wenn die Daten einer Zufallsstichprobe entstammen, und die Residuen bestimmte Kriterien erfüllen. . Modell: Liste der im Modell enthaltenen Variablen . B: Der Koeffizient des linearen Modells zur Variable, die sich in der selben Zeile befindet. . Standardfehler: Der zum Koeffizienten gehörige Standardfehler (sbi ) . T: Teststatistik für den Test, dass der betroffene Parameterwert von 0 verschieden ist T = bi / sbi . Signifikanz: Ist dieser Wert kleiner oder gleich dem vorab gewählten a, dann wird die Nullhypothese des T - Tests (H0: Der Wert des Koeffizienten in der Grundgesamtheit ist gleich 0.) verworfen.

SPSS: Lineare Regression: KI für Koeffizienten
Menü: . Analysieren > Regression > Linear… . … weiter wie vorher . Statistiken… . Kontrollkästchen von Konfidenzintervalle aktivieren. . Weiter . OK . 95%-Konfidenzintervalle für B: Man kann sich zusätzlich KIe für die Koeffizienten ausgeben lassen.

Einschub: Zweck von Residuen Plots
Zweck der Residuen Plots ist die Beurteilung zweier Fragekomplexe: Zusammenhang . Gibt es einen Zusammenhang? . Ist er Linear? . Wie stark ist er? . Gibt es Ausreißer, solche die gar nicht ins Muster passen, oder solche die das Muster erst besonders erscheinen lassen? Hochrechnung . Ist die Stichprobe zufällig, hatte also jedes Element der Grund-gesamtheit die selbe Chance in die Stichprobe zu gelangen? . Sind die Residuen normalverteilt? . Sind die Residuen unabhängig? . Haben sie die selbe Varianz? Gibt es kein Restmuster in den Residuen?

SPSS: Residuen Plots: Histogramm
Menü: . Analysieren > Regression > Linear… . … . Diagramme… . Kontrollkästchen von Histogramm Normalverteilungsdiagramm aktivieren. . Weiter . OK Zur Überprüfung der Normalverteilungsbedingung wird ein Histogramm der Residuen gegen eine entsprechende Normalverteilung gezeichnet. Sollten gut zusammenpassen.

SPSS: Residuen Plots: P-P-Diagramm
Menü: . Analysieren > Regression > Linear… . … . Diagramme… . Kontrollkästchen von Histogramm Normalverteilungsdiagramm aktivieren. . Weiter . OK Perfekt normalverteilte Residuen (rote Punkte) stimmen in dieser Grafik mit der Gerade (grüne Linie) exakt überein.

SPSS: Residuen Plots: Residuen vs. Regressand
Menü: . Analysieren > Regression > Linear… . … . Diagramme… . Wähle links oben *ZRESID . Weise zu dem Feld Y: . Wähle links oben DEPENDNT . Weise zu dem Feld X: . Weiter (rechts oben) . OK ZRESID sind standardisierte Residuen, d.h. Residuen dividiert durch ihre Standardabweichung. Streudiagramm von abhängiger Variable und standardisierten Residuen. (Im Beispiel sieht man deutlich, kleine Werte der Zielvariable werden überschätzt, große unterschätzt.)

SPSS: Residuen Plots: Residuen vs. Prognose
Menü: . Analysieren > Regression > Linear… . … . Diagramme… . Wähle links oben *ZRESID . Weise zu dem Feld Y: . Wähle links oben *ZPRED . Weise zu dem Feld X: . Weiter (rechts oben) . OK ZPRED sind standardisierte prognostizierte Werte, d.h. die Differenz von Prognosen und ihrem Erwartungswert dividiert durch die Standardabweichung der Prognosen. Streudiagramm von standardisierten geschätzten Werten und standardisierten Residuen. (Im Beispiel sieht man, die Varianz der Residuen nimmt mit der Größe der geschätzten Werte zu.)

Ökonometrie und Statistik Mehrfachregression

Ähnliche Präsentationen

Präsentation zum Thema: "Ökonometrie und Statistik Mehrfachregression"— Präsentation transkript:

Ähnliche Präsentationen

Über Projekt

Feedback

Anmelden

Anmeldung über soziales Netzwerk:

Ökonometrie und Statistik Mehrfachregression

Ähnliche Präsentationen

Präsentation zum Thema: "Ökonometrie und Statistik Mehrfachregression"— Präsentation transkript:

Ähnliche Präsentationen

Über Projekt

Feedback