Multiple Regressionsanalyse

Slides:



Advertisements
Ähnliche Präsentationen
Gliederung 1. Einführung
Advertisements

Tutorat Statistik II im SS 09 Mediator- & Moderatoranalyse
Tutorat Statistik II im SS 09 Multiple Regression
Modellprämissen der linearen Regression
Induktive Statistik: Regressionsanalyse
Thema der Stunde I. Einführung in die Varianzanalyse:
Forschungsstatistik I Prof. Dr. G. Meinhardt WS 2006/2007 Fachbereich Sozialwissenschaften, Psychologisches Institut Johannes Gutenberg Universität Mainz.
Regression und Korrelation
Universität Stuttgart Wissensverarbeitung und Numerik I nstitut für K ernenergetik und E nergiesysteme Numerik partieller Differentialgleichungen, SS 03Teil.
Forschungsstatistik II
Forschungsstatistik I
Forschungsstatistik I
Forschungsstatistik I Prof. Dr. G. Meinhardt WS 2004/2005 Fachbereich Sozialwissenschaften, Psychologisches Institut Johannes Gutenberg Universität Mainz.
Forschungsstatistik II Prof. Dr. G. Meinhardt SS 2006 Fachbereich Sozialwissenschaften, Psychologisches Institut Johannes Gutenberg Universität Mainz KLW-26.
Der Zusammenhang metrischer Merkmale
Mehrfachregressionen
Ein frohes und erfolgreiches Jahr
Quantitative Methoden I
Hypothesen testen: Grundidee
2. Univariate Regressionsanalyse 2.1 Das statische Regressionsmodell
Reliabilitätsanalysen
Tutorat Deskriptive Statistik und Wahrscheinlichkeitstheorie
Tutorat II Multiple Korrelation Mediator- Moderatoranalyse
Strukturgleichungsmodelle
Konfidenzintervalle Intervallschätzung
TESTS. Worum es geht Man möchte testen, ob eine bestimmte Annahme (Hypothese) über Parameter der Realität entspricht oder nicht. Beobachtung (Stichprobe)
Die Student- oder t-Verteilung
Konfidenzintervalle Intervallschätzung Jeder Beobachtung wird ein Intervall C( ) der reellen Zahlen zugeordnet Niveau Dabei ist die Wahrscheinlichkeit,
Mögliche Funktionenklassen
Datenmatrix. Datentabelle für 2 Merkmale Kontingenztafel der absoluten Häufigkeiten.
Achtung Vorlesung am Montag, den 21. Juni Zeit: Uhr Ort: Kiste.
Datenmatrix.
Korrelationskoeffizient nach Bravais-Pearson Eigenschaften X und Y unabhängig.
Datentabelle für 2 Merkmale
Tutorium
Tutorium
5. Abbildende versus erklärende Modelle –
Eigenschaften der OLS-Schätzer
Einfache Regressionsgleichung
Probleme der Modellspezifikation
Multikollinearität Wann spricht man von Multikollinearität?
Wiederholung: Einfache Regressionsgleichung
Deutsch als Zweitsprache: Experimentelle Methoden WS 2013/2014
Semipartialkorrelation Multiple Korrelation Inkrementelle Validität
Ausgleichungsrechnung II
Logistische Regression
Kriterium und Prädiktor Methode der kleinsten Quadrate
Statistik: Mehr zur Regression.
SStotal SStotal SStreat SSerror SStreat SSerror Biomasse (g) wenig
STATISIK LV Nr.: 1375 SS April 2005.
Kapitel 9 Analyse der Modellstruktur Hackl, Einführung in die Ökonometrie 2 Rekursive OLS-Schätzung Spezifiziertes Modell: y = X + u y, u:
Kapitel 2 Das klassische Regressionsmodell
Lineare Restriktionen
Kapitel 16 Ökonometrische Modelle
Einfache und multiple Regression
Kapitel 4 Annahmen des linearen Regressionsmodells
STATISIK LV Nr.: 0021 WS 2005/ November 2005.
1 STATISIK LV Nr.: 0021 WS 2005/ November 2005.
Regression Maria Morozova Lisa Ochsenhofer. Einführung Francis Galton 1886 Größe von Vater und Sohn Regression zum Mittelwert.
Forschungsmethodik II, SS 2010 Vesna Pavlovski & Julia Pichlhöfer
Statistik Statistik I Seminar + Blockveranstaltung Statistik I
Statistik – Regression - Korrelation
Die einfache/multiple lineare Regression
Deskriptive Statistik, Korrelationen, Mittelwertvergleiche, Graphiken
STATISIK LV Nr.: 1852 WS 2005/ Jänner 2006.
setzt Linearität des Zusammenhangs voraus
Die einfache/multiple lineare Regression
Varianzanalyse und Eta²
 Gegenstandsbereich der Testtheorie: Analyse der Charakteristika von Tests:  Güte von Tests.  Struktur von Tests.  Schwierigkeit von Tests.  Gruppenunterschiede.
Außenhandelsbeziehungen zwischen China, USA, EU Makroökonometrie Vorlesung Dr. Oliver Bode.
 Präsentation transkript:

Multiple Regressionsanalyse Prof. B. Krause Multiple Regressionsanalyse Romy Rautenstrauch, Marian Gunkel

Inhalt Einleitung – was ist das? Problemstellung – wozu braucht man das? Voraussetzungen – was braucht man? Vorgehensweise – wie macht man es?

Einleitung Regressionsanalyse: Einfache lineare RA: Analyse von Zusammenhängen zwischen Variablen (X,Y) Vorhersage der Y-Werte aus X-Werten Versuch, die Y-Werte auf die X-Werte „zurückzuführen“ Einfache lineare RA: Betrachtung einer Zielgröße Y und einer Einflußgröße X Multiple lineare RA: Betrachtung einer Zielgröße Y und mehr als einer Einflussgröße X kann daher mehr Varianz aufklären X1 Y X2

Problemstellung Ziel: Analyse des stochastischen Zusammenhangs zwischen einer Zielgröße Y und mehreren Einflussgrößen Xi bei verbundenen Stichproben. (Variabilität von Y durch die Variabilitäten der Xi erklären)  stochastisch – gegenseitige Abhängigkeit  Anwendungen Ursachenanalysen: Wie stark ist der Einfluss von X auf Y? Wirkungsanalysen: Wie verändert sich Y bei Veränderung von X? Zeitreihenanalysen: Wie verändert sich Y im Zeitverlauf? Prognose! Testkonstruktion: Auswahl der Items für Test

Problemstellung Vorteile: Lineare Ansätze liefern eine hinreichend gute Anpassung an die Daten (vernünftig interpretierbar) Lineare Ansätze sind i.d.R. mit geringem Rechenaufwand verbunden. für die mehrfache Regressionsanalyse ist keine Varianzhomogenität gefordert. die einzelnen Regressoren weisen unterschiedliche Variabilitäten auf. die Varianz der Zielgröße wird nicht gleichmäßig durch die einzelnen Regressoren beeinflusst. Um das zu vermeiden wird häufig eine Normierung der Zufallsgrößen durchgeführt, meist durch die Transformation in eine Standardnormalverteilung. Entspricht einer Standard-RA (alle Varianzen=1).

Voraussetzungen Prämissen des linearen Regressionsmodells sollten erfüllt sein lineare Beziehung zwischen Regressand und Regressor (d.h. Veränderung in konstanten Relationen) metrisches Datenniveau der Ziel- und der Einflussgrößen wenn Zielgröße ordinal skaliert: Rangregressionsanalyse wenn Zielgröße nominal skaliert: pro-bit-Analyse Xm, Y und R normalverteilt E (R) = 0; D² (R) minimal (Modellvollständigkeit) D² (R) konst. (Homoskedastizität) Cov (Xi; Ri) = 0

Vorgehensweise Bestimmung des Ursache-Wirkungs-Modells Regressionsfunktion schätzen Gilt die Regressionsfunktion auch für die Grundgesamtheit? / Wie gut ist mein Modell (wieviel Varianz kann ich erklären)?

Vorgehensweise Regressionsfunktion Y=b0+b1X b0: absolutes Glied, das den Y-Wert für X=0 angibt b1=ΔY/ΔX: Steigungsmaß b1, das die Neigung der Geraden bestimmt Abweichungen durch Meßfehler, Beobachtungsfehler, andere Einflußgrößen...

Vorgehensweise Beispiel: Welche Faktoren können unsere Prüfungsnote Y beeinflussen? Modell: konsumierter Wein und Mokka in der Lernzeit beeinflussen die Note je mehr Wein und Mokka, desto bessere Note X1: Menge der konsumierten Tassen Mokka in der Lernzeit X2: Menge der konsumierten Gläser Wein in der Lernzeit Mokka=X1 Y= Note Wein=X2

Vorgehensweise Formulierung des Ursache-Wirkungs-Modells b1 X1 Y X2 b2 Theoretisch: Empirisch: Beispiel: Note = b0 + b1 * Mokka + b2 * Wein β0 ist das konstante Glied (= nix trinken) βm partielle Regressionskoeffizienten (Einflußgewicht) X wird als fehlerfrei und additiv wirkend angenommen Y ist fehlerbehaftet R ist Vorhersagefehler, ist der Anteil an Y, der nicht durch die Regressionsgerade erklärt wird

Vorgehensweise 2. Schätzen der Regressionsfunktion Ziel: Modell bestmöglich an Daten anzupassen Fehler R dabei möglichst minimal Vorgehen: Methode der kleinsten quadratischen Abweichungen Regressionsgerade soll in Punktwolke so liegen, dass Summe der quadrierten Abweichungen aller Werte von der Geraden so klein wie möglich ist.

Vorgehensweise 2. Schätzen der Regressionsfunktion Formel: zur Minimierung werden die partiellen Ableitungen nach den einzelnen unbekannten Parametern gebildet Einzelne Ableitungen werden gleich 0 gesetzt -> Gleichungssystem entsteht Lösung des Gleichungssystems führt zu einzelnen bm

Vorgehensweise Beispiel: Nicht standardisiert: Note Y = 0,465 + 0,27 * Mokka + 0,617 * Wein Standardisiert: Note Y = 0,518 * Mokka + 0,781 * Wein a. Abhängige Variable: Note Modell Nicht standardisierte Koeffizienten Standardisierte Koeffizienten T Signifikanz B Standard-fehler Beta 1 (Konstante) Mokka Wein ,465 ,270 ,617 ,191 ,045 ,069 ,518 ,781 2,433 5,950 8,975 ,072 ,004 ,001

Vorgehensweise Prüfung der Regressionsfunktion durch das Bestimmtheitsmaß Prüfung der Regressionskoeffizienten bm Prüfung auf Verletzung der Prämissen

Vorgehensweise Prüfung der Regressionsfunktion durch das Bestimmtheitsmaß = prozentualer Anteil der Varianz der Y-Werte, der aufgrund der X-Werte erklärbar ist Sagt aus, wie gut sich die Regressionsfunktion an die empirische Punktverteilung anpasst (bzw. wieviel Restschwankung übrigbleibt) Beispiel: Einflußvariablen: (Konstante), Wein, Mokka Modell R R-Quadrat Korrigiertes R-Quadrat Standardfehler des Schätzers 1 ,985 ,970 ,955 ,297

Vorgehensweise Prüfung der Regressionsfunktion durch das Bestimmtheitsmaß Signifikanzprüfung: 1. Nullhypothese H0: B=0 n= Anzahl der Beobachtungsdaten m= Anzahl der βm 2. Nullhypothese H0: βm1=β2 =...=0 Werte von TG sind F-verteilt mit df1=m und df2= n-m-1 H0 wird abgelehnt, falls TG>F(1- , df1, df2) ist das Modell insgesamt unbrauchbar, erübrigen sich die restlichen Überprüfungen!

Vorgehensweise Prüfung der Regressionskoeffizienten bm Prüfung, ob und wie gut einzelne Variablen des Regressionsmodells zur Erklärung der abhängigen Variablen Y beitragen Maße: T-Wert und Konfidenzintervall der Regressionskoeffizienten T-Wert: Nullhypothese H0: βm=0 bei Gültigkeit von H0 wird βm=0 Werte von TG sind t-verteilt mit df= n-m-1 H0 wird abgelehnt, falls TG>t(1- , df) Aussage: ist der Einfluss der einzelnen Regressoren Xm signifikant?

Vorgehensweise Prüfung der Regressionskoeffizienten bm Konfidenzintervall: gibt an, in welchem Bereich der wahre Regressionskoeffizient mit einer bestimmten festgelegten Vertrauenswahrscheinlichkeit liegt Beispiel: Modell Nicht standardisierte Koeffizienten Standardisierte Koeffizienten T Signifikanz 95% Konfidenzintervall für B Untergrenze Obergrenze B Standard-fehler Beta 1 (Konstante) Mokka Wein ,465 ,270 ,617 ,191 ,045 ,069 ,518 ,781 2,433 5,950 8,975 ,072 ,004 ,001 -0,66 ,426 ,144 ,997 ,808 ,396

Prüfung auf Verletzung der Prämissen Prämissen-verletzung Konsequenz Aufdeckung Ausweg Linearität in den Parametern Nichtlinearität Verzerrung der Schätzwerte über statistische Tests durch Transformation der Variablen Vollständigkeit des Modells Unvollständig-keit Homoskedastizität/ Unabhängigkeit der Störgrößen (Residuen) von den UVs Hetero-skedastizität Ineffizienz Unabhängigkeit der Störgrößen untereinander Auto-korrelation Residuen optisch auf Regelmäßigkeiten hin überprüfen Regressoren müssen voneinander unabhängig sein Multi-kollinearität 1. durch hohe Korrelationskoeffizienten zwischen den Regressoren (> .85); 2. Alternativrechnungen mit verschiedenen Variablenkombinationen 1. Entfernung einer/ mehrerer Variablen aus der Regressions-gleichung; 2. Stichprobe vergrößern Normalverteilung der Störgrößen Nicht normalverteilt Ungültigkeit der Signifikanztests

Zusätzliches Nichtlineare RA, Quasilineare RA Ziel: nicht lineare Zusammenhänge bestimmen Beispiel: die Reproduzierbarkeit von Gedächtnisinhalten nimmt im Verlauf der Zeit nicht linear, sondern exponentiell ab

Alternative Bezeichnungen der Variable Zusätzliches Alternative Bezeichnungen der Variable Y X Zielgröße Einflussgröße Regressand Regressor Abhängige Variable Unabhängige Variable Kriterium Prädiktor Endogene Variable Exogene Variable Erklärte Variable Erklärende Variable

Literatur Krause, B. / Metzler, P. (1988). Angewandte Statistik (2. Auflage) Berlin: VEB Deutscher Verlag der Wissenschaften Backhaus, K. et al. (1987). Multivariate Analysemethoden. Berlin: Springer Schilling, O. (1998). Grundkurs Statistik für Psychologen. München: Fink