Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

Seminar Statistische Forschungsmethoden16. April 2003 Romy Rautenstrauch, Marian Gunkel Multiple Regressionsanalyse Prof. B. Krause.

Ähnliche Präsentationen


Präsentation zum Thema: "Seminar Statistische Forschungsmethoden16. April 2003 Romy Rautenstrauch, Marian Gunkel Multiple Regressionsanalyse Prof. B. Krause."—  Präsentation transkript:

1 Seminar Statistische Forschungsmethoden16. April 2003 Romy Rautenstrauch, Marian Gunkel Multiple Regressionsanalyse Prof. B. Krause

2 Inhalt I.Einleitung – was ist das? II.Problemstellung – wozu braucht man das? III.Voraussetzungen – was braucht man? IV.Vorgehensweise – wie macht man es?

3 Einleitung Regressionsanalyse: –Analyse von Zusammenhängen zwischen Variablen (X,Y) –Vorhersage der Y-Werte aus X-Werten –Versuch, die Y-Werte auf die X-Werte zurückzuführen Einfache lineare RA: –Betrachtung einer Zielgröße Y und einer Einflußgröße X Multiple lineare RA: –Betrachtung einer Zielgröße Y und mehr als einer Einflussgröße X –kann daher mehr Varianz aufklären X1X1 X2X2 Y

4 Problemstellung Ziel: Analyse des stochastischen Zusammenhangs zwischen einer Zielgröße Y und mehreren Einflussgrößen X i bei verbundenen Stichproben. (Variabilität von Y durch die Variabilitäten der X i erklären) -stochastisch – gegenseitige Abhängigkeit Anwendungen –Ursachenanalysen: Wie stark ist der Einfluss von X auf Y? –Wirkungsanalysen: Wie verändert sich Y bei Veränderung von X? –Zeitreihenanalysen: Wie verändert sich Y im Zeitverlauf? Prognose! –Testkonstruktion: Auswahl der Items für Test

5 Problemstellung Vorteile: –Lineare Ansätze liefern eine hinreichend gute Anpassung an die Daten (vernünftig interpretierbar) –Lineare Ansätze sind i.d.R. mit geringem Rechenaufwand verbunden. –für die mehrfache Regressionsanalyse ist keine Varianzhomogenität gefordert. »die einzelnen Regressoren weisen unterschiedliche Variabilitäten auf. »die Varianz der Zielgröße wird nicht gleichmäßig durch die einzelnen Regressoren beeinflusst. »Um das zu vermeiden wird häufig eine Normierung der Zufallsgrößen durchgeführt, meist durch die Transformation in eine Standardnormalverteilung. »Entspricht einer Standard-RA (alle Varianzen=1).

6 Voraussetzungen Prämissen des linearen Regressionsmodells sollten erfüllt sein –lineare Beziehung zwischen Regressand und Regressor (d.h. Veränderung in konstanten Relationen) –metrisches Datenniveau der Ziel- und der Einflussgrößen »wenn Zielgröße ordinal skaliert: Rangregressionsanalyse »wenn Zielgröße nominal skaliert: pro-bit-Analyse –X m, Y und R normalverteilt –E (R) = 0; D² (R) minimal (Modellvollständigkeit) –D² (R) konst. (Homoskedastizität) –Cov (X i ; R i ) = 0

7 Vorgehensweise 1.Bestimmung des Ursache-Wirkungs-Modells 2.Regressionsfunktion schätzen 3.Gilt die Regressionsfunktion auch für die Grundgesamtheit? / Wie gut ist mein Modell (wieviel Varianz kann ich erklären)?

8 Vorgehensweise Regressionsfunktion Y=b 0 +b 1 X –b 0 : absolutes Glied, das den Y-Wert für X=0 angibt –b 1 =ΔY/ΔX: Steigungsmaß b 1, das die Neigung der Geraden bestimmt –Abweichungen durch Meßfehler, Beobachtungsfehler, andere Einflußgrößen...

9 Vorgehensweise Beispiel: Welche Faktoren können unsere Prüfungsnote Y beeinflussen? Modell: –konsumierter Wein und Mokka in der Lernzeit beeinflussen die Note –je mehr Wein und Mokka, desto bessere Note »X 1 : Menge der konsumierten Tassen Mokka in der Lernzeit »X 2 : Menge der konsumierten Gläser Wein in der Lernzeit Mokka=X 1 Y= Note Wein=X 2

10 Vorgehensweise Formulierung des Ursache-Wirkungs-Modells Theoretisch: Empirisch: Beispiel: Note = b 0 + b 1 * Mokka + b 2 * Wein β 0 ist das konstante Glied (= nix trinken) β m partielle Regressionskoeffizienten (Einflußgewicht) X wird als fehlerfrei und additiv wirkend angenommen Y ist fehlerbehaftet R ist Vorhersagefehler, ist der Anteil an Y, der nicht durch die Regressionsgerade erklärt wird X1X1 X2X2 Y b2b2 b1b1

11 Vorgehensweise 2. Schätzen der Regressionsfunktion –Ziel: Modell bestmöglich an Daten anzupassen –Fehler R dabei möglichst minimal –Vorgehen: Methode der kleinsten quadratischen Abweichungen –Regressionsgerade soll in Punktwolke so liegen, dass Summe der quadrierten Abweichungen aller Werte von der Geraden so klein wie möglich ist.

12 Vorgehensweise 2. Schätzen der Regressionsfunktion Formel: zur Minimierung werden die partiellen Ableitungen nach den einzelnen unbekannten Parametern gebildet -Einzelne Ableitungen werden gleich 0 gesetzt -> Gleichungssystem entsteht -Lösung des Gleichungssystems führt zu einzelnen b m

13 Vorgehensweise Beispiel: Nicht standardisiert: Note Y = 0, ,27 * Mokka + 0,617 * Wein Standardisiert: Note Y = 0,518 * Mokka + 0,781 * Wein a. Abhängige Variable: Note Modell Nicht standardisierte Koeffizienten Standardisi erte Koeffizient en TSignifikanz B Standard- fehlerBeta 1 (Konstante) Mokka Wein,465,270,617,191,045,069,518,781 2,433 5,950 8,975,072,004,001

14 Vorgehensweise Prüfung der Regressionsfunktion durch –das Bestimmtheitsmaß –Prüfung der Regressionskoeffizienten b m –Prüfung auf Verletzung der Prämissen

15 Vorgehensweise Prüfung der Regressionsfunktion durch das Bestimmtheitsmaß = prozentualer Anteil der Varianz der Y-Werte, der aufgrund der X-Werte erklärbar ist –Sagt aus, wie gut sich die Regressionsfunktion an die empirische Punktverteilung anpasst (bzw. wieviel Restschwankung übrigbleibt) Beispiel: Einflußvariablen: (Konstante), Wein, Mokka ModellRR-Quadrat Korrigiertes R-Quadrat Standardfeh ler des Schätzers 1,985,970,955,297

16 Vorgehensweise Prüfung der Regressionsfunktion durch das Bestimmtheitsmaß Signifikanzprüfung: –1. Nullhypothese H 0 : B=0 -n= Anzahl der Beobachtungsdaten -m= Anzahl der β m –2. Nullhypothese H 0 : β m1 = β 2 =...=0 -Werte von TG sind F-verteilt mit df1=m und df2= n-m-1 -H 0 wird abgelehnt, falls TG>F(1-, df1, df2) -ist das Modell insgesamt unbrauchbar, erübrigen sich die restlichen Überprüfungen!

17 Vorgehensweise Prüfung der Regressionskoeffizienten b m –Prüfung, ob und wie gut einzelne Variablen des Regressionsmodells zur Erklärung der abhängigen Variablen Y beitragen –Maße: T-Wert und Konfidenzintervall der Regressionskoeffizienten –T-Wert: Nullhypothese H 0 : β m =0 bei Gültigkeit von H 0 wird β m =0 –Werte von TG sind t-verteilt mit df= n-m-1 -H 0 wird abgelehnt, falls TG>t(1-, df) -Aussage: ist der Einfluss der einzelnen Regressoren X m signifikant?

18 Vorgehensweise Prüfung der Regressionskoeffizienten b m –Konfidenzintervall: –gibt an, in welchem Bereich der wahre Regressionskoeffizient mit einer bestimmten festgelegten Vertrauenswahrscheinlichkeit liegt Beispiel: Modell Nicht standardisierte Koeffizienten Standard isierte Koeffizie nten T Signifi kanz 95% Konfidenzintervall für B Untergrenze Obergrenze B Standar d-fehlerBeta 1 (Konstante) Mokka Wein,465,270,617,191,045,069,518,781 2,433 5,950 8,975,072,004,001 -0,66,426,144,997,808,396

19 Prüfung auf Verletzung der Prämissen PrämissePrämissen- verletzung KonsequenzAufdeckungAusweg Linearität in den Parametern NichtlinearitätVerzerrung der Schätzwerte über statistische Testsdurch Transformation der Variablen Vollständigkeit des Modells Unvollständig- keit Verzerrung der Schätzwerte Homoskedastizität/ Unabhängigkeit der Störgrößen (Residuen) von den UVs Hetero- skedastizität Ineffizienz Unabhängigkeit der Störgrößen untereinander Auto- korrelation IneffizienzResiduen optisch auf Regelmäßigkeiten hin überprüfen Regressoren müssen voneinander unabhängig sein Multi- kollinearität Ineffizienz1. durch hohe Korrelationskoeffizienten zwischen den Regressoren (>.85); 2. Alternativrechnungen mit verschiedenen Variablenkombinationen 1. Entfernung einer/ mehrerer Variablen aus der Regressions- gleichung; 2. Stichprobe vergrößern Normalverteilung der Störgrößen Nicht normalverteilt Ungültigkeit der Signifikanztests

20 Zusätzliches Nichtlineare RA, Quasilineare RA –Ziel: nicht lineare Zusammenhänge bestimmen Beispiel: die Reproduzierbarkeit von Gedächtnisinhalten nimmt im Verlauf der Zeit nicht linear, sondern exponentiell ab

21 Zusätzliches Alternative Bezeichnungen der Variable YX ZielgrößeEinflussgröße RegressandRegressor Abhängige VariableUnabhängige Variable KriteriumPrädiktor Endogene VariableExogene Variable Erklärte VariableErklärende Variable

22 Literatur Krause, B. / Metzler, P. (1988). Angewandte Statistik (2. Auflage) Berlin: VEB Deutscher Verlag der Wissenschaften Backhaus, K. et al. (1987). Multivariate Analysemethoden. Berlin: Springer Schilling, O. (1998). Grundkurs Statistik für Psychologen. München: Fink


Herunterladen ppt "Seminar Statistische Forschungsmethoden16. April 2003 Romy Rautenstrauch, Marian Gunkel Multiple Regressionsanalyse Prof. B. Krause."

Ähnliche Präsentationen


Google-Anzeigen