Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

Multiple Regression 02_multiple_regression1 Gliederung Strukturgleichung Regressionskoeffizienten Der F-Test – Quadratsummen – Determinationskoeffizient.

Ähnliche Präsentationen


Präsentation zum Thema: "Multiple Regression 02_multiple_regression1 Gliederung Strukturgleichung Regressionskoeffizienten Der F-Test – Quadratsummen – Determinationskoeffizient."—  Präsentation transkript:

1 Multiple Regression 02_multiple_regression1 Gliederung Strukturgleichung Regressionskoeffizienten Der F-Test – Quadratsummen – Determinationskoeffizient Selektion der Prädiktoren Voraussetzungen der Multiplen Regressionsanalyse Die Multiple Regression in SPSS Mediator- und Moderatoranalysen mit der Multiplen Regression

2 Ziel der Multiplen Korrelation 02_multiple_regression2 Ziel der Multiplen Regression Vorhersage eines Merkmals (Kriterium) durch mehrere andere Merkmale (Prädiktoren) Beispiel Vorhersage der Klausurnote durch mathematischen Fähigkeiten Anzahl der Vorlesungs- und Tutoratsbesuche, Anzahl der Arbeitsstunden zu Hause, Motivation, Interesse, … Vorhersage der Psychischen Gesundheit durch Optimismus, Qualität des sozialen Netzes, Stressoren, …

3 Beispiel 02_multiple_regression3 Beispiel: Vorhersage der Psychischen Gesundheit durch Optimismus, Qualität des sozialen Netzes, Stressoren Frage: Wie kann die psychische Gesundheit durch die drei Prädiktoren vorhergesagt werden? VpOptimismus (x 1 )Soz. Netz (x 2 )Stressoren (x 3 )Psy. Gesund. (y)

4 Graphische Darstellung der multiplen Regression 02_multiple_regression4 Psychische Gesundheit Optimismus soziales Netz Stressoren … β1β1 β2β2 β3β3

5 Die Strukturgleichung 02_multiple_regression5 Die Vorhersage erfolgt, wie bei der binären Regression, durch eine einfache Strukturgleichung: Die bivariate Regression: Die multivariate (multiple) Regression:

6 b-Gewichte 02_multiple_regression6 Ziel der Regressionsanalyse ist also die Bestimmung der Parameter der Regressionsgleichung: – b 1, b 2, b 3, a Interpretation der b-Gewichte: – Das Vorzeichen gibt die Richtung des Effekts an. – Der Betrag gibt an, wie stark ein Prädiktor gewichtet wird. – Aber: Das Gewicht häng von der Skalierung (dem Wertebereich) von x und y ab. – Einfacher zu interpretieren sind die standardisierten Gewichte (β). – Die β-Gewichte haben einen Wertebereich von -1 bis +1 – Sie entsprechen den b-Gewichten wenn alle Variablen vor der Analyse z-standardisiert werden. – b-Gewichte (und β) sind abhängig von der Auswahl der Prädiktoren!

7 Methode der kleinsten Quadrate 02_multiple_regression7 Bestimmung der Parameter Die Parameter (b 1, …, b k, a) werden so bestimmt, dass der Vorhersagefehler minimal ist: – Dazu wird die Methode der kleinsten Quadrate verwendet: – – Vorteile: (a)das Vorzeichen der Differenz fällt weg (b)große Abweichungen werden stärker berücksichtigt als kleine Abweichungen.

8 Methode der kleinsten Quadrate 02_multiple_regression8

9 Methode der kleinsten Quadrate 02_multiple_regression9

10 Signifikanztests 02_multiple_regression10 Signifikanztests der multiplen Regression (1)Wird ein statistisch bedeutsamer Anteil der Varianz des Kriteriums durch alle Prädiktoren gemeinsam aufgeklärt? F-Test (2)Leisten die einzelnen Prädiktoren einen bedeutsamen Beitrag? t-Tests für alle Prädiktoren

11 Quadratsummen 02_multiple_regression11 Der F-Test beruht auf einer Zerlegung der Varianz des Kriteriums in einen erklärten und einen nicht erklärten Teil. Als Maß für die Varianz werden die sogenannten Quadratsummen verwendet. Quadratsumme = Sum of Squares = SS Die Quadratsumme ist ein unstandardisiertes Maß für die Varianz Es gilt: nicht-erklärbare Varianz Aufgeklärte Varianz

12 Quadratsummen 02_multiple_regression12 unstandardisiert: Sums of Squares standardisiert: Mean Sums of Squares K:Anzahl der Prädiktoren N:Anzahl der Probanden df 1 df 2

13 Der F-Test der Multiplen Regression 02_multiple_regression13 Berechnung des empirischen F-Wertes: Um dem empirische F-Wert zu interpretieren, wird dieser mit einem kritischen F-Wert verglichen. Der kritische F-Wert wird aus einer Tabelle abgelesen (berücksichtigt werden df 1, df 2, α) F emp > F krit bedeutet: – Ein bedeutsamer Teil der Kriteriumsvarianz wird aufgeklärt – Die Prädiktoren sind geeignet, um das Kriterium vorherzusagen

14 02_multiple_regression14

15 Der F-Test der Multiplen Regression 02_multiple_regression15 Berechnung des empirischen F-Wertes aus R² Auflösen nach SS reg : Auflösen nach SS res :

16 Der F-Test der Multiplen Regression 02_multiple_regression16 Berechnung des empirischen F-Wertes aus R² Eine Multiple Regression / Korrelation kann auf Signifikanz geprüft werden, wenn man R² kennt.

17 Der F-Test der Multiplen Regression 02_multiple_regression17 Beispiel 1: Gewichtsverlust Kann der Gewichtsverlust durch Training und Kalorienaufnahme vorhergesagt werden? Berechnung der Multiplen Korrelation yx1x1 x2x2 y x1x x2x2 1.0

18 Der F-Test der Multiplen Regression 02_multiple_regression18 Der F-Test (für N=18) Weil F emp > F krit gilt: Ein bedeutsamer Teil der Varianz von y wird aufgeklärt x 1 und x 2 können y vorhersagen yx1x1 x2x2 y x1x x2x2 1.0

19 Der F-Test der Multiplen Regression 02_multiple_regression19 Beispiel 2: Psychische Gesundheit Kann die psychische Gesundheit Optimismus, Qualität des sozialen Netzes und der Stressbelastung vorhergesagt werden? Berechnung der Multiplen Korrelation – R =.73 – R² =.54 – N = 60 Weil F emp > F krit gilt: – Ein bedeutsamer Teil der Varianz von y wird aufgeklärt – x 1 und x 2 können y vorhersagen

20 t-Tests für die Parameter 02_multiple_regression20 t-Tests für die Parameter Wenn die Regressionsanalyse insgesamt einen statistisch bedeutsamen Zusammenhang aufdeckt ist noch nichts darüber bekannt, welche Prädiktoren wichtig für die Varianzaufklärung sind. Dazu werden die einzelnen b-Gewichte separat auf Signifikanz geprüft. Dies geschiet mit t-Tests für alle Parameter (zur Berechnung: vgl. Bortz, S. 450) – Es wird jeweils die Nullhypothese geprüft, dass sich das jeweilige b-Gewicht nicht von 0 unterscheidet. – Bei einem nicht-Signifikanten Ergebnis kann der entsprechende Prädiktor also weggelassen werden. – Auch für die additive Konstante ird ein t-Test durchgeführt Diese Tests gelten nur im Kontext der verendeten Prädiktoren!

21 Korrigiertes R² 02_multiple_regression21 R² überschätzt Populationszusammenhang Die Vorhersage in einer Stichprobe überschätzt Vorhersage in anderen Stichproben bzw. in der Population Je kleiner die Stichprobe und je größer die Anzahl der Prädiktoren desto größer die Überschätzung von R² Bei einem Nullzusammenhang in Population ergibt sich ein Erwartungswert für R² von E(R²) = (k-1)/(N-1) – Beispiel: k=3; N=10: E(R²) = 2/9 =.22 Empfehlung: Verhältnis N/K von mind. 20, besser 30 Beispiel: k=2, N=40: E(R²) = 1/39 =.03 k=2, N=60: E(R²) = 1/59 =.02

22 Korrigiertes R² 02_multiple_regression22 Lösung: Korrigiertes R² Schrumpfungskorrektur nach Olkin & Pratt: Beispiel: k=3; N=20; R² =.50

23 Auswahl der Prädiktoren 02_multiple_regression23 In der Praxis stellt sich das Problem, welche und wie viele Prädiktoren für die Vorhersage ausgewählt werden sollten. Dabei sollte immer ein sparsames Vorgehen gewählt werden, weil eine große Prädiktormenge eine Überschätzung von R² fördert. Mögliche Strategien – Hypothesengeleitetes Vorgehen: Einschluss – Hierarchische Regressionsanalysen: Vorwärts Selektion Rückwärts Eliminierung Schrittweises Vorgehen

24 Auswahl der Prädiktoren 02_multiple_regression24 Einschluss - Strategie A priori Auswahl der aufzunehmenden Prädiktoren (aufgrund von Vorwissen oder Theorie) Vorteile: – Hypothesengeleitetes Vorgehen Nachteile: – Möglicherweise Aufnahme von mehr Prädiktoren als erforderlich (Prädiktoren, die keinen signifikanten Beitrag leisten) – Dies kann zu einer Verringerung des F-Wertes führen (wegen der größeren Anzahl der Zähler-Freiheitsgrade), und damit die Teststärke verringern. – Möglicherweise werden wichtige Prädiktoren vergessen

25 Auswahl der Prädiktoren 02_multiple_regression25 Hierarchisches Regressionsanalysen Die am besten passenden Prädiktoren werden post-hoc (empirisch) bestimmt. Vorteile: – Minimum an Prädiktoren – Exploratives Vorgehen möglich Nachteile: – Capitalization of Chance wegen der Bevorzugung hoch korrelierender Prädiktoren – Kein hypothesengeleitetes Vorgehen

26 Auswahl der Prädiktoren 02_multiple_regression26 Vorwärts - Selektion Aus einer Menge möglicher Prädiktoren wird der Prädiktor mit der höchsten Validität zuerst aufgenommen. Unter den verbleibenden Prädiktoren wird immer derjenige ausgewählt, der den größten Teil der verbleibenden Varianz aufklärt (=höchste inkrementelle Validität). Wenn kein Prädiktor die aufgeklärte Varianz signifikant erhöht, ist die endgültige Auswahl gefunden.

27 Auswahl der Prädiktoren 02_multiple_regression27 Rückwärts - Eliminierung Zunächst werden alle Prädiktoren eingeschlossen. Dann wird immer der Prädiktor weglassen, der am wenigsten zur Vorhersage beiträgt. Wenn der Ausschluss eines Prädiktors zu einer signifikanten Reduktion der aufgeklärten Varianz führen würde, wird der Selektionsprozess abgebrochen.

28 Auswahl der Prädiktoren 02_multiple_regression28 Schrittweise Selektion: Es wird abwechseln ein Vorwärts- und ein Rückwärtsschritt durchgeführt. Dadurch werden Variablen, die im Kontext neu aufgenommener Prädiktoren keine Varianz mehr aufklären, im Nachhinein wieder entfernt. Diese Schritte werden so lange wiederholt, bis keine weiteren Variablen ein- oder ausgeschlossen werden können.

29 Voraussetzungen 02_multiple_regression29 Voraussetzungen der Multiplen Regression Multivariate Normalverteilung aller Variablen (schwer zu überprüfen) Aber: bei großen Stichproben (mindestens 20 Probanden pro Prädiktor) ist die Regressionsanalyse robust gegenüber Verletzungen dieser Annahme. Weitere Einschränkung: Es werden nur lineare Zusammenhänge gefunden.

30 Die Multiple Regressionsanalyse in SPSS 02_multiple_regression30 regression /dependent pg /method enter opt, sn, str

31 SPSS 02_multiple_regression31 ANOVA b ModellQuadratsummedf Mittel der QuadrateFSignifikanz 1Regression 7521, ,29021,238,000 a Residuen 6611, ,059 Gesamt 14133,19859 a. Einflußvariablen : (Konstante), str, opt, sn b. Abhängige Variable: pg Modellzusammenfassung ModellRR-Quadrat Korrigiertes R-Quadrat Standardfehler des Schätzers 1,730 a,532,50710,866 a. Einflußvariablen : (Konstante), str, opt, sn

32 SPSS 02_multiple_regression32 Koeffizienten a Modell Nicht standardisierte Koeffizienten Standard. Koeffizienten TSig. B Standard- fehlerBeta 1(Konstante) 61,3279,8156,248,000 opt 1,156,318,3433,635,001 sn 2,424,684,3363,542,001 str -,851,145-,540-5,883,000 a. Abhängige Variable: pg

33 Weitere Regressionsanalysen 02_multiple_regression33 Weitere Regressionsanalysen Mediatoranalyse – Wird der Zusammenhang von X und Y durch M vermittelt? Moderatoranalyse – Wird der Zusammenhang von X und Y durch M beeinflusst?

34 Mediatoranalyse 02_multiple_regression34 Mediatoranalyse Fragestellung: Wird der Zusammenhang von X und Y durch M vermittelt? Beispiel: Wird der Zusammenhang von Motivation und Note durch Lernaufwand vermittelt? Es wird also eine Annahme zur Kausalität gemacht Es wird untersucht, wie die Motivation wirkt. Literatur: – Baron, R. M., & Kenny, D. A. (1986). The moderator-mediator distinction in social psychological research: Conceptual, strategic, and statistical considerations. Journal of Personality and Social Psychology, 51(6),

35 Mediatoranalyse 02_multiple_regression35 Motivation Note Lerndauer PrädiktorKriterium Mediator

36 Mediatoranalyse 02_multiple_regression36 Schritt 1 Regression von Y auf X. (Regression der Note auf die Motivation) Y = b X + a Nur wenn sich ein signifikanter Zusammenhang zwischen Y und X zeigt (b 0), kann eine Mediation vorliegen. Motivation Note Lerndauer b Y,X0

37 Mediatoranalyse 02_multiple_regression37 Schritt 2 Regression von M auf X. (Regression der Lerndauer auf die Motivation) M = b X + a Nur wenn sich ein signifikanter Zusammenhang zwischen M und X zeigt (b 0), kann eine Mediation vorliegen. Motivation Note Lerndauer b M,X0

38 Mediatoranalyse 02_multiple_regression38 Schritt 3 Regression von Y auf M. (Regression der Note auf die Lerndauer) Y = b M + a Nur wenn sich ein signifikanter Zusammenhang zwischen Y und M zeigt (b 0), kann eine Mediation vorliegen. Motivation Note Lerndauer b Y,M0

39 Mediatoranalyse 02_multiple_regression39 Schritt 4 Regression von Y auf X und M. (Regression der Note auf die Lerndauer und die Motivation) Y = b 1 X + b 2 M + a Ergebnis: – b X,M = 0: Vollständige Mediation – |b X,M |> 0,aber kleiner als in Schritt 1: partielle Mediation – b X,M gleich wie in Schritt 1: Keine Mediation Motivation Note Lerndauer b Y,M0 b X,M =0

40 Mediatoranalyse in SPSS 02_multiple_regression40 *** step 1. reg /dependent note /method enter mot. *** step 2. reg /dependent lern /method enter mot. *** step 3. reg /dependent note /method enter lern. *** step 4. reg /dependent note /method enter mot lern. b0, (sig.) d.h. Die Note kann durch die Motivation vorhergesagt werden. Hinweis: Das b-Gewicht ist negativ, da es bei hoher Motivation zu geringen (guten) Noten kommt.

41 Mediatoranalyse in SPSS 02_multiple_regression41 *** step 1. reg /dependent note /method enter mot. *** step 2. reg /dependent lern /method enter mot. *** step 3. reg /dependent note /method enter lern. *** step 4. reg /dependent note /method enter mot lern. b0, (sig.) d.h. die Lerndauer kann durch die Motivation vorhergesagt werden.

42 Mediatoranalyse in SPSS 02_multiple_regression42 *** step 1. reg /dependent note /method enter mot. *** step 2. reg /dependent lern /method enter mot. *** step 3. reg /dependent note /method enter lern. *** step 4. reg /dependent note /method enter mot lern. b0, (sig.) d.h. die Note kann durch die Lerndauer vorhergesagt werden.

43 Mediatoranalyse in SPSS 02_multiple_regression43 *** step 1. reg /dependent note /method enter mot. *** step 2. reg /dependent lern /method enter mot. *** step 3. reg /dependent note /method enter lern. *** step 4. reg /dependent note /method enter mot lern. b0, (n.s.), d.h. die Motivation leistet über die Lerndauer hinaus keinen Beitrag mehr zur Vorhersage der Note Vollständige Mediation

44 Moderatoranalyse 02_multiple_regression44 Moderatoranalyse Fragestellung: Wird der Zusammenhang von X und Y durch M beeinflusst? Beispiel: Wird der Zusammenhang von Lerndauer und Note durch mathematische Intelligenz beeinflusst? – Hypothese: Die gleiche Lernzeit wirkt sich bei Probanden mit hoher mathematischer Fähigkeit stärker aus als bei Probanden mit geringer mathematischer Fähigkeit. – Im Gegensatz zur Mediatiorvariablen (M) wird nicht angenommen, dass die Moderatorvariable durch die UV (X) beeinflusst wird.

45 Moderatoranalyse 02_multiple_regression45 Lerndauer Note math. IQ PrädiktorKriterium Moderator Die Moderatorvariable wirkt nicht direkt auf die Note, sondern auf den Zusammenhang, d.h. auf das b-Gewicht der Regression

46 Moderatoranalyse 02_multiple_regression46 Note Lerndauer math. IQ - math. IQ + Hinweise: Für jede Ausprägung von M müsste eine eigene Regres- sionsgerade gezeigt werden Oft erden nur 2 Geraden gezeigt, z.B. für Probanden die eine Standardabeichung über bzw. unter dem Mittelwert liegen.

47 Moderatoranalyse 02_multiple_regression47 Grundüberlegung: Wie wird die Regressionsgerade der Regression von Y auf X durch M beeinflusst? – Y = b 1 X + a 1 (1) Es wird angenommen, dass b 1 und a 1 von M abhängen, d.h. dass beide Koeffizienten durch eine Regression auf M vorhergesagt werden können: – b 1 = b 2 M + a 2 (2) – a 1 = b 3 M + a 3 (3) Jetzt werden die Gleichungen (2) und (3) in (1) eingesetzt…

48 Moderatoranalyse 02_multiple_regression48 Prädiktoren (UVs) Regressions- Koeffizienten Es wird nun eine Regression mit den drei Prädiktoren X, M und MX berechnet. Das Regressionsgewicht von MX (b 1 = b 2 ) gibt an, ob und wie stark die Steigung der ursprünglichen Regression von M abhängt!

49 Moderatoranalyse 02_multiple_regression49 1. Schritt: z-Transformation von X und M (dies ist aus mathe- matischen Gründen empfehlenswert, auf die hier nicht weiter eingegangen wird). 2. Schritt: Berechnung eines neuen Prädiktors: P = z(X) z(M). 3. Schritt: Berechnung einer Regression von Y auf z(X), z(Y) und P Interpretation des Regressionsgewichts von P: – b > 0 (sig): Je größer M, desto höher (positiver) die Steigung der ursprünglichen Regressionsgeraden – b < 0 (sig) : Je größer M, desto geringer (negativer) die Steigung der ursprünglichen Regressionsgeraden – b0 (n.s.): Keine Moderation des Zusammenhangs von X und Y durch M.

50 Moderatoranalyse in SPSS 02_multiple_regression50 *** step 1. desc lern, mIQ /save. *** step 2. compute P = Zlern*ZmIQ. *** step 3. reg /dependent note /method enter Zlern ZmIQ P. Mit dem Befehl descriptives /save werden Variablen z-transformiert. Es entstehen neue Spalten im Datenfenster, bei denen ein Z vor den ursprünglichen Variablennamen gehängt wurde. Mit compute wird eine neue Variable P als Produkt von Zlern und ZmIQ berechnet.

51 Moderatoranalyse in SPSS 02_multiple_regression51

52 Moderatoranalyse in SPSS 02_multiple_regression52 *** step 1. desc lern, mIQ /save. *** step 2. compute P = Zlern*ZmIQ. *** step 3. reg /dependent note /method enter Zlern ZmIQ P. neg. Koeffizient für lern: je mehr Lern- aufwand, desto kleiner (besser) die Note. neg. Koeffizient für mIQ: je höher die math. Fertigkeiten, desto kleiner (besser) die Note neg. Koeffizient für P: je höher mIQ, desto negativer (also stärker) der Zusammenhang von Lernaufwand und Note.

53 Zusammenfassung Die multiple Regression dient der Vorhersage eines Kriteriums durch mehrere Prädiktoren. Mit einem F-Test wird überprüft, ob die Prädiktoren geeignet sind, das Kriterium vorherzusagen. Mit t-Tests wird geprüft, ob die einzelnen Prädiktoren einen bedeutsamen Anteil leisten. Es sollten nicht zu viele Prädiktoren ausgewählt werden, da sonst die Gefahr besteht, dass Zusammenhänge überschätzt werden. Mediatoranalyse untersuchen, ob der Zusammenhang von X und Y durch M vermittelt wird. Moderatoranalyse untersuchen, ob der Zusammenhang von X und Y durch M beeinflusst wird? 02_multiple_regression53


Herunterladen ppt "Multiple Regression 02_multiple_regression1 Gliederung Strukturgleichung Regressionskoeffizienten Der F-Test – Quadratsummen – Determinationskoeffizient."

Ähnliche Präsentationen


Google-Anzeigen