Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

Regressionskoeffizienten Der F-Test

Ähnliche Präsentationen


Präsentation zum Thema: "Regressionskoeffizienten Der F-Test"—  Präsentation transkript:

1 Regressionskoeffizienten Der F-Test
Multiple Regression Gliederung Strukturgleichung Regressionskoeffizienten Der F-Test Quadratsummen Determinationskoeffizient Selektion der Prädiktoren Voraussetzungen der Multiplen Regressionsanalyse Die Multiple Regression in SPSS Mediator- und Moderatoranalysen mit der Multiplen Regression 02_multiple_regression 1

2 Ziel der Multiplen Korrelation
Ziel der Multiplen Regression Vorhersage eines Merkmals (Kriterium) durch mehrere andere Merkmale (Prädiktoren) Beispiel Vorhersage der Klausurnote durch mathematischen Fähigkeiten Anzahl der Vorlesungs- und Tutoratsbesuche, Anzahl der Arbeitsstunden zu Hause, Motivation, Interesse, … Vorhersage der Psychischen Gesundheit durch Optimismus, Qualität des „sozialen Netzes“, Stressoren, … 02_multiple_regression 2

3 Beispiel Beispiel: Vorhersage der Psychischen Gesundheit durch Optimismus, Qualität des „sozialen Netzes“, Stressoren Frage: Wie kann die psychische Gesundheit durch die drei Prädiktoren vorhergesagt werden? Vp Optimismus (x1) Soz. Netz (x2) Stressoren (x3) Psy. Gesund. (y) 1 18 8 45 56 2 4 57 36 3 13 44 41 23 47 5 25 52 63 02_multiple_regression 3

4 Graphische Darstellung der multiplen Regression
Optimismus β1 soziales Netz β2 Psychische Gesundheit β3 Stressoren 02_multiple_regression 4

5 Die Strukturgleichung
Die Vorhersage erfolgt, wie bei der binären Regression, durch eine einfache Strukturgleichung: Die bivariate Regression: Die multivariate (multiple) Regression: 02_multiple_regression 5

6 Interpretation der b-Gewichte:
Ziel der Regressionsanalyse ist also die Bestimmung der Parameter der Regressionsgleichung: b1, b2, b3, a Interpretation der b-Gewichte: Das Vorzeichen gibt die Richtung des Effekts an. Der Betrag gibt an, wie stark ein Prädiktor gewichtet wird. Aber: Das Gewicht häng von der Skalierung (dem Wertebereich) von x und y ab. Einfacher zu interpretieren sind die standardisierten Gewichte (β). Die β-Gewichte haben einen Wertebereich von -1 bis +1 Sie entsprechen den b-Gewichten wenn alle Variablen vor der Analyse z-standardisiert werden. b-Gewichte (und β) sind abhängig von der Auswahl der Prädiktoren! 02_multiple_regression 6

7 Methode der kleinsten Quadrate
Bestimmung der Parameter Die Parameter (b1, … , bk, a) werden so bestimmt, dass der Vorhersagefehler minimal ist: Dazu wird die „Methode der kleinsten Quadrate“ verwendet: Vorteile: das Vorzeichen der Differenz fällt weg große Abweichungen werden stärker berücksichtigt als kleine Abweichungen. 02_multiple_regression 7

8 Methode der kleinsten Quadrate
02_multiple_regression 8

9 Methode der kleinsten Quadrate
02_multiple_regression 9

10 Signifikanztests der multiplen Regression
Wird ein statistisch bedeutsamer Anteil der Varianz des Kriteriums durch alle Prädiktoren gemeinsam aufgeklärt?  F-Test Leisten die einzelnen Prädiktoren einen bedeutsamen Beitrag?  t-Tests für alle Prädiktoren 02_multiple_regression 10

11 „Quadratsumme“ = „Sum of Squares“ = SS
Quadratsummen Der F-Test beruht auf einer Zerlegung der Varianz des Kriteriums in einen erklärten und einen nicht erklärten Teil. Als Maß für die Varianz werden die sogenannten „Quadratsummen“ verwendet. „Quadratsumme“ = „Sum of Squares“ = SS Die Quadratsumme ist ein unstandardisiertes Maß für die Varianz Es gilt: Aufgeklärte Varianz nicht-erklärbare Varianz 02_multiple_regression 11

12 Quadratsummen df1 df2 unstandardisiert: „Sums of Squares“
standardisiert: „Mean Sums of Squares“ df1 df2 K: Anzahl der Prädiktoren N: Anzahl der Probanden 02_multiple_regression 12

13 Der F-Test der Multiplen Regression
Berechnung des empirischen F-Wertes: Um dem empirische F-Wert zu interpretieren, wird dieser mit einem kritischen F-Wert verglichen. Der kritische F-Wert wird aus einer Tabelle abgelesen (berücksichtigt werden df1, df2, α) Femp > Fkrit bedeutet: Ein bedeutsamer Teil der Kriteriumsvarianz wird aufgeklärt Die Prädiktoren sind geeignet, um das Kriterium vorherzusagen 02_multiple_regression 13

14 02_multiple_regression 14

15 Der F-Test der Multiplen Regression
Berechnung des empirischen F-Wertes aus R² Auflösen nach SSreg: Auflösen nach SSres: 02_multiple_regression 15

16 Der F-Test der Multiplen Regression
Berechnung des empirischen F-Wertes aus R²  Eine Multiple Regression / Korrelation kann auf Signifikanz geprüft werden, wenn man R² kennt. 02_multiple_regression 16

17 Der F-Test der Multiplen Regression
y x1 x2 1.0 .43 -.51 .41 Beispiel 1: Gewichtsverlust Kann der Gewichtsverlust durch Training und Kalorienaufnahme vorhergesagt werden? Berechnung der Multiplen Korrelation 02_multiple_regression 17

18 Der F-Test der Multiplen Regression
Der F-Test (für N=18) Weil Femp > Fkrit gilt: Ein bedeutsamer Teil der Varianz von y wird aufgeklärt x1 und x2 können y vorhersagen y x1 x2 1.0 .43 -.51 .41 02_multiple_regression 18

19 Der F-Test der Multiplen Regression
Beispiel 2: Psychische Gesundheit Kann die psychische Gesundheit Optimismus, Qualität des „sozialen Netzes“ und der Stressbelastung vorhergesagt werden? Berechnung der Multiplen Korrelation R = .73 R² = .54 N = 60 Weil Femp > Fkrit gilt: Ein bedeutsamer Teil der Varianz von y wird aufgeklärt x1 und x2 können y vorhersagen 02_multiple_regression 19

20 t-Tests für die Parameter
Wenn die Regressionsanalyse insgesamt einen statistisch bedeutsamen Zusammenhang aufdeckt ist noch nichts darüber bekannt, welche Prädiktoren wichtig für die Varianzaufklärung sind. Dazu werden die einzelnen b-Gewichte separat auf Signifikanz geprüft. Dies geschiet mit t-Tests für alle Parameter (zur Berechnung: vgl. Bortz, S. 450) Es wird jeweils die Nullhypothese geprüft, dass sich das jeweilige b-Gewicht nicht von 0 unterscheidet. Bei einem nicht-Signifikanten Ergebnis kann der entsprechende Prädiktor also weggelassen werden. Auch für die additive Konstante ird ein t-Test durchgeführt Diese Tests gelten nur im Kontext der verendeten Prädiktoren! 02_multiple_regression 20

21 R² überschätzt Populationszusammenhang
Korrigiertes R² R² überschätzt Populationszusammenhang Die Vorhersage in einer Stichprobe überschätzt Vorhersage in anderen Stichproben bzw. in der Population Je kleiner die Stichprobe und je größer die Anzahl der Prädiktoren desto größer die Überschätzung von R² Bei einem Nullzusammenhang in Population ergibt sich ein Erwartungswert für R² von E(R²) = (k-1)/(N-1) Beispiel: k=3; N=10: E(R²) = 2/9 = .22 Empfehlung: Verhältnis N/K von mind. 20, besser 30 Beispiel: k=2, N=40: E(R²) = 1/39 = k=2, N=60: E(R²) = 1/59 = .02 02_multiple_regression 21

22 Lösung: Korrigiertes R² Schrumpfungskorrektur nach Olkin & Pratt:
Beispiel: k=3; N=20; R² = .50 02_multiple_regression 22

23 Auswahl der Prädiktoren
In der Praxis stellt sich das Problem, welche und wie viele Prädiktoren für die Vorhersage ausgewählt werden sollten. Dabei sollte immer ein „sparsames“ Vorgehen gewählt werden, weil eine große Prädiktormenge eine Überschätzung von R² fördert. Mögliche Strategien Hypothesengeleitetes Vorgehen: „Einschluss“ Hierarchische Regressionsanalysen: Vorwärts Selektion Rückwärts Eliminierung Schrittweises Vorgehen 02_multiple_regression 23

24 Auswahl der Prädiktoren
Einschluss - Strategie A priori Auswahl der aufzunehmenden Prädiktoren (aufgrund von Vorwissen oder Theorie) Vorteile: Hypothesengeleitetes Vorgehen Nachteile: Möglicherweise Aufnahme von mehr Prädiktoren als erforderlich (Prädiktoren, die keinen signifikanten Beitrag leisten) Dies kann zu einer Verringerung des F-Wertes führen (wegen der größeren Anzahl der Zähler-Freiheitsgrade), und damit die Teststärke verringern. Möglicherweise werden wichtige Prädiktoren „vergessen“ 02_multiple_regression 24

25 Auswahl der Prädiktoren
Hierarchisches Regressionsanalysen Die am besten passenden Prädiktoren werden post-hoc (empirisch) bestimmt. Vorteile: Minimum an Prädiktoren Exploratives Vorgehen möglich Nachteile: „Capitalization of Chance“ wegen der Bevorzugung hoch korrelierender Prädiktoren Kein hypothesengeleitetes Vorgehen 02_multiple_regression 25

26 Auswahl der Prädiktoren
Vorwärts - Selektion Aus einer Menge möglicher Prädiktoren wird der Prädiktor mit der höchsten Validität zuerst aufgenommen. Unter den verbleibenden Prädiktoren wird immer derjenige ausgewählt, der den größten Teil der verbleibenden Varianz aufklärt (=höchste inkrementelle Validität). Wenn kein Prädiktor die aufgeklärte Varianz signifikant erhöht, ist die endgültige Auswahl gefunden. 02_multiple_regression 26

27 Auswahl der Prädiktoren
Rückwärts - Eliminierung Zunächst werden alle Prädiktoren eingeschlossen. Dann wird immer der Prädiktor weglassen, der am wenigsten zur Vorhersage beiträgt. Wenn der Ausschluss eines Prädiktors zu einer signifikanten Reduktion der aufgeklärten Varianz führen würde, wird der Selektionsprozess abgebrochen. 02_multiple_regression 27

28 Auswahl der Prädiktoren
Schrittweise Selektion: Es wird abwechseln ein Vorwärts- und ein Rückwärtsschritt durchgeführt. Dadurch werden Variablen, die im Kontext neu aufgenommener Prädiktoren keine Varianz mehr aufklären, im Nachhinein wieder entfernt. Diese Schritte werden so lange wiederholt, bis keine weiteren Variablen ein- oder ausgeschlossen werden können. 02_multiple_regression 28

29 Voraussetzungen der Multiplen Regression
Multivariate Normalverteilung aller Variablen (schwer zu überprüfen) Aber: bei großen Stichproben (mindestens 20 Probanden pro Prädiktor) ist die Regressionsanalyse robust gegenüber Verletzungen dieser Annahme. Weitere Einschränkung: Es werden nur lineare Zusammenhänge gefunden. 02_multiple_regression 29

30 Die Multiple Regressionsanalyse in SPSS
/dependent pg /method enter opt, sn, str 02_multiple_regression 30

31 Modellzusammenfassung
SPSS Modellzusammenfassung Modell R R-Quadrat Korrigiertes R-Quadrat Standardfehler des Schätzers 1 ,730a ,532 ,507 10,866 a. Einflußvariablen : (Konstante), str, opt, sn ANOVAb Modell Quadratsumme df Mittel der Quadrate F Signifikanz 1 Regression 7521,869 3 2507,290 21,238 ,000a Residuen 6611,329 56 118,059 Gesamt 14133,198 59 a. Einflußvariablen : (Konstante), str, opt, sn b. Abhängige Variable: pg 02_multiple_regression 31

32 Nicht standardisierte Koeffizienten Standard. Koeffizienten T Sig.
SPSS Koeffizientena Modell Nicht standardisierte Koeffizienten Standard. Koeffizienten T Sig. B Standard-fehler Beta 1 (Konstante) 61,327 9,815 6,248 ,000 opt 1,156 ,318 ,343 3,635 ,001 sn 2,424 ,684 ,336 3,542 str -,851 ,145 -,540 -5,883 a. Abhängige Variable: pg 02_multiple_regression 32

33 Weitere Regressionsanalysen
Mediatoranalyse Wird der Zusammenhang von X und Y durch M vermittelt? Moderatoranalyse Wird der Zusammenhang von X und Y durch M beeinflusst? 02_multiple_regression 33

34 Mediatoranalyse Mediatoranalyse Fragestellung: „Wird der Zusammenhang von X und Y durch M vermittelt?“ Beispiel: „Wird der Zusammenhang von Motivation und Note durch Lernaufwand vermittelt?“ Es wird also eine Annahme zur Kausalität gemacht Es wird untersucht, wie die Motivation wirkt. Literatur: Baron, R. M., & Kenny, D. A. (1986). The moderator-mediator distinction in social psychological research: Conceptual, strategic, and statistical considerations. Journal of Personality and Social Psychology, 51(6), 02_multiple_regression 34

35 Motivation Note Lerndauer Mediatoranalyse Prädiktor Kriterium Mediator
02_multiple_regression 35

36 Schritt 1 Motivation Note Lerndauer Mediatoranalyse
Regression von Y auf X. (Regression der Note auf die Motivation) Y = b X + a Nur wenn sich ein signifikanter Zusammenhang zwischen Y und X zeigt (b ≠ 0), kann eine Mediation vorliegen. Motivation Note Lerndauer bY,X≠0 02_multiple_regression 36

37 Schritt 2 Motivation Note Lerndauer Mediatoranalyse
Regression von M auf X. (Regression der Lerndauer auf die Motivation) M = b X + a Nur wenn sich ein signifikanter Zusammenhang zwischen M und X zeigt (b ≠ 0), kann eine Mediation vorliegen. Motivation Note Lerndauer bM,X≠0 02_multiple_regression 37

38 Schritt 3 Motivation Note Lerndauer Mediatoranalyse
Regression von Y auf M. (Regression der Note auf die Lerndauer) Y = b M + a Nur wenn sich ein signifikanter Zusammenhang zwischen Y und M zeigt (b ≠ 0), kann eine Mediation vorliegen. Motivation Note Lerndauer bY,M≠0 02_multiple_regression 38

39 Schritt 4 Motivation Note Lerndauer Mediatoranalyse
Regression von Y auf X und M. (Regression der Note auf die Lerndauer und die Motivation) Y = b1 X + b2 M + a Ergebnis: bX,M = 0: „Vollständige Mediation“ |bX,M|> 0 ,aber kleiner als in Schritt 1: „partielle Mediation“ bX,M gleich wie in Schritt 1: Keine Mediation Motivation Note Lerndauer bY,M≠0 bX,M=0 02_multiple_regression 39

40 Mediatoranalyse in SPSS
*** step 1. reg /dependent note /method enter mot. *** step 2. /dependent lern *** step 3. /method enter lern. *** step 4. /method enter mot lern. b≠0, (sig.) d.h. Die Note kann durch die Motivation vorhergesagt werden. Hinweis: Das b-Gewicht ist negativ, da es bei hoher Motivation zu geringen (guten) Noten kommt. 02_multiple_regression 40

41 Mediatoranalyse in SPSS
*** step 1. reg /dependent note /method enter mot. *** step 2. /dependent lern *** step 3. /method enter lern. *** step 4. /method enter mot lern. b≠0, (sig.) d.h. die Lerndauer kann durch die Motivation vorhergesagt werden. 02_multiple_regression 41

42 Mediatoranalyse in SPSS
*** step 1. reg /dependent note /method enter mot. *** step 2. /dependent lern *** step 3. /method enter lern. *** step 4. /method enter mot lern. b≠0, (sig.) d.h. die Note kann durch die Lerndauer vorhergesagt werden. 02_multiple_regression 42

43 Mediatoranalyse in SPSS
*** step 1. reg /dependent note /method enter mot. *** step 2. /dependent lern *** step 3. /method enter lern. *** step 4. /method enter mot lern. b≈0, (n.s.), d.h. die Motivation leistet über die Lerndauer hinaus keinen Beitrag mehr zur Vorhersage der Note „Vollständige Mediation“ 02_multiple_regression 43

44 Moderatoranalyse Moderatoranalyse Fragestellung: „Wird der Zusammenhang von X und Y durch M beeinflusst?“ Beispiel: „Wird der Zusammenhang von Lerndauer und Note durch mathematische Intelligenz beeinflusst?“ Hypothese: Die gleiche Lernzeit wirkt sich bei Probanden mit hoher mathematischer Fähigkeit stärker aus als bei Probanden mit geringer mathematischer Fähigkeit. Im Gegensatz zur Mediatiorvariablen (M) wird nicht angenommen, dass die Moderatorvariable durch die UV (X) beeinflusst wird. 02_multiple_regression 44

45 Lerndauer Note math. IQ Moderatoranalyse
Prädiktor Kriterium Lerndauer Note math. IQ Moderator Die Moderatorvariable wirkt nicht direkt auf die Note, sondern auf den Zusammenhang, d.h. auf das b-Gewicht der Regression 02_multiple_regression 45

46 Moderatoranalyse Hinweise: Note
Für jede Ausprägung von M müsste eine eigene Regres-sionsgerade gezeigt werden Oft erden nur 2 Geraden gezeigt, z.B. für Probanden die eine Standardabeichung über bzw. unter dem Mittelwert liegen. Note math. IQ + math. IQ - Lerndauer 02_multiple_regression 46

47 Grundüberlegung: Moderatoranalyse
Wie wird die Regressionsgerade der Regression von Y auf X durch M beeinflusst? Y = b1 X + a1 (1) Es wird angenommen, dass b1 und a1 von M abhängen, d.h. dass beide Koeffizienten durch eine Regression auf M vorhergesagt werden können: b1 = b2 M + a2 (2) a1 = b3 M + a3 (3) Jetzt werden die Gleichungen (2) und (3) in (1) eingesetzt… 02_multiple_regression 47

48 Moderatoranalyse Es wird nun eine Regression mit den drei Prädiktoren X, M und MX berechnet. Das Regressionsgewicht von MX (b1‘ = b2) gibt an, ob und wie stark die Steigung der ursprünglichen Regression von M abhängt! Prädiktoren (UV‘s) Regressions-Koeffizienten 02_multiple_regression 48

49 2. Schritt: Berechnung eines neuen Prädiktors: P = z(X) ∙ z(M).
Moderatoranalyse 1. Schritt: z-Transformation von X und M (dies ist aus mathe-matischen Gründen empfehlenswert, auf die hier nicht weiter eingegangen wird). 2. Schritt: Berechnung eines neuen Prädiktors: P = z(X) ∙ z(M). 3. Schritt: Berechnung einer Regression von Y auf z(X), z(Y) und P Interpretation des Regressionsgewichts von P: b > 0 (sig): Je größer M, desto höher (positiver) die Steigung der ursprünglichen Regressionsgeraden b < 0 (sig) : Je größer M, desto geringer (negativer) die Steigung der ursprünglichen Regressionsgeraden b≈0 (n.s.): Keine Moderation des Zusammenhangs von X und Y durch M. 02_multiple_regression 49

50 Moderatoranalyse in SPSS
*** step 1. desc lern, mIQ /save. *** step 2. compute P = Zlern*ZmIQ. *** step 3. reg /dependent note /method enter Zlern ZmIQ P. Mit dem Befehl „descriptives /save“ werden Variablen z-transformiert. Es entstehen neue Spalten im Datenfenster, bei denen ein „Z“ vor den ursprünglichen Variablennamen gehängt wurde. Mit „compute“ wird eine neue Variable P als Produkt von Zlern und ZmIQ berechnet. 02_multiple_regression 50

51 Moderatoranalyse in SPSS
02_multiple_regression 51

52 Moderatoranalyse in SPSS
*** step 1. desc lern, mIQ /save. *** step 2. compute P = Zlern*ZmIQ. *** step 3. reg /dependent note /method enter Zlern ZmIQ P. neg. Koeffizient für lern: je mehr Lern-aufwand, desto kleiner (besser) die Note. neg. Koeffizient für mIQ: je höher die math. Fertigkeiten, desto kleiner (besser) die Note neg. Koeffizient für P: je höher mIQ, desto negativer (also stärker) der Zusammenhang von Lernaufwand und Note. 02_multiple_regression 52

53 Zusammenfassung Die multiple Regression dient der Vorhersage eines Kriteriums durch mehrere Prädiktoren. Mit einem F-Test wird überprüft, ob die Prädiktoren geeignet sind, das Kriterium vorherzusagen. Mit t-Tests wird geprüft, ob die einzelnen Prädiktoren einen bedeutsamen Anteil leisten. Es sollten nicht zu viele Prädiktoren ausgewählt werden, da sonst die Gefahr besteht, dass Zusammenhänge überschätzt werden. Mediatoranalyse untersuchen, ob der Zusammenhang von X und Y durch M vermittelt wird. Moderatoranalyse untersuchen, ob der Zusammenhang von X und Y durch M beeinflusst wird? 02_multiple_regression 53


Herunterladen ppt "Regressionskoeffizienten Der F-Test"

Ähnliche Präsentationen


Google-Anzeigen