Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

T UTORAT D ESKRIPTIVE S TATISTIK UND W AHRSCHEINLICHKEITSTHEORIE Kai Vogt Termin 1.

Ähnliche Präsentationen


Präsentation zum Thema: "T UTORAT D ESKRIPTIVE S TATISTIK UND W AHRSCHEINLICHKEITSTHEORIE Kai Vogt Termin 1."—  Präsentation transkript:

1 T UTORAT D ESKRIPTIVE S TATISTIK UND W AHRSCHEINLICHKEITSTHEORIE Kai Vogt Termin 1

2 H ALLO ERST MAL ! Fragen entweder direkt an mich oder an Aufgabenblätter gibt es im Buch, im Tutorat oder im Ordner in der Psycho-Bib Habt ihr im voraus Wünsche und Ideen zum Ablauf? Was unterscheidet Statistik I und II voneinander?

3 Z IELE DES T UTORATS ! Überblick über den Stoff verschaffen!!! Vertiefung von Themen aus der Vorlesung Offene Fragen in der Gruppe klären Verstehen von grundlegenden Ideen Rechnen trainieren Sp(a)ss …

4 G LIEDERUNG Wiederholung: (lineare) Korrelation (Produkt-Moment- Korrelation) r xy Multiple Korrelationen R y.x1x2 Partialkorrelation r xy.z Semipartialkorrelation r x(y.z) Inkrementelle Validität Suppressor-Effekt Multikollinearität Wiederholung: Lineare Regression Multiple Regression Biased Estimate & Capitalization of Chance Kreuzvalidierung Signifikanzprüfung Strategien bei der multiplen Regression Aufgaben

5 Die Produkt-Moment-Korrelation, die Kovarianz und die sonstigen Korrelationskoeffizienten aus dem ersten Semester sind Maße für den (linearen) Zusammenhang zwischen zwei Variablen. Positive Korrelation bzw. positiver Zusammenhang Negative Korrelation bzw. negativer Zusammenhang Keine Korrelation bzw. kein Zusammenhang W IEDERHOLUNG : K ORRELATION (S EMESTER 1)

6 I.M ULTIPLE K ORRELATION

7 M ULTIPLE K ORRELATION Erstes Semester: Zusammenhänge zwischen 2 Variablen! Psychologische Phänomene sind aber selten nur mit einer Variable korreliert Bsp: Welche Variablen stehen im Zusammenhang mit Aggressivität? Genetische Einflüsse, Hormone, Erziehung, Umwelt usw… Deswegen… Multiple Korrelation = Korrelationen zwischen mehr als zwei Variablen!

8 r yx = r xy (einfache Korrelation) R y.xz (multiple Korrelation) y x z y x z Multiple Korrelation Z.B.: Zusammenhang zwischen genetischem Einfluss und Aggressivität Z.B.: Zusammenhang zwischen Erziehung, genetischem Einfluss und Aggressivität

9 Partialkorrelation Partialkorrelation r xy.z Herauspartialisieren eines dritten Merkmals aus beiden Variablen Warum? Störvariablen rausrechnen Beispiel: Der Einfluss der Erziehung in der Kindheit (Variable y) und die Aggressivität (Variable x) korrelieren hoch miteinander. Durch die Partialkorrelation kann der Einfluss der Gene (Variable z) rausgerechnet werden. Anzahl der Ertrinkenden und die Menge von konsumiertem Eis korrelieren hoch. Man kann mit der Partialkorrelation den Einfluss des Wetters neutralisieren. y.z x.z

10 S EMIPARTIALKORRELATI ON x y.z Semipartialkorrelation r x(y.z) Herauspartialisieren eines dritten Merkmals aus nur einer Variable Warum? Berechnung des zusätzlichen (inkrementellen) Erklärungswerts (Varianzaufklärung) der verbleibenden Variable Beispiel: Wie groß ist der Anteil an der Gesamtvarianz (erklärbarer Anteil) der Variable Aggressivität (x) der nur durch die Variable Erziehung in der Kindheit (y) erklärt werden kann? Berechnung der Semipartialkorrelation Die Schulnote korreliert hoch mit dem IQ-Wert. Hat die Motivation des Schülers auch noch einen eigenen Erklärungswert?

11 Zweck: Zum rausrechnen von Störvariablen aus einem interessierenden Zusammenhang P ARTIALKORRELATION VS. S EMIPARTIALKORRELATION y.z x.z x y.z r xy.z r x(y.z) Zweck: Zur Ermittlung der inkrementellen Validität einer Variable an einem Kriterium Inkrementelle Validität = Anteil an Varianz den ausschließlich eine gewählte Variable aufklären kann. Der Varianzanteil des Kriteriums wird nicht verringert! Inkrementelle Validität

12 Definition: Eine Variable besitzt inkrementelle Validität, wenn ihre Aufnahme als zusätzlicher Prädiktor den Anteil der aufgeklärten Varianz (R²) am Kriterium erhöht – also die Vorhersage verbessert. y x z Inkrementelle Validität (zusätzliche erklärte Varianz) der Variable w am Kriterium y w

13 S UPPRESSOR -E FFEKT Ein Prädiktor verbessert die multiple Korrelation (erhöht den Wert) ohne dass er selbst mit dem Kriterium korreliert. x1 x2 y Der Suppressor-Effekt kann über die Semipartialkorrelation belegt werden. r yx1 =.55 < r y(x1.x2)=.66 Die Semipartialkorrelation (x2 aus x1 herausgerechnet) ist größer als die Korrelation zwischen y und x1! Diese Tatsache belegt einen Suppressor-Effekt!

14 y x z w Multikollinearität = Die Prädiktoren korrelieren miteinander, so dass manche Varianzanteile des Kriteriums von verschiedenen Prädiktoren erklärt werden können. Die Summe der einzelnen Determinationskoeffizienten ist aufgrund dieser Überlappung größer als der multiple Determinationskoeffizient! Seltene Ausnahme: Bei einem Suppressor- Effekt kann der multiple Determinationskoeffizient größer sein als die Summe der einzelnen Determinationskoeffizienten! Beispiel: Y= Aggressivität X= Erziehung Z=Genetischer Einfluss Gemeinsamer Anteil von X & Z: Gene sind von den Eltern die möglicherweise auch auf Grund ihrer Veranlagung einen aggressiven Erziehungsstil pflegen.

15 W IEDERHOLUNG LINEARE R EGRESSION

16 L INEARE R EGRESSION Ziel: Vorhersage einer Variable y durch eine Variable x. Wörtlich: Rückführung Eine solche Vorhersage ist nur möglich, wenn x und y zusammenhängen, also miteinander korrelieren. Die vorherzusagende Variable (y) heißt Kriteriumsvariable Die zur Vorhersage verwendete Variable (x) heißt Prädiktorvariable Anwendungsbeispiele: - Werte von X wurden bereits erhoben, Werte von Y sind nicht bekannt - X kann zum jetzigen Zeitpunkt erfasst werden, Y erst viel später - X ist leicht (einfach, preiswert, schnell) zu erfassen, Y nur durch teure, aufwändige Untersuchung zu erheben

17 Lineare Regression - grafisch Prinzip: Es wird eine Gerade ermittelt, die den Zusammenhang zwischen x und y beschreibt. Mit einer solchen Gerade kann zu jedem Wert von x ein Wert von y vorausgesagt werden. z.B.x=120 y=30 x=80 y=13

18 Mathematisches Prinzip: Methode der kleinsten Quadrate Für einen Datensatz (eine Punktewolke) werden a und b so gewählt, dass der quadrierte Vorhersagefehler über alle Probanden minimal ist: Für die Ermittlung der Regressionsgleichung wird die Differenz der tatsächlichen von den vorhergesagten y-Werten also quadriert. Das hat 2 Vorteile… (1) Abweichungswerte sind immer positiv. (2) Große Abweichungen werden stärker berücksichtigt als kleine Abweichungen.

19 Strukturformel der Linearen Regression wobei b für die Steigung und a für den y-Achsen-Abschnitt steht. Allgemeine Funktion einer Gerade: Bei der Regression schreibt man :

20 Voraussetzungen der linearen Regression Folgende Voraussetzungen müssen erfüllt sein, damit eine lineare Regressionsanalyse berechnet werden darf: (1)Die Variablen x und y müssen intervallskaliert sein (2)Die Variablen x und y müssen normalverteilt sein. (3)Die Homoskedastizität der Variablen muss gegeben sein. (4)Die Residuen müssen unabhängig und normalverteilt sein. Wichtig: Nur lineare Zusammenhänge dürfen berücksichtigt werden.

21 MULTIPLE R EGRESSION

22 Problem: Komplexe Welt: Kriterium hängt meist nicht nur von einem Prädiktor ab. Zusammenhänge mit vielen Variablen. Und daher muss z.B. bei einer Vorhersage auch mehrere Variablen berücksichtigt werden. Beispiel: Sportliche Leistung kann nur präzise vorhergesagt werden wenn viele wichtige Variablen miteinbezogen werden: Training, Talent, Umfeld, Psychologische Stabilität, Ehrgeiz usw… Multiple Regression

23 Strukturgleichung: Multiple Regression Erweiterung der einfachen linearen Regression mehrere Prädiktorvariablen Bestimmung über die Methode der kleinsten Quadrate

24 Regressionskoeffizienten ( b ) b-Gewichte der einzelnen Prädiktorvariablen (auch Partialregressionskoeffizienten) relatives Gewicht einer Prädiktorvariablen in der Vorhersage (Sprich: Wie wichtig ist eine Variable für die Vorhersage! Z.B.: Trainingszeit hat einen großen Einfluss auf die Vorhersage einer Sportlichen Leistung (großes b-Gewicht). Die Anzahl der Topfpflanzen in der Wohnung dagegen nicht (sehr kleines b- Gewicht)! Die Regressionsgewichte können mit einem t-Test auf Signifikanz geprüft werden.

25 Konstante ( a ) Auch die Regressionskonstante wird mit einem t-Test auf Signifikanz geprüft!

26 Standardisierte Regressionsgewichte (β – Gewichte) Die Regressionsgerade kann auch in einer standardisierten Form beschrieben werden: unstandardisiert: standardisiert: Vorteil: Die Beta-Gewichte nehmen nur Werte zwischen -1 und +1 an. Sie können wie Korrelationskoeffizienten interpretiert werden. Die additive Konstante (a) entfällt, da die z y einen Mittelwert von Null hat.

27 Biased Estimate & Capitalization of Chance Bei einer Multiplen Regression werden eine Vielzahl von Korrelationskoeffizienten zwischen den einzelnen Prädiktoren und dem Kriterium berücksichtigt! Diese Koeffizienten korrelieren aber möglicherweise auch miteinander (= Multikollinearität)! Resultierendes Problem: R² überschätzt den Populationszusammenhang = biased estimate Je mehr Prädiktoren in der Regression berücksichtigt werden, desto größer wird der biased estimate (exponentieller Anstieg) = Capitalization of Chance

28 Biased Estimate & Capitalization of Chance Bei einer Multiplen Regression werden eine Vielzahl von Korrelationskoeffizienten zwischen den einzelnen Prädiktoren und dem Kriterium berücksichtigt! Diese Koeffizienten korrelieren aber möglicherweise auch miteinander (= Multikollinearität)! Resultierendes Problem: R² überschätzt den Populationszusammenhang = biased estimate Je mehr Prädiktoren in der Regression berücksichtigt werden, desto größer wird der biased estimate (exponentieller Anstieg) = Capitalization of Chance

29 Faktoren die den biased estimate (Überschätzung der Multiplen Korrelation in anderen Stichproben bzw. der Population) beeinflussen: 1)Anzahl Prädiktoren Je mehr Prädiktoren desto größer Verzerrung = Cap. of.Chance 2)Höhe der Korrelationen zwischen den Prädiktoren Je höher (=Multikollinearität) desto größer Verzerrung 3)Stichprobengröße Je größer desto kleiner die Verzerrung Lösungen: korrigiertes R², Kreuzvalidierung, N, nur relevante und möglichst unkorrelierte Prädiktoren aufnehmen. Biased Estimate & Capitalization of Chance

30 Kreuzvalidierung einer Multiplen Regression

31 Korrigiertes R² Schrumpfungskorrektur nach Olkin & Pratt: Beispiel: k=3; N=20; R² =.50

32 S IGNIFIKANZPRÜFUN G

33 Signifikanztest der multiplen Regression Die multiple Regression wird mit einem F-Test auf Signifikanz getestet. Der F-Test beruht auf einer Zerlegung der Varianz des Kriteriums in einen erklärten und einen nicht erklärten Teil. Die Quadratsumme (SS = sum of squares) ist ein unstandardisiertes Maß für die Variabilität.

34 Quadratsummen unstandardisiert: Sums of Squares standardisiert: Mean Sums of Squares K:Anzahl der Prädiktoren N:Anzahl der Probanden

35 Wenn F emp > F krit ist das Testergebnis signifikant Die Prädiktoren weisen dann insgesamt einen bedeutsamen Zusammenhang mit dem Kriterium auf. Signifikanztest der mult. Regression 1)Häufig in SPSS ausgegeben 2)Häufig in Studien / Texten angegeben 1)2)

36 Signifikanztest - Beispiel YX1X2 Y X X21.0 Es besteht ein bedeutsamer Zusammenhang zwischen dem Kriterium und den Prädiktoren! Die Prädiktoren können das Kriterium zuverlässig vorhersagen

37 S TRATEGIEN BEI DER MULTIPLEN R EGRESSION

38 S TRATEGIEN Inhaltliche Auswahl Alle möglichen Untermengen Vorwärtsselektion Rückwärtselimination Schrittweise Regression

39 A UFGABEN

40 A UFGABE 1 Eine Regressionsanalyse ergab folgende Zusammenhänge:

41 A UFGABE 1 Berechnen sie für die drei Personen mit folgenden Prädiktorwerten den vorhergesagten Kriteriumswert: - Computerk. 4, Umgangsformen 9 - Computerk. 6, Umgansformen 6 - Computerk. 8, Umgangsformen 3 Nehmt an, dies sei das statistisch aggregierte Ergebnis eines Assessment-Centers und hohe Werte weisen auf hohe Eignung hin. Welchen der drei Bewerber stellt ihr aufgrund der vorliegenden Vorhersage seiner Passung zum Unternehmen ein?

42 L ÖSUNG A UFGABE 1 a) 4 x 0, x 0, ,065 = 1,8 b) 6 x 0, x 0, ,065 = 1,67 c) 8 x 0, x 0, ,065 = 1,53 Bewerber a), da er die höchsten Werte und damit voraussichtlich die beste Eignung aufweist.

43 A UFGABE 2 Nennen sie die Vorteile der Standardisierung der Koeffizienten bei der multiplen Regression. Die Beta-Gewichte nehmen nur Werte zwischen -1 und +1 an und können damit wie Korrelationskoeffizienten interpretiert werden – d.h. ihr relativer Einfluss auf die Vorhersage wird direkt und zwischen verschiedenen Vorhersagen vergleichbar deutlich.

44 A UFGABE 3 Welche Vor- und Nachteile hat die Verwendung der Inhaltlichen Auswahl bei der Bestimmung der Anzahl der Prädiktoren für eine multiple Regression?

45 L ÖSUNG A UFGABE 3 Vorteile: Hypothesengeleitetes Vorgehen Keine Capitalization on Chance Nachteile: Möglicherweise Aufnahme von mehr Prädiktoren als unbedingt erforderlich (Prädiktoren, die keinen signifikanten Beitrag leisten) Möglicherweise werden wichtige Prädiktoren übersehen bzw. vergessen

46 A RBEITSBLATT A UFGABE 4 Eine Regressionsanalyse ergab folgende Zusammenhänge:

47 Berechnen Sie den vorhergesagten Wert für Note für (a)eine Person mit rating02=3 und rating13=6, und (b) für eine Person mit rating02=8 und rating13=8.

48 E RGEBNIS A UFGABE 4

49 A RBEITSBLATT A UFGABE 5 Eine Multiple Korrelation mit 3 Prädiktoren klärt 60% der Varianz des Kriteriums auf. Die Stichprobe besteht aus 40 Probanden. Ist dieser Zusammenhang signifikant? F krit = 2,92

50 E RGEBNIS A UFGABE 5 Der Zusammenhang des Kriteriums mit den Prädiktoren ist statistisch bedeutsam.

51 A RBEITSBLATT A UFGABE 6 Beschreiben Sie kurz das Vorgehen der Rückwärts- Eliminierung

52 E RGEBNIS A UFGABE 6 Zunächst werden alle Prädiktoren in die Regression eingeschlossen. In jedem Schritt wird jeweils der Prädiktor, der am wenigsten zur Vorhersage beiträgt, weggelassen. Diese Schritte werden wiederholt, bis es zu einer signifikanten Verschlechterung der Vorhersage kommt.

53 WICHTIGES AUS TERMIN 1 Multiple Korrelationen R y.x1x2 Partialkorrelation r xy.z Semipartialkorrelation r x(y.z) Inkrementelle Validität Suppressor-Effekt Multikollinearität Multiple Regression Biased Estimate & Capitalization of Chance Kreuzvalidierung Signifikanzprüfung Strategien der Prädiktorauswahl

54 V IELEN D ANK FÜR EURE A UFMERKSAMKEIT ! Bis nächste Woche… Schreibt euch Fragen auf wenn ihr welche habt… Fragen an Psychoparteeey Wann: Heute!!! Ab 22:00 Uhr Wo: Ruefetto DJs: Kegelfreunde Oberschwieberdingen Eintritt: 3 Euro


Herunterladen ppt "T UTORAT D ESKRIPTIVE S TATISTIK UND W AHRSCHEINLICHKEITSTHEORIE Kai Vogt Termin 1."

Ähnliche Präsentationen


Google-Anzeigen