Tutorat Statistik II im SS 09 Multiple Regression

Slides:



Advertisements
Ähnliche Präsentationen
Tutorat Statistik II im SS 09 Mediator- & Moderatoranalyse
Advertisements

Statistik-Tutorat SS 2009 Christina
Korrektur Tutoratsaufgaben V
Theorie psychometrischer Tests, III
Thema der Stunde I. Einführung in die Varianzanalyse:
Forschungsstatistik I Prof. Dr. G. Meinhardt WS 2006/2007 Fachbereich Sozialwissenschaften, Psychologisches Institut Johannes Gutenberg Universität Mainz.
Regression und Korrelation
Einfaktorielle Varianzanalyse
Gliederung Unterschied zwischen Kriteriums- und Prädiktorvariblen
Forschungsstatistik II
Forschungsstatistik I
Forschungsstatistik I
Forschungsstatistik I
Forschungsstatistik I Prof. Dr. G. Meinhardt WS 2004/2005 Fachbereich Sozialwissenschaften, Psychologisches Institut Johannes Gutenberg Universität Mainz.
Forschungsstatistik I Prof. Dr. G. Meinhardt WS 2004/2005 Fachbereich Sozialwissenschaften, Psychologisches Institut Johannes Gutenberg Universität Mainz.
Forschungsstatistik II Prof. Dr. G. Meinhardt SS 2006 Fachbereich Sozialwissenschaften, Psychologisches Institut Johannes Gutenberg Universität Mainz KLW-26.
Forschungsstatistik II Prof. Dr. G. Meinhardt SS 2006 Fachbereich Sozialwissenschaften, Psychologisches Institut Johannes Gutenberg Universität Mainz KLW-18.
Das Allgemeine lineare Modell (ALM) - Varianz als Schlüsselkonzept
Der Zusammenhang metrischer Merkmale
Mehrfachregressionen
Ein frohes und erfolgreiches Jahr
Quantitative Methoden I
Quantitative Methoden I
Hypothesen testen: Grundidee
2. Univariate Regressionsanalyse 2.1 Das statische Regressionsmodell
Latente Variablen – Kennwerte zur Beurteilung von Modellen
Effektgrößen, Kontraste & Post-hoc-Tests
Aufgabe Der Zusammenhang zwischen einem traumatischen Erlebnis und der Entstehung einer PTBS wird von mehreren Variablen …………….: Copingstrategien, Kontrollüberzeigung,
Fragen Was wird mit der Alphafehler-Kumulierung bzw. –inflation bezeichnet? Wie hoch ist die Wahrscheinlichkeit bei einer Untersuchung mit 4 Gruppen einen.
Tutorat Deskriptive Statistik und Wahrscheinlichkeitstheorie
Tutorat Deskriptive Statistik und Wahrscheinlichkeitstheorie
Tutorat II Multiple Korrelation Mediator- Moderatoranalyse
Nachholung der Vorlesung vom Freitag
Ab nächster Woche wird die Übungsgruppe Gruppe 2: Henrike Berg Di SR 222 wegen Personalmangel eingestellt.
Test auf Normalverteilung
Klausur am :00 bis 13:00 Hörsaal Loefflerstraße und Hörsaal Makarenkostraße.
Tutorium
Tutorium
Tutorium
Unser letztes Tutorium
Tutorium Aufgabe 1 Informationen in Designmatrix in: - Darin sind die Prädiktoren enthalten - Aber sagt uns noch mehr! Untersuchungsdesign darin.
Analyse kategorialer Variablen
Vorlesung: ANOVA I
Wiederholung: Einfache Regressionsgleichung
Varianzanalyse IV: Messwiederholung
Bestimmung der Regressionsgewichte in der multiplen Regression
Semipartialkorrelation Multiple Korrelation Inkrementelle Validität
Logistische Regression
Regressionskoeffizienten Der F-Test
Überblick Statistik Deskriptive Statistik=beschreibende Statistik
Kovarianzanalyse Störvariablen Veranschaulichung der Kovarianzanalyse
Das Allgemeine Lineare Modell (ALM)
Kriterium und Prädiktor Methode der kleinsten Quadrate
Seminar: Datenerhebung
Einführung in SPSS/PASW. Inhaltsübersicht 1. Intro ( ) 2. Deskriptive Statistik ( ) (In Buch 1 Seite 85ff.) Kennwerte (Erwartungswert,
STATISIK LV Nr.: 0021 WS 2005/ November 2005.
Theorie psychometrischer Tests, IV
Multivariate Statistische Verfahren
Regression Maria Morozova Lisa Ochsenhofer. Einführung Francis Galton 1886 Größe von Vater und Sohn Regression zum Mittelwert.
Forschungsmethodik II, SS 2010 Vesna Pavlovski & Julia Pichlhöfer
Statistik Statistik I Seminar + Blockveranstaltung Statistik I
Statistik – Regression - Korrelation
Veranstaltung 4.
Die einfache/multiple lineare Regression
setzt Linearität des Zusammenhangs voraus
Die einfache/multiple lineare Regression
Thema der Stunde Varianzanalyse mit Messwiederholung
Testtheorie (Vorlesung 13: ) Wiederholung: Richtigstellung
 Gegenstandsbereich der Testtheorie: Analyse der Charakteristika von Tests:  Güte von Tests.  Struktur von Tests.  Schwierigkeit von Tests.  Gruppenunterschiede.
Die einfache/multiple lineare Regression
 Präsentation transkript:

Tutorat Statistik II im SS 09 Multiple Regression ch-langrock@t-online.de

Organisatorisches: Tutoratsformat Gliederung Memo & Fragen zum Thema der letzten Stunde sowie Fragen zu den Aufgaben (ca. 15 min) Inhaltlicher Teil zum aktuellen Thema (ca. 30 min) Übungen (ca. 60 min) Kontakt: ch-langrock@t-online.de Folien: http://www.psychologie.unifreiburg.de/abteilungen/Sozialpsychologie.Methodenlehre/courses/ss-09/spss-und-statistik/tutorate Mail der Fragen vor dem Tutorat! Beantwortung je nach Frage entweder persönlich oder im Plenum. Fragen zur Klausur: an den Dozenten.

Organisatorisches: Übungsaufgaben Struktur des Ordners: Multiple Korrelation Multiple Regression Einfaktorielle Varianzanalyse Mehrfaktorielle Varianzanalyse & Kontraste Kovarianzanalyse Faktorenanalyse Allgemeines Lineares Modell & Matrizenrechnung Spezielle Regressionsanalysen: Moderator- und Mediatoranalyse, logistische Regression gemischte Aufgaben Struktur der Vorlesung: Multiple Korrelation Multiple Regression Einführung in die Matrizenrechnung Das Allgemeine Lineare Modell Varianzanalyse I VarianzanalyseII Varianzanalyse III Kovarianzanalyse Faktorenanalyse Standort des Ordners: Bibliothek

Memo: Multiple Korrelation Was fällt euch noch ein? Wichtige Infos: Wozu brauche ich das Verfahren und wie rechne ich es.

Inkrementelle Validität Definition: Eine Variable besitzt inkrementelle Validität, wenn ihre Aufnahme als zusätzlicher Prädiktor den Anteil der aufgeklärten Varianz (R²) am Kriterium erhöht – also die Vorhersage verbessert. x y z

Partial- & Semipartialkorrelation Partialkorrelation rxy.z Herauspartialisieren eines dritten Merkmals aus beiden Variablen Konstanthalten von Störvariablen Semipartialkorrelation rx(y.z) Herauspartialisieren eines dritten Merkmals aus nur einer Variable Berechnung des zusätzlichen (inkrementellen) Erklärungswerts (Varianzaufklärung) des verbleibenden Prädiktors x.z y.z x y.z

Multiple Korrelation Ry.xz ryx = rxy (multiple Korrelation) (einfache Korrelation) y x z y x z

Supressor-Effekt Ein Prädiktor verbessert die multiple Korrelation ohne dass er mit dem Kriterium korreliert Nominklatur: z kann z.B. auch als x2 bezeichnet werden.

Supressor-Effekt y x z x y z Nominklatur: z kann z.B. auch als x2 bezeichnet werden.

Thema: Multiple Regression

Gliederung Wiederholung lineare Regression Berechnung der multiplen Regression Signifikanzprüfung & Korrektur

Wiederholung

Das Ziel einer linearen Regression ist die Vorhersage einer Variable y durch eine Variable x. Wörtlich: Rückführung Eine solche Vorhersage ist nur möglich, wenn x und y zusammenhängen, also miteinander korrelieren. Die vorherzusagende Variable (y) heißt Kriteriumsvariable. Die zur Vorhersage verwendete Variable (x) heißt Prädiktorvariable. Anwendungsbeispiele: Werte von X wurden bereits erhoben, Werte von Y sind nicht bekannt X kann zum jetzigen Zeitpunkt erfasst werden, Y erst viel später X ist leicht (einfach, preiswert, schnell) zu erfassen, Y nur durch teure, aufwändige Untersuchung zu erheben

Lineare Regression - grafisch Prinzip: Es wird eine Gerade ermittelt, die den Zusammenhang zwischen x und y beschreibt. Mit einer solchen Gerade kann zu jedem Wert von x ein Wert von y vorausgesagt werden. z.B. x=120  y=30 x=80  y=13

Mathematisches Prinzip: Methode der kleinsten Quadrate Für einen Datensatz (eine Punktewolke) werden a und b so gewählt, dass der quadrierte Vorhersagefehler über alle Probanden minimal ist: Für die Ermittlung der Regressionsgleichung wird die Differenz der tatsächlichen von den vorhergesagten y-Werten also quadriert. Das hat 2 Vorteile… (1) Abweichungswerte sind immer positiv. (2) Große Abweichungen werden stärker berücksichtigt als kleine Abweichungen.

Strukturformel der Linearen Regression Allgemeine Funktion einer Gerade: wobei b für die Steigung und a für den y-Achsen-Abschnitt steht. Bei der Regression schreibt man:

Voraussetzungen Intervallskalenniveau von x und y Normalverteilung von x und y Homoskedastizität (Unabhängigkeit und Normalverteilung der Residuen) Nur lineare Zusammenhänge!

Berechnung

Multiple Regression Problem: - Komplexe Welt: Kriterium hängt meist nicht nur von einem Prädiktor ab. Zusammenhänge mit vielen Variablen Beispiel: Erfolg in Statistik II hängt ab von… - Mathematischen Fähigkeiten Anzahl der Vorlesungs- und Tutoratsbesuche Anzahl der Arbeitsstunden zu Hause - Motivation / Interesse IQ …

Strukturgleichung – Multiple Regression Erweiterung der einfachen linearen Regression  mehrere Prädiktorvariablen Bestimmung über die Methode der kleinsten Quadrate

Regressionskoeffizienten (b) „b-Gewichte“ der einzelnen Prädiktorvariablen (auch Partialregressionskoeffizienten) relatives Gewicht einer Prädiktorvariablen in der Vorhersage Die Regressionsgewichte können mit einem t-Test auf Signifikanz geprüft werden.

Konstante (a) Auch die Regressionskonstante wird mit einem t-Test auf Signifikanz geprüft!

Standardisierte Regressionsgewichte (β – Gewichte) Die Regressionsgerade kann auch in einer standardisierten Form beschrieben werden: unstandardisiert: standardisiert: Die additive Konstante (a) entfällt, da die zy einen Mittelwert von Null hat. Vorteil: Die Beta-Gewichte nehmen nur Werte zwischen -1 und +1 an. Sie können wie Korrelationskoeffizienten interpretiert werden.

Signifikanzprüfung & Korrektur

Signifikanztest der multiplen Regression und Korrelation Die multiple Regression wird mit einem F-Test auf Signifikanz getestet. Der F-Test beruht auf einer Zerlegung der Varianz des Kriteriums in einen erklärten und einen nicht erklärten Teil. Die Quadratsumme (SS = „sum of squares“) ist ein unstandardisiertes Maß für die Variabilität.

Quadratsummen unstandardisiert: „Sums of Squares“ standardisiert: „Mean Sums of Squares“ K: Anzahl der Prädiktoren N: Anzahl der Probanden

Signifikanztest der mult. Regression Wenn Femp > Fkrit ist das Testergebnis signifikant  Die Prädiktoren weisen dann insgesamt einen bedeutsamen Zusammenhang mit dem Kriterium auf.

Signifikanztest - Beispiel Y X1 X2 1.0 .45 .60 .30 Es besteht ein bedeut-samer Zusammenhang zwischen dem Kriterium und den Prädiktoren

Multiple Korrelation/Regression: Korrigiertes R² R überschätzt Populationszusammenhang! Die Vorhersage in einer Stichprobe überschätzt Vorhersage in anderen Stichproben bzw. in der Population Je kleiner die Stichprobe und je größer die Anzahl der Prädiktoren  desto größer die Überschätzung von R² (Capitalization of Chance) Bei einem Nullzusammenhang in Population ergibt sich ein Erwartungswert für R² von E(R²) = (k-1)/(N-1) Beispiel: k=3; N=10: E(R²) = 2/9 = .22 Empfehlung: Verhältnis N/K von mind. 20, besser 30 Beispiel: k=2, N=40: E(R²) = 1/39 = .03 k=2, N=60: E(R²) = 1/59 = .02

Korrigiertes R² Schrumpfungskorrektur nach Olkin & Pratt: Beispiel: k=3; N=20; R² = .50

Vielen Dank für eure Aufmerksamkeit!

Aufgabe 1 Eine Regressionsanalyse ergab folgende Zusammenhänge:

Aufgabe 1 Berechnen sie für die drei Personen mit folgenden Prädiktorwerten den vorhergesagten Kriteriumswert: Computerk. 4, Umgangsformen 9 Computerk. 6, Umgansformen 6 Computerk. 8, Umgangsformen 3 Nehmt an, dies sei das statistisch aggregierte Ergebnis eines Assessment-Centers und hohe Werte weisen auf hohe Eignung hin. Welchen der drei Bewerber stellt ihr aufgrund der vorliegenden Vorhersage seiner Passung zum Unternehmen ein?

Lösung Aufgabe 1 4 x 0,033 + 9 x 0,067 + 1,065 = 1,8 6 x 0,033 + 6 x 0,067 + 1,065 = 1,67 8 x 0,033 + 3 x 0,067 + 1,065 = 1,53 Bewerber a), da er die höchsten Werte und damit voraussichtlich die beste Eignung aufweist.

Aufgabe 2 Nennen sie die Vorteile der Standardisierung der Koeffizienten bei der multiplen Regression. Die Beta-Gewichte nehmen nur Werte zwischen -1 und +1 an und können damit wie Korrelationskoeffizienten interpretiert werden – d.h. ihr relativer Einfluss auf die Vorhersage wird direkt und zwischen verschiedenen Vorhersagen vergleichbar deutlich.

Aufgabe 3 Welche Vor- und Nachteile hat die Verwendung des Einschlussverfahrens bei der Bestimmung der Anzahl der Prädiktoren für eine multiple Regression?

Lösung Aufgabe 3 Vorteile: Nachteile: Hypothesengeleitetes Vorgehen Keine Capitalization of Chance Nachteile: Möglicherweise Aufnahme von mehr Prädiktoren als unbedingt erforderlich (Prädiktoren, die keinen signifikanten Beitrag leisten) Möglicherweise werden wichtige Prädiktoren „übersehen“ bzw. „vergessen“

Arbeitsblatt Aufgabe 1 Eine Regressionsanalyse ergab folgende Zusammenhänge: Berechnen Sie den vorhergesagten Wert für „Note“ für (a) eine Person mit rating02=3 und rating13=6, und (b) für eine Person mit rating02=8 und rating13=8.

Ergebnis Aufgabe 1

Arbeitsblatt Aufgabe 2 Eine Multiple Korrelation mit 3 Prädiktoren klärt 60% der Varianz des Kriteriums auf. Die Stichprobe besteht aus 40 Probanden. Ist dieser Zusammenhang signifikant? Fkrit = 2,92

Ergebnis Aufgabe 2 Der Zusammenhang des Kriteriums mit den Prädiktoren ist statistisch bedeutsam.

Arbeitsblatt Aufgabe 3 Beschreiben Sie kurz das Vorgehen der „Rückwärts-Eliminierung“

Ergebnis Aufgabe 3 Zunächst werden alle Prädiktoren in die Regression eingeschlossen. In jedem Schritt wird jeweils der Prädiktor, der am wenigsten zur Vorhersage beiträgt, weggelassen. Diese Schritte werden wiederholt, bis es zu einer signifikanten Verschlechterung der Vorhersage kommt.

Arbeitsblatt Aufgabe 4 Eine Regressionsanalyse ergab folgendes Ergebnis: (a) Ist der Zusammenhang statistisch bedeutsam? Begründen Sie Ihre Antwort. (b) Wie groß war die Stichprobe? Wie viele Prädiktoren gab es? (c) Ist die Stichprobengröße „ausreichend“? Begründen Sie Ihre Antwort.

Ergebnis Aufgabe 4 Für so viele Prädiktoren sollte eine wesentlich größere Stichprobe gewählt werden (Mindestens k*20 = 100 Vpn).

Arbeitsblatt Aufgabe 5 Aus folgender Ergebnistabelle wurden einige Angaben gelöscht. Ergänzen Sie alle fehlenden Zahlen!

Ergebnis Aufgabe 5