Kriterium und Prädiktor Methode der kleinsten Quadrate

Slides:



Advertisements
Ähnliche Präsentationen
Tutorat Statistik II im SS 09 Mediator- & Moderatoranalyse
Advertisements

Tutorat Statistik II im SS 09 Multiple Regression
Statistik-Tutorat SS 2009 Christina
Vom graphischen Differenzieren
Theorie psychometrischer Tests, III
Forschungsstrategien Johannes Gutenberg Universität Mainz
Forschungsstatistik I Prof. Dr. G. Meinhardt WS 2006/2007 Fachbereich Sozialwissenschaften, Psychologisches Institut Johannes Gutenberg Universität Mainz.
Regression und Korrelation
Gliederung Vertrauensintervalle Arten von Hypothesen
Gliederung Unterschied zwischen Kriteriums- und Prädiktorvariblen
Gliederung Definition des Wahrscheinlichkeitsbegriffes
Gliederung Der Begriff der Stichprobe, Stichprobenfehler
Forschungsstatistik I
Forschungsstatistik I Prof. Dr. G. Meinhardt WS 2004/2005 Fachbereich Sozialwissenschaften, Psychologisches Institut Johannes Gutenberg Universität Mainz.
Forschungsstatistik I Prof. Dr. G. Meinhardt WS 2004/2005 Fachbereich Sozialwissenschaften, Psychologisches Institut Johannes Gutenberg Universität Mainz.
Forschungsstatistik II Prof. Dr. G. Meinhardt SS 2006 Fachbereich Sozialwissenschaften, Psychologisches Institut Johannes Gutenberg Universität Mainz KLW-18.
Der Binomialtest Man habe einen wahren Anteil P.
Das Allgemeine lineare Modell (ALM) - Varianz als Schlüsselkonzept
Mehrfachregressionen
Quantitative Methoden I
Hypothesen testen: Grundidee
2. Univariate Regressionsanalyse 2.1 Das statische Regressionsmodell
Aufgabe Der Zusammenhang zwischen einem traumatischen Erlebnis und der Entstehung einer PTBS wird von mehreren Variablen …………….: Copingstrategien, Kontrollüberzeigung,
Tutorat Deskriptive Statistik und Wahrscheinlichkeitstheorie
Tutorat II Multiple Korrelation Mediator- Moderatoranalyse
Strukturgleichungsmodelle
Konfidenzintervalle Intervallschätzung
Tutorium
Tutorium
Tutorium
Tutorium
Tutorium Aufgabe 1 a) E(eIX)= 0 E(eIX)= E(Y-E(YIX)IX) = E(YIX)- E (E(YIX)IX) = E(YIX)- E(YIX) = 0 Im Mittel macht man mit seiner Schätzung keinen.
Tutorium
Unser siebentes Tutorium
Tutorium Aufgabe 1 Informationen in Designmatrix in: - Darin sind die Prädiktoren enthalten - Aber sagt uns noch mehr! Untersuchungsdesign darin.
Unser sechstes Tutorium Materialien unter:
Vorlesung: ANOVA I
Eigenschaften der OLS-Schätzer
Multikollinearität Wann spricht man von Multikollinearität?
Wiederholung: Einfache Regressionsgleichung
Deutsch als Zweitsprache: Experimentelle Methoden WS 2013/2014
Semipartialkorrelation Multiple Korrelation Inkrementelle Validität
Überblick Statistik Deskriptive Statistik=beschreibende Statistik
Chi Quadrat Test Tamara Katschnig.
Ausgleichungsrechnung I
Regressionskoeffizienten Der F-Test
Überblick Statistik Deskriptive Statistik=beschreibende Statistik
Globale Interpolations- und Prädiktionsverfahren
Statistik: Mehr zur Regression.
Kapitel 10 Multikollinearität
Konfidenzintervall und Testen für den Mittelwert und Anteile
Mehr zum Testen von Hypothesen
Lineare Funktionen und ihre Schaubilder, die Geraden
Strategie der Modellbildung
Regression Maria Morozova Lisa Ochsenhofer. Einführung Francis Galton 1886 Größe von Vater und Sohn Regression zum Mittelwert.
Statistik – Regression - Korrelation
Veranstaltung 4.
Vom graphischen Differenzieren
Einführung zur Fehlerrechnung
Die einfache/multiple lineare Regression
Stochastik ganz kurz Beispiel diskret Würfelwurf Beispiel stetig
setzt Linearität des Zusammenhangs voraus
Die einfache/multiple lineare Regression
Varianzanalyse und Eta²
Thema der Stunde I. Die Form der Stichprobenkennwerteverteilung
Prüft ebenfalls die Annahme der Varianzhomogenität (exakter)
Testtheorie (Vorlesung 13: ) Wiederholung: Richtigstellung
Geoinformationssysteme
 Gegenstandsbereich der Testtheorie: Analyse der Charakteristika von Tests:  Güte von Tests.  Struktur von Tests.  Schwierigkeit von Tests.  Gruppenunterschiede.
Aufgabenstellung  gegeben ist die zeitliche Entwicklung der global gemittelten bodennahen Temperatur im Zeitraum (Dateiname= ytemp2m.obs, ascii-
 Präsentation transkript:

Kriterium und Prädiktor Methode der kleinsten Quadrate Lineare Regression Gliederung Kriterium und Prädiktor Methode der kleinsten Quadrate Voraussetzungen der linearen Regression Varianzzerlegung Der Standardschätzfehler Konfidenzintervalle Kreuzvalidierung Regression zur Mitte Die lineare Regression in SPSS 10_regression 1

Die vorherzusagende Variable (y) heißt Kriteriumsvariable. Lineare Regression Das Ziel einer linearen Regression ist die Vorhersage einer Variablen y durch eine Variable x. Eine solche Vorhersage ist nur möglich, wenn x und y miteinander korrelieren. Die vorherzusagende Variable (y) heißt Kriteriumsvariable. Die zur Vorhersage verwendete Variable (x) heißt Prädiktorvariable. 10_regression 2

Lineare Regression Es wird eine Gerade gesucht, die eine möglichst geringe Abweichung zu allen Punkten hat. Mit einer solchen Gerade kann zu jedem Wert von x ein Wert von y vorausgesagt werden. x=120  y=30 x=80  y=13 10_regression 3

Herleitung der Linearen Regression Lineare Regression Herleitung der Linearen Regression Allgemeine Funktion für eine Gerade: wobei b für die Steigung und a für den y-Achsen-Abschitt steht. Bei der Regression schreibt man: 10_regression 4

Methode der kleinsten Quadrate Lineare Regression Methode der kleinsten Quadrate Für einen Datensatz (eine Punktewolke) werden a und b so gewählt, dass der Vorhersagefehler über alle Probanden minimal ist. Der Vorhersagefehler bezeichnet die Abweichung der vorhergesagten y-Werte von den tatsächlichen y-Werten. Der Vorhersagefehler für diese Person beträgt also 10. (Das Vorzeichen der Differenz wird nicht berücksichtigt) 10_regression 5

Methode der kleinsten Quadrate Lineare Regression Methode der kleinsten Quadrate Für die Ermittlung der Regressionsgleichung wird die Differenz der tatsächlichen von den vorhergesagten y-Werten quadriert. Diese hat zwei Vorteile: Abeichungswerte sind dann immer positiv. Große Abweichungen werden stärker berücksichtigt als kleine Abweichungen. Folgende Formel wird also verwendet: 10_regression 6

Lineare Regression Beispiel 1 Aus der Abiturnote soll die Abschlussnote eines Studierenden vorhergesagt werden. 10_regression 7

Lineare Regression Beispiel 1 Mithilfe der resultierenden Gleichung können für beliebige x-Werte die y-Werte geschätzt werden. Für Studienanfänger mit den Abiturnoten 1, 2, 3 und 4 würden z.B. folgende Studienabschlussnoten geschätzt: 10_regression 8

Lineare Regression Beispiel 2 Aus der Arbeitsmotivation soll vorhergesagt werden, wie lange ein Arbeiter zur Fertigung eines Bauteils benötigt. 10_regression 9

Lineare Regression Beispiel 2 Aus der Arbeitsmotivation soll vorhergesagt werden, wie lange ein Arbeiter zur Fertigung eines Bauteils benötigt. Für Studienanfänger mit den Abiturnoten 1, 2, 3 und 4 würden z.B. folgende Studienabschlussnoten geschätzt: 10_regression 10

Voraussetzungen der linearen Regression Folgende Voraussetzungen müssen erfüllt sein, damit eine lineare Regressionsanalyse berechnet werden darf: Die Variablen x und y müssen intervallskaliert sein Die Variablen x und y müssen normalverteilt sein. Die Homoskedastizität der Variablen muss gegeben sein. 10_regression 11

Dies gilt auch für die Mittewerte: Güte der Vorhersage Bei einer Vorhersage ist natürlich nicht nur der vorhergesagte Wert sondern auch die Qualität der Vorhersage wichtig. Der „wahre“ Wert der Variable y setzt sich aus dem vorhergesagten Wert und einem Residuum („Fehler“) zusammen: bzw. Dies gilt auch für die Mittewerte: 10_regression 12

Nach dem Varianzadditionssatz gilt: Varianzzerlegung Nach dem Varianzadditionssatz gilt: Für die Regression ergibt sich: Residuen und vorhergesagte Werte sind unkorreliert, also zerlegt sich die Varianz von y folgendermaßen: aufgeklärte Varianz nicht-erklärbare Varianz 10_regression 13

Der Standardschätzfehler Weiter gilt: Also: aufgeklärte Varianz nicht-erklärbare Varianz 10_regression 14

Der Standardschätzfehler Die Standardabweichung der Residuen wird als Standard-schätzfehler bezeichnet. Der Standardschätzfehler ist die Wurzel der nicht aufgeklärten Varianz: Als Populationsschätzer: 10_regression 15

Der Standardschätzfehler Wovon hängt der Standardschätzfehler ab? Je größer die Streuung des Kriteriums, desto größer der Standardschätzfehler. Je größer die Streuung des Prädiktors, desto kleiner der Standardschätzfehler. Je größer die Korrelation zwischen Prädiktor und Kriterium, desto kleiner ist der Standardschätzfehler. 10_regression 16

Konfidenzintervalle Der Standardschätzfehler ist ein Maß dafür, wie stark die wahren y-Werte von den vorhergesagten Werten abweichen. Mit Hilfe des Standardschätzfehlers kann ein Vertrauensintervall um einen vorhergesagten Wert berechnet werden (s.u.). 10_regression 17

Konfidenzintervalle Ein Konfidenzintervall (Vertrauensintervall) ist ein Bereich, in dem ein wahrer Wert mit einer vorgegebenen Wahrschein-lichkeit liegt. Mit Hilfe der Standardnormalverteilung wird zunächst der z-Wert für die gewählte Wahrscheinlichkeit (p = .95) bestimmt. Aus der Tabelle: z(p=0.025) = -1.96 z(p=0.975)= 1.96 10_regression 18

Konfidenzintervalle Bei einer normalverteilten Variablen liegen also 95% aller Werte in einem Bereich von Mittelwert ± 1.96 Standardabweichungen. Weil die Standardabweichung der Residuen bekannt ist (der „Standardschätzfehler“), kann nun Konfidenzintervall berechnet werden: bzw. 10_regression 19

Beispiel 1 – Fortsetzung Standardschätzfehler: Konfidenzintervalle Beispiel 1 – Fortsetzung Standardschätzfehler: 10_regression 20

Konfidenzintervalle Beispiel 1 – Fortsetzung Für N=50 ergibt sich ein Populationsschätzer von: 10_regression 21

Konfidenzintervalle Beispiel 1 – Fortsetzung Das 95%-Konfidenzintervall berechnet sich als: Damit ergibt sich für folgende Konfidenzintervalle: 10_regression 22

Beispiel 2 – Fortsetzung Standardschätzfehler: Konfidenzintervalle Beispiel 2 – Fortsetzung Standardschätzfehler: 10_regression 23

Konfidenzintervalle Beispiel 2 – Fortsetzung Für N=20 ergibt sich ein Populationsschätzer von: 10_regression 24

Konfidenzintervalle Beispiel 2 – Fortsetzung Das 95%-Konfidenzintervall berechnet sich als: Damit ergibt sich für folgende Konfidenzintervalle: 10_regression 25

Kreuzvalidierung Die Regressionsgleichung wird immer mit Hilfe einer Stichprobe erstellt, von denen die Prädiktoren und die Kriterien bekannt sind. Es stellt sich jedoch die Frage nach der Generalisierbarkeit („externe Validität“), d.h. ob eine Vorhersage des Kriteriums anhand der Regressionsgleichung auch für Personen gültig ist, die nicht zu der ursprünglichen Stichprobe gehörten. Die externe Validität einer Regressionsanalyse kann mit der so genannten Kreuzvalidierung erfolgen 10_regression 26

Es werden also zwei Stichproben benötigt! Kreuzvalidierung Definition: Die Kreuzvalidierung ist ein Verfahren zur Überprüfung der „externen“ Validität einer Regressions-gleichung. Es wird dabei die Gültigkeit der Gleichung für eine Stichprobe überprüft, die nicht zur Ermittlung dieser Gleichung verwendet wurde. Es werden also zwei Stichproben benötigt! Entweder werden zwei getrennte Stichproben S1 und S2 erhoben Oder es wird nur eine Stichprobe erhoben, die zufällig in zwei Teilstichproben aufgeteilt wird. 10_regression 27

Berechnung der Regressionsgleichung R1anhand der Stichprobe S1. Kreuzvalidierung Vorgehen: Berechnung der Regressionsgleichung R1anhand der Stichprobe S1. Anwendung der Regressiongleichung R1 auf die zweite Stichprobe S2. Vergleich der vorhergesagten Kriteriumswerte mit den wahren Kriteriumswerten in S2.  Das gleiche Verfahren kann natürlich auch umgekehrt durchgeführt werden; dann wird die Gleichung aus S2 auf S1 angewendet (daher „Kreuzvalidierung“). 10_regression 28

Kreuzvalidierung Kreuzvalidierungen sind wichtig, da Regressionskoeffizienten häufig stichprobenabhängig sind. Die Entscheidung, welche Abweichung noch zu tolerieren ist, ist jedoch nicht eindeutig festgelegt. Abhilfe liefern multivariate Strukturgleichungsmodelle (z.B. die Auswertungssoftware AMOS), die in dieser Veranstaltung jedoch nicht besprochen werden. 10_regression 29

Es findet also eine Messwiederholung statt. Regression zur Mitte Für eine Prognose wird oft die aktuelle Ausprägung eines Merkmals zum Zeitpunkt (t0) verwendet, um die künftige Ausprägung des selben Merkmals zu einem späteren Zeitpunkt (t1) vorherzusagen („Autoregression“) Es findet also eine Messwiederholung statt. Beispiele: Schulleitung zum Ende der 4. Klasse und Noten im Gymnasium Depressivität am Beginn und am Ende einer Therapie 10_regression 30

Daher besteht für Probanden … Regression zur Mitte In diesem Fällen kommt es zum Effekt der „Regression zur Mitte“ (regression to the average) . Der Effekt sagt vorher, dass viele Probanden, die zum Zeitpunkt t0 besonders extreme Merkmalsausprägungen hatten, zum Zeitpunkt t1 durchschnittlichere Ausprägungen aufweisen. Daher besteht für Probanden … mit hohen Werten zu t0 eine erhöhte Wahrscheinlichkeit dafür, dass sich die Merkmalsausprägung bis t1 verringert.  mit niedrigen Werten zu t0 eine erhöhte Wahrscheinlichkeit dafür, dass sich die Merkmalsausprägung bis t1 erhöht. 10_regression 31

Regression zur Mitte 10_regression 32

Dies wird als Regression zur Mitte bezeichnet. Wenn nun aus dem Wert y1 die Veränderung Δy vorhergesagt werden soll, ergibt sich daher in der Regel ein negatives Regressionsgewicht, z.B.: Dies wird als Regression zur Mitte bezeichnet. Das negative Regressionsgewicht kann jedoch ein rein methodisches „Artefakt“ sein und sollte daher nicht inhaltlich interpretiert werden. 10_regression 33

Regression zur Mitte Der Effekt der Regression zur Mitte muss auch dann berücksichtigt werden, wenn für eine Mehrfachmessung Personen ausgewählt werden, deren Werte zu Zeitpunkt 1 auffällig hoch oder gering sind. Beispiel: Für Schüler mit auffällig niedrigen Werten in einem Test zur sozialen Kompetenz (Vorhermessung) wird ein entsprechendes Training durchgeführt. Nach 6 Monaten wird das Training evaluiert (Nachhermessung). Allein aufgrund statistischer Effekte ist zu erwarten, dass die auffälligen Schüler in der Nachhermessung besser abschneiden als in der Vorhermessung. 10_regression 34

Die lineare Regression in SPSS

Die lineare Regression in SPSS

Die lineare Regression in SPSS Lineare Regression im Syntax: regression /dependent stat /method enter stat_k. 10_regression 37

Die lineare Regression in SPSS Modellzusammenfassung Modell R R-Quadrat Korrigiertes R-Quadrat Standardfehler des Schätzers 1 ,342a ,117 ,108 2,98178 a. Einflußvariablen : (Konstante), Kenntnisse in der Statistik 10_regression 38

Die lineare Regression in SPSS Der „globale“ Signifikanztest: ANOVA = Analysis of Variance = Varianzanalyse Diese Ausgabe wird erst im Sommersemester besprochen! ANOVAb Modell Quadratsumme df Mittel der Quadrate F Signifikanz 1 Regression 112,924 12,701 ,001a Residuen 853,535 96 8,891 Gesamt 966,459 97 a. Einflußvariablen : (Konstante), Kenntnisse in der Statistik b. Abhängige Variable: stat 10_regression 39

Die lineare Regression in SPSS Signifikanztests für die einzelnen Parameter („Test gegen 0“) Additive Konstante (y-Achsen-Abschnitt) Koeffizientena Modell Nicht standardisierte Koeffizienten Standardisierte Koeffizienten T Signifikanz B Standardfehler Beta 1 (Konstante) 15,145 ,489 30,943 ,000 Kenntnisse in der Statistik ,054 ,015 ,342 3,564 ,001 a. Abhängige Variable: stat Regressionsgewicht 10_regression 40

Die Güte der Vorhersage wird durch den Standardschätzfehler angegeben. Zusammenfassung Ziel einer linearen Regression ist die Vorhersage eines Kriteriums durch einen Prädiktor. Dazu wird eine Gerade gesucht, die zu allen Punkten einer Punktewolke eine möglichst geringe (vertikale) Distanz hat. Eine Regressionsgleichung ist durch das Regressionsgewicht (b) und den Achsenabschnitt (a) definiert. Zur Schätzung dieser beiden Parameter wird die Methode der kleinsten Quadrate verwendet. Voraussetzungen für einer Regressionsanalyse sind Intervallskalenniveau und Normalverteilung der beteiligten Variablen, sowie deren Homoskedastizität. Die Güte der Vorhersage wird durch den Standardschätzfehler angegeben. 10_regression 41

Zusammenfassung Der Standardschätzfehler ist klein, wenn ein Kriterium mit geringer Varianz hoch mit einem Prädiktor mit großer Varianz korreliert ist. Aus dem Standardschätzfehler kann ein Konfidenzintervall für die wahren Kriteriumswerte berechnet werden. Die externe Validität gibt an, ob die Ergebnisse aus einer Stichprobe auf eine Population generalisiert werden können. Sie kann durch eine Kreuzvalidierung überprüft werden. Der Effekt der Regression zur Mitte führt zu einer negativen Korrelation einer Merkmalsausprägung zur Veränderung der Merkmalsausprägung über die Zeit. 10_regression 42