Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

Tutorat Statistik II im SS 09 ANCOVA & Faktorenanalyse

Ähnliche Präsentationen


Präsentation zum Thema: "Tutorat Statistik II im SS 09 ANCOVA & Faktorenanalyse"—  Präsentation transkript:

1 Tutorat Statistik II im SS 09 ANCOVA & Faktorenanalyse

2 Memo: Effektmodelle & Messwiederholung Was fällt euch noch ein?

3 Memo oZufallseffekte erlauben eine Verallgemeinerung der Ergebnisse auf nicht realisierte Faktorstufen und damit das Treffen von Trendaussagen oAb 2 Faktoren unterscheiden sich die Nenner der F-Tests: -Im Modell I (feste Effekte) MS within -Im Modell II (Zufallseffekte) MS AxB -Im Modell III (gemischte Effekte) kontraintuitiv: MS within beim Zufallseffekt, MS AxB beim festen Effekt oHypothese bei Zufallseffekte nicht über Effekte sondern nur über Effektvarianz definierbar oANOVA mit Messwiederholung vs. zweifaktorielle ANOVA mit gemischten Effekten: -erhöhte Power durch verringerte Fehlervarianz -Preis: Haupteffekt des Personenfaktors und Interaktion zwischen Personen und Messwiederholungsfaktor nicht definiert o2-fak. mit Messwiederholung: vollständig (2 Messwdh.- Faktoren) oder unvollständig (1 Messwdh.-Faktor)

4 Regressions- und Varianzanalysen: Gemeinsamkeiten sowie Unterschiede

5 Gemeinsamkeiten oRegressions- und Varianzanalysen untersuchen AV(s) in Abhängigkeit von UV(s) oDie AV ist normalverteilt & intervallskalliert oBeide Methoden erlauben den Einbezug mehrere UVs (Prädiktoren/Faktoren) oDaten lassen sich jeweils als lineare Modelle in der Strukturgleichung des ALM darstellen

6 Unterschiede oZiel der Regression ist die Rückführung der AV auf die UV(s); es handelt sich um die Analyse von Zusammenhängen (in einer Population) mathematische Grundlage: Korrelationen oZiel der Varianzanalyse ist zu prüfen, ob sich die AV in Abhängigkeit von der UV systematisch unterscheidet; es handelt sich um eine Analyse von Unterschieden (zwischen Populationen) mathematische Grundlage: Mittelwertsdifferenzen oDie UV(s) der ANOVA sind i.d.R. nominalskaliert, die der Regression üblicherweise intervallskalliert

7 Strukturgleichung des ALM

8 ANOVA: Effekte & Stufen eines Faktors Regression: standardisierte Koeffizienten & Werte auf versch. Prädiktoren unstandardisiert: standardisiert: Wegfall der additiven Konstante: Darstellbarkeit im ALM

9 Thema: ANCOVA & Faktorenanalyse

10 Gliederung I.Funktion der Kovarianzanalyse (ANCOVA) II.Wege der Berechnung III.Explorative Faktorenanalyse

11 I.Funktion der Kovarianzanalyse

12 Funktion der Kovarianzanalyse oDie Kovarianzanalyse ist eine Kombination aus Zusammenhangs- & Unterschiedsanalysen und dient der statistischen Kontrolle von Störvariablen oVariablen, die nichts mit der inhaltlichen Hypothese zu tun haben, aber dennoch die AV beeinflussen, werden Störvariablen genannt. oBeispiel: Neben der experimentelle Bedingung beeinflusst auch das Alter das Abschneiden in einem Leistungstest oEs gibt verschiedene Möglichkeiten, (bekannte) Störvariablen zu kontrollieren: -Die Störvariable wird über alle Bedingungen konstant gehalten (alle Probanden sind gleich alt) -Aufnahme der Störvariablen als Faktor im Versuchsplan -Statistische Kontrolle der Störvariablen oAlternative: Partialkorrelationen (Skalenniveau!)?

13 Probleme der Kontrolle oStörvariablen können aus praktischen und ethischen Gründen nicht immer konstant gehalten werden. oDie Aufnahme einer Störvariablen in den Versuchsplan ist unökonomisch, da die Zahl der nötigen Probanden deutlich steigt. Beispiel: Untersuchung zur Merkleistung oFaktor Geschlecht des Teilnehmers (2-fach) oFaktor Darbietungsform (3-fach) Es werden 2 x 3 x 20 = 120 Vpn benötigt. oWenn das Alter (Störvariable) als dritter Faktor (z.B. drei Stufen) berücksichtigt werden soll, braucht man schon 3 x 120 = 360 Vpn. Ökonomischer: Kovarianzanalyse

14 II.Wege der Berechnung

15 Unser Beispiel 20 Schüler lernen eine Programmiersprache. oUV: 5 verschiedene Lernmethoden oAV: Lernerfolg oKovariate: mathematisch-logische Vorkenntnisse Der Einfluss der Kovariate auf den Lernerfolg wird statistisch kontrolliert. Der Effekt der Lehrmethode kann so auch zuverlässig bestimmt werden, wenn zufällig in einer Gruppe viele Probanden mit hohen Vorkenntnissen waren.

16 Variante 1 oRegression der AV auf die Kovariate Die Regressionsresiduen beschreiben den Anteil der AV, der nicht durch die Kovariate erklärt werden kann. oDiese Residuen werden als neue AV in eine Varianzanalyse gegeben. Erklärung der verbleibenden Varianz durch die UV

17 x: mathematisch-logische Fähigkeiten (Kovariate) y: Lernerfolg (AV) 1-5: Trainingsbedingung (UV, 5-stufig) Beispiel

18 Regression von AV auf Kovariate

19 Bestimmung der Residuen xyy(reg)y(res)

20 ANOVA mit den Residuen Die ANOVA wird wie immer berechnet: Quadratsummen (between & within) Mittlere Quadratsummen F-Werte … Residualisierung

21 Variante 2 oBerechnung über modifizierte Quadratsummen: Varianz der Kovariate wird direkt aus den Quadratsummen entfernt oVorgehen in vier Schritten: 1.Quadratsummenzerlegung beider Variablen 2.Produktsummenzerlegung 3.Entfernen der Varianz der Kovariate: Berechnen der Modifizierten Quadratsummen 4.F-Test

22 Kovarianzanalyse - Berechnung Tatsächlich erfolgt die Berechnung anders als eben beschrieben. Die Darstellung diente der inhaltlichen Veranschaulichung. Stattdessen wird die Varianz der Kovariate direkt aus den Quadratsummen entfernt. Das mathematische Vorgehen ist: 1.Quadratsummenzerlegung beider Variablen 2.Produktsummenzerlegung 3.Entfernen der Varianz der Kovariate: Berechnen der Modifizierten Quadratsummen 4.F-Test

23 Quadratsummen Quadratsummenzerlegung für die AV (y) und die Kovariate (x):

24 Quadratsummen

25 Produktsummen Die Produktsumme ist die Vorstufe zur Kovarianz (daher der Name Kovarianzanalyse) Produktsumme:

26 Produktsummen Es gilt wie für die Quadratsummen:

27

28 Modifizierte Quadratsummen (adjusted Sums of Squares) Die Varianz der Kovariate wird aus den Quadratsummen der AV eliminiert.

29 Modifizierte Quadratsummen (adjusted Sums of Squares)

30 3. F-Test und Freiheitsgrade F krit = 3.11 signifikanter Effekt der Lernmethode auf den Lernerfolg wenn gleichzeitig die mathematisch-logische Vorkenntnisse kontrolliert werden.

31 III.Explorative Faktorenanalyse

32 Kernfragen Was ist eine Faktorenanalyse? Wozu verwende ich eine Faktorenanalyse? Wie läuft die Faktorenanalyse ab? Welches sind wichtige Begriffe?

33 explorative vs. konfirmatorische Faktorenanalyse oExplorative FA dienen dem Auffinden von Faktoren in einem Datensatz. In vielen Iterationen (Schleifen) wird nach der besten Lösung gesucht. oKonfirmatorische FA überprüfen, ob empirisch erhobene Daten ein bestehendes theoretisches Modell bestätigen oder verwerfen. Alternativ kann eine explorative FA an einer anderen Stichprobe kreuzvalidiert werden. Unser Thema: Ablauf der explorativen FA

34 Die Faktorenanalyse (künftig: FA) ist ein multivariates Verfahren zur Reduktion von vielen (manifesten) Variablen zu wenigen (latenten) Variablen, die als Faktoren bezeichnet werden. Faktorenanalyse: Was und wozu?

35 FA im Bild Faktoren: latent (rund) Items: manifest (eckig)

36 Ziel der FA oAus einer (großen) Anzahl von Variablen soll eine kleinere Anzahl von zugrunde liegenden (latenten) Faktoren extrahiert werden. Hierbei soll möglichst viel Information (Varianz) der ursprünglichen Variablen erhalten bleiben. Konstruktion von Fragebögen oBeispiel: Die BIG FIVE

37 Voraussetzungen der FA ointervallskalierte Variablen onormalverteilte Variablen on pro Variable mindestens 3 osubstanzielle Korrelationen im Datensatz odichotome Variablen (0/1) mit Einschränkungen verwendbar

38 Bildhafte Beschreibung oAnmerkung: Faktorenanalysen werden in so genannten mehrdimensionalen Vektorräumen berechnet. Da der Mensch sich im Allgemeinen nicht mehr als drei räumliche Dimensionen vorstellen kann, basieren die folgenden Erläuterungen auf einer Faktorenanalyse mit nur drei Variablen.

39 Bildhafte Beschreibung odurch die Ausprägungen der verschiedenen Personen in den drei Variablen wird eine dreidimensionale Punktewolke aufgespannt

40 Bildhafte Beschreibung odiese Punktewolke soll nun mit möglichst wenigen Faktoren (Vektoren) beschrieben werden oder erste Faktor (lambda 1) wird so definiert, dass er die längstmögliche Strecke durch die Punktewolke geht (größtmögliche Varianzaufklärung)

41 Bildhafte Beschreibung oder zweite Faktor wird so bestimmt, dass er von der verbleibenden Varianz möglichst viel erklärt oBedingung: Unabhängigkeit vom ersten Faktor (Orthogonalität)

42 Bildhafte Beschreibung oder dritte Faktor unterliegt denselben Bedingungen und soll von den ersten beiden Faktoren unabhängig sein

43 Bildhafte Beschreibung oFolge: Die Ausprägung der einzelnen Personen kann über drei Faktoren beschrieben werden oAber: Drei Variablen = drei Faktoren? oFazit: Da die Anzahl der Faktoren immer möglichst klein sein sollte, kommt es bei der Faktorenanalyse immer zu einem Informationsverlust.

44 Vorgehen in 6 Schritten 1.z-standardisierte Matrix der Variablenwerte bilden 2.Bildung einer Korrelationsmatrix (Überprüfung z.B. mit Bartlett-Test oder KMO-Kennwert) 3.Bestimmung der Faktorladungsmatrix in Iterationen Kommunalitätenproblem 4.Bestimmung der Faktorenzahl Extraktionsproblem 5.Rotation der Faktorladungsmatrix Inhaltliche Interpretation

45 Korrelationsmatrix Adjektiv 1 Adjektiv 2 Adjektiv 3 Adjektiv x Adjektiv Adjektiv Adjektiv 3……… Adjektiv x

46 Faktorladungsmatrix Neuro- tizismus Extra- version Verträg- lichkeit Adjektiv Adjektiv Adjektiv 3……… Adjektiv 5 Adjektiv 6 Adjektiv x

47 Wichtige Begriffe oKommunalität (h²): Jener Varianzanteil einer Variablen, welcher durch alle aufgenommenen Faktoren erklärt werden kann. Mit anderen Worten: Wie gut wird eine Variable durch die extrahierten Faktoren reproduziert. oKommunalität 1 = 100% Varianzaufklärung oKommunalität 0 = 0% Varianzaufklärung oDie Kommunalität ist die Zeilensumme der quadrierten Werte der Faktorladungsmatrix

48 Kommunalität h² Neuro- tizismus Extra- version Verträg- lichkeit h² Adjektiv 1.42².24².31².33 Adjektiv 2.21².14².24².12 Adjektiv 3………… Adjektiv 5 Adjektiv 6 Adjektiv x

49 Kommunalitätenproblem oIn der ursprünglichen Korrelationsmatrix sind alle Elemente der Hauptdiagonalen 1. oDa bei der Faktorenanalyse nicht 100% der Varianz erklärt werden kann (Informationsverlust), reduziert sich dieser Wert (Kommunalität < 1). oFrage: Mit welchem Wert soll die Berechnung einer Faktorenanalyse starten?

50 Kommunalitätenproblem Die Hauptkomponentenanalyse (PCA) setzt die Werte der Diagonalen bei der ersten Iteration auf 1. Bevorzugung von Faktoren, die viel Varianz an einzelnen Variablen erklären Die Hauptachsenanalyse (PFA) schätzt über seperates Verfahren schon vor der ersten Iteration die Kommunalitäten. Bevorzugung von Faktoren, die Varianz an vielen Variablen erklären

51 Extraktionsproblem oWie viele Faktoren soll meine Lösung enthalten? –Werden bei n Variablen n Faktoren ermittelt, so kann 100% der Gesamtvarianz erklärt werden. –Allerdings findet dann keine Reduktion der Informationen statt. oVier Möglichkeiten: 1.Eigenwertkriterium 2.gewünschte Varianzaufklärung 3.grafische Lösung (Scree-Plot) 4.theoriegeleitet

52 Wichtige Begriffe oDer Eigenwert λ eines Faktors gibt an, wie viel Varianz dieser Faktor an allen Variablen aufklärt. oDer Wertebereich des Eigenwerts hängt von der Anzahl der Variablen ab: 0 < λ < p. oEin Eigenwert von 1 bedeutet also, dass ein Faktor so viel Varianz aufklärt, wie eine der standardisierten Variablen. oDer Eigenwert ist die Spaltensumme der Faktorladungsmatrix.

53 Eigenwert λ Neuro- tizismus Extra- version Verträg- lichkeit h² Adjektiv 1.42².24².31².33 Adjektiv 2.21².14².24².12 Adjektiv 3………… Adjektiv 5 Adjektiv 6 Adjektiv x λ

54 Bestimmung der Faktorzahl Variante I oKaiser-Gutman-Regel (Eigenwertkriterium) –Alle Faktoren mit einem Eigenwert größer 1 werden aufgenommen. –Somit erklärt ein Faktor immer mehr Varianz als eine ursprüngliche Variable.

55 oKriterium der extrahierten Varianz –Durch Vorüberlegungen kann festgelegt werden, wie groß der Anteil der extrahierten Varianz durch die aufgenommenen Faktoren sein soll. Bestimmung der Faktorzahl Variante II

56

57 oScreeplot –Über den Knick im Verlauf der Eigenwerte wird entschieden, wie viele Faktoren extrahiert werden. –Im Beispiel würde man sich für 2 Faktoren entscheiden. Bestimmung der Faktorzahl Variante III

58 Das Rotationsproblem oDie Position der Faktoren ist zunächst nach Maximierung der Varianzaufklärung gewählt. oNach Bestimmung von Zahl (und Lage) der Faktoren ist eine Rotation um den Ursprung ohne Informationsverlust möglich. oZiel: Einfachstruktur, d.h. hohe Ladung der Faktoren auf einigen Variablen, niedrige auf den anderen.

59 Wichtiger Begriff oFaktorladung: Maß für den Zusammenhang zwischen Variable und Faktor (quadrierte Werte der Faktorladungsmatrix) oWerte zwischen 0 und 1 oDie Einfachstruktur der Lösung wird erreicht, wenn die Variable auf einem Faktor sehr hoch (nahe 1) und auf allen anderen Faktoren sehr niedrig (nahe 0) lagert.

60 Vor der Rotation Variablen sind nur schwer zuzuordnen

61 Nach der Rotation Problem der Zuordnung nur noch bei der Variablen Leistungsbereitschaft

62 Rotationsvarianten Orthogonale Rotation: Die Faktoren werden rechtwinklig rotiert. Vorteil: Faktoren sind voneinander unabhängig. Oblique Rotation: Die Faktoren werden schiefwinklig rotiert. Vorteil: Über die Faktoren kann eine Faktorenanalyse zweiter Ordnung berechnet werden.

63 Interpretation der Faktoren oDie berechneten Faktoren müssen inhaltlich interpretiert werden. oDie Faktorenanalyse bietet die Faktorladungen der Variablen an, kann Faktoren aber nicht benennen oder interpretieren.

64 Vielen Dank für eure Aufmerksamkeit!

65 Übungsaufgaben ANCOVA

66 Aufgabe 1 a)Erklären Sie kurz den Begriff Störvariable. b)Nennen Sie 3 Möglichkeiten, mit bekannten Störvariablen umzugehen!

67 Lösung 1 a)Variablen, die nichts mit der inhaltlichen Hypothese zu tun haben, aber dennoch die AV beeinflussen, werden Störvariablen (SV) genannt. b)Konstanthalten der SV, Aufnahme der SV als zusätzliche UV, Aufnahme der SV als Kovariate (-> Kovarianzanalyse).

68 Aufgabe 2 a)Was wird unter einer Residualisierung verstanden? b)Der Zusammenhang einer AV mit einer Kovariate wird durch die Regressionsgleichung mit dem Regressionskoeffizient b=0.5 und einer additiven Konstante von a=-10 beschrieben. Berechnen Sie die Residuen für drei Probanden mit den Werten: y1=20; x1=10; y2=0; x2=0; y3=-5; x3=2.

69 Lösung 2 a)Bei einer Residualisierung wird eine Regression der AV auf eine Kovariate berechnet. Anschließend werden für alle VP die Differenzen der tatsächlichen y-Werte und der vorhergesagten y-Werte gebildet. Diese Residuen bilden nun eine neue AV. b)

70 Aufgabe 3 Die Reaktionszeit (in ms) wird zwischen zwei Aufgaben verglichen. Das Alter der Probanden soll dabei als Kovariate mit berücksichtigt werden. Es gilt: SS between (y) =26450 SS within (y) =51100 SS between (x) =2 SS within (x) =206

71 Fortsetzung Aufgabe 3 a)Berechnen Sie die Produktsummen (SP): SP total, SP within,SP between. b)Berechnen Sie die adjustierten Quadratsummen SS within (y),SS between (y). c)Berechnen Sie die adjustierten mittleren Quadratsummen MS within,MS between. d)Berechnen Sie den empirischen F-Wert.

72 Lösung 3

73 Fortsetzung Lösung 3


Herunterladen ppt "Tutorat Statistik II im SS 09 ANCOVA & Faktorenanalyse"

Ähnliche Präsentationen


Google-Anzeigen