Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

Tutorat Statistik II im SS 09 ANCOVA & Faktorenanalyse

Ähnliche Präsentationen


Präsentation zum Thema: "Tutorat Statistik II im SS 09 ANCOVA & Faktorenanalyse"—  Präsentation transkript:

1 Tutorat Statistik II im SS 09 ANCOVA & Faktorenanalyse

2 Memo: Effektmodelle & Messwiederholung
Was fällt euch noch ein?

3 Memo Zufallseffekte erlauben eine Verallgemeinerung der Ergebnisse auf nicht realisierte Faktorstufen und damit das Treffen von „Trendaussagen“ Ab 2 Faktoren unterscheiden sich die Nenner der F-Tests: Im Modell I (feste Effekte) MSwithin Im Modell II (Zufallseffekte) MSAxB Im Modell III (gemischte Effekte) kontraintuitiv: MSwithin beim Zufallseffekt, MSAxB beim festen Effekt Hypothese bei Zufallseffekte nicht über Effekte sondern nur über Effektvarianz definierbar ANOVA mit Messwiederholung vs. zweifaktorielle ANOVA mit gemischten Effekten: erhöhte Power durch verringerte Fehlervarianz Preis: Haupteffekt des Personenfaktors und Interaktion zwischen Personen und Messwiederholungsfaktor nicht definiert 2-fak. mit Messwiederholung: vollständig (2 Messwdh.-Faktoren) oder unvollständig (1 Messwdh.-Faktor) Trendaussage: Je älter des langsamer die RT

4 Regressions- und Varianzanalysen: Gemeinsamkeiten sowie Unterschiede

5 Gemeinsamkeiten Regressions- und Varianzanalysen untersuchen AV(s) in Abhängigkeit von UV(s) Die AV ist normalverteilt & intervallskalliert Beide Methoden erlauben den Einbezug mehrere UVs (Prädiktoren/Faktoren) Daten lassen sich jeweils als lineare Modelle in der Strukturgleichung des ALM darstellen

6 Unterschiede Ziel der Regression ist die Rückführung der AV auf die UV(s); es handelt sich um die Analyse von Zusammenhängen (in einer Population) mathematische Grundlage: Korrelationen Ziel der Varianzanalyse ist zu prüfen, ob sich die AV in Abhängigkeit von der UV systematisch unterscheidet; es handelt sich um eine Analyse von Unterschieden (zwischen Populationen) mathematische Grundlage: Mittelwertsdifferenzen Die UV(s) der ANOVA sind i.d.R. nominalskaliert, die der Regression üblicherweise intervallskalliert

7 Strukturgleichung des ALM

8 ANOVA: Effekte & Stufen eines Faktors
Regression: standardisierte Koeffizienten & Werte auf versch. Prädiktoren unstandardisiert: standardisiert: Wegfall der additiven Konstante: Darstellbarkeit im ALM ANOVA: Eine UV mit zwei Stufen Regression: k intervallskallierte UVs

9 Thema: ANCOVA & Faktorenanalyse

10 Gliederung Funktion der Kovarianzanalyse (ANCOVA) Wege der Berechnung
Explorative Faktorenanalyse

11 Funktion der Kovarianzanalyse

12 Funktion der Kovarianzanalyse
Die Kovarianzanalyse ist eine Kombination aus Zusammenhangs- & Unterschiedsanalysen und dient der statistischen Kontrolle von Störvariablen Variablen, die nichts mit der inhaltlichen Hypothese zu tun haben, aber dennoch die AV beeinflussen, werden Störvariablen genannt. Beispiel: Neben der experimentelle Bedingung beeinflusst auch das Alter das Abschneiden in einem Leistungstest Es gibt verschiedene Möglichkeiten, (bekannte) Störvariablen zu kontrollieren: Die Störvariable wird über alle Bedingungen konstant gehalten (alle Probanden sind gleich alt) Aufnahme der Störvariablen als Faktor im Versuchsplan Statistische Kontrolle der Störvariablen Alternative: Partialkorrelationen (Skalenniveau!)?

13 Probleme der Kontrolle
Störvariablen können aus praktischen und ethischen Gründen nicht immer konstant gehalten werden. Die Aufnahme einer Störvariablen in den Versuchsplan ist unökonomisch, da die Zahl der nötigen Probanden deutlich steigt. Beispiel: Untersuchung zur Merkleistung Faktor Geschlecht des Teilnehmers (2-fach) Faktor Darbietungsform (3-fach)  Es werden 2 x 3 x 20 = 120 Vpn benötigt. Wenn das Alter (Störvariable) als dritter Faktor (z.B. drei Stufen) berücksichtigt werden soll, braucht man schon 3 x 120 = 360 Vpn. Ökonomischer: Kovarianzanalyse

14 Wege der Berechnung

15 Unser Beispiel 20 Schüler lernen eine Programmiersprache.
UV: 5 verschiedene Lernmethoden AV: Lernerfolg Kovariate: mathematisch-logische Vorkenntnisse  Der Einfluss der Kovariate auf den Lernerfolg wird statistisch kontrolliert.  Der Effekt der Lehrmethode kann so auch zuverlässig bestimmt werden, wenn zufällig in einer Gruppe viele Probanden mit hohen Vorkenntnissen waren.

16 Variante 1 Regression der AV auf die Kovariate
 Die Regressionsresiduen beschreiben den Anteil der AV, der nicht durch die Kovariate erklärt werden kann. Diese Residuen werden als neue AV in eine Varianzanalyse gegeben.  Erklärung der verbleibenden Varianz durch die UV

17 Beispiel x: mathematisch-logische Fähigkeiten (Kovariate) y: Lernerfolg (AV) 1-5: Trainingsbedingung (UV, 5-stufig)

18 Regression von AV auf Kovariate

19 Bestimmung der Residuen
x y y(reg) y(res) 10 18 19.19 -1.19 20 17 27.69 -10.69 15 23 23.44 -0.44 12 19 20.89 -1.89 22 40 29.39 10.61 31 37.04 -15.04 16 28 24.29 3.71 25.14 5.86 30 38 36.19 1.81 2.96 41 25.99 15.01 35 25 40.44 -15.44 37 45 42.14 2.86 50 45.54 4.46 51 14.81 11 20.04 -5.04 -7.29 26.84 -6.84 31.94 -8.94

20 ANOVA mit den Residuen Die ANOVA wird wie immer berechnet:
1 2 3 4 5 -1.19 10.61 1.81 -15.44 -5.04 -10.69 -15.04 2.96 2.86 -7.29 -0.44 3.71 15.01 4.46 -6.84 -1.89 5.86 14.81 -8.94 -3.55 1.29 7.60 1.67 -7.03 Residualisierung Die ANOVA wird wie immer berechnet: Quadratsummen (between & within) Mittlere Quadratsummen F-Werte

21 Variante 2 Berechnung über modifizierte Quadratsummen:
Varianz der Kovariate wird direkt aus den Quadratsummen „entfernt Vorgehen in vier Schritten: Quadratsummenzerlegung beider Variablen Produktsummenzerlegung Entfernen der Varianz der Kovariate: Berechnen der Modifizierten Quadratsummen F-Test

22 Kovarianzanalyse - Berechnung
Tatsächlich erfolgt die Berechnung anders als eben beschrieben. Die Darstellung diente der inhaltlichen Veranschaulichung. Stattdessen wird die Varianz der Kovariate direkt aus den Quadratsummen „entfernt“. Das mathematische Vorgehen ist: Quadratsummenzerlegung beider Variablen Produktsummenzerlegung Entfernen der Varianz der Kovariate: Berechnen der Modifizierten Quadratsummen F-Test

23 Quadratsummen Quadratsummenzerlegung für die AV (y) und die Kovariate (x):

24 Quadratsummen

25 Produktsummen Produktsumme:
Die „Produktsumme“ ist die Vorstufe zur Kovarianz (daher der Name „Kovarianzanalyse“)

26 Produktsummen Es gilt wie für die Quadratsummen:

27

28 Modifizierte Quadratsummen (adjusted Sums of Squares)
 Die Varianz der Kovariate wird aus den Quadratsummen der AV eliminiert.

29 Modifizierte Quadratsummen (adjusted Sums of Squares)

30 3. F-Test und Freiheitsgrade
Fkrit = 3.11 signifikanter Effekt der Lernmethode auf den Lernerfolg wenn gleichzeitig die mathematisch-logische Vorkenntnisse kontrolliert werden.

31 Explorative Faktorenanalyse

32 Kernfragen Was ist eine Faktorenanalyse?
Wozu verwende ich eine Faktorenanalyse? Wie läuft die Faktorenanalyse ab? Welches sind wichtige Begriffe?

33 explorative vs. konfirmatorische Faktorenanalyse
Explorative FA dienen dem Auffinden von Faktoren in einem Datensatz. In vielen Iterationen (Schleifen) wird nach der besten Lösung gesucht. Konfirmatorische FA überprüfen, ob empirisch erhobene Daten ein bestehendes theoretisches Modell bestätigen oder verwerfen. Alternativ kann eine explorative FA an einer anderen Stichprobe „kreuzvalidiert“ werden. Unser Thema: Ablauf der explorativen FA

34 Faktorenanalyse: Was und wozu?
Die Faktorenanalyse (künftig: FA) ist ein multivariates Verfahren zur Reduktion von vielen (manifesten) Variablen zu wenigen (latenten) Variablen, die als Faktoren bezeichnet werden.

35 FA im Bild Items: manifest (eckig) Faktoren: latent (rund)

36 Ziel der FA Aus einer (großen) Anzahl von Variablen soll eine kleinere Anzahl von zugrunde liegenden (latenten) Faktoren extrahiert werden. Hierbei soll möglichst viel Information (Varianz) der ursprünglichen Variablen erhalten bleiben. Konstruktion von Fragebögen Beispiel: Die BIG FIVE

37 Voraussetzungen der FA
intervallskalierte Variablen normalverteilte Variablen n pro Variable mindestens 3 substanzielle Korrelationen im Datensatz dichotome Variablen (0/1) mit Einschränkungen verwendbar

38 Bildhafte Beschreibung
Anmerkung: Faktorenanalysen werden in so genannten mehrdimensionalen Vektorräumen berechnet. Da der Mensch sich im Allgemeinen nicht mehr als drei räumliche Dimensionen vorstellen kann, basieren die folgenden Erläuterungen auf einer Faktorenanalyse mit nur drei Variablen.

39 Bildhafte Beschreibung
durch die Ausprägungen der verschiedenen Personen in den drei Variablen wird eine dreidimensionale Punktewolke aufgespannt

40 Bildhafte Beschreibung
diese Punktewolke soll nun mit möglichst wenigen Faktoren (Vektoren) beschrieben werden der erste Faktor (lambda 1) wird so definiert, dass er die längstmögliche Strecke durch die Punktewolke geht (größtmögliche Varianzaufklärung)

41 Bildhafte Beschreibung
der zweite Faktor wird so bestimmt, dass er von der verbleibenden Varianz möglichst viel erklärt Bedingung: Unabhängigkeit vom ersten Faktor (Orthogonalität)

42 Bildhafte Beschreibung
der dritte Faktor unterliegt denselben Bedingungen und soll von den ersten beiden Faktoren unabhängig sein

43 Bildhafte Beschreibung
Folge: Die Ausprägung der einzelnen Personen kann über drei Faktoren beschrieben werden Aber: Drei Variablen = drei Faktoren? Fazit: Da die Anzahl der Faktoren immer möglichst klein sein sollte, kommt es bei der Faktorenanalyse immer zu einem Informationsverlust.

44 Vorgehen in 6 Schritten z-standardisierte Matrix der Variablenwerte bilden Bildung einer Korrelationsmatrix (Überprüfung z.B. mit Bartlett-Test oder KMO-Kennwert) Bestimmung der Faktorladungsmatrix in Iterationen  Kommunalitätenproblem Bestimmung der Faktorenzahl  Extraktionsproblem Rotation der Faktorladungsmatrix  Inhaltliche Interpretation Hinweis: Vereinfachung des Schemas aus Leonhart (S. 510) aufgrund der Unklarheit des Unterschieds zwischen reduzierter Korrelations- und Faktorladungsmatrix. Erklärung von Andreas: Die reduzierte Korrelationsmatrix kommt nur bei der Hauptachsenanalyse vor, bei der die Diagonale der Korrelationsmatrix durch die jeweils übrigen Variablen geschätzt wird. Mit dem Bartlett-Test (eine von mehren Möglichkeiten) kann überprüft werden, ob die Korrelationsmatrix (R) sich von der Einheitsmatrix (E) unterscheidet. Damit wird Voraussetzung substanzieller Korrelationen im Datensatz überprüft.

45 Korrelationsmatrix Adjektiv 1 Adjektiv 2 Adjektiv 3 Adjektiv x 1.0 .24
.36 .21

46 Faktorladungsmatrix Neuro-tizismus Extra-version Verträg-lichkeit
Adjektiv 1 .42 .24 .36 Adjektiv 2 .21 .14 Adjektiv 3 Adjektiv 5 Adjektiv 6 Adjektiv x

47 Wichtige Begriffe Kommunalität (h²): Jener Varianzanteil einer Variablen, welcher durch alle aufgenommenen Faktoren erklärt werden kann. Mit anderen Worten: Wie gut wird eine Variable durch die extrahierten Faktoren reproduziert. Kommunalität 1 = 100% Varianzaufklärung Kommunalität 0 = 0% Varianzaufklärung Die Kommunalität ist die Zeilensumme der quadrierten Werte der Faktorladungsmatrix

48 Kommunalität h² Neuro-tizismus Extra-version Verträg-lichkeit h²
Adjektiv 1 .42² .24² .31² .33 Adjektiv 2 .21² .14² .12 Adjektiv 3 Adjektiv 5 Adjektiv 6 Adjektiv x

49 Kommunalitätenproblem
In der ursprünglichen Korrelationsmatrix sind alle Elemente der Hauptdiagonalen 1. Da bei der Faktorenanalyse nicht 100% der Varianz erklärt werden kann (Informationsverlust), reduziert sich dieser Wert (Kommunalität < 1). Frage: Mit welchem Wert soll die Berechnung einer Faktorenanalyse starten?

50 Kommunalitätenproblem
Die Hauptkomponentenanalyse (PCA) setzt die Werte der Diagonalen bei der ersten Iteration auf 1.  Bevorzugung von Faktoren, die viel Varianz an einzelnen Variablen erklären Die Hauptachsenanalyse (PFA) schätzt über seperates Verfahren schon vor der ersten Iteration die Kommunalitäten.  Bevorzugung von Faktoren, die Varianz an vielen Variablen erklären Konsequenz PCA: Faktoren, auf denen nur eine einzige Variable hoch lädt, können auftreten. Konsequenz PFA: Faktoren, auf denen viele Variablen laden, werden bevorzugt.

51 Extraktionsproblem Wie viele Faktoren soll meine „Lösung“ enthalten?
Werden bei n Variablen n Faktoren ermittelt, so kann 100% der Gesamtvarianz erklärt werden. Allerdings findet dann keine Reduktion der Informationen statt. Vier Möglichkeiten: Eigenwertkriterium gewünschte Varianzaufklärung grafische Lösung (Scree-Plot) theoriegeleitet

52 Wichtige Begriffe Der Eigenwert λ eines Faktors gibt an, wie viel Varianz dieser Faktor an allen Variablen aufklärt. Der Wertebereich des Eigenwerts hängt von der Anzahl der Variablen ab: 0 < λ < p. Ein Eigenwert von 1 bedeutet also, dass ein Faktor so viel Varianz aufklärt, wie eine der standardisierten Variablen. Der Eigenwert ist die Spaltensumme der Faktorladungsmatrix.

53 Eigenwert λ Neuro-tizismus Extra-version Verträg-lichkeit h²
Adjektiv 1 .42² .24² .31² .33 Adjektiv 2 .21² .14² .12 Adjektiv 3 Adjektiv 5 Adjektiv 6 Adjektiv x λ 3 2.4 3.5

54 Bestimmung der Faktorzahl Variante I
Kaiser-Gutman-Regel (Eigenwertkriterium) Alle Faktoren mit einem Eigenwert größer 1 werden aufgenommen. Somit erklärt ein Faktor immer mehr Varianz als eine ursprüngliche Variable.

55 Bestimmung der Faktorzahl Variante II
Kriterium der extrahierten Varianz Durch Vorüberlegungen kann festgelegt werden, wie groß der Anteil der extrahierten Varianz durch die aufgenommenen Faktoren sein soll.

56

57 Bestimmung der Faktorzahl Variante III
Screeplot Über den „Knick“ im Verlauf der Eigenwerte wird entschieden, wie viele Faktoren extrahiert werden. Im Beispiel würde man sich für 2 Faktoren entscheiden.

58 Das Rotationsproblem Die Position der Faktoren ist zunächst nach Maximierung der Varianzaufklärung gewählt. Nach Bestimmung von Zahl (und Lage) der Faktoren ist eine Rotation um den Ursprung ohne Informationsverlust möglich. Ziel: Einfachstruktur, d.h. hohe Ladung der Faktoren auf einigen Variablen, niedrige auf den anderen.

59 Wichtiger Begriff Faktorladung: Maß für den Zusammenhang zwischen Variable und Faktor (quadrierte Werte der Faktorladungsmatrix) Werte zwischen 0 und 1 Die Einfachstruktur der Lösung wird erreicht, wenn die Variable auf einem Faktor sehr hoch (nahe 1) und auf allen anderen Faktoren sehr niedrig (nahe 0) lagert.

60 Vor der Rotation Variablen sind nur schwer zuzuordnen

61 Nach der Rotation Problem der Zuordnung nur noch bei der Variablen Leistungsbereitschaft

62 Rotationsvarianten Orthogonale Rotation:
Die Faktoren werden rechtwinklig rotiert. Vorteil: Faktoren sind voneinander unabhängig. Oblique Rotation: Die Faktoren werden schiefwinklig rotiert. Vorteil: Über die Faktoren kann eine Faktorenanalyse zweiter Ordnung berechnet werden.

63 Interpretation der Faktoren
Die berechneten Faktoren müssen inhaltlich interpretiert werden. Die Faktorenanalyse bietet die Faktorladungen der Variablen an, kann Faktoren aber nicht benennen oder interpretieren.

64 Vielen Dank für eure Aufmerksamkeit!

65 Übungsaufgaben ANCOVA

66 Aufgabe 1 Erklären Sie kurz den Begriff „Störvariable“.
Nennen Sie 3 Möglichkeiten, mit bekannten Störvariablen umzugehen!

67 Lösung 1 Variablen, die nichts mit der inhaltlichen Hypothese zu tun haben, aber dennoch die AV beeinflussen, werden Störvariablen (SV) genannt. Konstanthalten der SV, Aufnahme der SV als zusätzliche UV, Aufnahme der SV als Kovariate (-> Kovarianzanalyse).

68 Aufgabe 2 Was wird unter einer Residualisierung verstanden?
Der Zusammenhang einer AV mit einer Kovariate wird durch die Regressionsgleichung mit dem Regressionskoeffizient b=0.5 und einer additiven Konstante von a=-10 beschrieben. Berechnen Sie die Residuen für drei Probanden mit den Werten: y1=20; x1=10; y2=0; x2=0; y3=-5; x3=2.

69 Lösung 2 Bei einer Residualisierung wird eine Regression der AV auf eine Kovariate berechnet. Anschließend werden für alle VP die Differenzen der tatsächlichen y-Werte und der vorhergesagten y-Werte gebildet. Diese „Residuen“ bilden nun eine neue AV. b)

70 Aufgabe 3 Die Reaktionszeit (in ms) wird zwischen zwei Aufgaben verglichen. Das Alter der Probanden soll dabei als Kovariate mit berücksichtigt werden. Es gilt: SSbetween (y) =26450 SSwithin (y) =51100 SSbetween (x) =2 SSwithin (x) =206

71 Fortsetzung Aufgabe 3 Berechnen Sie die Produktsummen (SP): SPtotal, SPwithin ,SPbetween. Berechnen Sie die adjustierten Quadratsummen SSwithin (y),SSbetween (y). Berechnen Sie die adjustierten mittleren Quadratsummen MSwithin ,MSbetween. Berechnen Sie den empirischen F-Wert.

72 Lösung 3

73 Fortsetzung Lösung 3


Herunterladen ppt "Tutorat Statistik II im SS 09 ANCOVA & Faktorenanalyse"

Ähnliche Präsentationen


Google-Anzeigen