Ein frohes und erfolgreiches Jahr 2008!
Varianzanalyse Westfälische Wilhelms-Universität Münster Institut für Soziologie WS 2007/2008 Methodenseminar: Einführung in multivariate Analyseverfahren Dozent: Dr. Thomas Blank Referentinnen: Nadja Jenzelewski, Aleksandra Hauptstoek 07.01.2008 Varianzanalyse
Problemstellung (allgemein) wichtigstes Analyseverfahren zur Auswertung von Experimenten Aufgabe der Varianzanalyse: Untersuchung der Wirkung einer (oder mehrerer) unabhängiger Variablen (x) auf eine (oder mehrere) abhängige Variable (y) Formulierung von Kausalbeziehungen (Ursache-Wirkungs- Beziehungen), wobei die unabhängige(n) Variable(n) lediglich nominal skaliert, die abhängige Variable metrisch skaliert sein muss
Typen der Varianzanalyse Zahl der Zahl der Bezeichnung des abhängigen Variablen unabhängigen Variablen Verfahrens 1 1 Einfaktorielle Varianzanalyse 1 2 Zweifaktorielle 1 3 Dreifaktorielle usw. Mindestens 2 Eine oder mehrere Mehrdimensionale
Einfaktorielle Varianzanalyse Problemformulierung Hat das Bildungsniveau Einfluss auf die Fremdenfeindlichkeit? beobachtete Werte der Einstellung zur Fremdenfeindlichkeit in Abhängigkeit vom Bildungsniveau Einstellung zur Fremdenfeindlichkeit niedrige Bildung mittlere Bildung hohe Bildung 4,7 3,9 4,0 4,6 4,5 6,8 6,5 6,3 5,9 6,7 5,9 5,0 5,1 4,8 5,3
Mittelwerte der Einstellung zur Fremdenfeindlichkeit je Bildungsniveau Mittelwert pro Bildungsniveau niedrige Bildung mittlere Bildung hohe Bildung _ y1 = 4,34 y2 = 6,44 y3 = 5,22 Gesamtmittelwert _ _ y = 5,33
Varianzhomogenität: Annahme, dass Einflüsse „von außen“ (d.h. außerhalb der experimentellen Anordnung), bis auf zufällige Abweichungen bei allen Ausprägungen der zu untersuchenden unabhängigen Variablen gleich sind
Einfaktorielle Varianzanalyse Analyse der Abweichungsquadrate erklärte und nicht erklärte Abweichungen bei „niedrige Bildung“ und „mittlere Bildung“
- Zerlegung der Gesamtabweichung in zwei Komponenten Berechnung der Gesamabweichung (SS) - Zerlegung der Gesamtabweichung in zwei Komponenten (sog. Streuungszerlegung): Gesamtabweichung = erklärte Abweichung + nicht erklärte Abweichung
- Übertragung der Zerlegung der Gesamtabweichung je Beobachtung auf die Summe der Gesamtabweichungen aller Beobachtungen (SS = „sum of squares“): Gesamtabweichung = erklärte Abweichung + nicht erklärte Abweichung Summe der quadrierten = Summe der quadrierten + Summe der Gesamtabweichungen Abweichungen quadrierten zwischen Abweichungen den Faktorstufen innerhalb der Faktor- stufen SSt(otal) = SSb(etween) + SSw(ithin)
SSt = 12,87 SSb = 11,12 SSw = 1,75 Ermittlung der Abweichungsquadrate G K _ ∑ ∑ (ygk – y)2 g=1 k=1 SSb G _ _ ∑ K(yg – y)2 g=1 SSw G K _ ∑ ∑ (ygk – yg)2 niedrige Bildung _ (4,7 - 5,33)2= 0,40 +(3,9 – 5,33)2= 2,05 +(4,0 – 5,33)2= 1,78 +(4,6 – 5,33)2= 0,54 +(4,5 – 5,33)2= 0,69 (4,34 – 5,33)2= 0,99 +(4,34 – 5,33)2= 0,99 (4,7 – 4,3)2= 0,13 (3,9 – 4,3)2= 0,19 (4,0 – 4,3)2= 0,12 (4,6 – 4,3)2= 0,07 (4,5 – 4,3)2 = 0,03 mittlere Bildung +(6,8 – 5,33)2= 2,15 +(6,5 – 5,33)2= 1,36 +(6,3 – 5,33)2= 0,93 +(5,9 – 5,33)2= 0,32 +(6,7 – 5,33)2= 1,87 +(6,44 – 5,33)2= 1,22 (6,8 – 6,44)2= 0,13 (6,5 – 6,44)2= 0,004 (6,3 – 6,44)2= 0,02 (5,9 – 6,44)2= 0,29 (6,7 – 6,44)2= 0,07 hohe Bildung +(5,0 – 5,33)2= 0,11 +(5,1 – 5,33)2= 0,05 +(4,8 – 5,33)2= 0,28 +(5,3 – 5,33)2= 0,001 +(5,22 – 5,33)2= 0,01 (5,9 – 5,22)2= 0,46 (5,0 – 5,22)2= 0,05 (5,1 – 5,22)2= 0,01 (4,8 – 5,22)2= 0,17 (5,3 – 5,22)2= 0,006 SSt = 12,87 SSb = 11,12 SSw = 1,75
quadratische Abweichung ( „mean sum of squares“): SS Varianz = Berechnung der Varianz (MS) - allgemein ist die (empirische) Varianz definiert als mittlere quadratische Abweichung ( „mean sum of squares“): SS Varianz = Zahl der Beobachtungen -1 - Größe im Nenner ist die Zahl der Freiheitsgrade df (degrees of freedom). dft(otal) = G ∙ K – 1 dfw(ithin) = G(K – 1) dfb(etween) = G – 1
Varianzquelle SS (Gesamt-) Abweichung df Freiheitsgrade MS Mittlere Zusammenstellung der Ergebnisse der einfaktoriellen Varianzanalyse Varianzquelle SS (Gesamt-) Abweichung df Freiheitsgrade MS Mittlere quadratische zwischen den Faktorstufen G _ _ ∑ K(yg – y)2 = 11,12 g=1 G – 1 = 2 SSb = 5,56 G - 1 innerhalb der G K _ ∑ ∑ (ygk – yg)2= 1,75 g=1 k=1 G(K -1) = 12 SSw = 0,15 G(K – 1) Gesamt G K _ ∑ ∑ (ygk – y)2= 12,87 G ∙ K – 1 = 14 SSt = 0,92 G ∙ K - 1
Einfaktorielle Varianzanalyse Prüfung der statistischen Unabhängigkeit Ermittlung des empirischen F-Wertes: MSb 5,56 Femp = = = 38,09 MSw 0,15 Formal lautet die Fragestellung des F-Tests: H0: α1 = α2 = α3 = 0 H1: mindestens ein α-Wert ≠ 0
Ermittlung des theoretischen F-Wertes: dfb (Spalten der Tabelle) Ftab = dfw (Zeilen der Tabelle) Ist der empirische Wert größer als der theoretische, kann die Nullhypothese verworfen werden, d. h. es kann ein Einfluss des Faktors gefolgert werden.
dass ein Zusammenhang zwischen der unabhängigen und der Aufgabe der Varianzanalyse ist es lediglich die Tatsache, dass ein Zusammenhang zwischen der unabhängigen und der abhängigen Variablen besteht, zu testen keine Aussage über die Stärke des Zusammenhanges möglich
Zweifaktorielle Varianzanalyse
Zweifaktorielle Varianzanalyse: Problemstellung Verknüpfung mehrer unabhängigen Variablen Geschlecht Unabh. Variable Bildungsniveau Unabh. Variable Fremdenfeindlichkeit Abh. Variable
Faktorielles Design Die Untersuchungsordnung heißt Ein vollständiges faktorielles Design liegt vor, wenn zu allen Kombinationen aus mindestens zwei Faktoren mit mindestens zwei Ausprägungen mindestens eine Beobachtung gemacht werden. Die Zahl der Beobachtungen pro Kombination muss gleich sein.
Faktorielles Design: Beispiel drei Bildungsniveaus (niedrig, mittel, hoch) zwei Geschlechtern (m/w) 3 x 2 experimentelle Kombinationen der Faktorenstufen (3x2-faktorielles Design)
Erweiterung der Fragestellung im faktoriellen Design Hat das Bildungsniveau Einfluss auf die Fremdenfeindlichkeit? Hat das Geschlecht Einfluss auf die Fremdenfeindlichkeit? Besteht eine Wechselwirkung zwischen dem Geschlecht und dem Bildungsniveau? Wirkung der einzelnen Faktoren. Interaktion zwischen den Faktoren.
Bildungsniveau Geschlecht männlich weiblich niedrig 4,7 3,9 4,0 4,6 4,5 3,5 3,6 3,7 mittel 6,8 6,5 6,3 5,9 6,7 5,7 5,4 5,6 5,3 hoch 5,0 5,1 4,8
Graphische Analyse von Interaktionen 6,5 6,0 5,5 5,0 4,5 4,0 3,5 3,0 niedriges mittleres hohes Bildungsniveau Fremdenfeindlichkeit männlich weiblich
Zweifaktorielle Varianzanalyse: Analyse SSt = SSA + SSAxB + SSw Gesamtstreuung SSt Streuung zwischen den Gruppen SSb Streuung innerhalb der Gruppen SSW Streuung durch Faktor A SSA Streuung durch Faktor B SSB Streuung durch Wechselwirkung von A und B SSAxB
Zweifaktorielle Varianzanalyse: Ergebnisse Aufteilung der Gesamtstreuung im faktoriellen Design mit zwei Faktoren Varianzquelle SS df MS Haupteffekte Bildungsniveau Geschlecht Interaktion Bildungsniveau/Geschlecht Reststreuung Total 19,44200 2,40833 0,48466 2,38 24,7150 2 1 24 29 9,72100 024233 0,09916 0,85224
Zweifaktorielle Varianzanalyse: Prüfung der statistischen Unabhängigkeit H0: wenn FA und FB haben keinen Einfluss auf die abh. Variable. oder H1: wenn zumindest eine Faktorenstufe einen anderen Einfluss besitzt als die anderen. H0: α1=α2=α3=0 H1: mindestens ein α-Wert ≠ 0
Anwendungsempfehlungen Formulierung einer Hypothese über den Wirkungszusammenhang der unabh. Variablen und abh. Variablen. Bei unabh. Variable jedes Skalenniveau möglich, abh. Variable nur metrisch. Klarer, allgemeinverständlicher Unterschied zwischen Faktoren. Wirkung der Faktoren ist additiv. Unterschied zwischen den einzelnen Beobachtungen.
Vielen Dank für eure Aufmerksamkeit!!!