Präsentation herunterladen
Die Präsentation wird geladen. Bitte warten
1
ANOVA für unabhängige Stichproben
Evaluation und Forschungsstrategien; WiSe 19/20 Anna Tröger, Simona Peter, Alexa Grassmann, Annika Steinmetz
2
Warum ANOVA? Varianzanalyse ANalysis Of Variance Fragestellung:
Unterscheiden sich die Mittelwerte einer abhängigen Variable zwischen mehreren unabhängigen Gruppen? (zB Psychoanalyse/Verh.therapie (Therapieform), w/m (Geschlechter))? Welche Faktorstufen unterscheiden sich? -> nächste Gruppe (posthoc.. )
3
Welche Arten gibt es? UV = Faktor/Treatment → Unterscheidung nach Anzahl der Faktoren Einfaktorielle ANOVA: 1 Faktor mit mehreren Stufen (i.d.R. ab 3) Faktor Therapieform Verhaltenstherapie Gesprächstherapie Psychoanalyse Zielvariable Therapieerfolg 16,2 14,5 24,7 18,3 21,2 17,3 19,6 12,4 29,3 Beispiel für einfaktorielle ANOVA: Faktor: Koffeinmenge (wenig, mäßig, viel) AV: Leistung Beispiel für mehrfaktorielle ANOVA: Faktor A: Koffeinmenge (wenig, viel) Faktor B: Schlafmenge/Nacht (<_ 5 Std., <_ 7, <_ 10)
4
Welche Arten gibt es? Mehrfaktorielle ANOVA: 2 oder mehr Faktoren
Faktor A: Therapieform Verhaltenstherapie Psychoanalyse Faktor B: Geschlecht m w Zielvariable Therapieerfolg 17,4 … 16,2 16,8 Beispiel für einfaktorielle ANOVA: Faktor: Koffeinmenge (wenig, mäßig, viel) AV: Leistung Beispiel für mehrfaktorielle ANOVA: Faktor A: Koffeinmenge (wenig, viel) Faktor B: Schlafmenge/Nacht (<_ 5 Std., <_ 7, <_ 10)
5
Voraussetzungen AV intervallskaliert (stetig)
Innerhalb der Faktorstufen ist AV normalverteilt UV i.d.R. nominal-/ ordinalskaliert Unabhängige Messungen Varianzhomogenität über alle Gruppen (Faktorstufen) hinweg
6
Wie überprüfe ich die Voraussetzungen?
Normalverteilung der AV → Normalverteilungstests (Kolmogorov-Smirnoff, Shapiro-Wilk-Test) → Q-Q-Diagramme (Quantilplots, Normalverteilungsdiagramme) Varianzhomogenität → Levene-Test (F-Test) ab 25 Messwerten sind Verletzungen nicht mehr so gravierend
7
Lineares Modell der ANOVA
Linearer Zusammenhang zwischen Faktoren ↔ AV Messwert = Systematische Komponente + Fehlerkomponente Merke: Der Messwert einer beliebigen Person setzt sich zusammen aus Populationswert Treatmenteffekte Individueller Messfehler ANOVA geht von einem einfachen linearen Modell aus (->linearer Zusammenhang zwischen Faktoren auf der einen Seite und AV auf der anderen Seite) -> Wirkungen kommen in linearer Weise (additiv) zusammen und bringen AV zustande - Vorhersage eines bst. Wertes aus anderen Werten über eine lineare Gleichung -> Annahme: linearer Zusammenhang zwischen Faktoren und AV - Messwert setzt sich additiv aus systematischer Komponente und Fehlerkomponente zusammen
8
Messwert setzt sich zusammen aus:
Messwert setzt sich zusammen aus: Populationswert (von allen Personen geteilter Wert) => Nullstreuung + Effekte der Treatments A bzw. B => systematische Treatmentstreuung A bzw. B + Interaktionseffekte aus A undB =>systematische Treatmentstreuung der Interaktion + Individueller Fehler (für jede Person andere unbekannte Einflüsse) =>Fehlerstreuung
9
Lineares Modell der ANOVA
Aufgabe der ANOVA: statistisch begründet herausfinden, ob Faktor A/B/AxB eine Wirkung hat Forschungsfrage: Gibt es mindestens eine Treatmentstufe/Interaktion, die auf AV anders wirkt als die übrigen? => Unterschied zwischen Treatmentstufen
10
Warum Quadratsummenzerlegung?
Ansatz: Wenn Streuung der Stufen-MW > Fehlerstreuung hat das Treatment einen Effekt! Ziel: Separate Aussagen über die Wirkung der einzelnen Effekte treffen =>Quadratsummenzerlegung Streuung der Stufen-MW= QSTreat; Fehlerstreuung= QSFehler Wenn Streuung der Stufenmittelwerte deutlich größer ist kann die Fehlerstreuung allein nicht mehr für die Streuung verantwortlich sein und das Treatment muss einen Effekt haben. => Quadratsummenzerlegung liefert Beweis, dass bspw. die Streuung der Stufen-MW des Faktors A nicht auch von möglichen Effekt des Faktors B oder der Interaktion AxB abhängt
11
Quadratsummenzerlegung
ANOVA findet Unterschiede zwischen Gruppen- Mittelwerten, indem sie die Streuung von Fehler und Treatments miteinander vergleicht! Streuung (wie breit) und MW (wo) eigentlich verschiedene Kennwerte H0: QSFehler=QSTreat –> wenn Treatment keinen Effekt hat sind Mittelwertsunterschiede rein zufällig Alternativhypothese : QSTreat > QSFehler ->Treatment hat einen Effekt Datenzerlegung, um herauszufinden woher die Streuung kommt
12
Berechnung der Quadratsummen
Datenstreuung ausgedrückt als Quadratsumme: Lineares Modell wird in Gleichung eingesetzt: Mittelwert aller Daten (Grand Mean) QStot = Messwert x - GesamtMW (Grand Mean) ->Streuung aller Daten X wird in oberer Gleichung durch lineares Modell ersetzt (Statt der Quadratsumme könnte man auch die Varianz s² betrachten, hätte aber lediglich den zusätzlichen Faktor 1/N in Gleichung)
13
Berechnung der Quadratsummen
Problem: unbekannte Komponenten der Gleichung Lösung: Andere Kennzahlen berechnen (Gesamt-MW, Stufen-MW, Interaktions-MW) Nach Umformung/Einsetzen bekannter Terme erhält man folgende Gleichung : Gleichung, die zeigt, dass sich die gesamte Quadratsumme tatsächlich aufteilen lässt in unabhängige Quadratsummen für die Treatments und den Fehler => Aufteilung in verschiedenen Streuungskomponenten ermöglicht es herauszufinden welche Streuung für die Wirkung verantwortlich ist
14
Formeln QS Interaktion: Keine Interaktion: QS Treat= StufenMW-GesamtMW
QS Fehler= Abweichung des Messwert zu seinem ZellMW QS Interaktion= Beobachter Interaktionswert – erwarteter Wert, wenn keine Interaktion vorhanden ist (Interaktionseffekt liegt vor, wenn Effekt eines Faktors v. Ausprägung auf jeweils anderem Faktors abhängt)
15
QS → Populationsvarianzen
Problem: Direkter Vergleich zwischen den Quadratsummen unzulässig Lösung: Transformation der Quadratsummen in Populationsvarianzen, damit der Vergleich stimmt Populationsvarianzen =transformierten Quadratsummen
16
Berechnung der Populationsvarianzen
Freiheitsgraden berechnen Quadratsummen durch jeweilige Freiheitsgerade teilen Bei Populationsvarianzen teilt man nicht durch die Anzahl aller Merkmalsträger -> statt n werden Freiheitsgeraden eingesetzt (degrees of freedom df) Populationsvarianzen =transformierten Quadratsummen
17
Freiheitsgrade n =Anzahl der Personen in einer ANOVA-Zelle
p = Anzahl der Stufen von Faktor A df Interaktion = dfA*dfB q= Anzahl der Stufen von Faktor B
18
Formeln Sigma ² =Populationsvarianz Zur Berechnung der Populationsvarianzen wird QS durch jeweilige Freiheitsgrade geteilt
19
QS → Populationsvarianzen
Mit den Populationsvarianzen stimmt die zuvor angenommene Beziehung: H0 : sigma²Treat =sigma²Fehler (ohne Effekt sollte Treatmentpopulationsvarianz und Fehlerpopulationsvarianz ungefähr 1 ergeben ) Bruch sigma²Treat/sigma²Fehler = PRÜFGRÖßE => ANNA
20
Prüfgröße F Annahme: Ohne Effekt eines Treatments kann die Streuung der Stufenmittelwerte nur aus der Fehlerstreuung entstehen Muss nicht genau 1 sein, denn der Zufall ist ja mit im Spiel, d.h. Fehler und Treatmentstreuung können sich allein schon durch den Zufall unterscheiden
21
F- Verteilung Häufigkeitsverteilung: Entsteht, wenn man das Experiment unendlich oft durchführen würde Frage: Ab wann ist ein F- Wert “zu unwahrscheinlich”, als dass der Zufall allein für sein Auftreten verantwortlich sein kann? “Welcher F- Wert ist nicht mehr normal?” Auftreten des F- Werts statistisch extrem unwahrscheinlich unter der Annahme, dass allein der Zufall für ihn verantwortlich ist dann ist es besser denkbar, dass das Treatment tatsächlich einen Effekt hat und für den Unterschied in Fehler und Treatmentstreuung verantwortlich ist F- Verteilung kann in Abhängigkeit vom Verhältnis der Freiheitsgrade ganz unterschiedliche Formen annehmen (Nenner- und Zählerfreiheitsgrade beachten!!!)
22
Interpretation des F-Wertes
Aus theoretischer F-Verteilung kann die Wahrscheinlichkeit p(F) für das Auftreten einer bst. Prüfgröße ermittelt werden Ein zu unwahrscheinlicher F-Wert belegt Unterschiede zwischen Treatmentstufen - “Wie wahrscheinlich ist das Auftreten dieser Prüfgröße, wenn allein die Messfehler für ihn verantwortlich sind?”
23
Interpretation des p- Werts
Problem: Wie klein ist “zu klein”, bzw. “zu unwahrscheinlich”? Signifikanzniveau: - Signifikanzniveaus = Konventionen - Grenzwerte, mit denen der p (F)- Wert verglichen werden muss
24
Varianzaufklärung Statistische Signifikanz ≠ praktische Bedeutsamkeit
→Varianzaufklärung der Treatments bestimmen = Anteil an der Gesamtstreuung, für den das Treatment verantwortlich ist Signifikanz hängt nämlich u.a. von Stichprobengröße ab: je größer die Stichprobe desto schneller wird Signifikanz erreicht + Effekt ist zwar da, aber nimmt keinen großen Einfluss
25
Varianzaufklärung Aufgeklärte Varianz / QSzwischen / Between-Varianz:
Nicht aufgeklärte Varianz/ QSinnerhalb/ Within-Varianz: Zeigt sozusagen an, für wie viel Prozent der Streuung das jeweilige Treatment, bzw. der Fehler verantwortlich ist Nicht aufgeklärte Variant: Anteil der verbleibenden Fehlerstreuung an der Gesamtstreuung
26
Quellen Malte’s Videos
Ähnliche Präsentationen
© 2024 SlidePlayer.org Inc.
All rights reserved.