Signifikanzprüfung Peter Wilhelm Herbstsemester 2015.

Signifikanzprüfung Peter Wilhelm Herbstsemester 2015

1.) Auswahl des passenden Tests 2.) Begründete Festlegung des Alpha-Fehlers nach Abschätzung der Power 3.) Überprüfung der Voraussetzungen 4.) Durchführung des Tests 5.) Darstellung und Interpretation der Ergebnisse

Auswahl des passenden Tests 1.) Ausgewählt wird der Test, der: a) eine direkte Überprüfung der Hypothese(n) ermöglicht (z.B. beim Vergleich mehrerer Gruppen geplante Kontraste statt Omnibus F-Test) b) den Daten angemessen ist, d.h. dem Skalenniveau und der Verteilung der Daten entspricht. (z.B. bei gravierender Abweichung von Normalverteilung wird Mann-Whitney-U-Test statt t-Test gerechnet)

Festlegung des Alpha-Fehlers und Abschätzung der Power Die begründete Festlegung des Alpha-Fehler-Niveaus ist nur möglich, wenn auch das Beta-Fehler-Risiko kalkuliert wird. Die Poweranalyse muss deshalb vor der Signifikanzprüfung erfolgen!!! Postulierung der erwarteten Effektgrösse in der Population ^ Wenn andere Studien oder Metaanalysen vorliegen, können diese zur Schätzung des Populationseffekts herangezogen werden ^ Gibt es keine inhaltlichen Vorgaben für die anzunehmende Grösse des Effekts empfiehlt es sich ein mittlerer Effekt zu postulieren. ^ Da es unterschiedliche Effektmasse gibt, ist es wichtig, zu definieren welches Effektgrössemass benutzt wird. Z.B: Cohens d (t-Test für unabhängige Stichproben), Cohens dz (t-Test für abhängige Stichproben), r (Korrelation), f oder η 2 (eta 2) (ANOVA). Festlegung des Alpha-Fehler-Niveaus ^ ein- oder zweiseitige Prüfung? ^ Protektion gegen Kumulation des Alpha-Fehlers bei multiplem Testen (Bonferoni- Adjustierung: Alpha adj = Alpha/Anzahl gerechneter Tests )? ^ Poweranalyse: (Power (1 – Beta Fehler) sollte nach Cohen mindestens.80 betragen. -> Relaxierung des Alpha-Niveaus, wenn Power zu gering ist. Empfehlung: Beta-Fehler sollte nicht grösser als 4 Mal Alpha Fehler sein (Rosenthal & Rosnow, 2008, 3.

Poweranalyse mit G*Power Das passende Prüfverfahren festlegen ^ z.B. für den t-Test für unabhängige Stichproben: Test family: t-Test wählen -> dann unter Statistical Test: Means: Differences between two independent means (two groups) wählen Art der Poweranalysis festlegen (Type of Poweranalysis) ^ A priori: Bei der Planung einer Untersuchung wird die Stichprobengrösse ermittelt, die nötig ist, um einen Effekt einer bestimmten Grösse bei einem bestimmten α-Fehler und einer vorgegebenen Power (1-β-Fehler) nachweisen zu können. (Festgelegt werden Effektgrösse, α-Fehler, Power) ^ Sensitivity: Nach Durchführung einer Untersuchung, wenn Stichprobengrösse feststeht, wird die Effektgrösse berechnet, die mit vorgegebenem α-Fehler, β-Fehler entdeckt werden kann (Festlegung von Stichprobengrösse, α-Fehler, β-Fehler). Sinnvoll, um zu ermitteln, wie gross der Effekt sein müsste, damit er mit konventioneller Festlegung von α-Fehler =.05, β-Fehler =.20 nachgewiesen werden könnte. ^ Post Hoc: Nach Durchführung einer Untersuchung, wenn Stichprobengrösse feststeht, wird die Power (1 - β-Fehler) ermittelt. Festgelegt werden Effektgrösse, α-Fehler, Stichprobengrösse. Sinnvoll, um zu ermitteln, wie gross die Power ist, um einen Effekt einer bestimmten Grösse nachzuweisen (z. B. mittlerer Effekt) ^ Compromise: Nach Durchführung einer Untersuchung, wenn Stichprobengrösse feststeht, wird das Verhältnis von α und β-Fehler festgelegt und für eine vorgegebene Effektgrösse α – Niveau und Power berechet. Festgelegt werden Effektgrösse, Verhältnis von α zu β-Fehler, Stichprobengrösse, Sinnvoll, um zum Nachweis einer vorgegebenen Effektgrösse ein ausgewogenes Verhältnis von α zu β-Fehler zu erhalten (z. B: 1 zu 4) ^ G*Power 3 (Programm zur Poweranalyse) Download unter http://www.gpower.hhu.dehttp://www.gpower.hhu.de ^ Auf der Homepage gibt es eine gutes Hilfemenü siehe auch Prajapati-et-al. (2010)

Effektgrössen beim Vergleich von Mittelwerten bei unabhängigen Stichproben Effektgrösse Cohens d: ^ Cohens d = (M A – M B ) / σ (gepoolt) ^ σ (gepoolt) = √ (σ A 2 + σ B 2 )/ 2 Effektgrösse Hedges g ist die auf Basis der Stichprobenkennwerte geschätzte Grösse des Effekts in der Population. Hedges g = (M 1 – M 2 ) / S(pooled)) S(pooled) = √((SD 1 2 * (n 1 /n 1 -1)) + (SD 2 2 * (n 2 /n 2 -1))/2 kleiner Effekt: d =.2 mittlerer Effekt:d =.5 grosser Effekt: d =.8

Effektgrössen beim Vergleich von Mittelwerten bei abhängigen Stichproben Effektgrösse Cohens d z : ^ Cohens d z = (M A – M B ) / SD (der Differenzwerte A - B) ^ Alternative Formel für Berechnung der Streuung innerhalb der Bedingungen (A und B) in der Population σ d ^ σ d = √ (σ A 2 + σ B 2 – 2r AB * σ A * σ B ) -> Effektgrösse d z hängt von der Korrelation zwischen den Messungen ab: d z wird grösser je höher positive Korrelation r AB ist, d z wird kleiner, wenn Korrelation r AB negativ ist Wenn Korrelation zwischen Messungen r AB = 0, entspricht Cohens d z 0.707 * Cohens d ^ kleiner Effekt: d z =.141 ^ mittlerer Effekt: d z =.354 ^ grosser Effekt: d z =.566

Effektgrössen beim Vergleich von mehreren Gruppen Effektgrössen: η 2 = SS between / (SS between + SS within ) f = √(η 2 / (1-η 2 )) f = σ between means / σ within kleiner Effekt: f =.10, η 2 =.01 mittlerer Effekt: f =.25, η 2 =.0625 grosser Effekt: f =.40, η 2 =.14

Überprüfung der Voraussetzungen Beispiel t-Test für unabhängige Stichproben (ANOVA) : Intervallskalenniveau ^ Echte Intervallskalen sind in der Psychologie eher selten. I. d. R. werden auch ordinalskalierte Daten (z.B. Ratingskalen) mit Verfahren ausgewertet, die Intervallskalenniveau voraussetzen Normalverteilung ^ Die Annahme ist, dass sich die Daten in der Population normal verteilen. Tests, die Normalverteilungsannahme prüfen (z. B. Shapiro Wilk Test) sind anfällig für Extremwert und deshalb häufig zu streng ^ Grafische Inspektion der Daten und Evaluation von Schiefe und Exzess -> Siehe Skript zur Überprüfung der Normalverteilungsannahme). Varianzhomogenität ^ Bei Verletzung der Varianzhomogenitätsannahme werden Freiheitsgrade und damit auch p-Wert korrigiert (Welch Test). Unabhängigkeit der Datenpunkte ^ Bei Abhängigkeit der Daten: t-Test für abhängige Stichproben t-Test (u Varianzanalysen) gelten als robuste Verfahren, die häufig auch dann zu richtigen Entscheidungen führen, wenn Voraussetzungen verletzt sind. Wie gravierend spezifische Verletzungen sich auswirken wird in Simulationsstudien erkundet. Bortz (Statistik) oder Eid et al. diskutieren, wann Verletzungen der Voraussetzung zu Fehlentscheidungen führt.

Darstellung und Interpretation der Ergebnisse von Mittelwertsvergleichen Mitgeteilt und interpretiert werden: die deskriptiven Kennwerte (M, SD), entweder in einer Tabelle oder im Text die Teststatistik und der korrespondierende p-Wert die aus den Daten der Stichprobe geschätzte Effektgrösse wird mitgeteilt: ^ Schätzung für Cohens d = (M 1 – M 2 ) / SD (pooled), ^ bei kleinen Stichproben ist Hedges g die genauere Schätzung von Cohens d ^ Siehe Excel File zur Berechnung der Effektgrösse (Effectsize.xls)

Vergleich der Mittelwerte mehrerer unabhängiger Gruppen Einfaktorielle Varianzanalyse ^ Liegen spezifische Hypothesen vor, dann werden geplante Kontraste gerechnet. Der Omnibus-F-Test wird nicht interpretiert. ^ Vorteil geplanter Kontraste und Post-Hoc Tests gegenüber t-Test: Wenn Varianzhomogenitätsannahme erfüllt ist, werden alle Fälle benutzt um die Varianz innerhalb der Gruppen zu berechnen (mehr df -> grössere Power) ^ Liegen keine spezifischen Hypothesen vor, dann wird der Omnibus-F-Test interpretiert. Ist er signifikant, dann werden explorativ Post-Hoc Tests gerechnet

Signifikanzprüfung Peter Wilhelm Herbstsemester 2015.

Ähnliche Präsentationen

Präsentation zum Thema: "Signifikanzprüfung Peter Wilhelm Herbstsemester 2015."— Präsentation transkript:

Ähnliche Präsentationen

Über Projekt

Feedback

Anmelden

Anmeldung über soziales Netzwerk:

Signifikanzprüfung Peter Wilhelm Herbstsemester 2015.

Ähnliche Präsentationen

Präsentation zum Thema: "Signifikanzprüfung Peter Wilhelm Herbstsemester 2015."— Präsentation transkript:

Ähnliche Präsentationen

Über Projekt

Feedback