Klassische Hypothesenprüfung

Slides:



Advertisements
Ähnliche Präsentationen
T - Test Prüfung des Mittelwerteunterschieds bei abhängigen und unabhängigen Stichproben.
Advertisements

Korrektur Tutoratsaufgaben V
EmPra Der Einfluss und die Verarbeitung von emotionalen Reizen
Gliederung Vertrauensintervalle Arten von Hypothesen
Forschungsstatistik II
Forschungsstatistik II Prof. Dr. G. Meinhardt SS 2005 Fachbereich Sozialwissenschaften, Psychologisches Institut Johannes Gutenberg Universität Mainz KLW-24.
Forschungsstatistik II Prof. Dr. G. Meinhardt SS 2006 Fachbereich Sozialwissenschaften, Psychologisches Institut Johannes Gutenberg Universität Mainz KLW-18.
Forschungsstatistik II Prof. Dr. G. Meinhardt SS 2006 Fachbereich Sozialwissenschaften, Psychologisches Institut Johannes Gutenberg Universität Mainz KLW-18.
Genetische Algorithmen
Hypothesen testen: Grundidee
K. Desch - Statistik und Datenanalyse SS05
Prüfung statistischer Hypothesen
Effektgrößen, Kontraste & Post-hoc-Tests
Deskriptive Statistik und Wahrscheinlichkeitstheorie
Statistische Methoden II
Die Vorlesung Statistische Methoden II findet am (nächste Woche) nicht nicht statt. Diese Vorlesung wird zu einem späteren Termin, der noch bekannt.
Statistische Methoden II SS 2008
Konfidenzintervalle Intervallschätzung
TESTS. Worum es geht Man möchte testen, ob eine bestimmte Annahme (Hypothese) über Parameter der Realität entspricht oder nicht. Beobachtung (Stichprobe)
Die Student- oder t-Verteilung
Konfidenzintervalle Intervallschätzung Jeder Beobachtung wird ein Intervall C( ) der reellen Zahlen zugeordnet Niveau Dabei ist die Wahrscheinlichkeit,
Klausurtermin (laut Prüfungsamt) Probeklausur Freitag, 13. Juni 2003 statt Vorlesung.
Achtung Vorlesung am Montag, den 21. Juni Zeit: Uhr Ort: Kiste.
Achtung Vorlesung am nächsten Montag (21. Juni) Zeit: Uhr Ort: Kiste.
Statistische Methoden II SS 2003 Vorlesung:Prof. Dr. Michael Schürmann Zeit:Freitag (Pause: ) Ort:Hörsaal Loefflerstraße Übungen.
III. Induktive Statistik
Statistische Methoden II SS 2003
Maximum-Likelihood-Schätzer ( diskreter Fall) Likelihood-Funktion mit oder M-L-Schätzer.
Achtung Vorlesung am Montag, den 21. Juni Zeit: Uhr Ort: Kiste.
Testen von Hypothesen M. Kresken.
Kodiersysteme und erste Umrechnungen
Meta-Analyse Forschungsmethoden und Evaluation
Tutorium Willkommen zurück, in der wunderbaren Welt der Statistik Teil II.
Tutorium
Tutorium
Unser neuntes Tutorium
Vorlesung: Biometrie für Studierende der Veterinärmedizin
Einführung in die Metaanalyse
Eigenschaften der OLS-Schätzer
Multikollinearität Wann spricht man von Multikollinearität?
Wiederholung: Einfache Regressionsgleichung
Deutsch als Zweitsprache: Experimentelle Methoden WS 2013/2014
Formulierung und Überprüfung von Hypothesen
Einführung in die beurteilende Statistik
Vergleich der 3 Arten des t-Tests Testergebnisse berichten
Effiziente Algorithmen
Überblick Statistik Deskriptive Statistik=beschreibende Statistik
Wahrscheinlichkeitsrechnung
Black Box Algorithmen Hartmut Klauck Universität Frankfurt SS
Quantum Computing Hartmut Klauck Universität Frankfurt WS 04/
Information und Kommunikation
Information und Kommunikation Hartmut Klauck Universität Frankfurt SS
Hartmut Klauck Universität Frankfurt WS 06/
Einfaktorielle Varianzanalyse (ANOVA)
Einführung in SPSS/PASW. Inhaltsübersicht 1. Intro ( ) 2. Deskriptive Statistik ( ) (In Buch 1 Seite 85ff.) Kennwerte (Erwartungswert,
STATISIK LV Nr.: 1375 SS März 2005.
STATISIK LV Nr.: 0028 SS Mai 2005.
Modul Statistische Datenanalyse
SStotal SStotal SStreat SSerror SStreat SSerror Biomasse (g) wenig
Konfidenzintervall und Testen für den Mittelwert und Anteile
Grundlagen der Messtechnik
1 Stichprobenverfahren zur Qualitätssicherung Hilfestellung der Statistik in der Wirtschaftsprüfung.
Bioinformatik Vorlesung
Hypothesen Tamara Katschnig. 2 Hypothesen Aussagen müssen so formuliert werden, dass sie auch empirischen Kontrollen zugänglich sind und zwar in Form.
Thema der Stunde I. Die Form der Stichprobenkennwerteverteilung
STATISIK LV Nr.: 1375 SS März 2005.
Gliederung der Vorlesung
Geoinformationssysteme
Auswertung analytischer Daten - Auswertungsziele.
Die klassischen Methoden der historisch-vergleichenden Forschung Universität Zürich Soziologisches Institut Seminar: Methoden des internationalen Vergleichs.
 Präsentation transkript:

Klassische Hypothesenprüfung nach Neyman & Pearson (1928) nach Fisher (1925)

Theorie und Empirie Theorie Empirie

Theorie und Hypothesen Prüfung  

Theorie und Hypothesen Prüfung  

Theorie und Hypothesen Prüfung  

Theorie und Hypothesen  Prüfung   Hypothese Prüfung  Prüfung  

H1 und H0 H1 (Alternativhypothese, inhaltliche Hypothese, Arbeitshypothese, theoriekonforme Hypothese) abgeleitet aus einer innovativen Theorie z.B. Widerspruch zu herkömmlichen Theorien, kontraintuitiv (im Widerspruch zu intuitiven Theorien), oder Erklärung neuer Sachverhalte, Ergänzungen, ... H0 (Nullhypothese) keineswegs aus Gegentheorie abgeleitet, sondern lediglich Verneinung von H1. theoriefrei

Ziel einer Studie meist: Beweis von H1. gelegentlich: Beweis von H0. Festigung (nicht: Beweis) der eigenen Theorie gelegentlich: Beweis von H0. theoriefreie Schwächung (nicht: Widerlegung) einer gängigen Theorie Popper: Asymmetrie Beweis einer Theorie geht nicht, Widerlegung mit einem einzigen Experiment möglich. z.B.: All-Aussagen: Alle Menschen haben ihr Herz links. sinnvolle Theorien meist komplexer strukturiert.

Hypothesen Unterschieds- versus Zusammenhangshypothesen Die Einführung von PowerPoint in die Lehre verändert den Lernerfolg. UH werden mit Häufigkeits- und Mittelwertvergleichen geprüft. Zwischen Internetgebrauch und Lesetätigkeit besteht ein Zusammenhang. ZH werden mit Korrelationsrechnungen geprüft. Gerichtete versus ungerichtete Hypothesen Die Einführung von PowerPoint in die Lehre verbessert den Lernerfolg. Zunehmender Internetgebrauch beeinträchtigt die Lesetätigkeit. Spezifische versus unspezifische Hypothesen Die Einführung von PowerPoint verbessert den Lernerfolg um 1 Note. Die Korrelation zwischen Internetgebrauch und Lesetätigkeit ist kleiner als –0.5.

Überführung in statistische Hypothesen Die Einführung von PowerPoint in die Lehre verändert den Lernerfolg. Der durchschnittliche Lernerfolg µ1 einer mit PP unterrichtete Gruppe ist ungleich dem durchschnittlichen Lernerfolg µ0 einer ohne PP unterrichteten Gruppe. H1: µ1  µ0. H0: µ1 = µ0. Die Einführung von PowerPoint in die Lehre verbessert den Lernerfolg. Der durchschnittliche Lernerfolg µ1 einer mit PP unterrichtete Gruppe ist größer als der durchschnittlichen Lernerfolg µ0 einer ohne PP unterrichteten Gruppe. H1: µ1 > µ0. H0: µ1  µ0.

Überführung in statistische Hypothesen Zwischen Internetgebrauch und Lesetätigkeit besteht ein Zusammenhang. In einer repräsentativen Stichprobe ist die Korrelation  zwischen Internetgebrauch und Lesetätigkeit ungleich Null. H1:   0. H0:  = 0. Zunehmender Internetgebrauch beeinträchtigt die Lesetätigkeit. In einer repräsentativen Stichprobe ist die Korrelation  zwischen Internetgebrauch und Lesetätigkeit kleiner Null. H1:  < 0. H0:   0.

Fehler Ergebnis der Hypothesenprüfung H1 stimmt H0 stimmt in Wirklichkeit stimmt H1 stimmt H0 -Fehler Fehler 2. Art -Fehler Fehler 1. Art richtig Welcher Fehler ist schlimmer? Das hängt davon ab... H1: Der eben aus Hongkong eingetroffene Tourist ist mit SARS infiziert. H1: Der eben aus Paris eingetroffene Tourist ist nicht mit SARS infiziert.

-Fehler Wahrscheinlichkeit z. B. im Fall einer gerichteten Unterschiedshypothese H1: µ1 > µ0. µ0 und 0 seien bekannt. Eine Stichprobe mit n=30 ergibt Mittelwert <x>. erwartete Verteilung für <x> bei n=30: N(µ0,0²/30). z = (<x> – µ0) / <x> = (<x> – µ0) / (0 /  n) testet eigentlich µ1 = µ0, nicht µ1  µ0.

-Fehler Wahrscheinlichkeit z. B. im Fall einer ungerichteten Unterschiedshypothese H1: µ1  µ0. µ0 und 0 seien bekannt. Eine Stichprobe mit n=30 ergibt Mittelwert <x>. erwartete Verteilung für <x> bei n=30: N(µ0,0²/30). z = (<x> – µ0) / <x> = (<x> – µ0) / (0 /  n) testet korrekterweise µ1 = µ0.

Signifikanzniveaus p (Ergebnis | H0)  0.05: signifikant p (Ergebnis | H0)  0.01: „sehr signifikant“ Fahrer: „Was bedeutet die durchgezogene gelbe Linie am Fahrbahnrand?“ Polizist: „Dort dürfen Sie nicht parken.“ Fahrer: „Und was ist, wenn da zwei gelbe Linien sind?“ Polizist: „Dort dürfen Sie überhaupt nicht parken!“ entweder: Signifikanzniveaus vor Untersuchungsbeginn festlegen, nicht anhand der Daten. oder: Nur Fehlerwahrscheinlichkeiten berichten. Praxis: „hochsignifikante Ergebnisse (p<0.002)“ (Verstoß gegen die reine Lehre, aber kein wirkliches Problem)

-Fehler Wahrscheinlichkeit

-Fehler Wahrscheinlichkeit z. B. im Fall einer gerichteten Unterschiedshypothese H1: µ1 > µ0. µ1 ist unbekannt. 1 wird als identisch zu 0 angenommen. Eine Stichprobe mit n=30 ergibt Mittelwert <x>. erwartete Verteilung für <x> bei n=30: N(µ1,0²/30). Die -Fehler Wahrscheinlichkeit ist eine Funktion von µ1! µ1 festlegen: µ1 = µ0 + E, Effektstärke  = (µ1 – µ0) / 0 = E / 0. ... fragwürdige Vorgehensweise ...

- und -Fehler bei unterstellter Effektstärke - und -Fehler sind gegenläufig

- und -Signifikanzniveaus „konservativ“: kleines -Fehler-Niveau (5%, 1%) hohes -Fehler-Niveau (z. B. 20%) <x> Indifferenzbereich, z.B. hier: weder H0 noch H1 verwerfen.

n erhöhen  <x> nimmt ab (hier: n' = 4*n, '<x> = <x>/2). <x> Indifferenzbereich, hier: sowohl H0 als auch H1 verwerfen.

„optimaler“ Stichprobenumfang (hier: n' = 2*n, '<x> = <x>/1.4). kein Indifferenzbereich....

Kritik „optimaler“ Stichprobenumfang verschleiert das Problem, das durch den Indifferenzbereich aufgedeckt wird: Wenn eine Effektstärke vorgegeben wird, sind H0 und H1 keine komplementären Hypothesen mehr. Es ist z. B. sehr gut möglich, daß zwar ein Effekt da ist, er aber nicht die postulierte Effektstärke erreicht. Dann stimmt weder H0 noch H1. verwandte Begriffe: -Fehler, Effektstärke, optimaler Stichprobenumfang, Teststärke (power) 1 – .

- und -Fehler mit unterstellter Effektstärke - und -Fehler sind gegenläufig:

- und -Fehler bei komplementären Hypothesen - und -Fehler sind gegenläufig:  = 1 – . -Fehler testet nicht H0: µ1  µ0, sondern “worst case” µ1 = µ0. -Fehler testet nicht H1: µ1 > µ0, sondern “worst case” µ1 = µ0 +  (mit  beliebig klein).

Korrekter Test einer unterstellten Effektstärke wirklich konservativ: kleines -Fehler-Niveau (5%, 1%) für H1: µ1 > µ0, H0: µ1  µ0. kleines -Fehler-Niveau (5%, 1%) für H1: µ1 > µ0 + E, H0: µ1  µ0 + E. „-Fehlerwahrscheinlichkeit von 20%“ entspricht „-Fehlerwahrscheinlichkeit von 80% !!!

Wann ist es sinnvoll, den -Fehler separat zu bestimmen? Die Effektgröße muß bekannt sein. Sonst muß man eine beliebig kleine Effektgröße zulassen, und  ist einfach 1 – . Was soll dann noch fraglich sein? Eine klassische Unterschiedshypothese kommt nicht in Frage. Umkehrung der Fragestellung: bisher: Zugehörigkeit der VP zu Gruppe A oder B ist bekannt. Frage: Gibt es einen Unterschied zwischen A und B? jetzt: Unterschied zwischen Gruppe A und B ist bekannt. Frage: Gehört VP zu Gruppe A oder zu Gruppe B? SDT (Statistical Decision Theory, Signal Detection Theory)