Testen von Hypothesen M. Kresken.

Slides:



Advertisements
Ähnliche Präsentationen
T - Test Prüfung des Mittelwerteunterschieds bei abhängigen und unabhängigen Stichproben.
Advertisements

Definition [1]: Sei S eine endliche Menge und sei p eine Abbildung von S in die positiven reellen Zahlen Für einen Teilmenge ES von S sei p definiert.
Stochastik und Markovketten
Heute 1.F – Test zur Varianzhomogenität 2.Bartlett-Test zur Varianzhomogenität 3.Chi – Quadrat Tests für Häufigkeiten 4.Chi – Quadrat Tests zur Verteilungsanpassung.
Julia Antoniuk Jessica Gottschalk Susana de Miguel
Theorie psychometrischer Tests, III
Forschungsstrategien Johannes Gutenberg Universität Mainz
Klassische Hypothesenprüfung
EmPra Der Einfluss und die Verarbeitung von emotionalen Reizen
Gliederung Vertrauensintervalle Arten von Hypothesen
Forschungsstatistik II
Forschungsstatistik II
Forschungsstatistik II Prof. Dr. G. Meinhardt SS 2005 Fachbereich Sozialwissenschaften, Psychologisches Institut Johannes Gutenberg Universität Mainz KLW-24.
Forschungsstatistik II Prof. Dr. G. Meinhardt SS 2006 Fachbereich Sozialwissenschaften, Psychologisches Institut Johannes Gutenberg Universität Mainz KLW-18.
Forschungsstatistik II Prof. Dr. G. Meinhardt SS 2006 Fachbereich Sozialwissenschaften, Psychologisches Institut Johannes Gutenberg Universität Mainz KLW-18.
Der Binomialtest Man habe einen wahren Anteil P.
Kapitel 5 Stetigkeit.
Kapitel 6 Differenzierbarkeit. Kapitel 6: Differenzierbarkeit © Beutelspacher Juni 2005 Seite 2 Inhalt 6.1 Die Definition 6.2 Die Eigenschaften 6.3 Extremwerte.
Hypothesen testen: Grundidee
Statistische Methoden I
Nachholung der Vorlesung vom Freitag
Statistische Methoden II
Die Vorlesung Statistische Methoden II findet am (nächste Woche) nicht nicht statt. Diese Vorlesung wird zu einem späteren Termin, der noch bekannt.
Nachholung der Vorlesung vom Freitag
Konfidenzintervalle Intervallschätzung
Chi-Quadrat-Test auf Unabhängigkeit I
TESTS. Worum es geht Man möchte testen, ob eine bestimmte Annahme (Hypothese) über Parameter der Realität entspricht oder nicht. Beobachtung (Stichprobe)
Die Student- oder t-Verteilung
Konfidenzintervalle Intervallschätzung Jeder Beobachtung wird ein Intervall C( ) der reellen Zahlen zugeordnet Niveau Dabei ist die Wahrscheinlichkeit,
Klausurtermin (laut Prüfungsamt) Probeklausur Freitag, 13. Juni 2003 statt Vorlesung.
Achtung Vorlesung am Montag, den 21. Juni Zeit: Uhr Ort: Kiste.
Achtung Vorlesung am nächsten Montag (21. Juni) Zeit: Uhr Ort: Kiste.
Die Vorlesung am 14. Mai (Tag nach Himmelfahrt) wird auf Montag, den 17. Mai verlegt! Zeit: 16 Uhr Ort: Kiste Nächste Woche!!!!
Statistische Methoden II SS 2003 Vorlesung:Prof. Dr. Michael Schürmann Zeit:Freitag (Pause: ) Ort:Hörsaal Loefflerstraße Übungen.
Statistische Methoden II SS 2003
Chi-Quadrat-Test auf Unabhängigkeit I Hypothese Ablehnungsbereich.
Chi-Quadrat-Tests. Satz von Karl Pearson I X: Stichprobenvariable, die r > 2 verschieden Werte annehmen kann: Die Verteilung von X ist durch einen Wahrscheinlichkeitsvektor.
Maximum-Likelihood-Schätzer ( diskreter Fall) Likelihood-Funktion mit oder M-L-Schätzer.
Univariate Statistik M. Kresken.
Tutorium
Tutorium Willkommen zurück, in der wunderbaren Welt der Statistik Teil II.
Tutorium
Tutorium
Vorlesung: Biometrie für Studierende der Veterinärmedizin Prinzipien des statistischen Testens Entscheidungsfindung Exakter Binomialtest als.
Wiederholung und Beispiele
Vorlesung Biometrie für Studierende der Veterinärmedizin Begriff der Zufallsgröße Ergebnisse von Zufallsexperimenten werden als Zahlen dargestellt:
Vorlesung: ANOVA I
Eigenschaften der OLS-Schätzer
Wiederholung: Einfache Regressionsgleichung
Deutsch als Zweitsprache: Experimentelle Methoden WS 2013/2014
Histogramm/empirische Verteilung Verteilungen
Formulierung und Überprüfung von Hypothesen
Einführung in die beurteilende Statistik
Chi Quadrat Test Tamara Katschnig.
Wahrscheinlichkeitsrechnung
Black Box Algorithmen Hartmut Klauck Universität Frankfurt SS
STATISIK LV Nr.: 1375 SS März 2005.
Wiederholung BSP 2.1.
Konfidenzintervall und Testen für den Mittelwert und Anteile
Mehr zum Testen von Hypothesen
Wahrscheinlichkeitsrechnung
Wahrscheinlichkeitsrechnung
Framing Effekt: Der getrennte Einfluss von Wahrscheinlichkeiten und Utilities Ralf Stork, E. H. Witte Universität Hamburg, Fachbereich Psychologie, Von-Melle-Park.
1. 2. Berechnen von Wahrscheinlichkeiten
Tutorium Statistik II Übung IV Philipp Schäpers Mi – 11.45
Stochastik ganz kurz Beispiel diskret Würfelwurf Beispiel stetig
Thema der Stunde I. Die Form der Stichprobenkennwerteverteilung
STATISIK LV Nr.: 1375 SS März 2005.
Hypothesentests.
Geoinformationssysteme
 Präsentation transkript:

Testen von Hypothesen M. Kresken

Testen von Hypothesen Im medizinisch-biologischen Bereich können wissenschaftliche Hypothesen meist nicht direkt bewiesen werden, da „unbekannte“ Faktoren eventuell vorhandene deterministische Gesetzmäßigkeiten „stören“. Die Gültigkeit einer wissenschaftlichen Hypothese wird überprüft, indem ein konkretes Experiment benutzt wird, um die Vereinbarkeit der Hypothese mit der Realität zu klären. M. Kresken

Testen von Hypothesen Wird beispielsweise untersucht, ob eine bestimmte Operationsmethode den Blutzuckerspiegel beeinflusst, muss zusätzlich die Tatsache berücksichtigt werden, dass mehrfache Blutzuckerbestimmungen beim gleichen Patienten zufällige (biologische) Schwankungen aufweisen. Auch bei fehlendem Einfluss werden die Messungen der Blutzuckerwerte eines Patienten vor und nach der Operation voneinander abweichen. Sind die beobachteten Blutzuckerveränderungen jedoch ausschließlich durch Zufallsschwankungen bedingt, kann man erwarten, dass diese Differenzen im Mittel sehr klein sind, also nur zufällig vom Erwartungswert Null abweichen. M. Kresken

Testen von Hypothesen Auf dieser Tatsache basiert die Konstruktion von Beurteilungskriterien für die Hypothese. Hypothesen der Art „Es besteht kein Unterschied.“ oder „Beobachtete Unterschiede weichen nur zufällig von Null ab.“ werden in der Statistik als Nullhypothese (H0) bezeichnet. Die zu H0 komplementäre Aussage heißt Alternativhypothese (H1). Um die Hypothese „Die beobachteten Unterschiede weichen nur zufällig von Null ab.“ beurteilen zu können, werden Modelle der Wahrscheinlichkeitsrechnung herangezogen. M. Kresken

Binominaltest Beispiel: Zur Verbesserung der Compliance einer notwendigen Vitamintherapie werden 11 Kindern in zufälliger Reihenfolge Brausetabletten zweier verschiedener Geschmacksrichtungen – Orangen- und Bananengeschmack – verabreicht. Jedes Kind sollte über die bevorzugte Geschmacksrichtung entscheiden. M. Kresken

Binominaltest Folgende Überlegungen: Besteht bei den Kindern keine systematische Bevorzugung einer der beiden Geschmacksrichtungen, so ist zu erwarten, dass die eine Hälfte der Kinder Orangengeschmack und die andere Hälfte Bananengeschmack bevorzugt („unentschieden“ ist dabei nicht zugelassen). Untersucht man eine zufällige Stichprobe von Kindern, so wird unter der Voraussetzung gleichwahrscheinlicher Entscheidungen für Orangen- oder Bananengeschmack die Abfolge der Ergebnisse für den Betrachter zufällig erscheinen. In diesem Fall wäre die Entscheidung in jedem einzelnen Experiment für Orangen- oder Bananengeschmack gleichbedeutend mit dem Auftreten von Kopf oder Zahl beim wiederholten Werfen einer Münze. M. Kresken

Binominaltest Folgende Überlegungen II: Somit ist die Anzahl der „Erfolge“ – in diesem Fall die Bevorzugung von Orangengeschmack – binominal (n,p)-verteilt. Dabei ist p die Wahrscheinlichkeit für die Bevorzugung von Orangengeschmack und n der Stichprobenumfang. Geht man davon aus, dass es keine Präferenz für eine der beiden Geschmacksrichtungen gibt, wird für dieses Beispiel die Nullhypothese für den Parameter p der Binominalverteilung H0: p = 0,5 und entsprechend die komplementäre Alternativhypothese H1: p  0,5 nahe gelegt. M. Kresken

Binominaltest Folgende Überlegungen III: Da die Alternative eine Bevorzugung einer der beiden Geschmacksrichtungen beschreibt – mathematisch durch p  0,5 formuliert -, kann also sowohl p > 0,5 (Bevorzugung von Orangengeschmack) als auch p < 0,5 (Bevorzugung von Bananengeschmack) zutreffen. Eine solche Formulierung der Alternativhypothese heißt deshalb zweiseitig. Als Prüfgröße zur Beurteilung von H0 wird die Zufallsvariable „Zahl der Bevorzugungen von Orangengeschmack in einer Stichprobe vom Umfang n“ betrachtet. Liegt die Zahl der Bevorzugungen von Orangengeschmack nahe bei n - entscheidet sich also die überwiegende Mehrzahl der Kinder im Versuch für Orangengeschmack -, so hat man gute Gründe, die Gültigkeit der Nullhypothese anzuzweifeln. Das Ergebnis des Versuchs „spricht“ dann eher für die Alternativhypothese, die hier als eine Bevorzugung von Orangengeschmack interpretiert wird. Aus den Ergebnissen wird im Allgemeinen der so genannte Wert der Prüfgröße berechnet. Anhand dieses Wertes lassen sich die Versuchsausgänge unter Gültigkeit von H0 in extrem oder nicht extrem bewerten. Die Prüfgröße beim Binominaltest ist die Anzahl k der Erfolge bzw. Bevorzugungen. M. Kresken

( ) Binominaltest • + = (11 + 1) • = = 0,0059. = 0,0117 Folgende Überlegungen IV: Wenn die Nullhypothese (p = 0,5) gilt, sind die Anzahlen k der Kinder, die Orangengeschmack bevorzugen, unter n = 11 befragten Kindern (11, 0,5)-verteilt. Daraus geht hervor, dass der Versuch durchaus mit extremen Ergebnissen, d. h. Anzahlen k von Bevorzugungen von Orangengeschmack enden kann, falls die Nullhypothese zutrifft. So ist die Wahrscheinlichkeit für 10 oder 11 Bevorzugungen von Orangengeschmack: ( 11 10 ) 1 2 • + = (11 + 1) • 1 2048 = 12 2048 = 0,0059. Wenn p = 0,5 gilt, so wäre es genauso wenig wahrscheinlich, 0 oder 1 Bevorzugung von Orangengeschmack wie 10 oder 11 zu erhalten, d.h. 0 oder 1 Bevorzugungen wären ein genauso extremes Ergebnis wie 10 oder 11. Insgesamt ist dann die Wahrscheinlichkeit für die extremen Anzahlen 0,1,10 oder 11 Bevorzugungen gegeben durch: 12 + 12 2048 = 0,0117 M. Kresken

Wahrscheinlichkeitsfunktion der Binominalverteilung (11, 0,5) M. Kresken

Signifikanzniveau Die zentrale Bedeutung der Nullhypothese (H0) ist, dass sie Annahmen zur Formulierung eines Wahrscheinlichkeitsmodells festlegt. Lassen sich die tatsächlichen Beobachtungen durch das so festgelegte Modell nur unzugänglich erklären, werden die ursprünglichen Annahmen (die Nullhypothese) als unhaltbar verworfen. Die Denkweise ist dabei die folgende: Unter der Annahme der Richtigkeit der Nullhypothese ist man in der Lage, die Verteilung der Prüfgröße (im Beispiel war dies die Zahl der Bevorzugungen) vor Beginn des Versuchs zu spezifizieren. So können Aussagen über das voraussichtliche Versuchsergebnis gemacht werden. Es wird ein Bereich angegeben, in dem der Wert der Prüfgröße mit einer bestimmten (hohen), vor Versuchsbeginn festzulegenden Wahrscheinlichkeit zu finden sein wird (z.B. 95% oder 99%). In den komplementären Bereich fällt bei Zutreffen der Nullhypothese die Prüfgröße nur mit einer geringen Wahrscheinlichkeit von  = 0,05 (5%) bzw. 0,01 (1%), der so genannten Irrtumswahrscheinlichkeit. M. Kresken

Signifikanzniveau Fällt der Wert der Prüfgröße in diesen Ablehnbereich oder Verwerfungsbereich, so ist ein Ereignis eingetreten, dem bei Zutreffen der Nullhypothese nur eine geringe Wahrscheinlichkeit zukommt. In diesem Falle wird man sich daher dafür entscheiden, die Nullhypothese fallen zu lassen: Die Nullhypothese wird verworfen. Fällt die Realisation der Prüfgröße nicht in den Ablehnbereich (also in den Annahmebereich), so hat das Experiment keine gewichtigen statistischen Gründe geliefert, die Nullhypothese anzuzweifeln. Die Nullhypothese wird nicht verworfen. Wird vor dem Versuch die Irrtumswahrscheinlichkeit von  = 0,05 (5%) gewählt, so bedeutet dies, dass im Durchschnitt in 5 von 100 gleichartigen Experimenten der Test zu einer fälschlichen Ablehnung der Nullhypothese führt. D.h. für den Fall, dass die Nullhypothese zutrifft, wird sie mit 5% Wahrscheinlichkeit irrtümlicherweise abgelehnt. Die Wahrscheinlichkeit  = 0,05 (5%) heißt auch Signifikanzniveau. M. Kresken

Signifikanzniveau Häufig wird die Entscheidung bei einem statistischen Test an Hand des p-Wertes und nicht des Wertes der Prüfgröße getroffen. (Leider wird in der üblichen Nomenklatur der Buchstabe p auch für den Parameter der Binominalverteilung verwendet.) Der p-Wert gibt die Wahrscheinlichkeit an, vorliegende oder extremere Versuchsgänge zu beobachten, wenn die Nullhypothese zutrifft. Die Berechnung erfolgt über den beobachteten Wert der Prüfgröße. Die Entscheidungsregel für bzw. gegen das Verwerfen der Nullhypothese lässt sich dann – analog zum Vergleich des beobachteten Wertes der Prüfgröße mit dem Schwellenwert – an Hand des Vergleiches des p-Wertes mit dem Signifikanzniveau  (häufig 0,05) in der Form verwerfe die Nullhypothese, falls gilt: p   bzw. verwerfe die Nullhypothese nicht, falls gilt: p >  formulieren. M. Kresken

Zweiseitiger 5% Ablehnbereich beim Binominaltest (11, 0,5) M. Kresken

Signifikanzniveau Da die Richtung der Bevorzugung vor Versuchsbeginn unbekannt ist, wird ein zweiseitiger symmetrischer Bereich so gewählt, dass der Ablehnbereich in je einen unteren sowie einen oberen 2,5%-Bereich zerfällt. Man spricht von einem zweiseitigen Niveau--Test mit zugehörigem zweiseitigen 5%-Ablehnbereich bzw. dem zweiseitigen p-Wert. Im Gegensatz dazu wird bei einem einseitigen Niveau--Test beispielsweise die einseitige Nullhypothese H0: p  0,5 gegen die einseitige Alternativhypothese H1: p > 0,5 auf dem Signifikanzniveau  geprüft. Dabei ist man an der Aussage „der Anteil p ist größer als 0,5“ interessiert. Der einseitige 5%-Ablehnbereich ist dann durch die Ergebnisse k = 9,10,11 gegeben, da die einseitige Nullhypothese nur verworfen wird, wenn die Anzahl der Bevorzugungen von Orangengeschmack nahe bei n liegt. Die Auswahl, ob eine medizinische Fragestellung „einseitig“ oder „zweiseitig“ geprüft werden soll, ist vor dem Test auf Grund sachlogischer Überlegungen festzulegen. M. Kresken

Einseitiger 5% Ablehnbereich beim Binominaltest (11, 0,5) M. Kresken

Signifikanzniveau Beispiel: Nehmen wir an, dass 10 Kinder Tabletten mit Orangengeschmack bevorzugt hätten. Dann ergibt sich auf Grund der Beobachtung von 10 Bevorzugungen ein einseitiger p-Wert von 0,0059, berechnet als Wahrscheinlichkeit für Werte von k, die größer oder gleich dem Wert von k = 10 sind (also 10 und 11). Der entsprechende zweiseitige Wert beträgt p = 0,0117, berechnet als Wahrscheinlichkeit für Werte von k, die größer oder gleich k = 10 bzw. kleiner oder gleich k = 11-10 = 1 sind (also 0,1,10,11). Wurde vor Studienbeginn das Signifikanzniveau von 5% für den zweiseitigen Wert gewählt, so lautet die Testentscheidung, da der p-Wert von 0,0117 kleiner als das Signifikanzniveau von 5% ist, dass die Nullhypothese zu verwerfen ist. Gleichzeitig ist im Fall eines signifikanten zweiseitigen Testergebnisses die einseitige Interpretation – hier signifikant höhere Anteil von Bevorzugungen von Orangengeschmack – zulässig. M. Kresken

Fehler 1. und 2. Art Entscheidungsschema eines statistischen Tests Trifft man auf Grund des erläuterten Verfahrens eine Entscheidung, so kann diese richtig oder falsch sein. Die möglichen Ergebnisse des Entscheidungsprozesses lassen sich in einer Vierfeldertafel beschreiben. richtige Entscheidung falsche Entscheidung „Fehler 1. Art“ verwerfen falsche Entscheidung „Fehler 2. Art“ nicht verwerfen falsch richtig Nullhypothese Nullhypothese ist tatsächlich Testentscheidung lautet: Entscheidungsschema eines statistischen Tests M. Kresken

Fehler 1. und 2. Art Die Bedeutung einer Fehlentscheidung hängt von der betrachteten Fragestellung ab; es ist im Allgemeinen ohne weitere Annahmen nicht möglich, Wahrscheinlichkeiten für beide Fehlerarten anzugeben. Legt man jedoch einen Bereich fest, in welchem die Werte der Prüfgröße erwartet werden, wenn die Nullhypothese richtig ist, so ist dies gleichbedeutend mit der Festlegung der Wahrscheinlichkeit für einen Fehler 1. Art. Der Bereich wird dabei derart gewählt, dass der folgende Schluss möglich ist: Ist die Nullhypothese richtig, kommen Werte außerhalb dieses Bereiches, des so genannten „Annahmebereiches“, nur mit einer bestimmten vorgegebenen Wahrscheinlichkeit (der so genannten Irrtumswahrscheinlichkeit) vor. M. Kresken

Fehler 1. und 2. Art Offensichtlich ist diese Irrtumswahrscheinlichkeit identisch mit der Wahrscheinlichkeit für den Fehler 1. Art. Die Wahl der Irrtumswahrscheinlichkeit ist im Prinzip freigestellt und hängt mit dem bereits angesprochenen Entscheidungsrisiko zusammen. Im Bereich der medizinischen Forschung haben sich Werte von 0,05 (5%) und 0,01 (1%) eingebürgert. Wie schon erläutert, bedeutet das Signifikanzniveau die Wahrscheinlichkeit für „falsch-positive“ Testentscheidungen, die nur auftreten können, wenn die Nullhypothese zutrifft. M. Kresken

Fehler 1. und 2. Art Die Wahrscheinlichkeit  für einen Fehler 2. Art kann im Allgemeinen nicht quantifiziert werden. Vorstellungen über die Größenordnung von  ergeben sich, wenn man in einer Modellrechnung die Alternativhypothese in Form einer Punkthypothese (etwa p = 0,8) spezifiziert und damit  berechnet. M. Kresken

Fehler 1. und 2. Art Beispiel: Wir gehen davon aus, dass bei dem Test „Präferenz von Orangengeschmack“ ein zweiseitiger Test zum Signifikanzniveau  = 0,05 geplant war. Um die Wahrscheinlichkeit für den Fehler 2. Art quantifizieren zu können, nehmen wir an, dass die Kinder eine klare Präferenz für Orangengeschmack von p = 0,8 haben. Somit wäre unter der Alternativhypothese H1: p = 0,8 die Zufallsvariable „Zahl der Kinder, die Orangengeschmack bevorzugen“(11, 0,8)-verteilt. Für eine Stichprobe vom Umfang n = 11 befragter Kinder erhält man dann die die folgende Verteilung (nächstes Chart): M. Kresken

Wahrscheinlichkeitsfunktion der Binominalverteilung (11, 0,8) M. Kresken

Fehler 1. und 2. Art ( 11 ) 0,2 • 1 + 0,8 10 = 0,3221 Tatsächlich würde man sich also lediglich mit der Wahrscheinlichkeit von p = 0,3221 (also ca. 32%) für eine Ablehnung der Nullhypothese (k = 0,1,10,11) entscheiden, falls die Alternative in der Form p = 0,8 zutrifft. M. Kresken

Fehler 1. und 2. Art Die konkrete Formulierung der relevanten punktuellen Alternativhypothese vor Versuchsbeginn ist im Allgemeinen ein schwieriges, manchmal jedoch auf Grund sachlogischer Argumente zumindest annährend zu lösendes Problem. Zuweilen geht man jedoch von einer punktförmigen Alternativhypothese aus, um den Mindest-Stichprobenumfang des Versuchs berechnen zu können. Dabei gibt der Unterschied zwischen dem Wert unter der Nullhypothese (in unserem Beispiel p = 0,5) und dem Wert der Alternativhypothese (gemäß der Annahme p = 0,8, Unterschied 0,3) den Effekt an, den es aufzudecken gilt. Der mindestnotwendige Stichprobenumfang „zum Aufdecken des relevanten Unterschiedes bei vorgegebener Sicherheit“ kann wie folgt abgeschätzt werden: M. Kresken

Fehler 1. und 2. Art Aus der Theorie ist bekannt, dass sich mit wachsendem Stichprobenumfang die konkurrierenden Wahrscheinlichkeitsmodelle unter der Null- und Alternativhypothese immer mehr unterscheiden. Das bedeutet, dass bei vorgegebenem Fehler 1. Art und wachsendem Stichprobenumfang die Wahrscheinlichkeit für einen Fehler 2. Art kleiner wird. Mit wachsendem Stichprobenumfang steigt also die Chance, Abweichungen von der Nullhypothese auch zu entdecken. Die Wahrscheinlichkeit für die korrekte Ablehnung der Nullhypothese nennt man die Macht (POWER) eines Tests. POWER = 1 – „Wahrscheinlichkeit für einen Fehler 2. Art“ = „Wahrscheinlichkeit für korrektes Verwerfen der Nullhypothese“ M. Kresken

Fehler 1. und 2. Art Beispiel: Nimmt man an, dass der Anteil der Kinder, die Orangengeschmack bevorzugen, tatsächlich p = 0,8 ist, so wäre bei Gültigkeit der Alternative die Zufallsvariable „Zahl der Kinder, die Orangengeschmack bevorzugen“(n, 0,8)-verteilt. In den folgenden Abbildungen ist die Verteilung der Prüfgröße k für H0: p = 0,5 und H1: p = 0,8 für die Stichprobenumfänge n = 25 und n = 50 veranschaulicht. M. Kresken

Wahrscheinlichkeitsfunktion der Binominalverteilung (25, 0,5) und (25, 0,8) M. Kresken

Wahrscheinlichkeitsfunktion der Binominalverteilung (50, 0,5) und (50, 0,8) M. Kresken

Fehler 1. und 2. Art Die zweiseitigen 5%-Ablehnungsbereiche für den Binominaltest mit n = 25 setzen sich aus den Ergebnissen k = 0,....7 und k = 18,....25 bzw. für n = 50 aus den Ergebnissen k = 0,....17 und k = 33,....50 zusammen. Der folgende Tabelle entnimmt man die Macht (POWER) des zweiseitigen Binominaltests mit den punktförmigen Hypothesen in Abhängigkeit vom Stichprobenumfang n (H0: p = 0,5 und H1: p = 0,8) M. Kresken

Wahrscheinlichkeit  für einen Fehler 2. Art (%) Macht (POWER) des zweiseitigen Binominaltests in Abhängigkeit vom Stickprobenumfang (H0: p = 0,5 und H1: p = 0,8) n Wahrscheinlichkeit  für einen Fehler 2. Art (%) POWER = 1 -  (%) 11 67,8 32,2 15 35,2 64,8 20 19,6 80,4 25 10,9 89,1 30 6,1 93,9 35 3,4 96,6 40 1,9 98,1 45 1,1 98,9 50 0,6 99,4 100 M. Kresken

Fehler 1. und 2. Art Versuchsplanerische Konsequenzen lassen sich aus der Tabelle folgendermaßen ziehen: Können auf Grund berechtigter medizinischer Annahmen die konkurrierenden Wahrscheinlichkeitsmodelle in der Form (H0: p = 0,5 und H1: p = 0,8) spezifiziert werden oder, anders formuliert, ist man an der Entdeckung einer relevanten Anteilsdifferenz von 0,3 gegenüber der Nullhypothese interessiert und möchte diesen Unterschied auch tatsächlich mit 90% Wahrscheinlichkeit entdecken, so wird ein Stichprobenumfang von mehr als n=25 (exakt berechnet  28) benötigt. Offensichtlich gilt, dass im Falle einer geringeren Anteilsdifferenz die entsprechende Power sinkt und damit ein größerer Stichprobenumfang benötigt wird. M. Kresken