Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

1M. Kresken Testen von Hypothesen. 2M. Kresken Testen von Hypothesen Im medizinisch-biologischen Bereich können wissenschaftliche Hypothesen meist nicht.

Ähnliche Präsentationen


Präsentation zum Thema: "1M. Kresken Testen von Hypothesen. 2M. Kresken Testen von Hypothesen Im medizinisch-biologischen Bereich können wissenschaftliche Hypothesen meist nicht."—  Präsentation transkript:

1 1M. Kresken Testen von Hypothesen

2 2M. Kresken Testen von Hypothesen Im medizinisch-biologischen Bereich können wissenschaftliche Hypothesen meist nicht direkt bewiesen werden, da unbekannte Faktoren eventuell vorhandene deterministische Gesetzmäßigkeiten stören. Die Gültigkeit einer wissenschaftlichen Hypothese wird überprüft, indem ein konkretes Experiment benutzt wird, um die Vereinbarkeit der Hypothese mit der Realität zu klären.

3 3M. Kresken Testen von Hypothesen Wird beispielsweise untersucht, ob eine bestimmte Operationsmethode den Blutzuckerspiegel beeinflusst, muss zusätzlich die Tatsache berücksichtigt werden, dass mehrfache Blutzuckerbestimmungen beim gleichen Patienten zufällige (biologische) Schwankungen aufweisen. Auch bei fehlendem Einfluss werden die Messungen der Blutzuckerwerte eines Patienten vor und nach der Operation voneinander abweichen. Sind die beobachteten Blutzuckerveränderungen jedoch ausschließlich durch Zufallsschwankungen bedingt, kann man erwarten, dass diese Differenzen im Mittel sehr klein sind, also nur zufällig vom Erwartungswert Null abweichen.

4 4M. Kresken Testen von Hypothesen Auf dieser Tatsache basiert die Konstruktion von Beurteilungskriterien für die Hypothese. Hypothesen der Art Es besteht kein Unterschied. oder Beobachtete Unterschiede weichen nur zufällig von Null ab. werden in der Statistik als Nullhypothese (H 0 ) bezeichnet. Die zu H 0 komplementäre Aussage heißt Alternativhypothese (H 1 ). Um die Hypothese Die beobachteten Unterschiede weichen nur zufällig von Null ab. beurteilen zu können, werden Modelle der Wahrscheinlichkeitsrechnung herangezogen.

5 5M. Kresken Binominaltest Beispiel: Zur Verbesserung der Compliance einer notwendigen Vitamintherapie werden 11 Kindern in zufälliger Reihenfolge Brausetabletten zweier verschiedener Geschmacksrichtungen – Orangen- und Bananengeschmack – verabreicht. Jedes Kind sollte über die bevorzugte Geschmacksrichtung entscheiden.

6 6M. Kresken Binominaltest Folgende Überlegungen: -Besteht bei den Kindern keine systematische Bevorzugung einer der beiden Geschmacksrichtungen, so ist zu erwarten, dass die eine Hälfte der Kinder Orangengeschmack und die andere Hälfte Bananengeschmack bevorzugt (unentschieden ist dabei nicht zugelassen). -Untersucht man eine zufällige Stichprobe von Kindern, so wird unter der Voraussetzung gleichwahrscheinlicher Entscheidungen für Orangen- oder Bananengeschmack die Abfolge der Ergebnisse für den Betrachter zufällig erscheinen. -In diesem Fall wäre die Entscheidung in jedem einzelnen Experiment für Orangen- oder Bananengeschmack gleichbedeutend mit dem Auftreten von Kopf oder Zahl beim wiederholten Werfen einer Münze.

7 7M. Kresken Binominaltest Folgende Überlegungen II: -Somit ist die Anzahl der Erfolge – in diesem Fall die Bevorzugung von Orangengeschmack – binominal (n,p)-verteilt. -Dabei ist p die Wahrscheinlichkeit für die Bevorzugung von Orangengeschmack und n der Stichprobenumfang. -Geht man davon aus, dass es keine Präferenz für eine der beiden Geschmacksrichtungen gibt, wird für dieses Beispiel die Nullhypothese für den Parameter p der Binominalverteilung H 0 : p = 0,5 und entsprechend die komplementäre Alternativhypothese H 1 : p 0,5 nahe gelegt.

8 8M. Kresken Binominaltest Folgende Überlegungen III: -Da die Alternative eine Bevorzugung einer der beiden Geschmacksrichtungen beschreibt – mathematisch durch p 0,5 formuliert -, kann also sowohl p > 0,5 (Bevorzugung von Orangengeschmack) als auch p < 0,5 (Bevorzugung von Bananengeschmack) zutreffen. -Eine solche Formulierung der Alternativhypothese heißt deshalb zweiseitig. -Als Prüfgröße zur Beurteilung von H 0 wird die Zufallsvariable Zahl der Bevorzugungen von Orangengeschmack in einer Stichprobe vom Umfang n betrachtet. -Liegt die Zahl der Bevorzugungen von Orangengeschmack nahe bei n - entscheidet sich also die überwiegende Mehrzahl der Kinder im Versuch für Orangengeschmack -, so hat man gute Gründe, die Gültigkeit der Nullhypothese anzuzweifeln. -Das Ergebnis des Versuchs spricht dann eher für die Alternativhypothese, die hier als eine Bevorzugung von Orangengeschmack interpretiert wird. -Aus den Ergebnissen wird im Allgemeinen der so genannte Wert der Prüfgröße berechnet. -Anhand dieses Wertes lassen sich die Versuchsausgänge unter Gültigkeit von H 0 in extrem oder nicht extrem bewerten. -Die Prüfgröße beim Binominaltest ist die Anzahl k der Erfolge bzw. Bevorzugungen.

9 9M. Kresken Binominaltest Folgende Überlegungen IV: -Wenn die Nullhypothese (p = 0,5) gilt, sind die Anzahlen k der Kinder, die Orangengeschmack bevorzugen, unter n = 11 befragten Kindern (11, 0,5)-verteilt. -Daraus geht hervor, dass der Versuch durchaus mit extremen Ergebnissen, d. h. Anzahlen k von Bevorzugungen von Orangengeschmack enden kann, falls die Nullhypothese zutrifft. -So ist die Wahrscheinlichkeit für 10 oder 11 Bevorzugungen von Orangengeschmack: ( ) ( 1 2 ) 11 ( ) ( 1 2 ) 11 + = (11 + 1) = Wenn p = 0,5 gilt, so wäre es genauso wenig wahrscheinlich, 0 oder 1 Bevorzugung von Orangengeschmack wie 10 oder 11 zu erhalten, d.h. 0 oder 1 Bevorzugungen wären ein genauso extremes Ergebnis wie 10 oder 11. -Insgesamt ist dann die Wahrscheinlichkeit für die extremen Anzahlen 0,1,10 oder 11 Bevorzugungen gegeben durch: = 0, = 0,0117

10 10M. Kresken Wahrscheinlichkeitsfunktion der Binominalverteilung (11, 0,5)

11 11M. Kresken Signifikanzniveau Die zentrale Bedeutung der Nullhypothese (H 0 ) ist, dass sie Annahmen zur Formulierung eines Wahrscheinlichkeitsmodells festlegt. Lassen sich die tatsächlichen Beobachtungen durch das so festgelegte Modell nur unzugänglich erklären, werden die ursprünglichen Annahmen (die Nullhypothese) als unhaltbar verworfen. Die Denkweise ist dabei die folgende: Unter der Annahme der Richtigkeit der Nullhypothese ist man in der Lage, die Verteilung der Prüfgröße (im Beispiel war dies die Zahl der Bevorzugungen) vor Beginn des Versuchs zu spezifizieren. So können Aussagen über das voraussichtliche Versuchsergebnis gemacht werden. Es wird ein Bereich angegeben, in dem der Wert der Prüfgröße mit einer bestimmten (hohen), vor Versuchsbeginn festzulegenden Wahrscheinlichkeit zu finden sein wird (z.B. 95% oder 99%). In den komplementären Bereich fällt bei Zutreffen der Nullhypothese die Prüfgröße nur mit einer geringen Wahrscheinlichkeit von = 0,05 (5%) bzw. 0,01 (1%), der so genannten Irrtumswahrscheinlichkeit.

12 12M. Kresken Signifikanzniveau Fällt der Wert der Prüfgröße in diesen Ablehnbereich oder Verwerfungsbereich, so ist ein Ereignis eingetreten, dem bei Zutreffen der Nullhypothese nur eine geringe Wahrscheinlichkeit zukommt. In diesem Falle wird man sich daher dafür entscheiden, die Nullhypothese fallen zu lassen: Die Nullhypothese wird verworfen. Fällt die Realisation der Prüfgröße nicht in den Ablehnbereich (also in den Annahmebereich), so hat das Experiment keine gewichtigen statistischen Gründe geliefert, die Nullhypothese anzuzweifeln. Die Nullhypothese wird nicht verworfen. Wird vor dem Versuch die Irrtumswahrscheinlichkeit von = 0,05 (5%) gewählt, so bedeutet dies, dass im Durchschnitt in 5 von 100 gleichartigen Experimenten der Test zu einer fälschlichen Ablehnung der Nullhypothese führt. D.h. für den Fall, dass die Nullhypothese zutrifft, wird sie mit 5% Wahrscheinlichkeit irrtümlicherweise abgelehnt. Die Wahrscheinlichkeit = 0,05 (5%) heißt auch Signifikanzniveau.

13 13M. Kresken Signifikanzniveau Häufig wird die Entscheidung bei einem statistischen Test an Hand des p-Wertes und nicht des Wertes der Prüfgröße getroffen. (Leider wird in der üblichen Nomenklatur der Buchstabe p auch für den Parameter der Binominalverteilung verwendet.) Der p-Wert gibt die Wahrscheinlichkeit an, vorliegende oder extremere Versuchsgänge zu beobachten, wenn die Nullhypothese zutrifft. Die Berechnung erfolgt über den beobachteten Wert der Prüfgröße. Die Entscheidungsregel für bzw. gegen das Verwerfen der Nullhypothese lässt sich dann – analog zum Vergleich des beobachteten Wertes der Prüfgröße mit dem Schwellenwert – an Hand des Vergleiches des p-Wertes mit dem Signifikanzniveau (häufig 0,05) in der Form verwerfe die Nullhypothese, falls gilt: p bzw. verwerfe die Nullhypothese nicht, falls gilt: p > formulieren.

14 14M. Kresken Zweiseitiger 5% Ablehnbereich beim Binominaltest (11, 0,5)

15 15M. Kresken Signifikanzniveau Da die Richtung der Bevorzugung vor Versuchsbeginn unbekannt ist, wird ein zweiseitiger symmetrischer Bereich so gewählt, dass der Ablehnbereich in je einen unteren sowie einen oberen 2,5%-Bereich zerfällt. Man spricht von einem zweiseitigen Niveau- -Test mit zugehörigem zweiseitigen 5%-Ablehnbereich bzw. dem zweiseitigen p-Wert. Im Gegensatz dazu wird bei einem einseitigen Niveau- -Test beispielsweise die einseitige Nullhypothese H 0 : p 0,5 gegen die einseitige Alternativhypothese H 1 : p > 0,5 auf dem Signifikanzniveau geprüft. Dabei ist man an der Aussage der Anteil p ist größer als 0,5 interessiert. Der einseitige 5%-Ablehnbereich ist dann durch die Ergebnisse k = 9,10,11 gegeben, da die einseitige Nullhypothese nur verworfen wird, wenn die Anzahl der Bevorzugungen von Orangengeschmack nahe bei n liegt. Die Auswahl, ob eine medizinische Fragestellung einseitig oder zweiseitig geprüft werden soll, ist vor dem Test auf Grund sachlogischer Überlegungen festzulegen.

16 16M. Kresken Einseitiger 5% Ablehnbereich beim Binominaltest (11, 0,5)

17 17M. Kresken Signifikanzniveau Beispiel: Nehmen wir an, dass 10 Kinder Tabletten mit Orangengeschmack bevorzugt hätten. Dann ergibt sich auf Grund der Beobachtung von 10 Bevorzugungen ein einseitiger p-Wert von 0,0059, berechnet als Wahrscheinlichkeit für Werte von k, die größer oder gleich dem Wert von k = 10 sind (also 10 und 11). Der entsprechende zweiseitige Wert beträgt p = 0,0117, berechnet als Wahrscheinlichkeit für Werte von k, die größer oder gleich k = 10 bzw. kleiner oder gleich k = = 1 sind (also 0,1,10,11). Wurde vor Studienbeginn das Signifikanzniveau von 5% für den zweiseitigen Wert gewählt, so lautet die Testentscheidung, da der p-Wert von 0,0117 kleiner als das Signifikanzniveau von 5% ist, dass die Nullhypothese zu verwerfen ist. Gleichzeitig ist im Fall eines signifikanten zweiseitigen Testergebnisses die einseitige Interpretation – hier signifikant höhere Anteil von Bevorzugungen von Orangengeschmack – zulässig.

18 18M. Kresken Fehler 1. und 2. Art Trifft man auf Grund des erläuterten Verfahrens eine Entscheidung, so kann diese richtig oder falsch sein. Die möglichen Ergebnisse des Entscheidungsprozesses lassen sich in einer Vierfeldertafel beschreiben. richtige Entscheidung falsche Entscheidung Fehler 1. Art verwerfen falsche Entscheidung Fehler 2. Art richtige Entscheidungnicht verwerfen falschrichtigNullhypothese Nullhypothese ist tatsächlich Testentscheidung lautet: Entscheidungsschema eines statistischen Tests

19 19M. Kresken Fehler 1. und 2. Art Die Bedeutung einer Fehlentscheidung hängt von der betrachteten Fragestellung ab; es ist im Allgemeinen ohne weitere Annahmen nicht möglich, Wahrscheinlichkeiten für beide Fehlerarten anzugeben. Legt man jedoch einen Bereich fest, in welchem die Werte der Prüfgröße erwartet werden, wenn die Nullhypothese richtig ist, so ist dies gleichbedeutend mit der Festlegung der Wahrscheinlichkeit für einen Fehler 1. Art. Der Bereich wird dabei derart gewählt, dass der folgende Schluss möglich ist: Ist die Nullhypothese richtig, kommen Werte außerhalb dieses Bereiches, des so genannten Annahmebereiches, nur mit einer bestimmten vorgegebenen Wahrscheinlichkeit (der so genannten Irrtumswahrscheinlichkeit) vor.

20 20M. Kresken Fehler 1. und 2. Art Offensichtlich ist diese Irrtumswahrscheinlichkeit identisch mit der Wahrscheinlichkeit für den Fehler 1. Art. Die Wahl der Irrtumswahrscheinlichkeit ist im Prinzip freigestellt und hängt mit dem bereits angesprochenen Entscheidungsrisiko zusammen. Im Bereich der medizinischen Forschung haben sich Werte von 0,05 (5%) und 0,01 (1%) eingebürgert. Wie schon erläutert, bedeutet das Signifikanzniveau die Wahrscheinlichkeit für falsch-positive Testentscheidungen, die nur auftreten können, wenn die Nullhypothese zutrifft.

21 21M. Kresken Fehler 1. und 2. Art Die Wahrscheinlichkeit für einen Fehler 2. Art kann im Allgemeinen nicht quantifiziert werden. Vorstellungen über die Größenordnung von ergeben sich, wenn man in einer Modellrechnung die Alternativhypothese in Form einer Punkthypothese (etwa p = 0,8) spezifiziert und damit berechnet.

22 22M. Kresken Fehler 1. und 2. Art Beispiel: Wir gehen davon aus, dass bei dem Test Präferenz von Orangengeschmack ein zweiseitiger Test zum Signifikanzniveau = 0,05 geplant war. Um die Wahrscheinlichkeit für den Fehler 2. Art quantifizieren zu können, nehmen wir an, dass die Kinder eine klare Präferenz für Orangengeschmack von p = 0,8 haben. Somit wäre unter der Alternativhypothese H 1 : p = 0,8 die Zufallsvariable Zahl der Kinder, die Orangengeschmack bevorzugen (11, 0,8)-verteilt. Für eine Stichprobe vom Umfang n = 11 befragter Kinder erhält man dann die die folgende Verteilung (nächstes Chart):

23 23M. Kresken Wahrscheinlichkeitsfunktion der Binominalverteilung (11, 0,8)

24 24M. Kresken Fehler 1. und 2. Art = 0,3221 Tatsächlich würde man sich also lediglich mit der Wahrscheinlichkeit von p = 0,3221 (also ca. 32%) für eine Ablehnung der Nullhypothese (k = 0,1,10,11) entscheiden, falls die Alternative in der Form p = 0,8 zutrifft. ( 11 0 ) ( 0,2 ) 11 ( 1 ) ( ) 1 + 0,8 ( ) 10 0,2 ( ) ( ) ,8 ( ) 1 0,2 ( 11 ) ( ) ,8

25 25M. Kresken Fehler 1. und 2. Art Die konkrete Formulierung der relevanten punktuellen Alternativhypothese vor Versuchsbeginn ist im Allgemeinen ein schwieriges, manchmal jedoch auf Grund sachlogischer Argumente zumindest annährend zu lösendes Problem. Zuweilen geht man jedoch von einer punktförmigen Alternativhypothese aus, um den Mindest-Stichprobenumfang des Versuchs berechnen zu können. Dabei gibt der Unterschied zwischen dem Wert unter der Nullhypothese (in unserem Beispiel p = 0,5) und dem Wert der Alternativhypothese (gemäß der Annahme p = 0,8, Unterschied 0,3) den Effekt an, den es aufzudecken gilt. Der mindestnotwendige Stichprobenumfang zum Aufdecken des relevanten Unterschiedes bei vorgegebener Sicherheit kann wie folgt abgeschätzt werden:

26 26M. Kresken Fehler 1. und 2. Art Aus der Theorie ist bekannt, dass sich mit wachsendem Stichprobenumfang die konkurrierenden Wahrscheinlichkeitsmodelle unter der Null- und Alternativhypothese immer mehr unterscheiden. Das bedeutet, dass bei vorgegebenem Fehler 1. Art und wachsendem Stichprobenumfang die Wahrscheinlichkeit für einen Fehler 2. Art kleiner wird. Mit wachsendem Stichprobenumfang steigt also die Chance, Abweichungen von der Nullhypothese auch zu entdecken. Die Wahrscheinlichkeit für die korrekte Ablehnung der Nullhypothese nennt man die Macht (POWER) eines Tests. POWER = 1 – Wahrscheinlichkeit für einen Fehler 2. Art = Wahrscheinlichkeit für korrektes Verwerfen der Nullhypothese

27 27M. Kresken Fehler 1. und 2. Art Beispiel: Nimmt man an, dass der Anteil der Kinder, die Orangengeschmack bevorzugen, tatsächlich p = 0,8 ist, so wäre bei Gültigkeit der Alternative die Zufallsvariable Zahl der Kinder, die Orangengeschmack bevorzugen (n, 0,8)-verteilt. In den folgenden Abbildungen ist die Verteilung der Prüfgröße k für H 0 : p = 0,5 und H 1 : p = 0,8 für die Stichprobenumfänge n = 25 und n = 50 veranschaulicht.

28 28M. Kresken Wahrscheinlichkeitsfunktion der Binominalverteilung (25, 0,5) und (25, 0,8)

29 29M. Kresken Wahrscheinlichkeitsfunktion der Binominalverteilung (50, 0,5) und (50, 0,8)

30 30M. Kresken Fehler 1. und 2. Art Die zweiseitigen 5%-Ablehnungsbereiche für den Binominaltest mit n = 25 setzen sich aus den Ergebnissen k = 0,....7 und k = 18, bzw. für n = 50 aus den Ergebnissen k = 0, und k = 33, zusammen. Der folgende Tabelle entnimmt man die Macht (POWER) des zweiseitigen Binominaltests mit den punktförmigen Hypothesen in Abhängigkeit vom Stichprobenumfang n (H 0 : p = 0,5 und H 1 : p = 0,8)

31 31M. Kresken Macht (POWER) des zweiseitigen Binominaltests in Abhängigkeit vom Stickprobenumfang (H 0 : p = 0,5 und H 1 : p = 0,8) n Wahrscheinlichkeit für einen Fehler 2. Art (%) POWER = 1 - (%) 1167,832,2 1535,264,8 2019,680,4 2510,989,1 306,193,9 353,496,6 401,998,1 451,198,9 500,699,4 1000

32 32M. Kresken Fehler 1. und 2. Art Versuchsplanerische Konsequenzen lassen sich aus der Tabelle folgendermaßen ziehen: Können auf Grund berechtigter medizinischer Annahmen die konkurrierenden Wahrscheinlichkeitsmodelle in der Form (H 0 : p = 0,5 und H 1 : p = 0,8) spezifiziert werden oder, anders formuliert, ist man an der Entdeckung einer relevanten Anteilsdifferenz von 0,3 gegenüber der Nullhypothese interessiert und möchte diesen Unterschied auch tatsächlich mit 90% Wahrscheinlichkeit entdecken, so wird ein Stichprobenumfang von mehr als n=25 (exakt berechnet 28) benötigt. Offensichtlich gilt, dass im Falle einer geringeren Anteilsdifferenz die entsprechende Power sinkt und damit ein größerer Stichprobenumfang benötigt wird.


Herunterladen ppt "1M. Kresken Testen von Hypothesen. 2M. Kresken Testen von Hypothesen Im medizinisch-biologischen Bereich können wissenschaftliche Hypothesen meist nicht."

Ähnliche Präsentationen


Google-Anzeigen