Ergebnisunsicherheit und Statistische Testverfahren

Slides:



Advertisements
Ähnliche Präsentationen
T - Test Prüfung des Mittelwerteunterschieds bei abhängigen und unabhängigen Stichproben.
Advertisements

Definition [1]: Sei S eine endliche Menge und sei p eine Abbildung von S in die positiven reellen Zahlen Für einen Teilmenge ES von S sei p definiert.
Heute 1.F – Test zur Varianzhomogenität 2.Bartlett-Test zur Varianzhomogenität 3.Chi – Quadrat Tests für Häufigkeiten 4.Chi – Quadrat Tests zur Verteilungsanpassung.
1 Wiederholungsstunde Altweiber Es wurden bei 200 zufällig ausgewählten normalwüchsigen männlichen erwachesnen Personen die Körpergröße bestimmt.
Bewegungswissenschaft
Theorie psychometrischer Tests, III
Forschungsstrategien Johannes Gutenberg Universität Mainz
Klassische Hypothesenprüfung
Gliederung Vertrauensintervalle Arten von Hypothesen
Forschungsstatistik II
Forschungsstatistik II Prof. Dr. G. Meinhardt SS 2005 Fachbereich Sozialwissenschaften, Psychologisches Institut Johannes Gutenberg Universität Mainz KLW-24.
Forschungsstatistik II Prof. Dr. G. Meinhardt SS 2006 Fachbereich Sozialwissenschaften, Psychologisches Institut Johannes Gutenberg Universität Mainz KLW-18.
Forschungsstatistik II Prof. Dr. G. Meinhardt SS 2006 Fachbereich Sozialwissenschaften, Psychologisches Institut Johannes Gutenberg Universität Mainz KLW-18.
Der Binomialtest Man habe einen wahren Anteil P.
Hypothesen testen: Grundidee
Prüfung statistischer Hypothesen
Statistische Methoden I
Statistische Methoden II
Konfidenzintervalle Intervallschätzung
TESTS. Worum es geht Man möchte testen, ob eine bestimmte Annahme (Hypothese) über Parameter der Realität entspricht oder nicht. Beobachtung (Stichprobe)
Die Student- oder t-Verteilung
Statistische Methoden I WS 2007/2008 Donnerstag, 31. Januar 2008 und Freitag, 1. Februar 2008 Probeklausur - statt Vorlesungen -
Konfidenzintervalle Intervallschätzung Jeder Beobachtung wird ein Intervall C( ) der reellen Zahlen zugeordnet Niveau Dabei ist die Wahrscheinlichkeit,
Statistische Methoden I SS 2005 Vorlesung:Prof. Dr. Michael Schürmann Zeit:Freitag (Pause: ) Ort:Hörsaal Loefflerstraße Übungen.
Klausurtermin (laut Prüfungsamt) Probeklausur Freitag, 13. Juni 2003 statt Vorlesung.
Achtung Vorlesung am Montag, den 21. Juni Zeit: Uhr Ort: Kiste.
Die Vorlesung am 14. Mai (Tag nach Himmelfahrt) wird auf Montag, den 17. Mai verlegt! Zeit: 16 Uhr Ort: Kiste Nächste Woche!!!!
Statistische Methoden II SS 2003 Vorlesung:Prof. Dr. Michael Schürmann Zeit:Freitag (Pause: ) Ort:Hörsaal Loefflerstraße Übungen.
III. Induktive Statistik
Sportwissenschaftliche Forschungsmethoden SS Statistischer Test.
Tutorium Willkommen zurück, in der wunderbaren Welt der Statistik Teil II.
Tutorium
Unser neuntes Tutorium
Tutorium Aufgabe 1 Informationen in Designmatrix in: - Darin sind die Prädiktoren enthalten - Aber sagt uns noch mehr! Untersuchungsdesign darin.
Vorlesung: Biometrie für Studierende der Veterinärmedizin
Vorlesung: Biometrie für Studierende der Veterinärmedizin Prinzipien des statistischen Testens Entscheidungsfindung Exakter Binomialtest als.
Wiederholung und Beispiele
Binomialverteilung: Beispiel
Vorlesung: ANOVA I
Einführung in die Metaanalyse
Eigenschaften der OLS-Schätzer
Wiederholung: Einfache Regressionsgleichung
Vorstellung Ateliers Permutationstests Nachmittagsateliers.
Deutsch als Zweitsprache: Experimentelle Methoden WS 2013/2014
Histogramm/empirische Verteilung Verteilungen
Formulierung und Überprüfung von Hypothesen
Einführung in die beurteilende Statistik
Ausgleichungsrechnung II
Chi Quadrat Test Tamara Katschnig.
Ausgleichungsrechnung I
Wahrscheinlichkeitsrechnung
STATISIK LV Nr.: 1375 SS März 2005.
Wiederholung BSP 2.1.
STATISIK LV Nr.: 0028 SS Mai 2005.
STATISIK LV Nr.: 0021 WS 2005/ Oktober 2005.
STATISIK LV Nr.: 1852 WS 2005/ Dezember 2005.
Konfidenzintervall und Testen für den Mittelwert und Anteile
Einführung in die klinische Medizin
Tutorium Statistik II Übung IV Philipp Schäpers Mi – 11.45
Einführung zur Fehlerrechnung
Arzt-Patienten-Beziehung
Stochastik ganz kurz Beispiel diskret Würfelwurf Beispiel stetig
Thema der Stunde I. Die Form der Stichprobenkennwerteverteilung
STATISIK LV Nr.: 1375 SS März 2005.
Methoden epidemiologischer Forschung
wissenschaftlicher Publikationen
Geoinformationssysteme
Programmiersprachen II Fortsetzung Datenstrukturen Balancierte Bäume 3 Prof. Dr. Reiner Güttler Fachbereich GIS HTW.
European Patients’ Academy on Therapeutic Innovation Spezielle Bevölkerungsgruppen.
Lineare Optimierung Nakkiye Günay, Jennifer Kalywas & Corina Unger Jetzt erkläre ich euch die einzelnen Schritte und gebe Tipps!
 Präsentation transkript:

Ergebnisunsicherheit und Statistische Testverfahren Statistische Tests in (klinischen und epidemiologischen) Beobachtungsstudien Ergebnisunsicherheit und Statistische Testverfahren Dr. Gerß (IMIB) [Prof. Hense (IES)] 1

Kurze Wiederholung vom Freitag… 

Unsicherheit in Studien Eine klinische oder epidemiologische Studie wird (im Gegensatz zum häufig replizierbaren Experiment) nur einmal durchgeführt: das in dieser Studie ermittelte Effektmaß ist also nur eine einmalige Schätzung des wahren Wertes.  

Wahrscheinlichkeit und relative Häufigkeit Beispiel: Prävalenz einer Erkrankung Theoretische Wahrscheinlichkeit = Relative Häufigkeit der Erkrankung in der Grundgesamtheit Empirische Information Gewinnung einer repräsentativen Stichprobe -> Bestimmung der relativen Häufigkeit der Erkrankung in der Stichprobe z.B. Untersuchung von n=100 Patienten Relative Häufigkeit der Erkrankung = 19%

Wahrscheinlichkeit und relative Häufigkeit Beispiel: Prävalenz einer Erkrankung Theoretische Wahrscheinlichkeit = Relative Häufigkeit der Erkrankung in der Grundgesamtheit Wie viele Erkrankten würde ich finden, wenn ich nicht nur die n Patienten der Stichprobe untersuchen würde, sondern sämtliche Patienten der Grundgesamtheit? Empirische Information Gewinnung einer repräsentativen Stichprobe -> Bestimmung der relativen Häufigkeit der Erkrankung in der Stichprobe z.B. Untersuchung von n=100 Patienten Relative Häufigkeit der Erkrankung = 19% Nutzung der relativen Häufigkeit der Stichprobe zur Schätzung der entsprechenden Rate in der Grundgesamtheit

Wahrscheinlichkeit und relative Häufigkeit Beispiel: Prävalenz einer Erkrankung Theoretische Wahrscheinlichkeit = Relative Häufigkeit der Erkrankung in der Grundgesamtheit Wie viele Erkrankten würde ich finden, wenn ich nicht nur die n Patienten der Stichprobe untersuchen würde, sondern sämtliche Patienten der Grundgesamtheit? Empirische Information Gewinnung einer repräsentativen Stichprobe -> Bestimmung der relativen Häufigkeit der Erkrankung in der Stichprobe z.B. Untersuchung von n=100 Patienten Relative Häufigkeit der Erkrankung = 19% Nutzung der relativen Häufigkeit der Stichprobe zur Schätzung der entsprechenden Rate in der Grundgesamtheit Deskriptive Statistik: Beschreibung des empirischen Stichprobenergebnisses Induktive Statistik: Induktiver Schluss von der empirischen Information der Stichprobe auf die Grundgesamtheit.

Wahrscheinlichkeit und relative Häufigkeit Beispiel: Prävalenz einer Erkrankung Theoretische Wahrscheinlichkeit = Relative Häufigkeit der Erkrankung in der Grundgesamtheit Wie viele Erkrankten würde ich finden, wenn ich nicht nur die n Patienten der Stichprobe untersuchen würde, sondern sämtliche Patienten der Grundgesamtheit? Empirische Information Gewinnung einer repräsentativen Stichprobe -> Bestimmung der relativen Häufigkeit der Erkrankung in der Stichprobe z.B. Untersuchung von n=100 Patienten Relative Häufigkeit der Erkrankung = 19% Nutzung der relativen Häufigkeit der Stichprobe zur Schätzung der entsprechenden Rate in der Grundgesamtheit Deskriptive Statistik: Relative Erkrankungsrate in der Stichprobe, z.B.=19% Induktive Statistik: Schätzung der unbekannten Rate in der GG, z.B. =19% mit Konfidenzintervall 11.8% – 28.1%

Unsicherheit in Studien Eine Klinische oder epidemiologische Studie wird (im Gegensatz zum häufig replizierbaren Experiment) nur einmal durchgeführt: das in dieser Studie ermittelte Effektmaß ist also nur eine einmalige Schätzung des wahren Wertes.   Das Konfidenzintervall ist ein statistisch bestimmtes Maß für die Präzision, mit der eine Studie z.B. Mittelwerte, Differenzen oder Prävalenzen, Inzidenzraten, Relative Risiken etc. geschätzt hat.

Wahrscheinlichkeit P=? Rel. Häufigkeit in der Stichprobe Konfidenzintervall Wahrscheinlichkeit P=? ? ? ? ? ? ? ? ? ? ? ? ― ― ― h 1 Rel. Häufigkeit in der Stichprobe

Wahrscheinlichkeit P=? Rel. Häufigkeit in der Stichprobe Konfidenzintervall Das Konfidenzintervall enthält mit 95%iger Wahrscheinlichkeit den unbekannten Wert P Wahrscheinlichkeit P=? ? ? ? ? ? ? ? ? ? ? ? ― ― ― h 1 Rel. Häufigkeit in der Stichprobe

(nach Goldstandard ermittelt) Eine zufällige Stichprobe Testergebnis Wirklichkeit (nach Goldstandard ermittelt) Gesamt W+: (Mamma-Ca:Ja) W-: (Mamma-Ca: nein) T+: (Mamma-Ca: Ja) 12 97 109 T-: 2 889 891 14 986 1000

(nach Goldstandard ermittelt) Eine zufällige Stichprobe Testergebnis Wirklichkeit (nach Goldstandard ermittelt) Gesamt W+: (Mamma-Ca:Ja) W-: (Mamma-Ca: nein) T+: (Mamma-Ca: Ja) 12 97 109 T-: 2 889 891 14 986 1000 Schätzwerte: Prävalenz = 14/1000 = 0.014, Sensitivität = 12/14 = 0.86, Spezifität = 889/986 = 0.90, ppV = 12/109 = 0.11

Vertrauensgrenzen Schätzwerte untere Grenze obere Grenze Prävalenz 14/1000 = 0.014 0.008 0.023 Sensitivität 12/14 = 0.86 0.57 0.98 Spezifität 889/986 = 0.90 0.88 0.92 ppV 12/109 = 0.11 0.06 0.18 Die angegebenen Grenzen sind so berechnet, dass sie mit 95%-Wahrscheinlichkeit den (unbekannten) wahren Wert umschließen. Das so berechnete Intervall ist das 95%-Konfidenzintervall.

Problemaufriss: Vergleich zweier Medikamente Es gibt Untersuchungen zur Wirkung eines neuen Asthmamittels A. Sie vergleichen die Wirkung mit der aktuellen Standardtherapie B. Endpunkt ist die Anfallsrate an Asthma. Frage: Ist A wirksamer als B? Auf welcher wissenschaftlichen Basis (Evidenz) beruht diese Aussage?

Prinzipien des Statistischen Testens Einführung Tests zum Vergleich zweier Erfolgsraten Signifikanz und klinische Relevanz Der p-Wert Gütekriterien des Signifikanztests Tests bei metrischen Zielgrößen Spezielle Testprobleme Das multiple Testproblem Konfidenzintervalle

Ist Behandlung A wirksamer als Behandlung B? Erfolg Misserfolg Gesamt Behandlung A 40 ( = 80%) 10 50 Behandlung B 35 ( = 70%) 15 Empirische Erfolgsraten in der Stichprobe Unbekannte Erfolgsraten in der Grundgesamtheit Testproblem H0: rA=rB gegen H1: rA≠rB „Die beobachteten Unterschiede zwischen den empirischen Erfolgsraten sind durch Zufall zu erklären.“ „Die Unterschiede zw. den emp. Raten sind überzufällig bzw. „signifikant“, d.h. auf systematische Unterschiede in der GG zurück zu führen.“

Ist Behandlung A wirksamer als Behandlung B? Erfolg Misserfolg Gesamt Behandlung A 40 ( = 80%) 10 50 Behandlung B 35 ( = 70%) 15 Testproblem H0: rA=rB gegen H1: rA≠rB Mögliche Lösung des Testproblems? Konfidenz-intervalle zum Niveau 95%

Ist Behandlung A wirksamer als Behandlung B? Erfolg Misserfolg Gesamt Behandlung A 40 ( = 80%) 10 50 Behandlung B 35 ( = 70%) 15 Testproblem H0: rA=rB gegen H1: rA≠rB Anwendung eines Signifikanztests => „p-Wert“ p<0.05 => Testentscheidung zugunsten H1 p≥0.05 => Testentscheidung zugunsten H0 Hier: p=0.3556, d.h. Entscheidung für H0 („nicht signifikant“) 18

Ist Behandlung A wirksamer als Behandlung B? Erfolg Misserfolg Gesamt Behandlung A 45 ( = 90%) 5 50 Behandlung B 35 ( = 70%) 15 Testproblem H0: rA=rB gegen H1: rA≠rB p=0.02445, d.h. Entscheidung für H1 („signifikant“)

Ist Behandlung A wirksamer als Behandlung B? Erfolg Misserfolg Gesamt Behandlung A 160 ( = 80%) 40 200 Behandlung B 140 ( = 70%) 60 Testproblem H0: rA=rB gegen H1: rA≠rB p=0.02824, d.h. Entscheidung für H1 („signifikant“) Der Test erkennt auf Signifikanz, wenn der Unterschied der verglichenen Erfolgsraten entweder groß ist oder durch eine große Fallzahl belegt, d.h. „stabil“ ist.

Signifikanz und klinische Relevanz Der Test erkennt auf Signifikanz, wenn der Unterschied der verglichenen Erfolgsraten entweder groß ist oder durch eine große Fallzahl belegt, d.h. „stabil“ ist. Statistische Signifikanz: Gibt es (überzufällige) Unterschiede in den Erfolgsraten? Daraus folgt nicht notwendigerweise, dass die Unterschiede eine klinisch relevante Größe haben. Der p-Wert sagt aus, ob es Unterschiede in den Erfolgsraten gibt, nicht wie groß diese Unterschiede sind! Beurteilung der klinischen Relevanz: Angabe eines Effektschätzers zusätzlich zum p-Wert, z.B. in Form der Differenz oder des Quotienten beider Erfolgsraten 21

Prinzipien des Statistischen Testens Einführung Tests zum Vergleich zweier Erfolgsraten Signifikanz und klinische Relevanz Der p-Wert Gütekriterien des Signifikanztests Tests bei metrischen Zielgrößen Spezielle Testprobleme Das multiple Testproblem Konfidenzintervalle

Der p-Wert In welchem Maß widersprechen die beobachteten Daten der Nullhypothese? Definition: Vorausgesetzt die Nullhypothese würde zutreffen, d.h. beide Erfolgsraten stimmen in der Grundgesamtheit überein: Wie groß ist dann die Wahrscheinlichkeit, ein solches empirisches Ergebnis wie das tatsächlich beobachtete zu beobachten (oder eines, das der Nullhypothese noch mehr widerspricht)? Der p-Wert gibt nicht an, mit welcher Wahrscheinlichkeit die Nullhypothese der Übereinstimmung beider Erfolgs-raten in der Grundgesamtheit zutrifft!

Der p-Wert Beispiel: Gegeben sei eine Münze H0: Die Münze ist fair, d.h. P(Kopf) = P(Zahl) = 50% H1: Die Münze ist unfair, d.h. P(Kopf) ≠ P(Zahl) Zufallsexperiment: 20facher Münzwurf „Prüfgröße“ bzw. „Teststatistik“ T: Anzahl geworfener Köpfe Gesucht: Wahrscheinlichkeitsverteilung der Teststatistik T unter H0

Der p-Wert Beispiel: Gegeben sei eine Münze H0: Die Münze ist fair, d.h. P(Kopf) = P(Zahl) = 50% H1: Die Münze ist unfair, d.h. P(Kopf) ≠ P(Zahl) Zufallsexperiment: 20facher Münzwurf „Prüfgröße“ bzw. „Teststatistik“ T: Anzahl geworfener Köpfe Gesucht: Wahrscheinlichkeitsverteilung der Teststatistik T unter H0 Anschl.: Tatsächliche Durchführung des Experiments

Der p-Wert Beispiel: Gegeben sei eine Münze H0: Die Münze ist fair, d.h. P(Kopf) = P(Zahl) = 50% H1: Die Münze ist unfair, d.h. P(Kopf) ≠ P(Zahl) Zufallsexperiment: 20facher Münzwurf „Prüfgröße“ bzw. „Teststatistik“ T: Anzahl geworfener Köpfe Gesucht: Wahrscheinlichkeitsverteilung der Teststatistik T unter H0 Anschl.: Tatsächliche Durchführung des Experiments, z.B. t=14

Der p-Wert Beispiel: Gegeben sei eine Münze H0: Die Münze ist fair, d.h. P(Kopf) = P(Zahl) = 50% H1: Die Münze ist unfair, d.h. P(Kopf) ≠ P(Zahl) Zufallsexperiment: 20facher Münzwurf „Prüfgröße“ bzw. „Teststatistik“ T: Anzahl geworfener Köpfe Gesucht: Wahrscheinlichkeitsverteilung der Teststatistik T unter H0 Anschl.: Tatsächliche Durchführung des Experiments, z.B. t=14 => p=0.1153

Der p-Wert Beispiel: Gegeben sei eine Münze H0: Die Münze ist fair, d.h. P(Kopf) = P(Zahl) = 50% H1: Die Münze ist unfair, d.h. P(Kopf) ≠ P(Zahl) Zufallsexperiment: 20facher Münzwurf „Prüfgröße“ bzw. „Teststatistik“ T: Anzahl geworfener Köpfe Gesucht: Wahrscheinlichkeitsverteilung der Teststatistik T unter H0 Anschl.: Tatsächliche Durchführung des Experiments, z.B. t=15 => p=0.0414

Prinzipien des Statistischen Testens Einführung Tests zum Vergleich zweier Erfolgsraten Signifikanz und klinische Relevanz Der p-Wert Gütekriterien des Signifikanztests Tests bei metrischen Zielgrößen Spezielle Testprobleme Das multiple Testproblem Konfidenzintervalle

Gütekriterien des Signifikanztests Testproblem H0: r1=r2 gegen H1: r1≠r2 In Wirklichkeit ist H0 richtig H1 richtig Entscheidung für H0 richtig Fehler 2. Art Entscheidung für H1 Fehler 1. Art Entscheidung zu unrecht für H1 (falsch positiv) Man behauptet zu unrecht, es gäbe einen Unterschied. Fehler 1. Art P(Fehler 1. Art) ≤ α=5% kein „symmetrisches“ Verfahren im Sinne einer Entscheidung für die „wahrscheinlichere“ der beiden Hypothesen stattdessen konservativer Ansatz: „Im Zweifel für H0“ H0: r1=r2 gegen H1: r1≠r2 H0: r1=r2 gegen H1: r1≠r2 P(Fehler 2. Art) ≈ 20% wird toleriert Fehler 2. Art Entscheidung zu unrecht für H0 (falsch negativ) Man versäumt, einen bestehenden Unterschied zu erkennen.

Gütekriterien des Signifikanztests Testproblem H0: r1=r2 gegen H1: r1≠r2 Geringe Gefahr eines Fehlers 1. Art => Nachweis der Gültigkeit von H1 ist abgesichert Größere Gefahr eines Fehlers 2. Art => Nachweis der Gültigkeit von H0 ist weniger gut abgesichert In Wirklichkeit ist H0 richtig H1 richtig Entscheidung für H0 richtig Fehler 2. Art Entscheidung für H1 Fehler 1. Art Der klassische Signifikanztest eignet sich zum Nachweis von Unterschieden, nicht zum Beweis der Tatsache, dass es keine Unterschiede gibt! Entscheidung zu unrecht für H1 (falsch positiv) Man behauptet zu unrecht, es gäbe einen Unterschied. Fehler 1. Art P(Fehler 1. Art) ≤ α=5% kein „symmetrisches“ Verfahren im Sinne einer Entscheidung für die „wahrscheinlichere“ der beiden Hypothesen stattdessen konservativer Ansatz: „Im Zweifel für H0“ Geeignete Aufstellung des Testproblems: H0: Etabliertes Basiswissen („kein Effekt“) H1: Innovative Erkenntnis H0: r1=r2 gegen H1: r1≠r2 H0: r1=r2 gegen H1: r1≠r2 P(Fehler 2. Art) ≈ 20% wird toleriert Fehler 2. Art Entscheidung zu unrecht für H0 (falsch negativ) Man versäumt, einen bestehenden Unterschied zu erkennen. 31

Fehlerwahrscheinlichkeiten im Signifikanztest Beispiel: r0: Erfolgswahrscheinlichkeit unter Plazebo r1: Erfolgswahrscheinlichkeit unter aktiver Therapie H0: r1=r0 gegen H1: r1≠r0 „Powerfunktion“

Fehlerwahrscheinlichkeiten im Signifikanztest Beispiel: r0: Erfolgswahrscheinlichkeit unter Plazebo r1: Erfolgswahrscheinlichkeit unter aktiver Therapie H0: r1=r0 gegen H1: r1≠r0 „Powerfunktion“ H0 H1 33

Fehlerwahrscheinlichkeiten im Signifikanztest Beispiel: r0: Erfolgswahrscheinlichkeit unter Plazebo r1: Erfolgswahrscheinlichkeit unter aktiver Therapie H0: r1=r0 gegen H1: r1≠r0 H0 H1

Fehlerwahrscheinlichkeiten im Signifikanztest Beispiel: r0: Erfolgswahrscheinlichkeit unter Plazebo r1: Erfolgswahrscheinlichkeit unter aktiver Therapie H0: r1=r0 gegen H1: r1≠r0 H0 H1

Fehlerwahrscheinlichkeiten im Signifikanztest Beispiel: r0: Erfolgswahrscheinlichkeit unter Plazebo r1: Erfolgswahrscheinlichkeit unter aktiver Therapie H0: r1=r0 gegen H1: r1≠r0 => Fallzahlschätzung einer geplanten klinischen Studie H0 H1

Prinzipien des Statistischen Testens Einführung Tests zum Vergleich zweier Erfolgsraten Signifikanz und klinische Relevanz Der p-Wert Gütekriterien des Signifikanztests Tests bei metrischen Zielgrößen Spezielle Testprobleme Das multiple Testproblem Konfidenzintervalle

Signifikanztests bei metrischen Zielgrößen bisher: Vergleich zweier Erfolgsraten H0: r1=r2 gegen H1: r1≠r2 Bsp.: Metrische Zielgröße Blutdrucksenkung µ1,µ2: „Erwartungswerte“ = (Unbeobachtbare) arithmetische Mittelwerte der Zielgröße in der Grundgesamtheit µ1: Erwartete mittlere Blutdrucksenkung, falls sämtliche Patienten der Grundgesamtheit Therapie 1 bekommen hätten µ2: Erwartete mittlere Blutdrucksenkung, falls sämtliche Patienten der Grundgesamtheit Therapie 2 bekommen hätten Testproblem: H0: µ1=µ2 gegen H1: µ1≠µ2

Signifikanztests bei metrischen Zielgrößen → Sind die Daten normalverteilt? ... Was ist eine Wahrscheinlichkeitsverteilung? Histogramm Wahrscheinlichkeits-verteilung Gauss‘sche Normalverteilung

Prinzipien des Statistischen Testens Einführung Tests zum Vergleich zweier Erfolgsraten Signifikanz und klinische Relevanz Der p-Wert Gütekriterien des Signifikanztests Tests bei metrischen Zielgrößen Spezielle Testprobleme Das multiple Testproblem Konfidenzintervalle

Spezielle Testprobleme Lagetests bei normalverteilten Zielgrößen Student‘s t-Test zweiseitiger Test: H0: μ1=μ2 gegen H1: μ1≠μ2 einseitiger Test: H0: μ1≤μ2 gegen H1: μ1>μ2 H0: μ1≥μ2 gegen H1: μ1<μ2 verbundener und unverbundener Test Lagetests bei nicht normalverteilten Zielgrößen („Nichtparametrische Verfahren“, insbes. bei kleiner Fallzahl) verbundene Stichproben: Wilcoxon-Rangsummentest unverbundene Stichproben: U-Test von Mann-Whitney Test zum Vergleich zweier Erfolgsraten: 2-Test

Spezielle Testprobleme Lagetests bei normalverteilten Zielgrößen Student‘s t-Test zweiseitiger Test: H0: μ1=μ2 gegen H1: μ1≠μ2 einseitiger Test: H0: μ1≤μ2 gegen H1: μ1>μ2 H0: μ1≥μ2 gegen H1: μ1<μ2 verbundener und unverbundener Test Lagetests bei nicht normalverteilten Zielgrößen („Nichtparametrische Verfahren“, insbes. bei kleiner Fallzahl) verbundene Stichproben: Wilcoxon-Rangsummentest unverbundene Stichproben: U-Test von Mann-Whitney Test zum Vergleich zweier Erfolgsraten: 2-Test Ein- und zweiseitige Testprobleme In der Regel werden zweiseitige Tests durchgeführt. Bsp: Vergleich einer aktiven Therapie A gegenüber Plazebo Einseitiger Test: H0: μA≤μPlazebo , d.h. A ist gleichwertig oder unterlegen H1: μA>μPlazebo , d.h. A ist überlegen gegenüber Plazebo => Nachteil des einseitigen Tests: Im Fall eines nicht-signifikanten Ergebnisses kann nicht differenziert werden zwischen Gleichwertigkeit (=Wirkungslosigkeit) und Unterlegenheit gegenüber Plazebo (=Schädlichkeit!) 42

Spezielle Testprobleme Lagetests bei normalverteilten Zielgrößen Student‘s t-Test zweiseitiger Test: H0: μ1=μ2 gegen H1: μ1≠μ2 einseitiger Test: H0: μ1≤μ2 gegen H1: μ1>μ2 H0: μ1≥μ2 gegen H1: μ1<μ2 verbundener und unverbundener Test Lagetests bei nicht normalverteilten Zielgrößen („Nichtparametrische Verfahren“, insbes. bei kleiner Fallzahl) verbundene Stichproben: Wilcoxon-Rangsummentest unverbundene Stichproben: U-Test von Mann-Whitney Test zum Vergleich zweier Erfolgsraten: 2-Test 43

Beispiel: Klinische Studie zur Blutdrucksenkung Zwei alternative Therapieverfahren Bei jedem Patienten wird der Blutdruck jeweils vor und nach Anwendung der Therapie gemessen Therapie Pat.-Nr. Blutdruck Erwartungswerte PRE POST POST-PRE Differenz A A1 140 120 -20 µA(pre) µA(post) µA(post-pre) A2 130 A3 -10 … B B1 135 -5 µB(pre) µB(post) µB(post-pre) B2 145 +5 B3 verbundener Test unverbundener Test

Spezielle Testprobleme Lagetests bei normalverteilten Zielgrößen Student‘s t-Test zweiseitiger Test: H0: μ1=μ2 gegen H1: μ1≠μ2 einseitiger Test: H0: μ1≤μ2 gegen H1: μ1>μ2 H0: μ1≥μ2 gegen H1: μ1<μ2 verbundener und unverbundener Test Lagetests bei nicht normalverteilten Zielgrößen („Nichtparametrische Verfahren“, insbes. bei kleiner Fallzahl) verbundene Stichproben: Wilcoxon-Rangsummentest unverbundene Stichproben: U-Test von Mann-Whitney Test zum Vergleich zweier Erfolgsraten: 2-Test

Spezielle Testprobleme Lagetests bei normalverteilten Zielgrößen Student‘s t-Test zweiseitiger Test: H0: μ1=μ2 gegen H1: μ1≠μ2 einseitiger Test: H0: μ1≤μ2 gegen H1: μ1>μ2 H0: μ1≥μ2 gegen H1: μ1<μ2 verbundener und unverbundener Test Lagetests bei nicht normalverteilten Zielgrößen („Nichtparametrische Verfahren“, insbes. bei kleiner Fallzahl) verbundene Stichproben: Wilcoxon-Rangsummentest unverbundene Stichproben: U-Test von Mann-Whitney Test zum Vergleich zweier Erfolgsraten: 2-Test 46

Prinzipien des Statistischen Testens Einführung Tests zum Vergleich zweier Erfolgsraten Signifikanz und klinische Relevanz Der p-Wert Gütekriterien des Signifikanztests Tests bei metrischen Zielgrößen Spezielle Testprobleme Das multiple Testproblem Konfidenzintervalle

Das multiple Testproblem Ein (!) Signifikanztest ist ein leistungsfähiges Verfahren zur Lösung eines statistischen Testproblems.

Das multiple Testproblem Ein (!) Signifikanztest ist ein leistungsfähiges Verfahren zur Lösung eines statistischen Testproblems. Die mehrfache Anwendung eines Tests kann dazu führen, dass das Signifikanzniveau überschritten wird! Beispiel: H0: Der Blutdrucksenker XY ist nicht wirksam gegen H1: ... wirksam Zur Lösung des Testproblems werden mehrere Tests durchgeführt: (i) Senkung des systolischen Blutdrucks (ii) Senkung des diastolischen Blutdrucks (iii) Einstellung des Tag-Nacht-Rhythmus Die ursprüngl. Nullhypothese wird abgelehnt (d.h. Wirksamkeit wird als erwiesen angesehen), falls einer der Tests (i)-(iii) signifikant ist.

Das multiple Testproblem Ein (!) Signifikanztest ist ein leistungsfähiges Verfahren zur Lösung eines statistischen Testproblems. Die mehrfache Anwendung eines Tests kann dazu führen, dass das Signifikanzniveau überschritten wird! Beispiel: H0: Der Blutdrucksenker XY ist nicht wirksam gegen H1: ... wirksam Zur Lösung des Testproblems werden mehrere Tests durchgeführt: (i) Senkung des systolischen Blutdrucks Fehler 1. Art = 5% (ii) Senkung des diastolischen Blutdrucks Fehler 1. Art = 5% (iii) Einstellung des Tag-Nacht-Rhythmus Fehler 1. Art = 5% Die ursprüngl. Nullhypothese wird abgelehnt (d.h. Wirksamkeit wird als erwiesen angesehen), falls einer der Tests (i)-(iii) signifikant ist. Das multiple Testproblem Ein (!) Signifikanztest ist ein leistungsfähiges Verfahren zur Lösung eines statistischen Testproblems. Die mehrfache Anwendung eines Tests kann dazu führen, dass das Signifikanzniveau überschritten wird! Beispiel: H0: Der Blutdrucksenker XY ist nicht wirksam gegen H1: ... wirksam Zur Lösung des Testproblems werden mehrere Tests durchgeführt: (i) Senkung des systolischen Blutdrucks (ii) Senkung des diastolischen Blutdrucks (iii) Einstellung des Tag-Nacht-Rhythmus Die ursprüngl. Nullhypothese wird abgelehnt (d.h. Wirksamkeit wird als erwiesen angesehen), falls einer der Tests (i)-(iii) signifikant ist. Die Gesamtentscheidung wird anhand einer „ODER“-Verknüpfung der einzelnen Tests getroffen. Sie ist damit falsch positiv, sobald in mindestens einem der einzelnen Tests ein Fehler 1. Art begangen wird. Die Wahrscheinlichkeit dafür beträgt 1-(1-0.05)3 = 14,3% > 5%!

Das multiple Testproblem

Wann kann ein multiples Testproblem entstehen? Durchführung mehrerer elementarer Signifikanztests, deren Ergebnisse zu einer Gesamtentscheidung kombiniert werden. Diese Gesamtentscheidung wird als positiv angesehen, falls mindestens einer der einzelnen Tests signifikant ist. Keine eindeutige Wahl des primären Zielkriteriums einer Studie Zwischenauswertungen Keine eindeutige Festlegung des statistischen Auswertungsverfahrens Paarvergleiche z.B. mehrerer Behandlungen / Dosierungen Subgruppenanalyse

Prinzipien des Statistischen Testens Einführung Tests zum Vergleich zweier Erfolgsraten Signifikanz und klinische Relevanz Der p-Wert Gütekriterien des Signifikanztests Tests bei metrischen Zielgrößen Spezielle Testprobleme Das multiple Testproblem Konfidenzintervalle

Wahrscheinlichkeit P=? Rel. Häufigkeit in der Stichprobe Konfidenzintervall Das Konfidenzintervall enthält mit 95%iger Wahrscheinlichkeit den unbekannten Wert P Wahrscheinlichkeit P=? ? ? ? ? ? ? ? ? ? ? ? ― ― ― h 1 Rel. Häufigkeit in der Stichprobe 54

― ― ― ― ― Konfidenzintervalle Beispiel µ: Erwartete Blutdrucksenkung unter Therapie XY : Empirisches Stichprobenmittel Gesucht ist ein Intervall zur Eingrenzung des unbekannten Parameters µ. Welche Werte kommen für den unbekannten Parameter µ in Frage? Unbekannter Erwartungswert µ=? ? ? ? ? ? ? ? ? ? ? ? ― ― ― ― ― 10 20 30 mmHg empirisches Stichprobenmittel

Konfidenzintervalle Beispiel µ: Erwartete Blutdrucksenkung unter Therapie XY : Empirisches Stichprobenmittel Gesucht ist ein Intervall zur Eingrenzung des unbekannten Parameters µ. Welche Werte kommen für den unbekannten Parameter µ in Frage? Das Konfidenz- oder Vertrauensintervall ist die Menge sämtlicher Werte, die im Rahmen eines Signifikanztests für den unbekannten Parameter µ nicht ausgeschlossen werden können.

Konfidenzintervalle Beispiel µ: Erwartete Blutdrucksenkung unter Therapie XY : Empirisches Stichprobenmittel Gesucht ist ein Intervall zur Eingrenzung des unbekannten Parameters µ. Welche Werte kommen für den unbekannten Parameter µ in Frage? Das Konfidenz- oder Vertrauensintervall ist die Menge sämtlicher Werte, die im Rahmen eines Signifikanztests für den unbekannten Parameter µ nicht ausgeschlossen werden können. Führt man sämtliche Tests zum Signifikanzniveau α=5% durch, so ergibt sich, dass das Konfidenzintervall den unbekannten Parameter µ mit 1-α = 95%iger Wahrscheinlichkeit enthält. -30 -20 -10 10 20 30 mmHg H0: μ=-30 H0: μ=-25 H0: μ=-20 H0: μ=-15 H0: μ=-5 H0: μ=-10 H0: μ=0 H0: μ=5 H0: μ=10 H0: μ=15 H0: μ=20 H0: μ=25 H0: μ=30 Menge aller Tests mit nicht-signifikantem Ergebnis

Konfidenzintervalle und Signifikanztests Beispiel µA: Erwartete Blutdrucksenkung unter Therapie A µB: Erwartete Blutdrucksenkung unter Therapie B (i) Lösungsansatz im Rahmen eines Testproblems: H0: μA=μB gegen H1: μA≠μB (ii) Alternativer Ansatz: Konfidenzintervall des Behandlungsunterschieds μA-μB -30 -20 -10 10 20 30 mmHg Falls 0  KI d.h. H0: μA-μB=0 kann nicht abgelehnt werden, <=> H0: μA=μB kann nicht abgelehnt werden. <=> kein signifikanter Unterschied zwischen beiden Therapien (Andererseits können Unterschiede bis zu 20 mmHg (!) ebenfalls nicht ausgeschlossen werden)

Konfidenzintervalle und Signifikanztests Anderes Beispiel µA: Erwartete Blutdrucksenkung unter Therapie A µB: Erwartete Blutdrucksenkung unter Therapie B (i) Lösungsansatz im Rahmen eines Testproblems: H0: μA=μB gegen H1: μA≠μB (ii) Alternativer Ansatz: Konfidenzintervall des Behandlungsunterschieds μA-μB -30 -20 -10 10 20 30 mmHg Falls 0  KI d.h. H0: μA-μB=0 wird verworfen, <=> H0: μA=μB wird verworfen. <=> signifikanter Unterschied zwischen beiden Therapien (Trotzdem ist der Unterschied zwischen den Therapien hier möglicherweise kleiner (!) als im vorigen Beispiel.)

Konfidenzintervalle bei binären Zielgrößen Beispiel r1: Lungenkrebsrate von Rauchern r0: Lungenkrebsrate von Nichtrauchern (i) Lösungsansatz im Rahmen eines Testproblems: H0: r1=r0 gegen H1: r1≠r0 (ii) Alternativer Ansatz: Konfidenzintervall des Relativen Risikos r1/r0 1 2 3 4 5 6 Falls 1  KI d.h. H0: r1/r0=1 wird verworfen, <=> H0: r1=r0 wird verworfen. <=> signifikanter Unterschied zwischen Rauchern und Nichtrauchern

Fallstricke Statistischer Signifikanztests Einführung Tests zum Vergleich zweier Erfolgsraten Signifikanz und klinische Relevanz Der p-Wert Gütekriterien des Signifikanztests Tests bei metrischen Zielgrößen Spezielle Testprobleme Das multiple Testproblem Konfidenzintervalle Der p-Wert sagt aus, ob es Unterschiede in den Erfolgsraten gibt, nicht wie groß diese Unterschiede sind! Der klassische Signifikanztest eignet sich zum Nachweis von Unterschieden, nicht zum Beweis der Tatsache, dass es keine Unterschiede gibt! p>0.05 => „Für H0“ „Nicht gegen H0“ Bei der Anwendung mehrerer Signifikanztests mit Kombi-nation der Testergebnisse besteht eine erhöhte Gefahr eines Fehlers 1. Art (falsch positive Entscheidung).

Literatur 62

Eine Reihe von Beispielen…

Beispiel 1: Das Relative Risiko für Lungenkrebs bei Passivrauchern wurde in einer Studie geschätzt als: RR = 1.35 Der p-Wert betrug p = 0,075. Bei einer Irrtumswahrscheinlichkeit von a = 0.05 (oder 5%) wird die Null-Hypothese (die besagt, dass keine Beziehung zwischen Passivrauchen und Lungenkrebs besteht) nicht verworfen, da p = 0.075 > 0.05 . d.h.: auf dem 5%-Niveau statistisch nicht signifikant !

Linksventrikuläre Hypertrophie und Risiko *: Männer und Frauen, 45 bis 64 Jahre, Männer Frauen RR 95 %-KI RR 95 %-KI Tod 2.3 [1.5 ; 3.7] 1.5 [0.9 ; 2.6] Tod durch HKK 3.2 [1.8 ; 5.7] 2.4 [1.1 ; 5.4] AMI (F + NF) alle 1.7 [0.95;3.2] 3.2 [1.3 ; 7.7] inzidente 2.2 [1.2 ; 4.3] 2.9 [1.2 ; 7.4] * adjustiert für Alter, TC/HDL-Quotient, Rauchen, Alkohol, Infarktanamnese Hense et al., 1998

Männer und Frauen, 45 bis 64 Jahre, LVH und Risiko *: Männer und Frauen, 45 bis 64 Jahre, Männer Frauen HRR 95 %-KI HRR 95 %-KI Tod 2.3 [1.5 ; 3.7] 1.5 [0.9 ; 2.6] Tod durch HKK 3.2 [1.8 ; 5.7] 2.4 [1.1 ; 5.4] AMI (F + NF) alle 1.7 [0.95;3.2] 3.2 [1.3 ; 7.7] inzidente 2.2 [1.2 ; 4.3] 2.9 [1.2 ; 7.4] * adjustiert für Alter, TC/HDL-Quotient, Rauchen, Alkohol, Infarktanamnese Hense et al., 1998

 Einige abschließende Beispiele  Epidemiologisches Maß Schätzwert 95%KI Differenz von Mittelwerten: 5.5 mg/dl [0.2 – 9.8] Differenz von Prävalenzen: 3% [-1% - 7%] Differenz von Inzidenzraten: 0.002 [0.0016 - 0.0024] Relatives Risiko: 2.45 [1.78 - 3.45] Odds Ratio: 0.76 [0.43 - 1.12] Signifikant?  

Fragen und Antworten Zufall 50 insulinpflichtige Diabetiker wurden mit 50 Nicht-Diabetikern bezüglich des Auftretens von psychischen Störungen untersucht. Diese waren bei den Diabetikern signifikant häufiger. Welcher der folgenden Faktoren kommt als Erklärung für diese Unterschiede wahrscheinlich nicht in Frage: - Alter, - Insulintherapie, - Zufall, - Diät, - Diabeteskomplikationen. Zufall

Fragen und Antworten Boston Lyle Hospital 1938 – 1952 Inzidenz Retrolentaler Fibroplasie (RFL) Frühgeborene RLF Jungen 260 17.3% Mädchen 321 15.4% Inzidenzdifferenz: 1.9%, 95%-KI [ -4.2 bis 8.0]; p = 0.62 Was besagt dieses Resultat? - Die Inzidenz der RLF ist signifikant höher für Jungen. Geschlecht und Inzidenz der RLF sind in dieser Studie nicht assoziiert. Zufall kann die Inzidenzdifferenz allein nicht erklären. Das relative Risiko einer RLF für J ist signifikant verschieden von 1. Es besteht eine 62%ige Wahrscheinlichkeit, dass die Inzidenz für Jungen größer ist als 1.9%. 

Fragen und Antworten In einer klinischen Studie wird ein innovatives Mittel A zur Blutdruck- senkung mit der bisherigen Standardtherapie B verglichen. Das neue Medikament wird in zwei verschiedenen Patientengruppen jeweils in unterschiedlicher Dosis vergeben (A1 bzw. A2). Beim Vergleich der Therapien ergibt sich in einem zweiseitigen Signifikanztest der Gruppe A1 versus B ein p-Wert von p=0.001; für den Vergleich A2 versus B ergibt sich p=0.04. Welche Information kann aus den angegebenen p-Werten abgelesen werden? - Therapie A1 ist erwiesenermaßen wirksamer als die Standardtherapie B. Therapie A2 ist erwiesenermaßen wirksamer als die Standardtherapie B. Die erwartete Blutdrucksenkung unter Ther. A1 ist größer als unter Ther. A2. Die Wirksamkeit der Therapien A1 und A2 unterscheidet sich signifikant. Keine der obigen Aussagen kann aus den p-Werten abgelesen werden. 

Fragen und Antworten Eine geplante klinische Studie soll möglichst zeit- und kostensparend durchgeführt werden. Um das zu erreichen, wird folgendes Vorgehen diskutiert. Zuerst werden 50 Patienten pro Therapiegruppe rekrutiert und anhand eines Signifikanztests zum Niveau α=5% geprüft, ob sich signifikante Therapieunterschiede nachweisen lassen. Gelingt das (noch) nicht, so werden anschließend weitere 2x25 Patienten rekrutiert und erneut getestet. Das Verfahren wird so lange fortgesetzt, bis der p-Wert des Tests auf Ungleichheit beider Therapien signifikant ist. Halten Sie ein solches Vorgehen für sinnvoll? Nein, bei dem beschriebenen Vorgehen besteht ein multiples Testproblem! In jedem einzelnen Test besteht eine 5%ige Wkt. eines falsch positiven Ergebnisses. Das abschließende Urteil ist allerdings positiv, falls irgend- einer der einzelnen Test signifikant ist. Dadurch ist die Gefahr eines falsch positiven Ergebnisses im abschließenden Urteil deutlich größer als 5%!

Fragen und Antworten In einer klinischen Studie werden die Erfolgsraten r1 und r2 zweier Therapien miteinander verglichen. Pro Therapiearm werden 10 Patien- ten rekrutiert und deren Daten ausgewertet. Dabei ergibt sich beim Test auf Ungleichheit der beiden Erfolgsraten ein nicht signifikanter p-Wert von p=0.08. Interpretieren Sie das Testergebnis! Was können Sie zur Power der Studie sagen? Was für ein Konfidenzintervall des Therapieeffekts (Quotient der Erfolgsraten r1 und r2) erwarten Sie? Die Nullhypothese H0:r1=r2 kann nicht abgelehnt werden. Das heißt nicht, dass damit ihre Gültigkeit bewiesen ist! Aufgrund der kleinen Fallzahl hat die Studie erwartungsgemäß eine sehr niedrige Power, d.h. es besteht eine große Gefahr eines Fehlers 2. Art. Aus dem gleichen Grund wird das KI des Therapieeffekts erwartungsgemäß sehr groß sein, d.h. die Größe des Effekts lässt sich nur schlecht abschätzen.