Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

Achim Tresch Computational Biology Omics - Analysis of high dimensional Data.

Ähnliche Präsentationen


Präsentation zum Thema: "Achim Tresch Computational Biology Omics - Analysis of high dimensional Data."—  Präsentation transkript:

1 Achim Tresch Computational Biology Omics - Analysis of high dimensional Data

2 Deskriptive (beschreibende) Statistik: Übersichtliche Aufbereitung der Daten eines vorliegenden Kollektivs (Stichprobe) mittels Graphiken und Tabellen Beurteilende (schließende, Inferenz-) Statistik: Induktiver Schluss von der Stichprobe auf die Grundgesamtheit; Gewinnung allgemeiner Erkenntnisse Stichprobe G R U N D G E S A M T H E I T Beurteilende Statistik

3 Unsicherheitsbehaftete Entscheidungen

4 Andrey Kolmogoroff Schamane Unsicherheitsbehaftete Entscheidungen

5 Unterschied in der Stichprobe Unterschied in der Grund- gesamtheit? Schluss von der Stichprobe auf die Grundgesamtheit Da anhand einer Stichprobe nur unvollständige Information vorliegt, sind ungenaue Schlüsse und Fehlschlüsse möglich. Wichtige Aufgabe der statistischen Methodik: Trotzdem möglichst genaue und fehlerfreie Schlüsse bzw. Quantifizierung der Unsicherheit bei diesen Schlüssen Statistischer Test (Signifikanztest): Beurteilende Statistik

6 Ermittelte Maßzahl in der Stichprobe Maßzahl in der Grund- gesamtheit? Toleranzen (Konfidenz- bereich)? Schluss von der Stichprobe auf die Grundgesamtheit Schätzung: Beurteilende Statistik

7 Wann ist der Schluss von der Stichprobe auf die Grundgesamtheit möglich? Wichtig: Stichprobe muss repräsentativ sein! (Stichprobe enthält nur Bodenproben aus Köln -> Keine Aussagen über Boden in Argentinien möglich) Repräsentativität kann erzielt werden durch zufällige Ziehung aus der Grundgesamtheit (in der Praxis selten möglich). Genau überlegen, wie weit man schließen kann! Beispiel: Therapie bei Kindern mit Leukämie in Mainz Kinder in anderen Unikliniken in Deutschland? Alle Leukämiekinder auf der Welt?? Beurteilende Statistik

8 Lernphase:Vermesse alle Schafe, die dir begegnen. Eine Methode zur Erkennung von (nicht-)Schafen

9 Lernphase:Vermesse alle Schafe, die dir begegnen. Beschreibe die Größe der Schafe, z.B. durch einen Dichteplot. Eine Methode zur Erkennung von (nicht-)Schafen

10 Testphase: Begegnet dir ein neues Tier, so vermesse es. Liegt die Größe des Tieres außerhalb des Größenbereichs der Schafe, so nenne das Tier zu groß/zu klein für ein Schaf. Ansonsten gehe davon aus, dass es ein Schaf ist Kein Schaf Eine Methode zur Erkennung von (nicht-)Schafen

11 Vorteil der Methode: Man muss nichts über Schafe wissen außer ihrer Größenverteilung. Nachteil der Methode: Sie ist fehlerbehaftet Echt Negative Negative (keine Auffälligkeiten) Positive (Auffälligkeiten) Schwellwert Echt Positive Falsch Positive Falsch Negative Eine Methode zur Erkennung von (nicht-)Schafen

12 = Eine Methode zum Erkennen von nicht-Placebos Testphase: Quantifiziere die Wirkung eines Medikaments. Nenne es wirksam, wenn die Wirkung jenseits der Schwelle liegt Lernphase: Quantifiziere die Wirkung eines Placebos (z.B. Blutdrucksenkung in mmHg). Lege eine Entscheidungsschwelle fest Eine Methode zum Nachweis von Medikamentenwirksamkeit

13 Formuliere eine Nullhypothese H 0 (es passiert nichts) Wähle eine Teststatistik (Prüfgröße, die gemessene Größe zur Entscheidungsfindung). Lege damit implizit die Nullverteilung (die Verteilung der Teststatistik, falls die Nullhypothese gilt) fest. Statistisches Testen von Hypothesen

14 Formuliere eine Alternativhypothese (z.B. die Werte sind größer als unter der Nullhypothese erwartet) Lege eine Entscheidungsschwelle d fest. Dies ist äquivalent zur Festlegung des Signifikanzniveaus α, d.h. dem Anteil der falsch Positiven unter den Negativen. α d Statistisches Testen von Hypothesen

15 α d Bestimme den Wert der Teststatistik (z.B. mittels einer Studie), und fälle durch Vergleich von Teststatistik und Entscheidungschwelle eine Entscheidung. Behalte H 0 bei (lehne jedoch die Alternativ- hypothese nicht ab). Lehne die Nullhypo- these ab, nimm die Alternativhypothese an. Statistisches Testen von Hypothesen

16 0 d Gute Statistik Nullhypothese akzeptiert Nullhypothese abgelehnt Nullhypothese wahr Richtige Entsch. Typ I Fehler (Falsch Positive) Alternativhypo- these wahr Typ II Fehler (Falsch Negative) Richtige Entsch. Verteilung der Teststatistik bei Gültigkeit der Nullhypothese Verteilung der Teststatistik bei Gültigkeit der Alternativhypo- these Kriterien für die Güte einer Teststatistik

17 0 d Schlechte Statistik Nullhypothese akzeptiert Nullhypothese abgelehnt Nullhypothese wahr Richtige Entsch. Typ I Fehler (Falsch Positive) Alternativhypo- these wahr Typ II Fehler (Falsch Negative) Richtige Entsch. Verteilung der Teststatistik bei Gültigkeit der Nullhypothese Verteilung der Teststatistik bei Gültigkeit der Alternativhypo- these Kriterien für die Güte einer Teststatistik

18 Würfele mit dem 20-seitigen Würfel. Augenzahl = 20: lehne die Nullhypothese ab Augenzahl 20: lehne die Nullhypothese nicht ab Dies (unabhängig von der Nullhypothese) ein valider Test auf 5%-Signifikanzniveau! Bsp: Das Offenbacher Orakel

19 Aber: Die Verteilung der Teststatistik unter der Null- und der Alternativhypothese ist gleich! Dieser Test kann nicht zwischen den Gruppen diskriminieren! Verteilung unter H 0 Verteilung unter H 1 95% der Positiven werden nicht erkannt Bsp: Das Offenbacher Orakel

20 p = 0.08 Hat man eine Teststatistik festgelegt und einen Wert für sie aus den Messdaten ermittelt, so kann dieser in einen p-Wert umgerechnet werden: Wahrscheinlichkeit, bei Gültigkeit der Nullhypothese einen Wert zu beobachten, welcher mindestens so extrem ist wie der beobachtete Wert Der p-Wert

21 Der einem Wert t der Teststatistik zugeordnete p-Wert ist die Wahrscheinlichkeit, bei Gültigkeit der Nullhypothese einen Wert zu beobachten, welcher mindestens so extrem ist wie der beobachtete Wert t. p = 0.42 Hat man eine Teststatistik festgelegt und einen Wert für sie aus den Messdaten ermittelt, so kann dieser in einen p-Wert umgerechnet werden: t Der p-Wert

22 Entscheidungsschwelle d Signifikanzniveau α Beobachtete Teststatistik t p-Wert α = 0.05 p α Behalte H 0 bei (lehne jedoch die Alternativ- hypothese nicht ab). p < α Lehne die Nullhypo- these ab, nimm die Alternativhypothese an. t p = 0.02 d t p = 0.83 t ist extremer als d p ist kleiner als α Der p-Wert

23 23 ][ Annahmebereich Ablehungsbereich Einseitige Fragestellung H 0 : Der Wert der Prüfgröße ist in Gruppe I nicht höher als in Gruppe II H 1 :Der Wert der Prüfgröße ist in Gruppe I höher als in Gruppe II Ein- und zweiseitige Fragestellungen

24 24 ][ Annahmebereich Ablehungsbereich Zweiseitige Fragestellung H 0 : Die Prüfgröße ist in Gruppe I und Gruppe II gleich H 1 :Die Prüfgröße ist in Gruppe I und in Gruppe II verschieden ][ Ablehungsbereich Zweiseitige Fragestellung im Allgemeinen angemessen: Effekte in beide Richtungen werden detektiert. Bei Zulassungsstudien wird zweiseitige Auswertung gefordert! Ein- und zweiseitige Fragestellungen

25 Was muss bei einer Sachaussage im Anschluss an einen statistischen Test beachtet werden? 1.Testentscheidung: signifikant bzw. nicht signifikant mit Signifikanzniveau 2.Was wird verglichen? (Gruppeneinteilung) 3.Was ist die Grundgesamtheit? 4.Was ist die Zielgröße? (ggf. genauere Information, z.B. Zeitangabe) 5.Falls ein signifikanter Unterschied besteht: Interpretation! (Welche Richtung?) Interpretation eines Testergebnisses

26 26 … Gen A Gen B Genexpressions- messungen Welches Gen ist weniger stark exprimiert? Gruppe 1 Gruppe 2 Vergleich der Mittelwerte zweier Gruppen Spezielle statistische Tests

27 27 Gruppe 1 Gruppe 2 Fragestellung / Hypothese Ist die Expression von Gen g in Gruppe 1 niedriger als die in Gruppe 2? Daten: Expression von Gen g in verschiedenen Proben (Absolutskala) Entscheidung für niedriger exprimiert wenn Teststatistik, z.B. Differenz der Gruppenmittel Zwei-Gruppen Lagevergleich

28 28 Schlechte Idee: Subtrahiere die Gruppenmittelwerte Problem: d ist nicht skaleninvariant Lösung: Teile d durch seine Standardabw. Daraus entsteht die t-Statistik bzw. der t-Test (für unverbundene Stichproben) Gruppe 1 Gruppe 2 Zwei-Gruppen Lagevergleich

29 Gruppe 1: n = 23 gesundeMütter Gruppe 2: n= 38 Mütter mit manifestem Diabetes Beispiel: t-Test für den Vergleich der Plazentagewichte bei gesunden und diabetischen Müttern Zielgröße: Plazentagewicht [g] Zwei-Gruppen Lagevergleich

30 Maßzahlen zum Vergleich der beiden Gruppen (Messwerte in Gramm) Gruppe 1Gruppe 2 Minimum Quartil Median Quartil Maximum Arithm. Mittelwert Standardabweichung Schiefe g Für beide Gruppen: - 1 < g < +1, also Mittelwerte (noch) sinnvoll Zwei-Gruppen t-Test

31 Hypothesen: H 0 : Es gibt keinen (Mittelwerts-) Unterschied in den Plazentagewichten zwischen gesunden und diabetischen Müttern H 1 : Es gibt einen (MW-) Unterschied in den Plazentagewichten zwischen gesunden und diabetischen Müttern Gewähltes Signifikanzniveau: α = 5% Zweiseitiger Test Zwei-Gruppen t-Test

32 32 Voraussetzung: Gaußverteilung in beiden Gruppen Zeile Varianzen gleich: Auch noch gleiche Varianzen (bzw. Standardabweichungen) in beiden Gruppen nötig. Zeile Varianzen ungleich bedeutet nur: Gleiche Varianzen sind nicht erforderlich. Pragmatisch: Immer 2. Zeile verwenden! p = Zwei-Gruppen t-Test

33 Ergebnis: Mittelwertsdifferenz = (–) p-Wert = p = = 0.2% < 5% = 0.05 = α Also signifikanter Unterschied zum Niveau 5%! Sachaussage: Zum Signifikanzniveau α = 5% besteht ein signifikanter Mittelwerts-Unterschied in den Plazentagewichten zwischen gesunden und diabetischen Müttern. Konkret haben diabetische Mütter höhere Plazentagewichte. Interpretation des p-Werts: Falls zwischen den (mittleren) Plazentagewichten zwischen gesunden und diabetischen Müttern kein Unterschied besteht (also H0 gilt), beträgt die Wahrscheinlichkeit, dennoch einen Mittelwertsunterschied von mindestens g zu beobachten, unter den gegebenen Umständen 0.2%. Zwei-Gruppen t-Test

34 Untersuche für unverbundene Stichproben: Sind die Werte in Gruppe 1 kleiner als in Gruppe 2 ? Messgröße Gruppe Gruppe Originalskala Rangskala Rangsumme Gruppe 1: = 22 Rangsumme Gruppe 2: = 33 Wilcoxon (Rangsummen) Test (Mann-Whitney-Test)

35 Wähle die Rangsumme von Gruppe 1 als Teststatistik Rangsummenverteilung für Gruppe 1, |Gruppe 1| = 5, |Gruppe 2| = 5 Der zur Rangsumme gehörige p-Wert kann per Computer für kleine Gruppenzahlen exakt oder für große Gruppenzahlen näherungsweise berechnet werden: 22 P(W 22, falls die Gruppen- zugehörigkeiten zufällig sind) Wilcoxon W = 0.15 Wilcoxon (Rangsummen) Test (Mann-Whitney-Test)

36 Beispiel Plazentagewichte Der Wilcoxon Test kann einseitig oder zweiseitig durchgeführt werden Für größere Fallzahlen (N>20) wird eine Näherung berechnet Wilcoxon (Rangsummen) Test (Mann-Whitney-Test)

37 37 Sind die Daten normalverteilt? Verbundene Stichproben? t-Test für verbundene Stichproben ja nein t-Test für unverb. Stichproben Wilcoxon Vorzeichen- test Wilcoxon Rangsummen- test ja nein Zu klärende Frage: Existiert ein Lageunterschied der Merkmalsausprägungen zwischen Gruppe 1 und Gruppe 2? Testübersicht: Gruppenvergleich eines stetigen Merkmals

38 Wahl der Teststatistik: Exakter Fisher-Test Sir Ronald Aylmer Fisher, Theoretischer Biologe, Evolutionstheoretiker und Statistiker Vergleich zweier binärer Merkmale

39 Wirkung Wirkt Wirkt nicht Medika- menten- gabe Verum657 Placebo4413 Der exakte Fisher Test soll die Frage beantworten: Gibt es Unterschiede in der Verteilung und ? Unverbundene Stichproben: Exakter Fisher Test Bsp.: Wirksamkeitsstudie mit unverbundenen Stichproben (jeder Probend erhält nur einen Präparat) Vergleich zweier binärer Merkmale

40 KopfZahl Faire Münze5446 Gebogene Münze8218 Odds (= Chance): Häufigkeitsverhältnis in einer Gruppe, Quote einer fairen Wette Odds (faire Münze) = 54 : 46 = 1.17 Odds (gebogene M.) = 82 : 18= 4.56 Odds Ratio (Chancenverhältnis) Odds und Odds Ratio

41 Bsp: Dickdarmkarzinom

42 Interessierende Fragen: Hat die Impfung einen Einfluss auf das Überleben? Ist der Einfluss signifikant? 4-Jahres-Überleben JaNein Impfung Ja (n=32)30 (94%)2 (6%) Nein (n=30)23 (77%)7 (23%) Bsp: Dickdarmkarzinom

43 Grundgesamtheit: Alle jetzigen und künftigen Patienten mit Dickdarm-Ca und Metastasen. Nullhypothese H 0 : Die Impfung hat keinerlei Effekt auf den Zustand der Patienten. Die Überlebensraten bei der Grundgesamtheit sind mit und ohne Impfung gleich. Gegenhypothese (Alternativhypothese) H 1 : Die Überlebensraten bei der Grundgesamtheit sind mit Impfung und ohne Impfung unterschiedlich. (zweiseitige Fragestellung) Wähle das Signifikanzniveau α (oft gewählt: α = 1%; 0.1%; 5%; 10%) Genaue Interpretation des Signifikanzniveaus α : Wenn in Wirklichkeit kein Unterschied besteht (also H 0 gilt), erhält man mit Wahrscheinlichkeit α eine Signifikanz (=falsch positive Aussage). Bsp: Dickdarmkarzinom

44 Testergebnis nach Durchführung des exakten Fisher- Tests: p = % Hat man α = 5% gewählt, so gilt: Da p > α, wird die Nullhypothese beibehalten. Sachaussage: Es besteht zum Niveau α = 5% kein signifikanter Effekt der Impfung auf die Überlebensrate nach 4 Jahren. Folgerung: Wir sind (noch) nicht (hinreichend) davon überzeugt, dass ein Unterschied in den Überlebensraten besteht! Bsp: Dickdarmkarzinom

45 Interpretation des Ergebnisses (Dickdarmkarzinome mit und ohne Impfung) Überlebensrate nach 4 Jahren mit Impfung: 94% (n = 32) Überlebensrate nach 4 Jahren ohne Impfung: 77% (n = 30) Beobachteter Unterschied in der 4-Jahres-Überlebensrate: 17% exakter Fisher-Test: p = Falls die Impfung keinerlei Effekt hat (also H 0 gilt), beträgt die Wahrscheinlichkeit, dennoch einen Unterschied von mindestens 17% zwischen beiden Gruppen zu erhalten, unter den gegebenen Umständen 7.7%. Bsp: Dickdarmkarzinom

46 H 0 : Es besteht kein Zusammenhang zwischen Tumorgröße und dem Auftreten von LGE (oder: die Tumorgröße hat keinen Einfluss auf das Auftreten von LGE) H 1 :Es besteht ein Zusammenhang zwischen Tumorgröße und dem Auftreten von LGE (oder: die Tumorgröße hat einen Einfluss auf das Auftreten von LGE) Unverb. Stichproben: Chiquadrat-Test (χ 2 -Test) Auftreten von LGE JaNein Tumor- größe Vergleich zweier kategorialer Merkmale

47 Im gegebenen Beispiel erhält man mit SPSS p = (also: p < 0.001). Wurde als Signifikanzniveau α = 5% gewählt, so ergibt sich als Sachaussage: Bei Patienten mit Magenkarzinomen besteht ein zum 5%-Niveau signifikanter Zusammenhang zwischen Tumorgröße und dem Auftreten von LGE (oder:..... Einfluss der Tumorgröße auf das Auftreten von LGE). Konkret: je größer der Tumor, desto häufiger treten LGE auf. Unverb. Stichproben: Chiquadrat-Test (χ 2 -Test) Vergleich zweier kategorialer Merkmale

48 Voraussetzungen des Chiquadrat-Tests Gesamt-Fallzahl nicht zu klein (etwa n 60) Erwartungswerte (erwartete Häufigkeiten) nicht zu klein (alle 5) Beachte: Bei zwei binären Merkmalen verwende eine Vierfeldertafel und den exakten Fisher-Test! Unverb. Stichproben: Chiquadrat-Test (χ 2 -Test) Vergleich zweier kategorialer Merkmale

49 49 Sind die Daten binär? Verbundene Stichproben? McNemar Test (Messen die beiden Variablen das Gleiche?) ja nein Exakter Fisher Test (Besteht eine Abhängigkeit?) (Bowker Symmetrie- test) Chiquadrat ( χ 2 ) -Test ja nein Zu klärende Frage: Gibt es Unterschiede in den Häufigkeitsverteilungen der verschiedenen Gruppen? Testübersicht: Vergleich zweier kategorialer Variablen

50 50 MerkmalDesign Deskription numerisch Deskription graphisch Test stetigunverbunden Mediane, Quartile 2 Boxplots Wilcoxon- Rangsummen- t-Test* stetigverbunden Median, Quartile der Differenz Differenzen- Boxplot Wilcoxon- Vorzeichen-, t-Test* binärunverbunden Kreuztabelle,Zeilen%, RR, RD, OR Balken- diagramm Exakter Fisher-Test binärverbunden Kreuztabelle (Mc-Nemar- Tafel) Balken- diagramm McNemar- Test kategorialunverbunden Kreuztabelle,Zeilen% (3D Balken- diagramm) χ 2 -Test * Bei Normalverteilung Übersicht: Deskription und statistische Tests (2 Merkmale)

51 Die Angabe eines Testergebnisses ohne eine sinnvolle Deskription ist uninformativ. Oft: Angabe von Konfidenzbereichen wünschenswert. Als Testergebnis sollte nicht nur Zum Niveau α signifikant/nicht signifikant angegeben werden, sondern der p-Wert (geeignet gerundet), zumindest wenn er kleiner als (etwa) 0.1 ist. Niemals p=0 oder gar p<0.000 als Testergebnis angeben! Beachte

52 52 Sehr viele Fälle: Auch kleine Unterschiede werden signifikant Wenige Fälle: Ein beobachteter Unterschied kann relevant, aber nicht statistisch signifikant sein. Statistische Signifikanz Relevanz

53 53 Beispiele: Untersuchung mehrerer Endpunkte (systolischer, diastolischer Blutdruck, Pulsfrequenz) Vergleich mehrerer Gruppen (z.B. bei 4 Gruppen: 6 Paarvergleiche) Bei jedem Test tritt eine falsche Signifikanz (= falsch Positives) mit 5% Wahrscheinlichkeit auf (falls α = 5%) Bei 6 Tests steigt die Wahrscheinlichkeit des Auftretens einer falschen Signifikanz bis zu 30%! Problematik des Multiples Testens

54 Lösungsmöglichkeit: Korrektur nach Bonferroni Führe jeden der einzelnen Tests zum Niveau α/m (lokales Signifikanzniveau α/m ) durch (m = Anzahl der Tests) Die Wahrscheinlichkeit eines Auftretens einer falschen Signifikanz bei Durchführung aller m Tests beträgt dann höchstens α (multiples/globales Niveau α) z. B. m = 6 Gewünschtes multiples Niveau: α = 5% lokales Signifikanzniveau: α/m = 5%/6 = 0.83% Problematik des Multiples Testens

55


Herunterladen ppt "Achim Tresch Computational Biology Omics - Analysis of high dimensional Data."

Ähnliche Präsentationen


Google-Anzeigen