Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

‘Omics’ - Analysis of high dimensional Data

Ähnliche Präsentationen


Präsentation zum Thema: "‘Omics’ - Analysis of high dimensional Data"—  Präsentation transkript:

1 ‘Omics’ - Analysis of high dimensional Data
Achim Tresch Computational Biology

2 Beurteilende Statistik
Deskriptive (beschreibende) Statistik: Übersichtliche Aufbereitung der Daten eines vorliegenden Kollektivs (Stichprobe) mittels Graphiken und Tabellen Beurteilende (schließende, Inferenz-) Statistik: Induktiver Schluss von der Stichprobe auf die Grundgesamtheit; Gewinnung allgemeiner Erkenntnisse Stichprobe G R U N D G E S A M T H E I T

3 Unsicherheitsbehaftete Entscheidungen

4 Unsicherheitsbehaftete Entscheidungen
Schamane Andrey Kolmogoroff

5 Unterschied in der Grund-gesamtheit?
Beurteilende Statistik Schluss von der Stichprobe auf die Grundgesamtheit Da anhand einer Stichprobe nur unvollständige Information vorliegt, sind ungenaue Schlüsse und Fehlschlüsse möglich. Wichtige Aufgabe der statistischen Methodik: Trotzdem möglichst genaue und fehlerfreie Schlüsse bzw. Quantifizierung der Unsicherheit bei diesen Schlüssen Statistischer Test (Signifikanztest): Unterschied in der Grund-gesamtheit? Unterschied in der Stichprobe

6 Beurteilende Statistik
Schluss von der Stichprobe auf die Grundgesamtheit Schätzung: Maßzahl in der Grund-gesamtheit? Toleranzen (Konfidenz-bereich)? Ermittelte Maßzahl in der Stichprobe

7 Beurteilende Statistik
Wann ist der Schluss von der Stichprobe auf die Grundgesamtheit möglich? Wichtig: Stichprobe muss „repräsentativ“ sein! (Stichprobe enthält nur Bodenproben aus Köln -> Keine Aussagen über Boden in Argentinien möglich) Repräsentativität kann erzielt werden durch zufällige Ziehung aus der Grundgesamtheit (in der Praxis selten möglich). Genau überlegen, „wie weit“ man schließen kann! Beispiel: Therapie bei Kindern mit Leukämie in Mainz → Kinder in anderen Unikliniken in Deutschland? → Alle Leukämiekinder auf der Welt?? Heidelberg-Beispiel

8 Eine Methode zur Erkennung von (nicht-)Schafen
Lernphase: Vermesse alle Schafe, die dir begegnen.

9 Eine Methode zur Erkennung von (nicht-)Schafen
Lernphase: Vermesse alle Schafe, die dir begegnen. Beschreibe die Größe der Schafe, z.B. durch einen Dichteplot.

10 Eine Methode zur Erkennung von (nicht-)Schafen
Testphase: Begegnet dir ein neues Tier, so vermesse es. Liegt die Größe des Tieres außerhalb des Größenbereichs der Schafe, so nenne das Tier „zu groß/zu klein für ein Schaf“. Ansonsten gehe davon aus, dass es ein Schaf ist Kein Schaf

11 Eine Methode zur Erkennung von (nicht-)Schafen
Vorteil der Methode: Man muss nichts über Schafe wissen außer ihrer Größenverteilung. Nachteil der Methode: Sie ist fehlerbehaftet Negative (keine Auffälligkeiten) Positive (Auffälligkeiten) Echt Positive Falsch Positive Falsch Negative Echt Negative Schwellwert

12 = Eine Methode zum Erkennen von nicht-Placebos
Eine Methode zum Nachweis von Medikamentenwirksamkeit = Eine Methode zum Erkennen von nicht-Placebos Lernphase: Quantifiziere die Wirkung eines Placebos (z.B. Blutdrucksenkung in mmHg). Lege eine Entscheidungsschwelle fest Testphase: Quantifiziere die Wirkung eines Medikaments. Nenne es wirksam, wenn die Wirkung jenseits der Schwelle liegt

13 Statistisches Testen von Hypothesen
Formuliere eine Nullhypothese H0 („es passiert nichts“) Wähle eine Teststatistik (Prüfgröße, die gemessene Größe zur Entscheidungsfindung). Lege damit implizit die Nullverteilung (die Verteilung der Teststatistik, falls die Nullhypothese gilt) fest.

14 Statistisches Testen von Hypothesen
Formuliere eine Alternativhypothese (z.B. „die Werte sind größer als unter der Nullhypothese erwartet“) Lege eine Entscheidungsschwelle d fest. Dies ist äquivalent zur Festlegung des Signifikanzniveaus α, d.h. dem Anteil der falsch Positiven unter den Negativen. d α

15 Statistisches Testen von Hypothesen
Bestimme den Wert der Teststatistik (z.B. mittels einer Studie), und fälle durch Vergleich von Teststatistik und Entscheidungschwelle eine Entscheidung. Behalte H0 bei (lehne jedoch die Alternativ-hypothese nicht ab). Lehne die Nullhypo-these ab, nimm die Alternativhypothese an. d α

16 Kriterien für die Güte einer Teststatistik
Gute Statistik Verteilung der Teststatistik bei Gültigkeit der Nullhypothese Verteilung der Teststatistik bei Gültigkeit der Alternativhypo-these Nullhypothese akzeptiert Nullhypothese abgelehnt Nullhypothese wahr Richtige Entsch. Typ I Fehler (Falsch Positive) Alternativhypo- these wahr Typ II Fehler (Falsch Negative)

17 Kriterien für die Güte einer Teststatistik
Schlechte Statistik Verteilung der Teststatistik bei Gültigkeit der Nullhypothese Verteilung der Teststatistik bei Gültigkeit der Alternativhypo-these Nullhypothese akzeptiert Nullhypothese abgelehnt Nullhypothese wahr Richtige Entsch. Typ I Fehler (Falsch Positive) Alternativhypo- these wahr Typ II Fehler (Falsch Negative)

18 Bsp: Das Offenbacher Orakel
Würfele mit dem 20-seitigen Würfel. Augenzahl = 20: lehne die Nullhypothese ab Augenzahl ≠ 20: lehne die Nullhypothese nicht ab Dies (unabhängig von der Nullhypothese) ein valider Test auf 5%-Signifikanzniveau!

19 Bsp: Das Offenbacher Orakel
Aber: Die Verteilung der Teststatistik unter der Null- und der Alternativhypothese ist gleich! Dieser Test kann nicht zwischen den Gruppen diskriminieren! Verteilung unter H0 Verteilung unter H1 95% der Positiven werden nicht erkannt

20 Der p-Wert Hat man eine Teststatistik festgelegt und einen Wert für sie aus den Messdaten ermittelt, so kann dieser in einen p-Wert umgerechnet werden: Wahrscheinlichkeit, bei Gültigkeit der Nullhypothese einen Wert zu beobachten, welcher mindestens so extrem ist wie der beobachtete Wert p = 0.08

21 Der p-Wert Hat man eine Teststatistik festgelegt und einen Wert für sie aus den Messdaten ermittelt, so kann dieser in einen p-Wert umgerechnet werden: Der einem Wert t der Teststatistik zugeordnete p-Wert ist die Wahrscheinlichkeit, bei Gültigkeit der Nullhypothese einen Wert zu beobachten, welcher mindestens so extrem ist wie der beobachtete Wert t. p = 0.42 t

22 Der p-Wert Entscheidungsschwelle d Signifikanzniveau α Beobachtete Teststatistik t p-Wert t ist extremer als d p ist kleiner als α p < α Lehne die Nullhypo-these ab, nimm die Alternativhypothese an. p ≥ α Behalte H0 bei (lehne jedoch die Alternativ-hypothese nicht ab). t p = 0.83 α = 0.05 t p = 0.02 d

23 Einseitige Fragestellung
Ein- und zweiseitige Fragestellungen Einseitige Fragestellung H0: Der Wert der Prüfgröße ist in Gruppe I nicht höher als in Gruppe II H1: Der Wert der Prüfgröße ist in Gruppe I höher als in Gruppe II ][ Annahmebereich Ablehungsbereich

24 Zweiseitige Fragestellung
Ein- und zweiseitige Fragestellungen Zweiseitige Fragestellung H0: Die Prüfgröße ist in Gruppe I und Gruppe II gleich H1: Die Prüfgröße ist in Gruppe I und in Gruppe II verschieden Zweiseitige Fragestellung im Allgemeinen angemessen: Effekte in beide Richtungen werden detektiert. Bei Zulassungsstudien wird zweiseitige Auswertung gefordert! ][ ][ Ablehungsbereich Annahmebereich Ablehungsbereich

25 Interpretation eines Testergebnisses
Was muss bei einer Sachaussage im Anschluss an einen statistischen Test beachtet werden? Testentscheidung: „signifikant“ bzw. „nicht signifikant“ mit Signifikanzniveau Was wird verglichen? (Gruppeneinteilung) Was ist die Grundgesamtheit? Was ist die Zielgröße? (ggf. genauere Information, z.B. Zeitangabe) Falls ein signifikanter Unterschied besteht: Interpretation! (Welche Richtung?)

26 Welches Gen ist „weniger stark“ exprimiert?
Spezielle statistische Tests Vergleich der Mittelwerte zweier Gruppen Gen A Gen B Genexpressions-messungen Gruppe 1 Gruppe 2 Welches Gen ist „weniger stark“ exprimiert?

27 Fragestellung / Hypothese
Zwei-Gruppen Lagevergleich Daten: Expression von Gen g in verschiedenen Proben (Absolutskala) Fragestellung / Hypothese Ist die Expression von Gen g in Gruppe 1 niedriger als die in Gruppe 2? Teststatistik, z.B. Differenz der Gruppenmittel Entscheidung für “niedriger exprimiert“ wenn Gruppe 1 Gruppe 2

28 Zwei-Gruppen Lagevergleich
Schlechte Idee: Subtrahiere die Gruppenmittelwerte Problem: d ist nicht skaleninvariant Lösung: Teile d durch seine Standardabw. Daraus entsteht die t-Statistik bzw. der t-Test (für unverbundene Stichproben) Gruppe 1 Gruppe 2

29 Zwei-Gruppen Lagevergleich
Beispiel: t-Test für den Vergleich der Plazentagewichte bei gesunden und diabetischen Müttern Zielgröße: Plazentagewicht [g] Gruppe 1: n = 23 gesundeMütter Gruppe 2: n= 38 Mütter mit manifestem Diabetes

30 Maßzahlen zum Vergleich der beiden Gruppen (Messwerte in Gramm)
Zwei-Gruppen t-Test Maßzahlen zum Vergleich der beiden Gruppen (Messwerte in Gramm) Gruppe 1 Gruppe 2 Minimum 375 425 1. Quartil 500 600 Median 710 3. Quartil 650 825 Maximum 1290 Arithm. Mittelwert 601.7 728.5 Standardabweichung 125.4 183.1 Schiefe g 0.25 0.85 Für beide Gruppen: - 1 < g < +1, also Mittelwerte (noch) sinnvoll

31 Zwei-Gruppen t-Test Hypothesen: H0: Es gibt keinen (Mittelwerts-) Unterschied in den Plazentagewichten zwischen gesunden und diabetischen Müttern H1: Es gibt einen (MW-) Unterschied in den Plazentagewichten zwischen gesunden und diabetischen Müttern Gewähltes Signifikanzniveau: α = 5% Zweiseitiger Test

32 Zwei-Gruppen t-Test Voraussetzung: Gaußverteilung in beiden Gruppen Zeile „Varianzen gleich“: Auch noch gleiche Varianzen (bzw. Standardabweichungen) in beiden Gruppen nötig. Zeile „Varianzen ungleich“ bedeutet nur: Gleiche Varianzen sind nicht erforderlich. Pragmatisch: Immer 2. Zeile verwenden! p = 0.002

33 Zwei-Gruppen t-Test Ergebnis: Mittelwertsdifferenz = (–) 126.7 p-Wert = 0.002 p = = 0.2% < 5% = 0.05 = α Also signifikanter Unterschied zum Niveau 5%! Sachaussage: Zum Signifikanzniveau α = 5% besteht ein signifikanter Mittelwerts-Unterschied in den Plazentagewichten zwischen gesunden und diabetischen Müttern. Konkret haben diabetische Mütter höhere Plazentagewichte. Interpretation des p-Werts: Falls zwischen den (mittleren) Plazentagewichten zwischen gesunden und diabetischen Müttern kein Unterschied besteht (also H0 gilt), beträgt die Wahrscheinlichkeit, dennoch einen Mittelwertsunterschied von mindestens g zu beobachten, unter den gegebenen Umständen 0.2%.

34 Rangsumme Gruppe 1: 1+2+3+6+10 = 22 Rangsumme Gruppe 2: 4+5+7+8+9 = 33
Wilcoxon (Rangsummen) Test (Mann-Whitney-Test) Untersuche für unverbundene Stichproben: Sind die Werte in Gruppe 1 kleiner als in Gruppe 2 ? Messgröße Gruppe 1 18 3 6 9 5 Gruppe 2 15 10 8 7 12 Originalskala Rangskala Rangsumme Gruppe 1: = 22 Rangsumme Gruppe 2: = 33

35 Rangsummenverteilung für Gruppe 1, |Gruppe 1| = 5, |Gruppe 2| = 5
Wilcoxon (Rangsummen) Test (Mann-Whitney-Test) Wähle die Rangsumme von Gruppe 1 als Teststatistik Der zur Rangsumme gehörige p-Wert kann per Computer für kleine Gruppenzahlen exakt oder für große Gruppenzahlen näherungsweise berechnet werden: P(W≤22, falls die Gruppen- zugehörigkeiten zufällig sind) = 0.15 15 20 25 30 35 40 22 Wilcoxon W Rangsummenverteilung für Gruppe 1, |Gruppe 1| = 5, |Gruppe 2| = 5

36 Beispiel Plazentagewichte
Wilcoxon (Rangsummen) Test (Mann-Whitney-Test) Beispiel Plazentagewichte Für größere Fallzahlen (N>20) wird eine Näherung berechnet Der Wilcoxon Test kann einseitig oder zweiseitig durchgeführt werden

37 t-Test für verbundene Stichproben t-Test für unverb. Stichproben
Testübersicht: Gruppenvergleich eines stetigen Merkmals Zu klärende Frage: Existiert ein Lageunterschied der Merkmalsausprägungen zwischen Gruppe 1 und Gruppe 2? Sind die Daten normalverteilt? ja nein Verbundene Stichproben? Verbundene Stichproben? ja nein ja nein t-Test für verbundene Stichproben t-Test für unverb. Stichproben Wilcoxon Vorzeichen-test Wilcoxon Rangsummen-test

38 Wahl der Teststatistik: „Exakter Fisher-Test“
Vergleich zweier binärer Merkmale Wahl der Teststatistik: „Exakter Fisher-Test“ Sir Ronald Aylmer Fisher, Theoretischer Biologe, Evolutionstheoretiker und Statistiker

39 Vergleich zweier binärer Merkmale
Unverbundene Stichproben: Exakter Fisher Test Der exakte Fisher Test soll die Frage beantworten: Gibt es Unterschiede in der Verteilung █ und █ ? Bsp.: Wirksamkeitsstudie mit unverbundenen Stichproben (jeder Probend erhält nur einen Präparat) Wirkung Wirkt Wirkt nicht Medika- menten-gabe Verum 65 7 Placebo 44 13

40 Odds Ratio (Chancenverhältnis)
Odds und Odds Ratio Kopf Zahl Faire Münze 54 46 Gebogene Münze 82 18 Odds (= Chance): Häufigkeitsverhältnis in einer Gruppe, Quote einer fairen Wette Odds (faire Münze) = 54 : 46 = 1.17 Odds (gebogene M.) = 82 : 18 = 4.56 Odds Ratio (Chancenverhältnis)

41 Bsp: Dickdarmkarzinom

42 Bsp: Dickdarmkarzinom
4-Jahres-Überleben Ja Nein Impfung Ja (n=32) 30 (94%) 2 (6%) Nein (n=30) 23 (77%) 7 (23%) Interessierende Fragen: Hat die Impfung einen Einfluss auf das Überleben? Ist der Einfluss „signifikant“?

43 Bsp: Dickdarmkarzinom
Grundgesamtheit: Alle jetzigen und künftigen Patienten mit Dickdarm-Ca und Metastasen. Nullhypothese H0: Die Impfung hat keinerlei Effekt auf den Zustand der Patienten. Die Überlebensraten bei der Grundgesamtheit sind mit und ohne Impfung gleich. Gegenhypothese (Alternativhypothese) H1: Die Überlebensraten bei der Grundgesamtheit sind mit Impfung und ohne Impfung unterschiedlich. (zweiseitige Fragestellung) Wähle das Signifikanzniveau α (oft gewählt: α = 1%; 0.1%; 5%; 10%) Genaue Interpretation des Signifikanzniveaus α : Wenn in Wirklichkeit kein Unterschied besteht (also H0 gilt), erhält man mit Wahrscheinlichkeit α eine Signifikanz (=falsch positive Aussage).

44 Bsp: Dickdarmkarzinom
Testergebnis nach Durchführung des exakten Fisher-Tests: p =  7.7% Hat man α = 5% gewählt, so gilt: Da p > α, wird die Nullhypothese beibehalten. Sachaussage: Es besteht zum Niveau α = 5% kein signifikanter Effekt der Impfung auf die Überlebensrate nach 4 Jahren. Folgerung: Wir sind (noch) nicht (hinreichend) davon überzeugt, dass ein Unterschied in den Überlebensraten besteht!

45 Bsp: Dickdarmkarzinom
Interpretation des Ergebnisses (Dickdarmkarzinome mit und ohne Impfung) Überlebensrate nach 4 Jahren mit Impfung: 94% (n = 32) Überlebensrate nach 4 Jahren ohne Impfung: 77% (n = 30) Beobachteter Unterschied in der 4-Jahres-Überlebensrate: 17% exakter Fisher-Test: p = 0.077 Falls die Impfung keinerlei Effekt hat (also H0 gilt), beträgt die Wahrscheinlichkeit, dennoch einen Unterschied von mindestens 17% zwischen beiden Gruppen zu erhalten, unter den gegebenen Umständen 7.7%.

46 Vergleich zweier kategorialer Merkmale
Unverb. Stichproben: Chiquadrat-Test (χ2-Test) Auftreten von LGE Ja Nein Tumor-größe 1 10 8 2 20 23 3 19 4 32 18 H0: Es besteht kein Zusammenhang zwischen Tumorgröße und dem Auftreten von LGE (oder: die Tumorgröße hat keinen Einfluss auf das Auftreten von LGE) H1: Es besteht ein Zusammenhang zwischen Tumorgröße und dem Auftreten von LGE (oder: die Tumorgröße hat einen Einfluss auf das Auftreten von LGE)

47 Vergleich zweier kategorialer Merkmale
Unverb. Stichproben: Chiquadrat-Test (χ2-Test) Im gegebenen Beispiel erhält man mit SPSS „p = 0.000“ (also: p < 0.001). Wurde als Signifikanzniveau α = 5% gewählt, so ergibt sich als Sachaussage: Bei Patienten mit Magenkarzinomen besteht ein zum 5%-Niveau signifikanter Zusammenhang zwischen Tumorgröße und dem Auftreten von LGE (oder: „..... Einfluss der Tumorgröße auf das Auftreten von LGE“). Konkret: je größer der Tumor, desto häufiger treten LGE auf.

48 Vergleich zweier kategorialer Merkmale
Unverb. Stichproben: Chiquadrat-Test (χ2-Test) Voraussetzungen des Chiquadrat-Tests Gesamt-Fallzahl nicht zu klein (etwa n ≥ 60) Erwartungswerte (erwartete Häufigkeiten) nicht zu klein (alle ≥ 5) Beachte: Bei zwei binären Merkmalen verwende eine Vierfeldertafel und den exakten Fisher-Test!

49 Testübersicht: Vergleich zweier kategorialer Variablen
Zu klärende Frage: Gibt es Unterschiede in den Häufigkeitsverteilungen der verschiedenen Gruppen? Sind die Daten binär? ja nein Verbundene Stichproben? Verbundene Stichproben? ja nein ja nein McNemar Test (Messen die beiden Variablen das Gleiche?) Exakter Fisher Test (Besteht eine Abhängigkeit?) (Bowker Symmetrie-test) Chiquadrat (χ2) -Test

50 Übersicht: Deskription und statistische Tests (2 Merkmale) Merkmal
Design Deskription numerisch Deskription graphisch Test stetig unverbunden Mediane, Quartile 2 Boxplots Wilcoxon-Rangsummen- t-Test* verbunden Median, Quartile der Differenz Differenzen-Boxplot Wilcoxon-Vorzeichen-, binär Kreuztabelle,Zeilen%, RR, RD, OR Balken- diagramm Exakter Fisher-Test Kreuztabelle (“Mc-Nemar-Tafel“) Balken-diagramm McNemar-Test kategorial Kreuztabelle,Zeilen% (3D Balken-diagramm) χ2-Test * Bei Normalverteilung

51 Beachte Die Angabe eines Testergebnisses ohne eine sinnvolle Deskription ist uninformativ. Oft: Angabe von Konfidenzbereichen wünschenswert. Als Testergebnis sollte nicht nur „Zum Niveau α signifikant/nicht signifikant“ angegeben werden, sondern der p-Wert (geeignet gerundet), zumindest wenn er kleiner als (etwa) 0.1 ist. Niemals „p=0“ oder gar „p<0.000“ als Testergebnis angeben!

52 Statistische Signifikanz ≠ Relevanz
Sehr viele Fälle: Auch kleine Unterschiede werden signifikant Wenige Fälle: Ein beobachteter Unterschied kann relevant, aber nicht statistisch signifikant sein.

53 Problematik des Multiples Testens
Beispiele: Untersuchung mehrerer Endpunkte (systolischer, diastolischer Blutdruck, Pulsfrequenz) Vergleich mehrerer Gruppen (z.B. bei 4 Gruppen: 6 Paarvergleiche) Bei jedem Test tritt eine falsche Signifikanz (= falsch Positives) mit 5% Wahrscheinlichkeit auf (falls α = 5%) → Bei 6 Tests steigt die Wahrscheinlichkeit des Auftretens einer falschen Signifikanz bis zu 30%!

54 Problematik des Multiples Testens
Lösungsmöglichkeit: Korrektur nach Bonferroni Führe jeden der einzelnen Tests zum Niveau α/m („lokales Signifikanzniveau α/m “) durch (m = Anzahl der Tests) Die Wahrscheinlichkeit eines Auftretens einer falschen Signifikanz bei Durchführung aller m Tests beträgt dann höchstens α („multiples/globales Niveau α“) z. B. m = 6 Gewünschtes multiples Niveau: α = 5% → lokales Signifikanzniveau: α/m = 5%/6 = 0.83%

55


Herunterladen ppt "‘Omics’ - Analysis of high dimensional Data"

Ähnliche Präsentationen


Google-Anzeigen