Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

Statistik im Labor BFB-tech Workshop 29.11.07 Eugen Lounkine.

Ähnliche Präsentationen


Präsentation zum Thema: "Statistik im Labor BFB-tech Workshop 29.11.07 Eugen Lounkine."—  Präsentation transkript:

1 Statistik im Labor BFB-tech Workshop 29.11.07 Eugen Lounkine

2 Übersicht  Darstellung und Charakterisierung von Daten  Datentransformationen  Lineare Korrelation  Wahrscheinlichkeitsverteilung(en)  Schätzer  Konfidenzintervalle  Testen von Hypothesen - Kontinuierliche Daten - Kategorische Daten

3 Das Histogram  symmetrisch Häufigster Wert (mode) = 5 Median = 5 Mittelwert = 5.4

4 Das Histogram Häufigster Wert (mode) = 9 Median = 8 Mittelwert = 7.6  Negativ verzerrt

5 Das Histogram Häufigster Wert (mode) = 3 Median = 3 Mittelwert = 3.9  Positiv verzerrt

6 Median und andere Quantile  Häufig verwendete Quantile sind, neben dem Median, die 25% und 75% Quantile (Quartile) Median 3. Quartil 1. Quartil

7 Box Plot Quelle: http://www.reiter1.com/Glossar/BoxPlot01.gif

8 Charakterisierung der Streuung  Einfachste Messgröße für Streuung: Spannweite (= maximaler – minimaler Wert)  Quantile geben einen besseren Eindruck der Streuung (Höhe des Box Plots)  Häufig verwendet wird die Standardabweichung: Basierend auf Stichprobe Gesamtpopulation

9 Transformation von Daten: log  In der Darstellung wird häufig eine log – Achse benutzt, statt einer linearen Achse mit transformierten Daten  Verteilung symmetrisch(er) machen - Näherung an Normalverteilung - z.B. Durchflußzytometrie  Abhängige Variablen in eine Form bringen, die einer bekannten Funktion entspricht - z.B. Dosis – Wirkungs Kurve in der Pharmakologie

10 Transformation von Daten  Beispiel einer Datentransformation für zwei unabhängige Variablen aus der Genetik. Das Clustern wird hier vereinfacht. Signal Allel 1 Signal Allel 2 R  R  0°90° Quelle: Nature Publishing Group

11 Transformation von Daten Quelle: Lew, M Good statistical practice in pharmacology Problem 1, BJP 2007

12 Lineare Korrelation  Gibt es eine lineare Abhängigkeit zwischen zwei Messreihen?  Kovarianz:  Korrelationskoeffizient: - Vorteil: Dimensionslos, beschränkt auf Intervall [-1,1] Quelle: Nature Publishing Group -*- +*+ -*+ +*- -*-

13 Wahrscheinlichkeitsverteilungen  Allgemein: - diskret:jedem Wert wird eine Wahrscheinlichkeit P zugeordnet (probability mass function pmf) - kontinuierlich: man benutzt die W. – Dichte pdf, da für einen bestimmten Wert die W. unendlich klein ist Poisson Verteilung (diskret) Gauß- oder Normalverteilung (kontinuierlich) P Quellen: http://www.regentsprep.org/Regents/math/algtrig/ATS2/normalcurvesmaller.jpg http://www.faculty.uaf.edu/ffnt/teaching/programming/probability/poisson.png pdf 

14 Binomialverteilung  Fragstellung: Wenn die Wahrscheinlichkeit für ein Ereigniss p ist, wie groß ist die W., k Ereignisse bei insgesamt n Beobachtungen zu haben? Quelle: http://www.anu.edu.au/nceph/surfstat/surfstat-home/gifs/pBinomial.gif

15 Poisson Verteilung  Fragestellung: Wenn pro Zeiteinheit  t t Ereignisseintritte erwartet werden, wie groß ist die W., k Ereignisse in der Zeit t zu beobachten?   t kann durch andere Größen ersetzt werden, wie z.B. Anteil einer Pertischalenfläche, die von Bakterien besiedelt ist ( = Anzahl Bakterien pro Fläche)

16 Poisson Verteilung  Quelle: http://www.faculty.uaf.edu/ffnt/teaching/programming/probability/poisson.png P k

17  Das Integral  der Dichtefunktion ist tabelliert Standardnormalverteilung p P(0.5 ≤ Z ≤ 2)

18 Höhe und Position der Dichtefunktion  Höhe invers proportional zu   Maximum liegt bei    

19 Approximation anderer Verteilungen  Die Normalverteilung kann benutzt werden, um andere Verteilungen, deren Berechnung aufwändiger ist, zu approximieren.  Approximation der Poissonverteilung ist Sinnvoll für  ≥ 10 : Quelle: http://obelix.ee.duth.gr/BKP/stats/kef3/poisson.gif 

20 Schätzer für den Mittelwert  Bei vielen Experimenten hat man es mit einer Stichprobe aus einer Gesamtpopulation zu tun  Wie kann man aufgrund der Stichprobe den Mittelwert der Gesamtpopulation am besten schätzen?  Intuitive Annahme richtig: Mittel der Stichprobe. Aber wie groß ist der Fehler bzw. wie sicher ist das Ergebnis?  SEM: Standard Error of the Mean:

21 Zentraler Grenzwertsatz  Sei X 1, X 2,... Xn eine Stichprobe aus einer Gesamtpopulation mit Mittel  und Varianz  2  Dann gilt für große n, dass die Mittelwerte solcher Stichproben durch die Normalverteilung approximiert werden, selbst wenn die Ursprungsverteilung nicht normal ist.

22 Die t - Verteilung  Die Varianz  2 in der Population ist unbekannt  Schätzen mit Varianz der Stichprobe S 2 Freiheitsgrade (df) 1 2 N(0,1) Quelle:http://www.tnstate.edu/ganter/t-dist-Wikipedia.jpg

23 Konfidenzintervall für den Mittelwert  Die t – Verteilung wird benutzt, um ein Intervall (CI 1-  ) zu finden, in dem der Mittelwert der Population  mit der Wahrscheinlichkeit 1-  liegt:  Für n > 200 oder wenn  bekannt ist, kann auch die Normalverteilung benutzt werden Das  – Quantil der t - Verteilung

24 Die  2 Verteilung  Die  2 Verteilung wird benutzt, um ein Konfidenzintervall für die Varianz   einer normalverteilten (!) Population aufgrund der Varianz s 2 der Stichprobe zu berechnen  Sie ist nicht Symmetrisch und wird über eine Freiheitsgradzahl definiert Quelle: http://cnx.org/content/m13129/latest/chi_sq.gif

25 Testen von Hypothesen  Nullhypothese: H 0, die Hypothese, die getestet (und ggf. widerlegt) werden soll  Alternativhypothese: H 1 Wahrheit Test H0H0 H1H1 H0H0 ☺  / Typ II H1H1  / Typ I ☺

26 Testen von Hypothesen Wahrheit Test H0H0 H1H1 H0H0 H1H1 Quelle: http://www.xycoon.com/ht_mean_knownvar.htm Power

27 Power und p-Wert  Die Power eines Tests ist 1 – , also die Wahrschinlichkeit dass H 0 abgewiesen wird, wenn sie falsch ist.  Der p-Wert (p-value) gibt dasjenige  an, bei dem die beiden Hypothesen gleichberechtigt sind  Wenn p-Wert < , dann wird H 0 verworfen  Übliche Interpretationen des p-Wertes sind: - signifikant: 0.01 ≤ p < 0.5 - hochsignifikant: p < 0.01

28 Die richtige Stichprobengröße  Normalverteilung: Power hängt von Distanz der beiden Verteilungen ab und von deren Varianz („dicke“)

29 Statistische Tests  Je nach Problem ist die zugrundeliegende Verteilung unterschiedlich  Weiß man, welches Modell passt, berechnet man eine Teststatistik, die man mit der entschprechenden Verteilung vergleicht  t Test: Normalverteilte Mittelwerte (Gewicht)  Poisson tests: Raten (Zellen/Fläche, Tote/Jahr)  F Test: Vergleich von Varianzen  Exact Fisher’s Test: (wenige) Kategorische Daten

30 t Test: Einseitig  Testen von Normalverteilten Mittelwerten bei unbekanntem  2  H 0 :  =  0  H 1 :  <  0  Teststatistik  p-Wert = P(t n-1 ≤t)  Anzahl Freiheitsgrade: df = n-1

31 Beispiel Einseitiger t Test  Test: Ein neues Medikament zur Begrenzung des Schadens 24h nach einem Herzinfarkt.  Durchschnittliche Infarktgröße in unbehandelten Patienten:  0 = 25  8 Patienten (n) wurden behandelt  Durchschnittliche Infarktgröße bei behandelten Patienten:

32 Beispiel Einseitiger t Test  p-Wert lässt sich mit Excel berechnen: - TDIST(2.55, 7, 1) = 0.019 < 0.05 - signifikante Verbesserung DatenHypothesenTeststatistik

33 t Test: Zweiseitig  Testen von Normalverteilten Mittelwerten bei unbekanntem  2  H 0 :  =  0  H 1 :  ≠  0  Teststatistik  p-Wert =  Anzahl Freiheitsgrade: df = n-1 falls t ≤ 0 falls t > 0

34 Beispiel Zweiseitiger t Test  Test: Unterscheiden sich die Cholesterinlevel von Asiatischen Einwanderern in Amerika von denen der Amerikaner?  Durchschnittlicher Cholesterinlevel in der amer. Bevölkerung: 190 mg/dl  100 Immigranten wurden untersucht  Durchschnittlicher Cholesterinwert bei Immigranten: 181.52 ± 40 mg/dl

35 Beispiel Zweiseitiger t Test  p-Wert lässt sich mit Excel berechnen: - TDIST(2.12, 99, 2) = 0.037 < 0.05 - signifikanter Unterschied DatenHypothesenTeststatistik

36 Paired t Test  Zwei normalverteilte Messgrößen x 0 und x 1  Sich entsprechende Wertepaare sind vorhanden - Beispiel: Medikamentenwirkung  Frage: unterscheiden sich die Mittelwerte signifikant?  Benutze Differenzen d i der Wertepaare - Annahme: x 0 ~ N(  i,  2 ); x 1 ~ N(  i + ,  2 ) - H0:  = 0 - H1:  ≠ 0 Standardabweichung der Differenzen

37 Two-sample t Test  Wenn die beiden Variablen unabhängig sind, aber für beide die selbe Varianz  2 angenommen werden kann, wird die t Statistik mit dem zusammengefassten Schätzwert der Varianz s 2 berechnet:  Die Anzahl der Freiheitsgrade für die t Verteilung: df = n 1 +n 2 -2

38 F Test  Der F Test beantwortet die Frage, ob die Varianzen zweier Messgrößen gleich sind  Wenn die Varianzen sich signifikant unterscheiden, wird die Anzahl der Freiheitsgrade beim t Test nach einer komplexeren Formel berechnet  Die F-Verteilung wird über zwei Freiheitsgradzahlen definiert  Akzeptanzintervall: Quelle: http://www.vias.org/tmdatanaleng/img/hl_fdistri.png

39 p-Wert bei einer Poisson-Verteilung  Beispiel: Vergleich von Sterblichkeitsraten  H0:  =  0 = 3.3 Tote / Jahr (Erwartungswert)  H1:  ≠  0  Beobachtete Sterblichkeitsrate: x = 4 Tote / Jahr = 0.84, nicht signifikant

40 Annäherung durch die  2 Verteilung  Für  0 ≥ 10 kann man die  2 Verteilung mit einer Teststatistik X 2 benutzen, um den p-Wert einer Poissonverteilung zu bestimmen:

41 Kategorische Daten: Kontingenztabelle  Daten werden in ja/nein Kategorien unterteilt  Untersuchen, ob ein Ereigniss ein anderes beeinflusst - Beispiel: Fördern Orale Kontrazeptiva einen Herzinfarkt? JaNeinTotal Jaaba+b Neincdc+d Totala+cb+da+b+c+d Orale Kontrazeptiva? Herzinfarkt in 3 Jahren?

42 Erwartungswerte einer Kontingenztabelle  Die Erwartungswerte für jede Zelle werden aus den entsprechenden Summen berechnet  H 0 : Die Beiden Kategorien sind unabhängig JaNeinTotal Jam 1 n 1 /Nm 2 n 1 /Nn1n1 Neinm 1 n 2 /Nm 2 n 2 /Nn2n2 Totalm1m1 m2m2 N Herzinfarkt in 3 Jahren? Orale Kontrazeptiva?

43 Yates-Korrigierter  2 Test  Vergleich der Beobachteten Kontingenztabelle O mit der erwarteten Kontingenztabelle E  Teststatistik X 2 ist die Summe der Vergleiche einzelner Zellen JaNeinTotal JaE 11 E 12 n1n1 NeinE 21 E 22 n2n2 Totalm1m1 m2m2 N

44 Fisher’s Exact Test  Verwendung: Bei kleinen Stichproben, wenn mindestens ein Erwartungswert der Kontingenztabelle <5 ist  Die Randsummen werden fest gehalten und die Wahrscheinlichkeit aller möglichen solcher Tabellen berechnet JaNeinTotal Jaaba+b Neincdc+d Totala+cb+dn Hypergeometrische Verteilung

45 Fisher’s Exact Test  Nicht viele mögliche Tabellen mit festen Randsummen k 0 O (H0: unabhängig) +1

46 Zusammenfassung  Geschickt (und nicht unnötig) Transformieren  Wenn es um Ereignissraten (pro Zeit) geht: Poisson  Normalverteilter Mittelwert: t-Test  Zwei Alternativen: Paired t-Test, Two-sample t- Test  Kategorische Daten: Fischer’s Exact Test oder Yates korrigierter  2 Test

47 Literatur  Bernard Rosner, Fundamentals of Biostatistics, 6 th ed., 2006, Duxbury, ISBN 0-534-41820-1  Lew M, Good statistical practice in pharmacology Problem 1, British Journal of Pharmacology (2007) 152, 295–298  http://www.graphpad.com/manuals/Prism4/Statist icsGuide.pdf


Herunterladen ppt "Statistik im Labor BFB-tech Workshop 29.11.07 Eugen Lounkine."

Ähnliche Präsentationen


Google-Anzeigen