Statistik im Labor BFB-tech Workshop 29.11.07 Eugen Lounkine.

Statistik im Labor BFB-tech Workshop 29.11.07 Eugen Lounkine

Übersicht  Darstellung und Charakterisierung von Daten  Datentransformationen  Lineare Korrelation  Wahrscheinlichkeitsverteilung(en)  Schätzer  Konfidenzintervalle  Testen von Hypothesen - Kontinuierliche Daten - Kategorische Daten

Das Histogram  symmetrisch Häufigster Wert (mode) = 5 Median = 5 Mittelwert = 5.4

Das Histogram Häufigster Wert (mode) = 9 Median = 8 Mittelwert = 7.6  Negativ verzerrt

Das Histogram Häufigster Wert (mode) = 3 Median = 3 Mittelwert = 3.9  Positiv verzerrt

Median und andere Quantile  Häufig verwendete Quantile sind, neben dem Median, die 25% und 75% Quantile (Quartile) Median 3. Quartil 1. Quartil

Box Plot Quelle: http://www.reiter1.com/Glossar/BoxPlot01.gif

Charakterisierung der Streuung  Einfachste Messgröße für Streuung: Spannweite (= maximaler – minimaler Wert)  Quantile geben einen besseren Eindruck der Streuung (Höhe des Box Plots)  Häufig verwendet wird die Standardabweichung: Basierend auf Stichprobe Gesamtpopulation

Transformation von Daten: log  In der Darstellung wird häufig eine log – Achse benutzt, statt einer linearen Achse mit transformierten Daten  Verteilung symmetrisch(er) machen - Näherung an Normalverteilung - z.B. Durchflußzytometrie  Abhängige Variablen in eine Form bringen, die einer bekannten Funktion entspricht - z.B. Dosis – Wirkungs Kurve in der Pharmakologie

Transformation von Daten  Beispiel einer Datentransformation für zwei unabhängige Variablen aus der Genetik. Das Clustern wird hier vereinfacht. Signal Allel 1 Signal Allel 2 R  R  0°90° Quelle: Nature Publishing Group

Transformation von Daten Quelle: Lew, M Good statistical practice in pharmacology Problem 1, BJP 2007

Lineare Korrelation  Gibt es eine lineare Abhängigkeit zwischen zwei Messreihen?  Kovarianz:  Korrelationskoeffizient: - Vorteil: Dimensionslos, beschränkt auf Intervall [-1,1] Quelle: Nature Publishing Group -*- +*+ -*+ +*- -*-

Wahrscheinlichkeitsverteilungen  Allgemein: - diskret:jedem Wert wird eine Wahrscheinlichkeit P zugeordnet (probability mass function pmf) - kontinuierlich: man benutzt die W. – Dichte pdf, da für einen bestimmten Wert die W. unendlich klein ist Poisson Verteilung (diskret) Gauß- oder Normalverteilung (kontinuierlich) P Quellen: http://www.regentsprep.org/Regents/math/algtrig/ATS2/normalcurvesmaller.jpg http://www.faculty.uaf.edu/ffnt/teaching/programming/probability/poisson.png pdf 

Binomialverteilung  Fragstellung: Wenn die Wahrscheinlichkeit für ein Ereigniss p ist, wie groß ist die W., k Ereignisse bei insgesamt n Beobachtungen zu haben? Quelle: http://www.anu.edu.au/nceph/surfstat/surfstat-home/gifs/pBinomial.gif

Poisson Verteilung  Fragestellung: Wenn pro Zeiteinheit  t t Ereignisseintritte erwartet werden, wie groß ist die W., k Ereignisse in der Zeit t zu beobachten?   t kann durch andere Größen ersetzt werden, wie z.B. Anteil einer Pertischalenfläche, die von Bakterien besiedelt ist ( = Anzahl Bakterien pro Fläche)

Poisson Verteilung  Quelle: http://www.faculty.uaf.edu/ffnt/teaching/programming/probability/poisson.png P k

 Das Integral  der Dichtefunktion ist tabelliert Standardnormalverteilung p P(0.5 ≤ Z ≤ 2)

Höhe und Position der Dichtefunktion  Höhe invers proportional zu   Maximum liegt bei    

Approximation anderer Verteilungen  Die Normalverteilung kann benutzt werden, um andere Verteilungen, deren Berechnung aufwändiger ist, zu approximieren.  Approximation der Poissonverteilung ist Sinnvoll für  ≥ 10 : Quelle: http://obelix.ee.duth.gr/BKP/stats/kef3/poisson.gif 

Schätzer für den Mittelwert  Bei vielen Experimenten hat man es mit einer Stichprobe aus einer Gesamtpopulation zu tun  Wie kann man aufgrund der Stichprobe den Mittelwert der Gesamtpopulation am besten schätzen?  Intuitive Annahme richtig: Mittel der Stichprobe. Aber wie groß ist der Fehler bzw. wie sicher ist das Ergebnis?  SEM: Standard Error of the Mean:

Zentraler Grenzwertsatz  Sei X 1, X 2,... Xn eine Stichprobe aus einer Gesamtpopulation mit Mittel  und Varianz  2  Dann gilt für große n, dass die Mittelwerte solcher Stichproben durch die Normalverteilung approximiert werden, selbst wenn die Ursprungsverteilung nicht normal ist.

Die t - Verteilung  Die Varianz  2 in der Population ist unbekannt  Schätzen mit Varianz der Stichprobe S 2 Freiheitsgrade (df) 1 2 N(0,1) Quelle:http://www.tnstate.edu/ganter/t-dist-Wikipedia.jpg

Konfidenzintervall für den Mittelwert  Die t – Verteilung wird benutzt, um ein Intervall (CI 1-  ) zu finden, in dem der Mittelwert der Population  mit der Wahrscheinlichkeit 1-  liegt:  Für n > 200 oder wenn  bekannt ist, kann auch die Normalverteilung benutzt werden Das  – Quantil der t - Verteilung

Die  2 Verteilung  Die  2 Verteilung wird benutzt, um ein Konfidenzintervall für die Varianz   einer normalverteilten (!) Population aufgrund der Varianz s 2 der Stichprobe zu berechnen  Sie ist nicht Symmetrisch und wird über eine Freiheitsgradzahl definiert Quelle: http://cnx.org/content/m13129/latest/chi_sq.gif

Testen von Hypothesen  Nullhypothese: H 0, die Hypothese, die getestet (und ggf. widerlegt) werden soll  Alternativhypothese: H 1 Wahrheit Test H0H0 H1H1 H0H0 ☺  / Typ II H1H1  / Typ I ☺

Testen von Hypothesen Wahrheit Test H0H0 H1H1 H0H0 H1H1 Quelle: http://www.xycoon.com/ht_mean_knownvar.htm Power

Power und p-Wert  Die Power eines Tests ist 1 – , also die Wahrschinlichkeit dass H 0 abgewiesen wird, wenn sie falsch ist.  Der p-Wert (p-value) gibt dasjenige  an, bei dem die beiden Hypothesen gleichberechtigt sind  Wenn p-Wert < , dann wird H 0 verworfen  Übliche Interpretationen des p-Wertes sind: - signifikant: 0.01 ≤ p < 0.5 - hochsignifikant: p < 0.01

Die richtige Stichprobengröße  Normalverteilung: Power hängt von Distanz der beiden Verteilungen ab und von deren Varianz („dicke“)

Statistische Tests  Je nach Problem ist die zugrundeliegende Verteilung unterschiedlich  Weiß man, welches Modell passt, berechnet man eine Teststatistik, die man mit der entschprechenden Verteilung vergleicht  t Test: Normalverteilte Mittelwerte (Gewicht)  Poisson tests: Raten (Zellen/Fläche, Tote/Jahr)  F Test: Vergleich von Varianzen  Exact Fisher’s Test: (wenige) Kategorische Daten

t Test: Einseitig  Testen von Normalverteilten Mittelwerten bei unbekanntem  2  H 0 :  =  0  H 1 :  <  0  Teststatistik  p-Wert = P(t n-1 ≤t)  Anzahl Freiheitsgrade: df = n-1

Beispiel Einseitiger t Test  Test: Ein neues Medikament zur Begrenzung des Schadens 24h nach einem Herzinfarkt.  Durchschnittliche Infarktgröße in unbehandelten Patienten:  0 = 25  8 Patienten (n) wurden behandelt  Durchschnittliche Infarktgröße bei behandelten Patienten:

Beispiel Einseitiger t Test  p-Wert lässt sich mit Excel berechnen: - TDIST(2.55, 7, 1) = 0.019 < 0.05 - signifikante Verbesserung DatenHypothesenTeststatistik

t Test: Zweiseitig  Testen von Normalverteilten Mittelwerten bei unbekanntem  2  H 0 :  =  0  H 1 :  ≠  0  Teststatistik  p-Wert =  Anzahl Freiheitsgrade: df = n-1 falls t ≤ 0 falls t > 0

Beispiel Zweiseitiger t Test  Test: Unterscheiden sich die Cholesterinlevel von Asiatischen Einwanderern in Amerika von denen der Amerikaner?  Durchschnittlicher Cholesterinlevel in der amer. Bevölkerung: 190 mg/dl  100 Immigranten wurden untersucht  Durchschnittlicher Cholesterinwert bei Immigranten: 181.52 ± 40 mg/dl

Beispiel Zweiseitiger t Test  p-Wert lässt sich mit Excel berechnen: - TDIST(2.12, 99, 2) = 0.037 < 0.05 - signifikanter Unterschied DatenHypothesenTeststatistik

Paired t Test  Zwei normalverteilte Messgrößen x 0 und x 1  Sich entsprechende Wertepaare sind vorhanden - Beispiel: Medikamentenwirkung  Frage: unterscheiden sich die Mittelwerte signifikant?  Benutze Differenzen d i der Wertepaare - Annahme: x 0 ~ N(  i,  2 ); x 1 ~ N(  i + ,  2 ) - H0:  = 0 - H1:  ≠ 0 Standardabweichung der Differenzen

Two-sample t Test  Wenn die beiden Variablen unabhängig sind, aber für beide die selbe Varianz  2 angenommen werden kann, wird die t Statistik mit dem zusammengefassten Schätzwert der Varianz s 2 berechnet:  Die Anzahl der Freiheitsgrade für die t Verteilung: df = n 1 +n 2 -2

F Test  Der F Test beantwortet die Frage, ob die Varianzen zweier Messgrößen gleich sind  Wenn die Varianzen sich signifikant unterscheiden, wird die Anzahl der Freiheitsgrade beim t Test nach einer komplexeren Formel berechnet  Die F-Verteilung wird über zwei Freiheitsgradzahlen definiert  Akzeptanzintervall: Quelle: http://www.vias.org/tmdatanaleng/img/hl_fdistri.png

p-Wert bei einer Poisson-Verteilung  Beispiel: Vergleich von Sterblichkeitsraten  H0:  =  0 = 3.3 Tote / Jahr (Erwartungswert)  H1:  ≠  0  Beobachtete Sterblichkeitsrate: x = 4 Tote / Jahr = 0.84, nicht signifikant

Annäherung durch die  2 Verteilung  Für  0 ≥ 10 kann man die  2 Verteilung mit einer Teststatistik X 2 benutzen, um den p-Wert einer Poissonverteilung zu bestimmen:

Kategorische Daten: Kontingenztabelle  Daten werden in ja/nein Kategorien unterteilt  Untersuchen, ob ein Ereigniss ein anderes beeinflusst - Beispiel: Fördern Orale Kontrazeptiva einen Herzinfarkt? JaNeinTotal Jaaba+b Neincdc+d Totala+cb+da+b+c+d Orale Kontrazeptiva? Herzinfarkt in 3 Jahren?

Erwartungswerte einer Kontingenztabelle  Die Erwartungswerte für jede Zelle werden aus den entsprechenden Summen berechnet  H 0 : Die Beiden Kategorien sind unabhängig JaNeinTotal Jam 1 n 1 /Nm 2 n 1 /Nn1n1 Neinm 1 n 2 /Nm 2 n 2 /Nn2n2 Totalm1m1 m2m2 N Herzinfarkt in 3 Jahren? Orale Kontrazeptiva?

Yates-Korrigierter  2 Test  Vergleich der Beobachteten Kontingenztabelle O mit der erwarteten Kontingenztabelle E  Teststatistik X 2 ist die Summe der Vergleiche einzelner Zellen JaNeinTotal JaE 11 E 12 n1n1 NeinE 21 E 22 n2n2 Totalm1m1 m2m2 N

Fisher’s Exact Test  Verwendung: Bei kleinen Stichproben, wenn mindestens ein Erwartungswert der Kontingenztabelle <5 ist  Die Randsummen werden fest gehalten und die Wahrscheinlichkeit aller möglichen solcher Tabellen berechnet JaNeinTotal Jaaba+b Neincdc+d Totala+cb+dn Hypergeometrische Verteilung

Fisher’s Exact Test  Nicht viele mögliche Tabellen mit festen Randsummen k 0 O (H0: unabhängig) +1

Zusammenfassung  Geschickt (und nicht unnötig) Transformieren  Wenn es um Ereignissraten (pro Zeit) geht: Poisson  Normalverteilter Mittelwert: t-Test  Zwei Alternativen: Paired t-Test, Two-sample t- Test  Kategorische Daten: Fischer’s Exact Test oder Yates korrigierter  2 Test

Literatur  Bernard Rosner, Fundamentals of Biostatistics, 6 th ed., 2006, Duxbury, ISBN 0-534-41820-1  Lew M, Good statistical practice in pharmacology Problem 1, British Journal of Pharmacology (2007) 152, 295–298  http://www.graphpad.com/manuals/Prism4/Statist icsGuide.pdf

Statistik im Labor BFB-tech Workshop 29.11.07 Eugen Lounkine.

Ähnliche Präsentationen

Präsentation zum Thema: "Statistik im Labor BFB-tech Workshop 29.11.07 Eugen Lounkine."— Präsentation transkript:

Ähnliche Präsentationen

Über Projekt

Feedback

Anmelden

Anmeldung über soziales Netzwerk:

Statistik im Labor BFB-tech Workshop 29.11.07 Eugen Lounkine.

Ähnliche Präsentationen

Präsentation zum Thema: "Statistik im Labor BFB-tech Workshop 29.11.07 Eugen Lounkine."— Präsentation transkript:

Ähnliche Präsentationen

Über Projekt

Feedback