Statistik im Labor BFB-tech Workshop Eugen Lounkine
Übersicht Darstellung und Charakterisierung von Daten Datentransformationen Lineare Korrelation Wahrscheinlichkeitsverteilung(en) Schätzer Konfidenzintervalle Testen von Hypothesen - Kontinuierliche Daten - Kategorische Daten
Das Histogram symmetrisch Häufigster Wert (mode) = 5 Median = 5 Mittelwert = 5.4
Das Histogram Häufigster Wert (mode) = 9 Median = 8 Mittelwert = 7.6 Negativ verzerrt
Das Histogram Häufigster Wert (mode) = 3 Median = 3 Mittelwert = 3.9 Positiv verzerrt
Median und andere Quantile Häufig verwendete Quantile sind, neben dem Median, die 25% und 75% Quantile (Quartile) Median 3. Quartil 1. Quartil
Box Plot Quelle:
Charakterisierung der Streuung Einfachste Messgröße für Streuung: Spannweite (= maximaler – minimaler Wert) Quantile geben einen besseren Eindruck der Streuung (Höhe des Box Plots) Häufig verwendet wird die Standardabweichung: Basierend auf Stichprobe Gesamtpopulation
Transformation von Daten: log In der Darstellung wird häufig eine log – Achse benutzt, statt einer linearen Achse mit transformierten Daten Verteilung symmetrisch(er) machen - Näherung an Normalverteilung - z.B. Durchflußzytometrie Abhängige Variablen in eine Form bringen, die einer bekannten Funktion entspricht - z.B. Dosis – Wirkungs Kurve in der Pharmakologie
Transformation von Daten Beispiel einer Datentransformation für zwei unabhängige Variablen aus der Genetik. Das Clustern wird hier vereinfacht. Signal Allel 1 Signal Allel 2 R R 0°90° Quelle: Nature Publishing Group
Transformation von Daten Quelle: Lew, M Good statistical practice in pharmacology Problem 1, BJP 2007
Lineare Korrelation Gibt es eine lineare Abhängigkeit zwischen zwei Messreihen? Kovarianz: Korrelationskoeffizient: - Vorteil: Dimensionslos, beschränkt auf Intervall [-1,1] Quelle: Nature Publishing Group -*- +*+ -*+ +*- -*-
Wahrscheinlichkeitsverteilungen Allgemein: - diskret:jedem Wert wird eine Wahrscheinlichkeit P zugeordnet (probability mass function pmf) - kontinuierlich: man benutzt die W. – Dichte pdf, da für einen bestimmten Wert die W. unendlich klein ist Poisson Verteilung (diskret) Gauß- oder Normalverteilung (kontinuierlich) P Quellen: pdf
Binomialverteilung Fragstellung: Wenn die Wahrscheinlichkeit für ein Ereigniss p ist, wie groß ist die W., k Ereignisse bei insgesamt n Beobachtungen zu haben? Quelle:
Poisson Verteilung Fragestellung: Wenn pro Zeiteinheit t t Ereignisseintritte erwartet werden, wie groß ist die W., k Ereignisse in der Zeit t zu beobachten? t kann durch andere Größen ersetzt werden, wie z.B. Anteil einer Pertischalenfläche, die von Bakterien besiedelt ist ( = Anzahl Bakterien pro Fläche)
Poisson Verteilung Quelle: P k
Das Integral der Dichtefunktion ist tabelliert Standardnormalverteilung p P(0.5 ≤ Z ≤ 2)
Höhe und Position der Dichtefunktion Höhe invers proportional zu Maximum liegt bei
Approximation anderer Verteilungen Die Normalverteilung kann benutzt werden, um andere Verteilungen, deren Berechnung aufwändiger ist, zu approximieren. Approximation der Poissonverteilung ist Sinnvoll für ≥ 10 : Quelle:
Schätzer für den Mittelwert Bei vielen Experimenten hat man es mit einer Stichprobe aus einer Gesamtpopulation zu tun Wie kann man aufgrund der Stichprobe den Mittelwert der Gesamtpopulation am besten schätzen? Intuitive Annahme richtig: Mittel der Stichprobe. Aber wie groß ist der Fehler bzw. wie sicher ist das Ergebnis? SEM: Standard Error of the Mean:
Zentraler Grenzwertsatz Sei X 1, X 2,... Xn eine Stichprobe aus einer Gesamtpopulation mit Mittel und Varianz 2 Dann gilt für große n, dass die Mittelwerte solcher Stichproben durch die Normalverteilung approximiert werden, selbst wenn die Ursprungsverteilung nicht normal ist.
Die t - Verteilung Die Varianz 2 in der Population ist unbekannt Schätzen mit Varianz der Stichprobe S 2 Freiheitsgrade (df) 1 2 N(0,1) Quelle:
Konfidenzintervall für den Mittelwert Die t – Verteilung wird benutzt, um ein Intervall (CI 1- ) zu finden, in dem der Mittelwert der Population mit der Wahrscheinlichkeit 1- liegt: Für n > 200 oder wenn bekannt ist, kann auch die Normalverteilung benutzt werden Das – Quantil der t - Verteilung
Die 2 Verteilung Die 2 Verteilung wird benutzt, um ein Konfidenzintervall für die Varianz einer normalverteilten (!) Population aufgrund der Varianz s 2 der Stichprobe zu berechnen Sie ist nicht Symmetrisch und wird über eine Freiheitsgradzahl definiert Quelle:
Testen von Hypothesen Nullhypothese: H 0, die Hypothese, die getestet (und ggf. widerlegt) werden soll Alternativhypothese: H 1 Wahrheit Test H0H0 H1H1 H0H0 ☺ / Typ II H1H1 / Typ I ☺
Testen von Hypothesen Wahrheit Test H0H0 H1H1 H0H0 H1H1 Quelle: Power
Power und p-Wert Die Power eines Tests ist 1 – , also die Wahrschinlichkeit dass H 0 abgewiesen wird, wenn sie falsch ist. Der p-Wert (p-value) gibt dasjenige an, bei dem die beiden Hypothesen gleichberechtigt sind Wenn p-Wert < , dann wird H 0 verworfen Übliche Interpretationen des p-Wertes sind: - signifikant: 0.01 ≤ p < hochsignifikant: p < 0.01
Die richtige Stichprobengröße Normalverteilung: Power hängt von Distanz der beiden Verteilungen ab und von deren Varianz („dicke“)
Statistische Tests Je nach Problem ist die zugrundeliegende Verteilung unterschiedlich Weiß man, welches Modell passt, berechnet man eine Teststatistik, die man mit der entschprechenden Verteilung vergleicht t Test: Normalverteilte Mittelwerte (Gewicht) Poisson tests: Raten (Zellen/Fläche, Tote/Jahr) F Test: Vergleich von Varianzen Exact Fisher’s Test: (wenige) Kategorische Daten
t Test: Einseitig Testen von Normalverteilten Mittelwerten bei unbekanntem 2 H 0 : = 0 H 1 : < 0 Teststatistik p-Wert = P(t n-1 ≤t) Anzahl Freiheitsgrade: df = n-1
Beispiel Einseitiger t Test Test: Ein neues Medikament zur Begrenzung des Schadens 24h nach einem Herzinfarkt. Durchschnittliche Infarktgröße in unbehandelten Patienten: 0 = 25 8 Patienten (n) wurden behandelt Durchschnittliche Infarktgröße bei behandelten Patienten:
Beispiel Einseitiger t Test p-Wert lässt sich mit Excel berechnen: - TDIST(2.55, 7, 1) = < signifikante Verbesserung DatenHypothesenTeststatistik
t Test: Zweiseitig Testen von Normalverteilten Mittelwerten bei unbekanntem 2 H 0 : = 0 H 1 : ≠ 0 Teststatistik p-Wert = Anzahl Freiheitsgrade: df = n-1 falls t ≤ 0 falls t > 0
Beispiel Zweiseitiger t Test Test: Unterscheiden sich die Cholesterinlevel von Asiatischen Einwanderern in Amerika von denen der Amerikaner? Durchschnittlicher Cholesterinlevel in der amer. Bevölkerung: 190 mg/dl 100 Immigranten wurden untersucht Durchschnittlicher Cholesterinwert bei Immigranten: ± 40 mg/dl
Beispiel Zweiseitiger t Test p-Wert lässt sich mit Excel berechnen: - TDIST(2.12, 99, 2) = < signifikanter Unterschied DatenHypothesenTeststatistik
Paired t Test Zwei normalverteilte Messgrößen x 0 und x 1 Sich entsprechende Wertepaare sind vorhanden - Beispiel: Medikamentenwirkung Frage: unterscheiden sich die Mittelwerte signifikant? Benutze Differenzen d i der Wertepaare - Annahme: x 0 ~ N( i, 2 ); x 1 ~ N( i + , 2 ) - H0: = 0 - H1: ≠ 0 Standardabweichung der Differenzen
Two-sample t Test Wenn die beiden Variablen unabhängig sind, aber für beide die selbe Varianz 2 angenommen werden kann, wird die t Statistik mit dem zusammengefassten Schätzwert der Varianz s 2 berechnet: Die Anzahl der Freiheitsgrade für die t Verteilung: df = n 1 +n 2 -2
F Test Der F Test beantwortet die Frage, ob die Varianzen zweier Messgrößen gleich sind Wenn die Varianzen sich signifikant unterscheiden, wird die Anzahl der Freiheitsgrade beim t Test nach einer komplexeren Formel berechnet Die F-Verteilung wird über zwei Freiheitsgradzahlen definiert Akzeptanzintervall: Quelle:
p-Wert bei einer Poisson-Verteilung Beispiel: Vergleich von Sterblichkeitsraten H0: = 0 = 3.3 Tote / Jahr (Erwartungswert) H1: ≠ 0 Beobachtete Sterblichkeitsrate: x = 4 Tote / Jahr = 0.84, nicht signifikant
Annäherung durch die 2 Verteilung Für 0 ≥ 10 kann man die 2 Verteilung mit einer Teststatistik X 2 benutzen, um den p-Wert einer Poissonverteilung zu bestimmen:
Kategorische Daten: Kontingenztabelle Daten werden in ja/nein Kategorien unterteilt Untersuchen, ob ein Ereigniss ein anderes beeinflusst - Beispiel: Fördern Orale Kontrazeptiva einen Herzinfarkt? JaNeinTotal Jaaba+b Neincdc+d Totala+cb+da+b+c+d Orale Kontrazeptiva? Herzinfarkt in 3 Jahren?
Erwartungswerte einer Kontingenztabelle Die Erwartungswerte für jede Zelle werden aus den entsprechenden Summen berechnet H 0 : Die Beiden Kategorien sind unabhängig JaNeinTotal Jam 1 n 1 /Nm 2 n 1 /Nn1n1 Neinm 1 n 2 /Nm 2 n 2 /Nn2n2 Totalm1m1 m2m2 N Herzinfarkt in 3 Jahren? Orale Kontrazeptiva?
Yates-Korrigierter 2 Test Vergleich der Beobachteten Kontingenztabelle O mit der erwarteten Kontingenztabelle E Teststatistik X 2 ist die Summe der Vergleiche einzelner Zellen JaNeinTotal JaE 11 E 12 n1n1 NeinE 21 E 22 n2n2 Totalm1m1 m2m2 N
Fisher’s Exact Test Verwendung: Bei kleinen Stichproben, wenn mindestens ein Erwartungswert der Kontingenztabelle <5 ist Die Randsummen werden fest gehalten und die Wahrscheinlichkeit aller möglichen solcher Tabellen berechnet JaNeinTotal Jaaba+b Neincdc+d Totala+cb+dn Hypergeometrische Verteilung
Fisher’s Exact Test Nicht viele mögliche Tabellen mit festen Randsummen k 0 O (H0: unabhängig) +1
Zusammenfassung Geschickt (und nicht unnötig) Transformieren Wenn es um Ereignissraten (pro Zeit) geht: Poisson Normalverteilter Mittelwert: t-Test Zwei Alternativen: Paired t-Test, Two-sample t- Test Kategorische Daten: Fischer’s Exact Test oder Yates korrigierter 2 Test
Literatur Bernard Rosner, Fundamentals of Biostatistics, 6 th ed., 2006, Duxbury, ISBN Lew M, Good statistical practice in pharmacology Problem 1, British Journal of Pharmacology (2007) 152, 295–298 icsGuide.pdf