Statistik im Labor BFB-tech Workshop 29.11.07 Eugen Lounkine.

Slides:



Advertisements
Ähnliche Präsentationen
T - Test Prüfung des Mittelwerteunterschieds bei abhängigen und unabhängigen Stichproben.
Advertisements

Univariate Statistik M. Kresken.
Der F - Test Man prüft, ob sich 2 Varianzen unterscheiden, mit dem F-Quotienten: Geprüft werden stets die Schätzungen der Populationsvarianzen aufgrund.
Heute 1.F – Test zur Varianzhomogenität 2.Bartlett-Test zur Varianzhomogenität 3.Chi – Quadrat Tests für Häufigkeiten 4.Chi – Quadrat Tests zur Verteilungsanpassung.
Grundlagen der Wahrscheinlichkeitsrechnung - Verteilungen -
Aufgabe Analyse (Friedman-Test) von letzter Stunde wiederholen
Aufgabe Analyse (Friedman-Test) von letzter Stunde wiederholen
Stochastik in der Sek. II Sabrina Schultze.
Forschungsstrategien Johannes Gutenberg Universität Mainz
Gliederung Vertrauensintervalle Arten von Hypothesen
Gliederung Definition des Wahrscheinlichkeitsbegriffes
Forschungsstatistik II
Forschungsstatistik II
Heute Prüfung der Produkt-Moment Korrelation
Forschungsstatistik II Prof. Dr. G. Meinhardt SS 2006 Fachbereich Sozialwissenschaften, Psychologisches Institut Johannes Gutenberg Universität Mainz KLW-18.
Der Binomialtest Man habe einen wahren Anteil P.
Hypothesen testen: Grundidee
Prüfung statistischer Hypothesen
Statistische Methoden I
Nachholung der Vorlesung vom Freitag
Konfidenzintervalle Intervallschätzung
M-L-Schätzer Erwartungswert
Statistische Methoden II SS 2007 Vorlesung:Prof. Dr. Michael Schürmann Zeit:Freitag (Pause: ) Ort:Hörsaal Loefflerstraße Übungen.
TESTS. Worum es geht Man möchte testen, ob eine bestimmte Annahme (Hypothese) über Parameter der Realität entspricht oder nicht. Beobachtung (Stichprobe)
Die Student- oder t-Verteilung
Konfidenzintervalle Intervallschätzung Jeder Beobachtung wird ein Intervall C( ) der reellen Zahlen zugeordnet Niveau Dabei ist die Wahrscheinlichkeit,
Statistische Methoden I SS 2005 Vorlesung:Prof. Dr. Michael Schürmann Zeit:Freitag (Pause: ) Ort:Hörsaal Loefflerstraße Übungen.
Statistische Methoden I WS 2007/2008 Donnerstag, 31. Januar 2008 und Freitag, 1. Februar 2008 Probeklausur nächste Woche - statt Vorlesungen -
Maximum-Likelihood-Schätzer ( diskreter Fall) Likelihood-Funktion mit oder M-L-Schätzer.
Klausurtermin (laut Prüfungsamt) Probeklausur Freitag, 13. Juni 2003 statt Vorlesung.
Achtung Vorlesung am Montag, den 21. Juni Zeit: Uhr Ort: Kiste.
II. Wahrscheinlichkeitstheorie
Die Vorlesung am 14. Mai (Tag nach Himmelfahrt) wird auf Montag, den 17. Mai verlegt! Zeit: 16 Uhr Ort: Kiste Nächste Woche!!!!
Statistische Methoden II SS 2003 Vorlesung:Prof. Dr. Michael Schürmann Zeit:Freitag (Pause: ) Ort:Hörsaal Loefflerstraße Übungen.
III. Induktive Statistik
Erwartungswert und Varianz I Der endliche Fall Erwartungswert Varianz.
Statistische Methoden II SS 2003
Grundbegriffe der (deskriptiven) Statistikder Wahrscheinlichkeitstheorie.
Statistische Methoden I WS 2004/2005 Probeklausur Freitag, 21. Januar statt Vorlesung - In 2 Wochen In 2 Wochen!
Test auf Normalverteilung
Maximum-Likelihood-Schätzer ( diskreter Fall) Likelihood-Funktion mit oder M-L-Schätzer.
Sportwissenschaftliche Forschungsmethoden SS Statistischer Test.
Vorlesung Biometrie für Studierende der Veterinärmedizin Begriff der Zufallsgröße Ergebnisse von Zufallsexperimenten werden als Zahlen dargestellt:
Binomialverteilung: Beispiel
Vorlesung: ANOVA I
Eigenschaften der OLS-Schätzer
Deutsch als Zweitsprache: Experimentelle Methoden WS 2013/2014
Histogramm/empirische Verteilung Verteilungen
Ausgleichungsrechnung I
STATISIK LV Nr.: 1375 SS März 2005.
STATISIK LV Nr.: 0028 SS Mai 2005.
STATISIK LV Nr.: 0028 SS Mai 2005.
STATISIK LV Nr.: 0021 WS 2005/ Oktober 2005.
Modul Statistische Datenanalyse
SStotal SStotal SStreat SSerror SStreat SSerror Biomasse (g) wenig
Konfidenzintervall und Testen für den Mittelwert und Anteile
Tutorium Statistik II Übung IV Philipp Schäpers Mi – 11.45
Statistik – Regression - Korrelation
Stochastik ganz kurz Beispiel diskret Würfelwurf Beispiel stetig
K. Desch - Statistik und Datenanalyse SS05
Der Binomialtest Man habe einen wahren Anteil P. Kann man aufgrund von p sagen, daß in der Population tatsächlich der Anteil P zugrunde liegt? [Beispiele]
Thema der Stunde I. Die Form der Stichprobenkennwerteverteilung
Die Binomialverteilung
K. Desch - Statistik und Datenanalyse SS05
STATISIK LV Nr.: 1375 SS März 2005.
K. Desch - Statistik und Datenanalyse SS05
Prüft ebenfalls die Annahme der Varianzhomogenität (exakter)
Signifikanzprüfung Peter Wilhelm Herbstsemester 2015.
Analysen univariater Stichproben
Konfidenzintervalle und Tests auf Normalverteilung
 Präsentation transkript:

Statistik im Labor BFB-tech Workshop Eugen Lounkine

Übersicht  Darstellung und Charakterisierung von Daten  Datentransformationen  Lineare Korrelation  Wahrscheinlichkeitsverteilung(en)  Schätzer  Konfidenzintervalle  Testen von Hypothesen - Kontinuierliche Daten - Kategorische Daten

Das Histogram  symmetrisch Häufigster Wert (mode) = 5 Median = 5 Mittelwert = 5.4

Das Histogram Häufigster Wert (mode) = 9 Median = 8 Mittelwert = 7.6  Negativ verzerrt

Das Histogram Häufigster Wert (mode) = 3 Median = 3 Mittelwert = 3.9  Positiv verzerrt

Median und andere Quantile  Häufig verwendete Quantile sind, neben dem Median, die 25% und 75% Quantile (Quartile) Median 3. Quartil 1. Quartil

Box Plot Quelle:

Charakterisierung der Streuung  Einfachste Messgröße für Streuung: Spannweite (= maximaler – minimaler Wert)  Quantile geben einen besseren Eindruck der Streuung (Höhe des Box Plots)  Häufig verwendet wird die Standardabweichung: Basierend auf Stichprobe Gesamtpopulation

Transformation von Daten: log  In der Darstellung wird häufig eine log – Achse benutzt, statt einer linearen Achse mit transformierten Daten  Verteilung symmetrisch(er) machen - Näherung an Normalverteilung - z.B. Durchflußzytometrie  Abhängige Variablen in eine Form bringen, die einer bekannten Funktion entspricht - z.B. Dosis – Wirkungs Kurve in der Pharmakologie

Transformation von Daten  Beispiel einer Datentransformation für zwei unabhängige Variablen aus der Genetik. Das Clustern wird hier vereinfacht. Signal Allel 1 Signal Allel 2 R  R  0°90° Quelle: Nature Publishing Group

Transformation von Daten Quelle: Lew, M Good statistical practice in pharmacology Problem 1, BJP 2007

Lineare Korrelation  Gibt es eine lineare Abhängigkeit zwischen zwei Messreihen?  Kovarianz:  Korrelationskoeffizient: - Vorteil: Dimensionslos, beschränkt auf Intervall [-1,1] Quelle: Nature Publishing Group -*- +*+ -*+ +*- -*-

Wahrscheinlichkeitsverteilungen  Allgemein: - diskret:jedem Wert wird eine Wahrscheinlichkeit P zugeordnet (probability mass function pmf) - kontinuierlich: man benutzt die W. – Dichte pdf, da für einen bestimmten Wert die W. unendlich klein ist Poisson Verteilung (diskret) Gauß- oder Normalverteilung (kontinuierlich) P Quellen: pdf 

Binomialverteilung  Fragstellung: Wenn die Wahrscheinlichkeit für ein Ereigniss p ist, wie groß ist die W., k Ereignisse bei insgesamt n Beobachtungen zu haben? Quelle:

Poisson Verteilung  Fragestellung: Wenn pro Zeiteinheit  t t Ereignisseintritte erwartet werden, wie groß ist die W., k Ereignisse in der Zeit t zu beobachten?   t kann durch andere Größen ersetzt werden, wie z.B. Anteil einer Pertischalenfläche, die von Bakterien besiedelt ist ( = Anzahl Bakterien pro Fläche)

Poisson Verteilung  Quelle: P k

 Das Integral  der Dichtefunktion ist tabelliert Standardnormalverteilung p P(0.5 ≤ Z ≤ 2)

Höhe und Position der Dichtefunktion  Höhe invers proportional zu   Maximum liegt bei    

Approximation anderer Verteilungen  Die Normalverteilung kann benutzt werden, um andere Verteilungen, deren Berechnung aufwändiger ist, zu approximieren.  Approximation der Poissonverteilung ist Sinnvoll für  ≥ 10 : Quelle: 

Schätzer für den Mittelwert  Bei vielen Experimenten hat man es mit einer Stichprobe aus einer Gesamtpopulation zu tun  Wie kann man aufgrund der Stichprobe den Mittelwert der Gesamtpopulation am besten schätzen?  Intuitive Annahme richtig: Mittel der Stichprobe. Aber wie groß ist der Fehler bzw. wie sicher ist das Ergebnis?  SEM: Standard Error of the Mean:

Zentraler Grenzwertsatz  Sei X 1, X 2,... Xn eine Stichprobe aus einer Gesamtpopulation mit Mittel  und Varianz  2  Dann gilt für große n, dass die Mittelwerte solcher Stichproben durch die Normalverteilung approximiert werden, selbst wenn die Ursprungsverteilung nicht normal ist.

Die t - Verteilung  Die Varianz  2 in der Population ist unbekannt  Schätzen mit Varianz der Stichprobe S 2 Freiheitsgrade (df) 1 2 N(0,1) Quelle:

Konfidenzintervall für den Mittelwert  Die t – Verteilung wird benutzt, um ein Intervall (CI 1-  ) zu finden, in dem der Mittelwert der Population  mit der Wahrscheinlichkeit 1-  liegt:  Für n > 200 oder wenn  bekannt ist, kann auch die Normalverteilung benutzt werden Das  – Quantil der t - Verteilung

Die  2 Verteilung  Die  2 Verteilung wird benutzt, um ein Konfidenzintervall für die Varianz   einer normalverteilten (!) Population aufgrund der Varianz s 2 der Stichprobe zu berechnen  Sie ist nicht Symmetrisch und wird über eine Freiheitsgradzahl definiert Quelle:

Testen von Hypothesen  Nullhypothese: H 0, die Hypothese, die getestet (und ggf. widerlegt) werden soll  Alternativhypothese: H 1 Wahrheit Test H0H0 H1H1 H0H0 ☺  / Typ II H1H1  / Typ I ☺

Testen von Hypothesen Wahrheit Test H0H0 H1H1 H0H0 H1H1 Quelle: Power

Power und p-Wert  Die Power eines Tests ist 1 – , also die Wahrschinlichkeit dass H 0 abgewiesen wird, wenn sie falsch ist.  Der p-Wert (p-value) gibt dasjenige  an, bei dem die beiden Hypothesen gleichberechtigt sind  Wenn p-Wert < , dann wird H 0 verworfen  Übliche Interpretationen des p-Wertes sind: - signifikant: 0.01 ≤ p < hochsignifikant: p < 0.01

Die richtige Stichprobengröße  Normalverteilung: Power hängt von Distanz der beiden Verteilungen ab und von deren Varianz („dicke“)

Statistische Tests  Je nach Problem ist die zugrundeliegende Verteilung unterschiedlich  Weiß man, welches Modell passt, berechnet man eine Teststatistik, die man mit der entschprechenden Verteilung vergleicht  t Test: Normalverteilte Mittelwerte (Gewicht)  Poisson tests: Raten (Zellen/Fläche, Tote/Jahr)  F Test: Vergleich von Varianzen  Exact Fisher’s Test: (wenige) Kategorische Daten

t Test: Einseitig  Testen von Normalverteilten Mittelwerten bei unbekanntem  2  H 0 :  =  0  H 1 :  <  0  Teststatistik  p-Wert = P(t n-1 ≤t)  Anzahl Freiheitsgrade: df = n-1

Beispiel Einseitiger t Test  Test: Ein neues Medikament zur Begrenzung des Schadens 24h nach einem Herzinfarkt.  Durchschnittliche Infarktgröße in unbehandelten Patienten:  0 = 25  8 Patienten (n) wurden behandelt  Durchschnittliche Infarktgröße bei behandelten Patienten:

Beispiel Einseitiger t Test  p-Wert lässt sich mit Excel berechnen: - TDIST(2.55, 7, 1) = < signifikante Verbesserung DatenHypothesenTeststatistik

t Test: Zweiseitig  Testen von Normalverteilten Mittelwerten bei unbekanntem  2  H 0 :  =  0  H 1 :  ≠  0  Teststatistik  p-Wert =  Anzahl Freiheitsgrade: df = n-1 falls t ≤ 0 falls t > 0

Beispiel Zweiseitiger t Test  Test: Unterscheiden sich die Cholesterinlevel von Asiatischen Einwanderern in Amerika von denen der Amerikaner?  Durchschnittlicher Cholesterinlevel in der amer. Bevölkerung: 190 mg/dl  100 Immigranten wurden untersucht  Durchschnittlicher Cholesterinwert bei Immigranten: ± 40 mg/dl

Beispiel Zweiseitiger t Test  p-Wert lässt sich mit Excel berechnen: - TDIST(2.12, 99, 2) = < signifikanter Unterschied DatenHypothesenTeststatistik

Paired t Test  Zwei normalverteilte Messgrößen x 0 und x 1  Sich entsprechende Wertepaare sind vorhanden - Beispiel: Medikamentenwirkung  Frage: unterscheiden sich die Mittelwerte signifikant?  Benutze Differenzen d i der Wertepaare - Annahme: x 0 ~ N(  i,  2 ); x 1 ~ N(  i + ,  2 ) - H0:  = 0 - H1:  ≠ 0 Standardabweichung der Differenzen

Two-sample t Test  Wenn die beiden Variablen unabhängig sind, aber für beide die selbe Varianz  2 angenommen werden kann, wird die t Statistik mit dem zusammengefassten Schätzwert der Varianz s 2 berechnet:  Die Anzahl der Freiheitsgrade für die t Verteilung: df = n 1 +n 2 -2

F Test  Der F Test beantwortet die Frage, ob die Varianzen zweier Messgrößen gleich sind  Wenn die Varianzen sich signifikant unterscheiden, wird die Anzahl der Freiheitsgrade beim t Test nach einer komplexeren Formel berechnet  Die F-Verteilung wird über zwei Freiheitsgradzahlen definiert  Akzeptanzintervall: Quelle:

p-Wert bei einer Poisson-Verteilung  Beispiel: Vergleich von Sterblichkeitsraten  H0:  =  0 = 3.3 Tote / Jahr (Erwartungswert)  H1:  ≠  0  Beobachtete Sterblichkeitsrate: x = 4 Tote / Jahr = 0.84, nicht signifikant

Annäherung durch die  2 Verteilung  Für  0 ≥ 10 kann man die  2 Verteilung mit einer Teststatistik X 2 benutzen, um den p-Wert einer Poissonverteilung zu bestimmen:

Kategorische Daten: Kontingenztabelle  Daten werden in ja/nein Kategorien unterteilt  Untersuchen, ob ein Ereigniss ein anderes beeinflusst - Beispiel: Fördern Orale Kontrazeptiva einen Herzinfarkt? JaNeinTotal Jaaba+b Neincdc+d Totala+cb+da+b+c+d Orale Kontrazeptiva? Herzinfarkt in 3 Jahren?

Erwartungswerte einer Kontingenztabelle  Die Erwartungswerte für jede Zelle werden aus den entsprechenden Summen berechnet  H 0 : Die Beiden Kategorien sind unabhängig JaNeinTotal Jam 1 n 1 /Nm 2 n 1 /Nn1n1 Neinm 1 n 2 /Nm 2 n 2 /Nn2n2 Totalm1m1 m2m2 N Herzinfarkt in 3 Jahren? Orale Kontrazeptiva?

Yates-Korrigierter  2 Test  Vergleich der Beobachteten Kontingenztabelle O mit der erwarteten Kontingenztabelle E  Teststatistik X 2 ist die Summe der Vergleiche einzelner Zellen JaNeinTotal JaE 11 E 12 n1n1 NeinE 21 E 22 n2n2 Totalm1m1 m2m2 N

Fisher’s Exact Test  Verwendung: Bei kleinen Stichproben, wenn mindestens ein Erwartungswert der Kontingenztabelle <5 ist  Die Randsummen werden fest gehalten und die Wahrscheinlichkeit aller möglichen solcher Tabellen berechnet JaNeinTotal Jaaba+b Neincdc+d Totala+cb+dn Hypergeometrische Verteilung

Fisher’s Exact Test  Nicht viele mögliche Tabellen mit festen Randsummen k 0 O (H0: unabhängig) +1

Zusammenfassung  Geschickt (und nicht unnötig) Transformieren  Wenn es um Ereignissraten (pro Zeit) geht: Poisson  Normalverteilter Mittelwert: t-Test  Zwei Alternativen: Paired t-Test, Two-sample t- Test  Kategorische Daten: Fischer’s Exact Test oder Yates korrigierter  2 Test

Literatur  Bernard Rosner, Fundamentals of Biostatistics, 6 th ed., 2006, Duxbury, ISBN  Lew M, Good statistical practice in pharmacology Problem 1, British Journal of Pharmacology (2007) 152, 295–298  icsGuide.pdf