Vorlesung: 18.11.2003 ANOVA II.

Slides:



Advertisements
Ähnliche Präsentationen
T - Test Prüfung des Mittelwerteunterschieds bei abhängigen und unabhängigen Stichproben.
Advertisements

Heute 1.F – Test zur Varianzhomogenität 2.Bartlett-Test zur Varianzhomogenität 3.Chi – Quadrat Tests für Häufigkeiten 4.Chi – Quadrat Tests zur Verteilungsanpassung.
Forschungsstrategien Johannes Gutenberg Universität Mainz
Die t-Verteilung (fortgesetzt)
Forschungsstatistik II Prof. Dr. G. Meinhardt SS 2005 Fachbereich Sozialwissenschaften, Psychologisches Institut Johannes Gutenberg Universität Mainz KLW-24.
Forschungsstatistik II
Forschungsstatistik II Prof. Dr. G. Meinhardt SS 2006 Fachbereich Sozialwissenschaften, Psychologisches Institut Johannes Gutenberg Universität Mainz KLW-26.
Forschungsstatistik II Prof. Dr. G. Meinhardt SS 2006 Fachbereich Sozialwissenschaften, Psychologisches Institut Johannes Gutenberg Universität Mainz KLW-18.
A-Priori Kontraste Prüfung des Mittelwerteunterschieds von Faktorstufen bzw. Kombinationen von Faktorstufen: z.B.: oder.
K. Desch - Statistik und Datenanalyse SS05
Induktive Statistik.
Statistische Methoden I
Statistische Methoden I
Statistische Methoden II SS 2007 Vorlesung:Prof. Dr. Michael Schürmann Zeit:Freitag (Pause: ) Ort:Hörsaal Loefflerstraße Übungen.
Nachholung der Vorlesung vom Freitag
Vorlesung Die Vorlesung Statistische Methoden II nächste Woche vom 6. Juni ( nächste Woche ) wird auf den 4. Juni (Mittwoch) vorverlegt ! 14 – 16 Zeit:
Nachholung der Vorlesung vom Freitag
Konfidenzintervalle Intervallschätzung
Ab nächster Woche wird die Übungsgruppe Gruppe 2: Henrike Berg Di SR 222 wegen Personalmangel eingestellt.
Statistische Methoden II SS 2008 Vorlesung:Prof. Dr. Michael Schürmann Zeit:Freitag (Pause: ) Ort:Hörsaal Makarenkostraße (Kiste)
M-L-Schätzer Erwartungswert
Die Vorlesung Statistische Methoden II findet am (nächste Woche) wegen der Projektwoche nicht wegen der Projektwoche nicht statt.
Statistische Methoden II SS 2007 Vorlesung:Prof. Dr. Michael Schürmann Zeit:Freitag (Pause: ) Ort:Hörsaal Loefflerstraße Übungen.
Chi-Quadrat-Test auf Unabhängigkeit I
TESTS. Worum es geht Man möchte testen, ob eine bestimmte Annahme (Hypothese) über Parameter der Realität entspricht oder nicht. Beobachtung (Stichprobe)
Die Student- oder t-Verteilung
Erwartungswert und Varianz I Der endliche Fall Erwartungswert Varianz.
Konfidenzintervalle Intervallschätzung Jeder Beobachtung wird ein Intervall C( ) der reellen Zahlen zugeordnet Niveau Dabei ist die Wahrscheinlichkeit,
Statistische Methoden I SS 2005 Vorlesung:Prof. Dr. Michael Schürmann Zeit:Freitag (Pause: ) Ort:Hörsaal Loefflerstraße Übungen.
Statistische Methoden I SS 2005
Kolmogorov-Smirnov-Test. A. N. Kolmogorov Geboren in Tambov, Russland. Begründer der modernen Wahrscheinlichkeitstheorie.
Statistische Methoden I WS 2007/2008 Donnerstag, 31. Januar 2008 und Freitag, 1. Februar 2008 Probeklausur nächste Woche - statt Vorlesungen -
Maximum-Likelihood-Schätzer ( diskreter Fall) Likelihood-Funktion mit oder M-L-Schätzer.
Achtung Vorlesung am Montag, den 21. Juni Zeit: Uhr Ort: Kiste.
II. Wahrscheinlichkeitstheorie
Die Vorlesung am 14. Mai (Tag nach Himmelfahrt) wird auf Montag, den 17. Mai verlegt! Zeit: 16 Uhr Ort: Kiste Nächste Woche!!!!
Statistische Methoden II SS 2003 Vorlesung:Prof. Dr. Michael Schürmann Zeit:Freitag (Pause: ) Ort:Hörsaal Loefflerstraße Übungen.
III. Induktive Statistik
Erwartungswert und Varianz I Der endliche Fall Erwartungswert Varianz.
Die Vorlesung am 14. Mai (Tag nach Himmelfahrt) wird verlegt. Der Nachholtermin wird noch bekannt gegeben.
Erwartungswert und Varianz I Der endliche Fall Erwartungswert Varianz.
Statistische Methoden II SS 2003
Extra-SPSS-Kurse Durchführung: Birte Holtfreter Termine Di Mi Mi Ort PC-Pool Loefflerstarße.
Bedingte Wahrscheinlichkeiten
Statistische Methoden I WS 2009/2010 Probeklausur Montag, 25. Januar statt Vorlesung -
Statistische Methoden I WS 2004/2005 Probeklausur Freitag, 21. Januar statt Vorlesung - In 2 Wochen In 2 Wochen!
Probeklausur Die Probeklausur findet am anstelle der Vorlesung statt. 13. Juni 2003 Nächste Woche!!
Approximative Konfidenzintervalle im Bernoulli-Fall II
Statistische Methoden I WS 2002/2003 Probeklausur Freitag, 13. Dezember statt Vorlesung - Nächsten Freitag!!!
Test auf Normalverteilung
Klausur am :00 bis 13:00 Hörsaal Loefflerstraße und Hörsaal Makarenkostraße.
Maximum-Likelihood-Schätzer ( diskreter Fall) Likelihood-Funktion mit oder M-L-Schätzer.
Sportwissenschaftliche Forschungsmethoden SS Statistischer Test.
Tutorium
Tutorium
Tutorium
Vorlesung Biometrie für Studierende der Veterinärmedizin Begriff der Zufallsgröße Ergebnisse von Zufallsexperimenten werden als Zahlen dargestellt:
Binomialverteilung: Beispiel
Vorlesung: ANOVA I
Überblick Statistik Deskriptive Statistik=beschreibende Statistik
Chi Quadrat Test Tamara Katschnig.
SPSS für Windows Auswertung von Marktforschungsdaten mit SPSS für Windows WINDER Thomas Porzellangasse 32, 1090 Wien.
Information und Kommunikation Hartmut Klauck Universität Frankfurt SS
Statistik: Mehr zur Regression.
Modul Statistische Datenanalyse
Ökonometrie I Modellvergleich (Übersicht) Ökonometrie I2 Vergleich von Modellen Fragestellungen für Modellvergleich 1.Fehlende Regressoren.
Der Binomialtest Man habe einen wahren Anteil P. Kann man aufgrund von p sagen, daß in der Population tatsächlich der Anteil P zugrunde liegt? [Beispiele]
K. Desch - Statistik und Datenanalyse SS05
K. Desch - Statistik und Datenanalyse SS05
 Gegenstandsbereich der Testtheorie: Analyse der Charakteristika von Tests:  Güte von Tests.  Struktur von Tests.  Schwierigkeit von Tests.  Gruppenunterschiede.
 Präsentation transkript:

Vorlesung: 18.11.2003 ANOVA II

Übersicht Warum sollte man eine ANOVA überhaupt durchführen? Ein Vergleich mit dem t-Test - Beispiel 1: Zwei Gruppen Vergleich - Beispiel 2: >2 Gruppen Vergleich Überblick: Anwendung der ANOVA bei Microarray-Datenauswertungen: Beispiel: Kandidatengene Beispiel: Normalisierung von Microarray Daten

Übersicht Warum sollte man eine ANOVA überhaupt durchführen? Ein Vergleich mit dem t-Test - Beispiel 1: Zwei Gruppen Vergleich - Beispiel 2: >2 Gruppen Vergleich Überblick: Anwendung der ANOVA bei Microarray-Datenauswertungen: Beispiel: Kandidatengene Beispiel: Normalisierung von Microarray Daten

Gedankenexperiment 1: Raucher und Nichtraucher Angenommen, wir wollen untersuchen, ob A man bei Rauchern tendenziell ein anderes Level von Protein x mißt als bei Nichtrauchern B Raucher ein signifikant höheres Level von Protein x haben als Nichtraucher Messungen

Gedankenexperiment 2: 4 Laboratorien Angenommen, wir wollen untersuchen, ob 4 verschiedene Laboratorien bei der Messung des Cholesterinspiegels von Patienten dieselben Ergebnisse liefern 1 2 3 4 Messungen Mittelwert STD

Gibt es einen Unterschied? Fragestellung 1 2 3 4 Gibt es einen Unterschied? zwischen Rauchern/Nichtrauchern 4 Laboratorien

Raucher und Nichtraucher: Zusammenfassung der Daten Min/ Max 25/75% Quantil Median: 80.03 versus 79.97

Raucher und Nichtraucher: Zusammenfassung der Daten Was sehen wir? Tendenziell höhere Wert bei Rauchern hohe Varianz Es gibt durchaus Nichtraucher, die einen höheren Wert haben als einige Raucher Sind die Unterschiede signifikant?

4 Laboratorien: Zusammenfassung der Daten Was sehen wir? Tendenziell unterschiedliche Resultate hohe Varianz Labor 2, 3: fast gleiches Mittel, unterschiedliche Varianz Sind die Unterschiede signifikant? 1 2 3 4 x

T-Test oder ANOVA? T-test: Angenommen, wir haben zwei Proben. Die erste Probe X1, ..., Xn umfaßt n Stichproben, die aus einer Normalverteilung mit Erwartungswert X und Varianz 2 gezogen wurden; die zweite Probe Y1, ..., Ym umfaßt m Stichproben, die aus einer Normalverteilung mit Erwartungswert Y und Varianz 2 gezogen wurden. Wenn man nun Differenzen zwischen den beiden Gruppen betrachten möchte ist das intuitive Maß die Differenz der Mittelwerte: X - Y Tatsächlich ist die Differenz normalverteilter Zufallsvariablen wieder normalverteilt, d.h. in diesem Fall mit Erwartungswert X - Y und Varianz 2 (1/n+1/m).

T-Test oder ANOVA? Satz: Definition: „pooled sample variance“ Angenommen, X1, ..., Xn sind n unabhängig normalverteilte Zufallsvariablen mit Erwartungswert X und Varianz 2 . Ebenso seien Y1, ..., Ym m unabhängige normalverteilte Zufallsvariablen mit Erwartungswert Y und Varianz 2 . Außerdem sind die Xi unabhängig von den Yj für alle i,j. Dann folgt die Statistik: einer t-Verteilung mit m+n-2 Freiheitsgraden.

Was ist eine t-Verteilung? Dichte einer t-Verteilung: t-Verteilung: fr(t)= Fr(t)= r=Freiheitsgrade

Raucher und Nichtraucher: t-Test Messungen x

Raucher und Nichtraucher: t-Test Zweiseitiger Test Einseitige Tests

Raucher und Nichtraucher: t-Test t = 3.3333; Signifikanzlevel=0.05 P(H1) = 0.0033 P(H2) = 0.001656512 P(H3) = 0.9983435 x

Raucher und Nichtraucher: ANOVA

4 Laboratorien: ein neues Problem Nun haben wir aber mehr als zwei Probenreihen... n 1 3 2 4 1 2 3 4 6 t- Tests

4 Laboratorien: t-Test 1 2 3 4 t 1 2 3 4 P-Wert 1 2 3 4 Laboratorien

4 Laboratorien: ANOVA

Übersicht Warum sollte man eine ANOVA überhaupt durchführen? Ein Vergleich mit dem t-Test - Beispiel 1: Zwei Gruppen Vergleich - Beispiel 2: >2 Gruppen Vergleich Überblick: Anwendung der ANOVA bei Microarray-Datenauswertungen: Beispiel: Kandidatengene Beispiel: Normalisierung von Microarray Daten

Anwendung der ANOVA bei Microarray-Datenauswertungen 1. Beispiel: Kandidatengene Drei Behandlungen: … … … Für welche Gene gibt es Unterschiede in den beiden Behandlungsmethoden?

Anwendung der ANOVA bei Microarray-Datenauswertungen 1. Beispiel: Kandidatengene

Anwendung der ANOVA bei Microarray-Datenauswertungen 1. Beispiel: Kandidatengene Wir schauen uns erstmal nur ein Gen an x

Warum sollte man eine ANOVA überhaupt durchführen? Ein Vergleich mit dem t-Test - Beispiel 1: Zwei Gruppen Vergleich - Beispiel 2: >2 Gruppen Vergleich Überblick: Anwendung der ANOVA bei Microarray-Datenauswertungen: Beispiel: Kandidatengene Beispiel: Normalisierung von Microarray Daten

Anwendung der ANOVA bei Microarray-Datenauswertungen 2. Beispiel: Normalisierung von Microarray Daten Array 1 Array 2 Patient: Grün Kontrolle: Rot Patient: Rot Kontrolle: Grün

Anwendung der ANOVA bei Microarray-Datenauswertungen 2. Beispiel: Normalisierung von Microarray Daten ARRAY 1 oder 2 ? Variety: Patient oder Kontrolle ? Farbstoff: Grün oder Rot ? Welches Gen ? Intensität: 14527

Anwendung der ANOVA bei Microarray-Datenauswertungen 2. Beispiel: Normalisierung von Microarray Daten Farbstoff: Grün Farbstoff: Rot Kontrolle Patient Array 1 Array 2 Kontrolle Patient Dye Swap Setting Latin Square Setting

Anwendung der ANOVA bei Microarray-Datenauswertungen 2. Beispiel: Normalisierung von Microarray Daten Variety Array Gen Dye= Farbstoff + ijkg 2-Interaktionseffekte 3-Interaktionseffekte

Anwendung der ANOVA bei Microarray-Datenauswertungen 2. Beispiel: Normalisierung von Microarray Daten Gesamtmittel A D V G AG DG VG ~ ADV DV AV AD ADVG DVG AVG ADG

Anwendung der ANOVA bei Microarray-Datenauswertungen 2. Beispiel: Normalisierung von Microarray Daten Modell von G.Churchill/K.Kerr Jede Messung in einem Micoarrayexperiment wird mit einer ganz speziellen Kombination der Parameter „Array“, „Dye (Farbstoff)“, „Variety(Probentyp)“, und „Gen“ assoziiert. Angenommen, y ijkg Bezeichnet die Intensitätsmessung des g-ten Gens auf dem i-ten Array mit dem j-ten Farbstoff im k-ten Probentyp.

Anwendung der ANOVA bei Microarray-Datenauswertungen 2. Beispiel: Normalisierung von Microarray Daten Modell von G.Churchill/K.Kerr Dann kann man das folgende Modell einführen: log(y ijkg) =  + Ai + Dj + Vk + Gg + (AG)ig + (VG)kg + ijkg Dabei ist  der Gesamtmittelwert; Ai bezeichnet den Arrayeffekt des i-ten Arrays; Dj bezeichnet den Farbstoffeffekt des j-ten Farbstoffs; Vk bezeichnet den k-ten Probentypeffekt; Gg bezeichnet den Geneffekt des g-ten Gens; (AG)ig bezeichnet den Interaktioneffekt von Array i und Gen g und (VG)kg bezeichnet den Interaktionseffekt des k-ten Probentyps und des g-ten Gens. ijkg ist ein N(0,) Fehlerterm.

Anwendung der ANOVA bei Microarray-Datenauswertungen 2. Beispiel: Normalisierung von Microarray Daten Modell von G.Churchill/K.Kerr Farbstoff: Grün Farbstoff: Rot Muskel Leber Array 1 Array 2 Muskel Leber Welche Gene sind in Leber und Muskel unterschiedlich exprimiert?

Anwendung der ANOVA bei Microarray-Datenauswertungen 2. Beispiel: Normalisierung von Microarray Daten Modell von G.Churchill/K.Kerr Farbstoff: Grün Farbstoff: Rot Array i=1,2 Dye j=1,2 Gewebe k=1,2 Gene g=1,...,n Array 1 Array 2 Leber Muskel Muskel Leber Index Set: (i,j,k)  { (1,1,1) , (1,2,2) , (2,1,2) , (2,2,1) } d.h. jeder Clone Index (Gen) g=1,...,n erscheint genau einmal mit jeder Kombination (i,j,k)

Anwendung der ANOVA bei Microarray-Datenauswertungen 2. Beispiel: Normalisierung von Microarray Daten Modell von G.Churchill/K.Kerr log(y ijkg) =  + Ai + Dj + Vk + Gg + (AG)ig + (VG)kg + ijkg Quadrat der Summe der Residuen: RSQ = ijkl (log(y ijkg) – ( + Ai + Dj + Vk + Gg + (AG)ig + (VG)kg + ijkg))2 Berechne die Parameter so, daß die Residuen möglichst klein sind. Dazu berechne die partiellen Ableitungen und setze diese gleich Null. RSQ /  (VG)kg =0

Anwendung der ANOVA bei Microarray-Datenauswertungen 2. Beispiel: Normalisierung von Microarray Daten Leber Muskel Farbstoff: Grün Farbstoff: Rot Array 1 Array 2 Leber Muskel (VG)k=1g‘ - (VG)k=2g‘ = 0.5 log( ) – 1/2n log( g ) Y111g‘ y221g‘ Y122g‘ y212g‘ y111g y221g y122g y212g Log-ratio des geometrischen Mittels der Beobachtungen für das Gen g‘ in den beiden Gruppen Konstant: Zentrierung

Anwendung der ANOVA bei Microarray-Datenauswertungen 2. Beispiel: Normalisierung von Microarray Daten (VG)k=1g‘ - (VG)k=2g‘ Die exponierten Differenzen exp((VG)k=1g‘ - (VG)k=2g‘ ) können als Schätzer für „fold changes“ zwischen den beiden betrachteten Gruppen angesehen werden.

Anwendung der ANOVA bei Microarray-Datenauswertungen 2. Beispiel: Normalisierung von Microarray Daten (VG)k=Leber g - (VG)k=Muskel g Mittel der Log-Produktintensität (Leber,Muskel)