Statistische Tests in der Phylogenie

Slides:



Advertisements
Ähnliche Präsentationen
T - Test Prüfung des Mittelwerteunterschieds bei abhängigen und unabhängigen Stichproben.
Advertisements

Definition [1]: Sei S eine endliche Menge und sei p eine Abbildung von S in die positiven reellen Zahlen Für einen Teilmenge ES von S sei p definiert.
Heute 1.F – Test zur Varianzhomogenität 2.Bartlett-Test zur Varianzhomogenität 3.Chi – Quadrat Tests für Häufigkeiten 4.Chi – Quadrat Tests zur Verteilungsanpassung.
Stochastik in der Sek. II Sabrina Schultze.
Forschungsstrategien Johannes Gutenberg Universität Mainz
Multivariate Analysemethoden Johannes Gutenberg Universität Mainz
Forschungsstatistik II
Forschungsstatistik II Prof. Dr. G. Meinhardt SS 2005 Fachbereich Sozialwissenschaften, Psychologisches Institut Johannes Gutenberg Universität Mainz KLW-24.
Forschungsstatistik II Prof. Dr. G. Meinhardt SS 2006 Fachbereich Sozialwissenschaften, Psychologisches Institut Johannes Gutenberg Universität Mainz KLW-18.
Forschungsstatistik II Prof. Dr. G. Meinhardt SS 2006 Fachbereich Sozialwissenschaften, Psychologisches Institut Johannes Gutenberg Universität Mainz KLW-18.
Der Binomialtest Man habe einen wahren Anteil P.
Hypothesen testen: Grundidee
Prüfung statistischer Hypothesen
Induktive Statistik.
Statistische Methoden I
Statistische Methoden II
Die Vorlesung Statistische Methoden II findet am (nächste Woche) nicht nicht statt. Diese Vorlesung wird zu einem späteren Termin, der noch bekannt.
Statistische Methoden II SS 2008
Nachholung der Vorlesung vom Freitag
Konfidenzintervalle Intervallschätzung
Ab nächster Woche wird die Übungsgruppe Gruppe 2: Henrike Berg Di SR 222 wegen Personalmangel eingestellt.
Statistische Methoden II SS 2008 Vorlesung:Prof. Dr. Michael Schürmann Zeit:Freitag (Pause: ) Ort:Hörsaal Makarenkostraße (Kiste)
M-L-Schätzer Erwartungswert
Die Vorlesung Statistische Methoden II findet am (nächste Woche) wegen der Projektwoche nicht wegen der Projektwoche nicht statt.
TESTS. Worum es geht Man möchte testen, ob eine bestimmte Annahme (Hypothese) über Parameter der Realität entspricht oder nicht. Beobachtung (Stichprobe)
Die Student- oder t-Verteilung
Statistische Methoden I WS 2007/2008 Donnerstag, 31. Januar 2008 und Freitag, 1. Februar 2008 Probeklausur - statt Vorlesungen -
Erwartungswert und Varianz I Der endliche Fall Erwartungswert Varianz.
Konfidenzintervalle Intervallschätzung Jeder Beobachtung wird ein Intervall C( ) der reellen Zahlen zugeordnet Niveau Dabei ist die Wahrscheinlichkeit,
Statistische Methoden I SS 2005 Vorlesung:Prof. Dr. Michael Schürmann Zeit:Freitag (Pause: ) Ort:Hörsaal Loefflerstraße Übungen.
Statistische Methoden I SS 2005
Kolmogorov-Smirnov-Test. A. N. Kolmogorov Geboren in Tambov, Russland. Begründer der modernen Wahrscheinlichkeitstheorie.
Klausurtermin (laut Prüfungsamt) Probeklausur Freitag, 13. Juni 2003 statt Vorlesung.
Achtung Vorlesung am Montag, den 21. Juni Zeit: Uhr Ort: Kiste.
II. Wahrscheinlichkeitstheorie
Die Vorlesung am 14. Mai (Tag nach Himmelfahrt) wird auf Montag, den 17. Mai verlegt! Zeit: 16 Uhr Ort: Kiste Nächste Woche!!!!
Statistische Methoden II SS 2003 Vorlesung:Prof. Dr. Michael Schürmann Zeit:Freitag (Pause: ) Ort:Hörsaal Loefflerstraße Übungen.
III. Induktive Statistik
Die Vorlesung am 14. Mai (Tag nach Himmelfahrt) wird verlegt. Der Nachholtermin wird noch bekannt gegeben.
Statistische Methoden II SS 2003
Extra-SPSS-Kurse Durchführung: Birte Holtfreter Termine Di Mi Mi Ort PC-Pool Loefflerstarße.
Test auf Normalverteilung
Klausur am :00 bis 13:00 Hörsaal Loefflerstraße und Hörsaal Makarenkostraße.
Maximum-Likelihood-Schätzer ( diskreter Fall) Likelihood-Funktion mit oder M-L-Schätzer.
Sportwissenschaftliche Forschungsmethoden SS Statistischer Test.
Tutorium
Vorlesung: ANOVA I
Eigenschaften der OLS-Schätzer
Formulierung und Überprüfung von Hypothesen
Einführung in die beurteilende Statistik
Chi Quadrat Test Tamara Katschnig.
Hartmut Klauck Universität Frankfurt SS
STATISIK LV Nr.: 1375 SS März 2005.
Wiederholung BSP 2.1.
STATISIK LV Nr.: 0028 SS Mai 2005.
STATISIK LV Nr.: 0028 SS Mai 2005.
STATISIK LV Nr.: 0021 WS 2005/ Oktober 2005.
STATISIK LV Nr.: 1852 WS 2005/ Dezember 2005.
STATISIK LV Nr.: 1375 SS März 2005.
Konfidenzintervall und Testen für den Mittelwert und Anteile
Tutorium Statistik II Übung IV Philipp Schäpers Mi – 11.45
Stochastik ganz kurz Beispiel diskret Würfelwurf Beispiel stetig
K. Desch - Statistik und Datenanalyse SS05
Der Binomialtest Man habe einen wahren Anteil P. Kann man aufgrund von p sagen, daß in der Population tatsächlich der Anteil P zugrunde liegt? [Beispiele]
Thema der Stunde I. Die Form der Stichprobenkennwerteverteilung
SS 2009Maschinelles Lernen und Neural Computation 133 Kapitel 7: Ensemble Methoden.
STATISIK LV Nr.: 1375 SS März 2005.
K. Desch - Statistik und Datenanalyse SS05
Prüft ebenfalls die Annahme der Varianzhomogenität (exakter)
Independent Component Analysis: Analyse natürlicher Bilder Friedrich Rau.
 Präsentation transkript:

Statistische Tests in der Phylogenie Likelihood-Based Tests of Topologies in Phylogenetics Nick Goldman, Jon P. Anderson, Allen G. Rodrigo -Lisha Naduvilezhath

Gliederung 1. Hintergrund-“wissen“ 2. Verschiedene Tests - Signifikanz-/ Hypothesentest - Bootstrap 2. Verschiedene Tests - KH- / SH- / SOWH- Test - Beispiel HIV-1 / Säugetiere 3. Zusammenfassung/ Ausblick

Thema Gleich gut? LX ist log- Likelihood für TX T1/ L1 T2/ L2 Seq1 : CGGTTCA… Seq2 : AGGTTCA… Seq3 : ATGTTCA… Seq4 : AGGTTCT… Seq5 : CGATTGA… T1/ L1 Gleich gut? LX ist log- Likelihood für TX T2/ L2

Signifikanz-/ Hypothesentest Statistische Hypothese: Annahme über Wahrscheinlichkeitsverteilung der Grundgesamtheit, die wahr oder falsch sein kann Nullhypothese (H0): statistische Hypothese, die meist verworfen wird z.B.: Aussage: „Münze präpariert“ Hypothese: Münze fair H0: p= 0,5 für Kopf

Signifikanz-/ Hypothesentest Alternativhypothese (HA, H1): jede von H0 andere Hypothese (z.B.: p<0,5) Signifikanztest: Verfahren zum Errechnen, ob beobachtete Daten unter Annahme von H0 signifikant sind Beobachtete Daten sind signifikant, wenn geneigt H0 abzulehnen

Signifikanz-/ Hypothesentest Signifikanzlevel/ -niveau/ Irrtumswahrscheinlichkeit (α): maximale WS mit der Hypothese abgelehnt wurde, die akzeptiert werden sollte; oft α=5% oder 1% P-Wert: WS den beobachteten oder extremeren Wert anzutreffen/ kleinstes α, auf dem H0 abgelehnt wird

Signifikanz-/ Hypothesentest Einseitiger Test Zweiseitiger Test

Bootstrap Bootstrap- Gedanke: Neu erzeugte Parameter sind genauso weit entfernt vom ML- Schätzer wie ML- vom wahren Parameter. Nichtparametrischer (NP) Bootstrap: Bootstrap- Stichproben durch Ziehen mit Zurücklegen aus Originaldaten erzeugen Parametrischer (P) Bootstrap (Monte Carlo Simulation): durch zugrunde gelegte Verteilung für benötigten Parameter Schätzung einsetzen und Bootstrap- Daten simulieren

Bootstrap In der Phylogenie: Site In der Phylogenie: Aufgrund der Verteilungsannahme parametrischer Tests abhängiger von zugrunde gelegten Modellen Seq1 : C G G T T C A… Seq2 : A G G T T C A… Seq3 : A T G T T C A… Seq4 : A G G T T C T… Seq5 : C G A T T G A…

Kishino- Hasegawa Test (KH-Test) Gegeben: Topologien T1 (L1) und T2(L2) Fragestellung: Unterstützen T1 und T2 die Daten gleichermaßen? H0: E[δ] =0 mit δ = L1 - L2 (HA: E[δ] =0) keine Verteilung für δ gegeben in H0 nichtparametrischer Bootstrap

KH- Test (=Test priNPfcd) Test Statistik: δ = L1 - L2 Mit NP-Bootstrap Datenmengen i erzeugen Für jedes i: - Schätzen von Θ1 und Θ2 für maximale log-likelihoods L1,(i) und L2,(i) - δ(i)= L1,(i) - L2,(i) 4. Zentrieren der δ(i) Δ(i) (Verteilung der Δ(i) ist Schätzung für δ- Verteilung) 5. Zwei-seitiger Test: Fällt δ in Konfidenz-intervall für E[δ]?

Resampling estimated log-likelihood (RELL- Methode) Zeitgewinn RELL-Methode: für L1,(i) - bzw. L2,(i) - Berechnung stets ΘML,1 und ΘML,2 verwenden (ΘML,X: optimierter Parameter für Originaldaten) Vorrausetzung für Anwendung: Korrektes Evolutionäres Modell Ausreichend große Datenmengen

Test priNPncd Test Statistik: δ = L1 - L2 Mit NP-Bootstrap Datenmengen i erzeugen Für jedes i: - Mit ΘML,1 und ΘML,2 bestimmen von Ľ1,(i) und Ľ2,(i) („΄“ bedeutet Schätzung) - δ̛(i)= Ľ1,(i) - Ľ2,(i) 4. Zentrieren der δ̛(i) Δ̛(i) 5. Zwei-seitiger Test: Fällt δ in Konfidenz-intervall für E[δ]?

Test priNPncn Kishino und Hasegawa (1989): δ ist normalverteilt (mit Varianz und Mittel abhängig von δ(i)) Zentralem Grenzwertsatz: (normierte) Summe einer großen Zahl von unabhängigen, identisch verteilten Zufallsvariablen ist fast (standard) normalverteilt

Test priNPncn Im Test priNPncd letzten Schritt mit folgendem austauschen: 5. Berechne Varianz von Δ̛(i) (=ν²) und teste, ob δ bei N(0, ν²)- Verteilung im Konfidenzintervall liegt

Test priNPnca := log- Wahrscheinlichkeit am Site k von Baum TX (k= 1,2,… S) Zusätzliche Annahme: Varianz von δ mit Varianz über δ(k) berechenbar

Test priNPnca Test Statistik: δ = L1 - L2 Mit ΘML,1 und ΘML,2 bestimmen von L1(k) und L2(k) der Sites k der Originaldaten δ(k) = L1(k) - L2(k) Zentrieren der δ(k) Δ(k)

Test priNPnca Schätzen der Varianz von Δ(k) (=Var(δ(k))) mit ν²= ΣK(Δ(k))²/(S-1) Varianz von δ = S * ν² Zweiseitiger Test: Liegt δ im Konfidenzintervall bei einer N(0, S*ν²)- Verteilung? Implementiert in PHYLIP, PUZZLE (MOLPHY)

Test priNPncs Letzte beiden Schritte von Test priNPnca ersetzen mit: 4. paired- t- Test von L1(k) und L2(k) (Paare {L1(1), L2(1)}, {L1(2), L2(2)},…, {L1(S), L2(S)}) zur Überprüfung, ob Mittelwerte gleich sind (E[μ1 - µ2] =0)

Students t- Verteilung Nach dem Pseudonym des „Entdeckers“ William S. Gosset benannt m = Anzahl Freiheitsgrade (m ∞: Normverteilung)

Test priNPncs implementiert in PAUP* Keine theoretische Erklärung denkbar für zusätzliche Annahme Trotzdem ähnliche Signifikanzlevels in Anwendung wie bei DNAML (Unterprogramm von PHYLIP)

Falscher Gebrauch des KH-Tests T1 und T2 müssen unabhängig voneinander UND ohne vorherige Analyse der Daten ausgewählt sein zur Rechtfertigung von H0 Falls TX = TML INKORREKTER KH-T - Keine Ergebnisse stützen E[δ] =0, stattdessen E[δ] >0 ! einseitige Tests erforderlich

Korrektes Vorgehen Trainer: Unterscheiden sich die Zeiten von Asterix und Obelix im 100m Sprint im Mittel signifikant? Vorgehen: Über viele Rennen δ(Asterix, Obelix)= t(Asterix)- t(Obelix) (wenn gleich gut E[δ] 0)

Korrektes Vorgehen Team- Statistiker: H0: E[δ(Asterix, Obelix)] =0 HA: E[δ(Asterix, Obelix)] =0

Verdeutlichen des Fehlers Trainer glaubt Idefix ist schnellster δ(Idefix, schnellster)= t(Idefix) – t(schnellster) Vermutung: wenn gleich gut E[δ] 0 Team-Statistiker: Falsch!! - Grund: Es gilt stets δ(Idefix, schnellster) ≥ 0

Shimodaira- Hasegawa Test (SH- Test) Vergleicht gleichzeitig alle Topologien einer Menge M (= Menge aller möglichen Topologien) a priori Wahl der Topologien in M H0: alle Tx ε M sind gleichgute Erklärungen

SH- Test (=Test posNPfcd) Für jedes TX ε M: δX:=LML – LX Mit NP-Bootstrap Datenmengen i erzeugen Für jedes i und jedes TX : maximiere LX,(i) über ΘX Für jedes TX : LX,(i) L̃X,(i) durch Zentrieren (=Abziehen der Mittel über i von LX,(i))

SH- Test (=Test posNPfcd) Für jedes i: - Finde L̃ML,(i) (Maximum über L̃X,(i)) - Bootstrap-Statistik: δX,(i)= L̃ML,(i) - LX,(i) Einseitiger Test (da, L̃ML,(i) ≥ LX,(i)) : Liegt δX im Konfidenzintervall für E[δX] bei einer δX,(i)- Verteilung?

Test posNPncd Zeitgewinn mit RELL-Methode Für jedes TX ε M: δX:= LML – LX Mit NP-Bootstrap Datenmengen i erzeugen Für jedes i und jedes TX : approximiere LX,(i) mit ΘML,X Rest wie bei Test posNPncd

SH- Test … … schätzt gleichzeitig Signifikanzlevels für jede Topologie TX … als modifizierte Version des KH- Tests mit a priori- gewählte T1 und a posteriori- gewählte TML (Unterschied: bei Verteilungsbestim-mung Menge aller Topologien M betrachtet)

Rettung falscher KH- Test- Ergebnisse Wenn P-Wert mindestens doppelt so groß wie Signifikanzlevel ist Vorgehen: P-Wert des zweiseitigen Tests zu dem eines einseitigen abändern den P-Wert p des falsch angewandten KH- Tests halbieren, da im SH- Test P- Wert ≥ p/2 beträgt Beispiel: p/2 > 0,05 SH- Test erlaubt ebenfalls keine Ablehnung von H0

Keine Rettung der KH- Ergebnisse Wenn p/2 zu klein ist, d.h. p führt zur Ablehnung im KH-Test oder lag in der Nähe des Signifikanzlevels Grund: SH- Test liefert Ergebnis ≥ p/2 Beispiel: a. p< 0,05 p/2<0,025 b. 0,05< p< 0,1 (keine H0-Ablehnung) 0,025< p/2< 0,05 Wie viel größer?

SOWH- Test (=Test posPfud) Von Swofford et al. beschrieben und Hillis et al. implementiert Schätzt, ob a priori- gewählte Topologie T1 Daten unterstützt oder für andere verwerfen werden sollte H0: T1 ist wahre Topologie HA: wahre Topologie ist andere

SOWH- Test (=Test posPfud) Test Statistik: δ = LML – L1 Mit P- Bootstrap und ML-Schätzer ΘML,1 Datenmengen i erzeugen Für alle Tx: Schätzen von ΘX für maximale LX,(i) Finde LML,(i) δ(i) = LML,(i) - L1,(i) (Verteilung für δ) Einseitiger Test: δ signifikant?

SOWH- Test (=Test posPfud) Test Statistik δ wie bei KH und SH-Test Da TML benutzt Annahme E[δ] =0 nicht möglich Da P- Bootstrap keine Zentrierung Zeit für Maximierung über alle TX Vorschlag 1: RELL-like für (a priori) T1

Test posPpud (Schätzung unter H0) Schritte 1 und 2 siehe Test posPfud Für alle Tx/{T1}: Schätzen von ΘX für maximale LX,(i) Für T1 benutze ΘML,1 Ľ1,(i) Finde LML,(i) δ̛(i)= LML,(i) – Ľ1,(i) (Verteilung für δ) Einseitiger Test: δ signifikant?

Test posPpud (Schätzung unter H0) nicht besonders schneller Test posPnud unvernünftig, da original TML (ΘML) weit entfernt von optimalen Werten der Bootstrap-Daten (mit T1 und Θ1 geschätzt) Bekannt: Es gibt über verschiedene Topologien stabile Parameter (Bsp. Basenhäufigkeit)

Test posPpud (Schätzung unter HA) Alle Parameterkomponenten, die gleich für alle TX sind, feste Werte (von ΘML,1) zuweisen Unterschied zum vorigen Test: - nur „freie“ Parameterwerte (Astlängen) werden maximiert Wenn beide Tests H0 nicht verwerfen Wenn beide Tests H0 verwerfen ?

Beispiel HIV-1 - DNA Geg: 6 homologe DNA Sequenzen à 2000 bp von gag und pol Gen von HIV (A1, A2, B, D, E1, E2) Alignieren Konventionelle Phylogenie: T1= ((A1,A2), (B,D), (E1,E2)) L1= -5073,75

Beispiel HIV-1 - DNA ML Phylogenie: TML=(A1, (B,D), (A2, (E1,E2))) LML= -5069,9 SH-Test: M enthält alle 105 möglichen Tx Für ML-Berechnungen: Zeitreversibles Modell mit Γ- Verteilung unter den Sites zur Ratenheterogenitätsmodellierung

Gamma (Γ) - Verteilung Kontinuierliche, reproduktive Wahrscheinlichkeitsverteilung über positive reelle Zahlen Wahrscheinlichkeitsdichte gegeben durch E(X)= α/β V(X)= α/β²

Gamma (Γ) - Verteilung

Beispiel HIV-1 - DNA ΘX: Astlängen, Basenhäufigkeiten, relative Substitutionsrate zwischen Nukleotidpaaren, α (Parameter für Γ- Verteilung) 1000 Bootstrap-Datenmengen erzeugt Für alle Test: Teststatistik δ= LML -L1 = 3,90 α = 0,05 Da TML posteriori gewählt wurde KH- Test FALSCH!! (nur zum Vergleich)

Beispiel HIV-1 - DNA

Beispiel HIV-1 - DNA Mögliche Erklärungen für Unterschied in SH- und SOWH- Testergebnis: - unterschiedliche H0- Hypothesen (- parametrische (SOWH-) Tests sind mächtiger als nichtparametrische (SH-)) - parametrische Tests vom zugrunde gelegten Modell abhängig

Beispiel HIV-1 - DNA

Beispiel Säugetiere - aa Geg: - 6 mt Proteinsequenzen à 3414 Aminosäuren (aa): Mensch(H), Seehund(S), Kuh(C), Hase(R), Maus(M), Opossum(O) - (S, C) 15 mögliche TX SH- Test: 15 TX gleichzeitig verglichen 7 TX nicht verworfen

Beispiel Säugetiere - aa SOWH- Test: - T1= ((H, ((S, C), R)), M, O) (a priori) - TML= (((H, (S, C)), R), M, O) Mit „model of mammalian mt aa replacement + F + Γ “ (Yang et al. 1998): L1 = - 21727,26 LML = - 21724,60 Teststatistik δ= LML -L1 = 2,66

Beispiel Säugetiere - aa

Zusammenfassung/ Ausblick Veröffentlichte KH- Test Ergebnisse mit Vorsicht behandeln!! Alle zukünftigen Tests mit SH- oder SOWH- Tests ausführen Untersuchung von Ergebnissen mit kombinierten Tests Untersuchung der Unterschiede zwischen SH- und SOWH- Testergebnissen