Statistische Tests in der Phylogenie Likelihood-Based Tests of Topologies in Phylogenetics Nick Goldman, Jon P. Anderson, Allen G. Rodrigo -Lisha Naduvilezhath
Gliederung 1. Hintergrund-“wissen“ 2. Verschiedene Tests - Signifikanz-/ Hypothesentest - Bootstrap 2. Verschiedene Tests - KH- / SH- / SOWH- Test - Beispiel HIV-1 / Säugetiere 3. Zusammenfassung/ Ausblick
Thema Gleich gut? LX ist log- Likelihood für TX T1/ L1 T2/ L2 Seq1 : CGGTTCA… Seq2 : AGGTTCA… Seq3 : ATGTTCA… Seq4 : AGGTTCT… Seq5 : CGATTGA… T1/ L1 Gleich gut? LX ist log- Likelihood für TX T2/ L2
Signifikanz-/ Hypothesentest Statistische Hypothese: Annahme über Wahrscheinlichkeitsverteilung der Grundgesamtheit, die wahr oder falsch sein kann Nullhypothese (H0): statistische Hypothese, die meist verworfen wird z.B.: Aussage: „Münze präpariert“ Hypothese: Münze fair H0: p= 0,5 für Kopf
Signifikanz-/ Hypothesentest Alternativhypothese (HA, H1): jede von H0 andere Hypothese (z.B.: p<0,5) Signifikanztest: Verfahren zum Errechnen, ob beobachtete Daten unter Annahme von H0 signifikant sind Beobachtete Daten sind signifikant, wenn geneigt H0 abzulehnen
Signifikanz-/ Hypothesentest Signifikanzlevel/ -niveau/ Irrtumswahrscheinlichkeit (α): maximale WS mit der Hypothese abgelehnt wurde, die akzeptiert werden sollte; oft α=5% oder 1% P-Wert: WS den beobachteten oder extremeren Wert anzutreffen/ kleinstes α, auf dem H0 abgelehnt wird
Signifikanz-/ Hypothesentest Einseitiger Test Zweiseitiger Test
Bootstrap Bootstrap- Gedanke: Neu erzeugte Parameter sind genauso weit entfernt vom ML- Schätzer wie ML- vom wahren Parameter. Nichtparametrischer (NP) Bootstrap: Bootstrap- Stichproben durch Ziehen mit Zurücklegen aus Originaldaten erzeugen Parametrischer (P) Bootstrap (Monte Carlo Simulation): durch zugrunde gelegte Verteilung für benötigten Parameter Schätzung einsetzen und Bootstrap- Daten simulieren
Bootstrap In der Phylogenie: Site In der Phylogenie: Aufgrund der Verteilungsannahme parametrischer Tests abhängiger von zugrunde gelegten Modellen Seq1 : C G G T T C A… Seq2 : A G G T T C A… Seq3 : A T G T T C A… Seq4 : A G G T T C T… Seq5 : C G A T T G A…
Kishino- Hasegawa Test (KH-Test) Gegeben: Topologien T1 (L1) und T2(L2) Fragestellung: Unterstützen T1 und T2 die Daten gleichermaßen? H0: E[δ] =0 mit δ = L1 - L2 (HA: E[δ] =0) keine Verteilung für δ gegeben in H0 nichtparametrischer Bootstrap
KH- Test (=Test priNPfcd) Test Statistik: δ = L1 - L2 Mit NP-Bootstrap Datenmengen i erzeugen Für jedes i: - Schätzen von Θ1 und Θ2 für maximale log-likelihoods L1,(i) und L2,(i) - δ(i)= L1,(i) - L2,(i) 4. Zentrieren der δ(i) Δ(i) (Verteilung der Δ(i) ist Schätzung für δ- Verteilung) 5. Zwei-seitiger Test: Fällt δ in Konfidenz-intervall für E[δ]?
Resampling estimated log-likelihood (RELL- Methode) Zeitgewinn RELL-Methode: für L1,(i) - bzw. L2,(i) - Berechnung stets ΘML,1 und ΘML,2 verwenden (ΘML,X: optimierter Parameter für Originaldaten) Vorrausetzung für Anwendung: Korrektes Evolutionäres Modell Ausreichend große Datenmengen
Test priNPncd Test Statistik: δ = L1 - L2 Mit NP-Bootstrap Datenmengen i erzeugen Für jedes i: - Mit ΘML,1 und ΘML,2 bestimmen von Ľ1,(i) und Ľ2,(i) („΄“ bedeutet Schätzung) - δ̛(i)= Ľ1,(i) - Ľ2,(i) 4. Zentrieren der δ̛(i) Δ̛(i) 5. Zwei-seitiger Test: Fällt δ in Konfidenz-intervall für E[δ]?
Test priNPncn Kishino und Hasegawa (1989): δ ist normalverteilt (mit Varianz und Mittel abhängig von δ(i)) Zentralem Grenzwertsatz: (normierte) Summe einer großen Zahl von unabhängigen, identisch verteilten Zufallsvariablen ist fast (standard) normalverteilt
Test priNPncn Im Test priNPncd letzten Schritt mit folgendem austauschen: 5. Berechne Varianz von Δ̛(i) (=ν²) und teste, ob δ bei N(0, ν²)- Verteilung im Konfidenzintervall liegt
Test priNPnca := log- Wahrscheinlichkeit am Site k von Baum TX (k= 1,2,… S) Zusätzliche Annahme: Varianz von δ mit Varianz über δ(k) berechenbar
Test priNPnca Test Statistik: δ = L1 - L2 Mit ΘML,1 und ΘML,2 bestimmen von L1(k) und L2(k) der Sites k der Originaldaten δ(k) = L1(k) - L2(k) Zentrieren der δ(k) Δ(k)
Test priNPnca Schätzen der Varianz von Δ(k) (=Var(δ(k))) mit ν²= ΣK(Δ(k))²/(S-1) Varianz von δ = S * ν² Zweiseitiger Test: Liegt δ im Konfidenzintervall bei einer N(0, S*ν²)- Verteilung? Implementiert in PHYLIP, PUZZLE (MOLPHY)
Test priNPncs Letzte beiden Schritte von Test priNPnca ersetzen mit: 4. paired- t- Test von L1(k) und L2(k) (Paare {L1(1), L2(1)}, {L1(2), L2(2)},…, {L1(S), L2(S)}) zur Überprüfung, ob Mittelwerte gleich sind (E[μ1 - µ2] =0)
Students t- Verteilung Nach dem Pseudonym des „Entdeckers“ William S. Gosset benannt m = Anzahl Freiheitsgrade (m ∞: Normverteilung)
Test priNPncs implementiert in PAUP* Keine theoretische Erklärung denkbar für zusätzliche Annahme Trotzdem ähnliche Signifikanzlevels in Anwendung wie bei DNAML (Unterprogramm von PHYLIP)
Falscher Gebrauch des KH-Tests T1 und T2 müssen unabhängig voneinander UND ohne vorherige Analyse der Daten ausgewählt sein zur Rechtfertigung von H0 Falls TX = TML INKORREKTER KH-T - Keine Ergebnisse stützen E[δ] =0, stattdessen E[δ] >0 ! einseitige Tests erforderlich
Korrektes Vorgehen Trainer: Unterscheiden sich die Zeiten von Asterix und Obelix im 100m Sprint im Mittel signifikant? Vorgehen: Über viele Rennen δ(Asterix, Obelix)= t(Asterix)- t(Obelix) (wenn gleich gut E[δ] 0)
Korrektes Vorgehen Team- Statistiker: H0: E[δ(Asterix, Obelix)] =0 HA: E[δ(Asterix, Obelix)] =0
Verdeutlichen des Fehlers Trainer glaubt Idefix ist schnellster δ(Idefix, schnellster)= t(Idefix) – t(schnellster) Vermutung: wenn gleich gut E[δ] 0 Team-Statistiker: Falsch!! - Grund: Es gilt stets δ(Idefix, schnellster) ≥ 0
Shimodaira- Hasegawa Test (SH- Test) Vergleicht gleichzeitig alle Topologien einer Menge M (= Menge aller möglichen Topologien) a priori Wahl der Topologien in M H0: alle Tx ε M sind gleichgute Erklärungen
SH- Test (=Test posNPfcd) Für jedes TX ε M: δX:=LML – LX Mit NP-Bootstrap Datenmengen i erzeugen Für jedes i und jedes TX : maximiere LX,(i) über ΘX Für jedes TX : LX,(i) L̃X,(i) durch Zentrieren (=Abziehen der Mittel über i von LX,(i))
SH- Test (=Test posNPfcd) Für jedes i: - Finde L̃ML,(i) (Maximum über L̃X,(i)) - Bootstrap-Statistik: δX,(i)= L̃ML,(i) - LX,(i) Einseitiger Test (da, L̃ML,(i) ≥ LX,(i)) : Liegt δX im Konfidenzintervall für E[δX] bei einer δX,(i)- Verteilung?
Test posNPncd Zeitgewinn mit RELL-Methode Für jedes TX ε M: δX:= LML – LX Mit NP-Bootstrap Datenmengen i erzeugen Für jedes i und jedes TX : approximiere LX,(i) mit ΘML,X Rest wie bei Test posNPncd
SH- Test … … schätzt gleichzeitig Signifikanzlevels für jede Topologie TX … als modifizierte Version des KH- Tests mit a priori- gewählte T1 und a posteriori- gewählte TML (Unterschied: bei Verteilungsbestim-mung Menge aller Topologien M betrachtet)
Rettung falscher KH- Test- Ergebnisse Wenn P-Wert mindestens doppelt so groß wie Signifikanzlevel ist Vorgehen: P-Wert des zweiseitigen Tests zu dem eines einseitigen abändern den P-Wert p des falsch angewandten KH- Tests halbieren, da im SH- Test P- Wert ≥ p/2 beträgt Beispiel: p/2 > 0,05 SH- Test erlaubt ebenfalls keine Ablehnung von H0
Keine Rettung der KH- Ergebnisse Wenn p/2 zu klein ist, d.h. p führt zur Ablehnung im KH-Test oder lag in der Nähe des Signifikanzlevels Grund: SH- Test liefert Ergebnis ≥ p/2 Beispiel: a. p< 0,05 p/2<0,025 b. 0,05< p< 0,1 (keine H0-Ablehnung) 0,025< p/2< 0,05 Wie viel größer?
SOWH- Test (=Test posPfud) Von Swofford et al. beschrieben und Hillis et al. implementiert Schätzt, ob a priori- gewählte Topologie T1 Daten unterstützt oder für andere verwerfen werden sollte H0: T1 ist wahre Topologie HA: wahre Topologie ist andere
SOWH- Test (=Test posPfud) Test Statistik: δ = LML – L1 Mit P- Bootstrap und ML-Schätzer ΘML,1 Datenmengen i erzeugen Für alle Tx: Schätzen von ΘX für maximale LX,(i) Finde LML,(i) δ(i) = LML,(i) - L1,(i) (Verteilung für δ) Einseitiger Test: δ signifikant?
SOWH- Test (=Test posPfud) Test Statistik δ wie bei KH und SH-Test Da TML benutzt Annahme E[δ] =0 nicht möglich Da P- Bootstrap keine Zentrierung Zeit für Maximierung über alle TX Vorschlag 1: RELL-like für (a priori) T1
Test posPpud (Schätzung unter H0) Schritte 1 und 2 siehe Test posPfud Für alle Tx/{T1}: Schätzen von ΘX für maximale LX,(i) Für T1 benutze ΘML,1 Ľ1,(i) Finde LML,(i) δ̛(i)= LML,(i) – Ľ1,(i) (Verteilung für δ) Einseitiger Test: δ signifikant?
Test posPpud (Schätzung unter H0) nicht besonders schneller Test posPnud unvernünftig, da original TML (ΘML) weit entfernt von optimalen Werten der Bootstrap-Daten (mit T1 und Θ1 geschätzt) Bekannt: Es gibt über verschiedene Topologien stabile Parameter (Bsp. Basenhäufigkeit)
Test posPpud (Schätzung unter HA) Alle Parameterkomponenten, die gleich für alle TX sind, feste Werte (von ΘML,1) zuweisen Unterschied zum vorigen Test: - nur „freie“ Parameterwerte (Astlängen) werden maximiert Wenn beide Tests H0 nicht verwerfen Wenn beide Tests H0 verwerfen ?
Beispiel HIV-1 - DNA Geg: 6 homologe DNA Sequenzen à 2000 bp von gag und pol Gen von HIV (A1, A2, B, D, E1, E2) Alignieren Konventionelle Phylogenie: T1= ((A1,A2), (B,D), (E1,E2)) L1= -5073,75
Beispiel HIV-1 - DNA ML Phylogenie: TML=(A1, (B,D), (A2, (E1,E2))) LML= -5069,9 SH-Test: M enthält alle 105 möglichen Tx Für ML-Berechnungen: Zeitreversibles Modell mit Γ- Verteilung unter den Sites zur Ratenheterogenitätsmodellierung
Gamma (Γ) - Verteilung Kontinuierliche, reproduktive Wahrscheinlichkeitsverteilung über positive reelle Zahlen Wahrscheinlichkeitsdichte gegeben durch E(X)= α/β V(X)= α/β²
Gamma (Γ) - Verteilung
Beispiel HIV-1 - DNA ΘX: Astlängen, Basenhäufigkeiten, relative Substitutionsrate zwischen Nukleotidpaaren, α (Parameter für Γ- Verteilung) 1000 Bootstrap-Datenmengen erzeugt Für alle Test: Teststatistik δ= LML -L1 = 3,90 α = 0,05 Da TML posteriori gewählt wurde KH- Test FALSCH!! (nur zum Vergleich)
Beispiel HIV-1 - DNA
Beispiel HIV-1 - DNA Mögliche Erklärungen für Unterschied in SH- und SOWH- Testergebnis: - unterschiedliche H0- Hypothesen (- parametrische (SOWH-) Tests sind mächtiger als nichtparametrische (SH-)) - parametrische Tests vom zugrunde gelegten Modell abhängig
Beispiel HIV-1 - DNA
Beispiel Säugetiere - aa Geg: - 6 mt Proteinsequenzen à 3414 Aminosäuren (aa): Mensch(H), Seehund(S), Kuh(C), Hase(R), Maus(M), Opossum(O) - (S, C) 15 mögliche TX SH- Test: 15 TX gleichzeitig verglichen 7 TX nicht verworfen
Beispiel Säugetiere - aa SOWH- Test: - T1= ((H, ((S, C), R)), M, O) (a priori) - TML= (((H, (S, C)), R), M, O) Mit „model of mammalian mt aa replacement + F + Γ “ (Yang et al. 1998): L1 = - 21727,26 LML = - 21724,60 Teststatistik δ= LML -L1 = 2,66
Beispiel Säugetiere - aa
Zusammenfassung/ Ausblick Veröffentlichte KH- Test Ergebnisse mit Vorsicht behandeln!! Alle zukünftigen Tests mit SH- oder SOWH- Tests ausführen Untersuchung von Ergebnissen mit kombinierten Tests Untersuchung der Unterschiede zwischen SH- und SOWH- Testergebnissen