Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

1 Biophysik F1-Praktikum – Kursteil "Molekulare Evolution" Thorsten Burmester Institut für Zoologie Universität Mainz.

Ähnliche Präsentationen


Präsentation zum Thema: "1 Biophysik F1-Praktikum – Kursteil "Molekulare Evolution" Thorsten Burmester Institut für Zoologie Universität Mainz."—  Präsentation transkript:

1 1 Biophysik F1-Praktikum – Kursteil "Molekulare Evolution" Thorsten Burmester Institut für Zoologie Universität Mainz

2 2 Wie erhalte ich aus meinen (Sequenz-) Daten einen Stammbaum, und was sagt mir dieser? Sequenz 1: KIADKNFTYRHHNQLV Sequenz 2: KVAEKNMTFRRFNDII Sequenz 3: KIADKDFTYRHW-QLV Sequenz 4: KVADKNFSYRHHNNVV Sequenz 5: KLADKQFTFRHH-QLV Ziel des Kurses:

3 3 Programm Grundlagen der Molekularen Evolution Datenbanken und Datenbankanalysen Sequenzalignment Stammbaumerstellung Statistische Auswertung

4 4 Warum molekulare Phylogenie? Verständnis von phylogenetischen Zusammenhängen: Organismische Evolution (Systematik) Evolution von Proteinfamilien (Funktion!) forensische Medizin (Bsp. HIV) Epidemiologie Mathematische Probleme

5 5 Rekonstruktion von Verwandtschaftsverhältnissen A.Morphologische Daten B.Sequenzdaten Vorteil der Sequenzdaten: - leichte Zugänglichkeit - Grosse Datenmenge - Zumeist frei von Gewichtungen - können aber dennoch zu falschen Ergebnissen führen! Warum molekulare Phylogenie?

6 6 Voraussetzungen der molekularen Phylogenie 1. Evolution vollzieht sich durch Veränderungen. 2. Verwandte Spezies stammen von einem gemeinsamen Vorfahren ab. 3. Die Speziesbildung vollzog sich durch hierarchische Auftrennung. 4. Deren Verlauf läßt sich durch Stammbäume darstellen. 5. Es gibt nur einen historisch korrekten Stammbaum. 6. Organismen sind historisch. Sowohl die Morphologie als auch die DNA- und Aminosäuresequenzen speichern die Informationen über die Vergangenheit. 7. Die Methoden der molekularen Evolution erlauben die Extraktion der in der DNA bzw. den Proteinen gespeicherten Informationen.

7 7 Schwestergruppen Was ist ein Stammbaum? Darstellung der Verwandtschaftsverhältnisse A B C A – F auch "operational taxonomic units" (OTUs) D E F A B C D E F t t

8 8 Phylogenetische Grundbegriffe A B C D E Dichotomie Polytomie Ast (branch) Knotenpunkt (node) Außengruppe (outgroup)

9 9 Phylogenetische Grundbegriffe Monophylie A B C D E F (AB) (CDEF) (DEF) (EF) monophyletische Taxa

10 10 Paraphylie => nicht alle Nachkommen werden erfasst Vögel aufgrund von Plesiomorphien (ursprünglichen Merkmalen) Phylogenetische Grundbegriffe "Reptilien" Schildkröten Krokodile Eidechsen + Schlangen

11 11 "Geier" Neuwelt- Geier Storchen- vögel Raubvögel Altwelt- Geier Polyphylie => verschiedenen Ursprungs aufgrund von Homoplasien (Konvergenzen) Phylogenetische Grundbegriffe

12 12 ungewurzeletes Phylogramm Vogelspinne Heuschrecke Languste Tausendfüsser Regenwurm Tintenfisch Schnecke => keine Evolutions"richtung"

13 13 Stammbaum Regenwurm Tintenfisch Schnecke Tausendfüsser Vogelspinne Languste Heuschrecke Mensch (Außengruppe) Wurzel ("Root") Mit Außengruppe gewurzelt = "outgroup" t

14 14 Molekure Phylogenie Vorgehensweise zur Stammbaumerstellung: A.Wie ist meine Sequenz zu anderen verwandt? Auswahl ähnlicher Sequenzen aus Datenbanken Sequenzalignment Molekularphylogenetische Analyse Statistische Überprüfung B. Wie sind bestimmte Taxa miteinander verwandt? Auswahl geeigneter Sequenzen Sequenzierung (Datenbanken, Klonierung, PCR) Sequenzalignment usw. wie oben

15 15 Datenbanksuche: Welche Sequenz ist meiner Sequenz "ähnlich"? => Sequenzvergleich: "Alignment" (dt. Alignierung) DPEFKLSYFREDIAINSHHWHWHVIYPVGSNPS--DKKINRKGELFYYMHEQMLARYDAE ::: ::::::::: :: :::::: :: :: : :::::: ::: :: :::: : DPEYKLSYFREDIGINAHHWHWHIVYPATWNPTVMGKEKDRKGELFFYMHQQMCARYDSE

16 16 Datenbanksuche z.B. BLAST (Basic Local Alignment Search Tool) => vergleicht zwei Sequenzen miteinander BLASTN: Vergleicht eine Nukleinsäuresequenz mit Nukleinsäuredatenbank => nahe verwandte Sequenzen BLASTP: Vergleicht eine Aminosäuresequenz mit Proteindatenbank. => entfernt verwandte Sequenzen

17 17 Datenbanksuche. BLASTX: Vergleicht eine Nukleinsäuresequenz translatiert in allen 6 Leserastern mit Proteindatenbank. => Für welches Protein kodiert meine Sequenz? TBLASTN: Vergleicht eine Aminosäuresequenz mit Nukleinsäure- datenbank, die in allen 6 Leserastern translatiert wird. => findet z.B. nicht annotierte Proteine in DNA-Daten TBLASTX: Vergleicht die Translationsprodukte aller drei Leseraster einer Nukleinsäuresequenz mit den Translationsprodukten aller 6 Leseraster einer Nukleinsäuredatenbank. => z.B. entfernte Verwandtschaft unbek. DNA-Sequenzen

18 18 BLAST (Basic Local Alignment Search Tool)

19 19 Multiples Sequenz- Alignments Gegeben: Gesucht: SeqA N A F L S SeqB N A F S SeqC N A K Y L S SeqD N A Y L S SeqA N A - F L S SeqB N A - F - S SeqC N A K Y L S SeqD N A - Y L S

20 20 Sequenzalignments Algorithmus (z.B. ClustalX): 1. paarweiser Vergleichen aller Sequenzen miteinander => Berechnung der Distanzen zw. Sequenzen 2. gruppiert Sequenzen nach Ähnlichkeit (Cluster-Bildung) 3. Erstellung paarweiser Alignments 4. sukzessives Alignment nach Ähnlichkeit, dabei die ähnlichsten Sequenzpaare zuerst Wie erhält man ein multiples Sequenzalignment?

21 21 CLUSTALX ABCDABCD 1) Sequenzvergleich Alle Sequenzen werden miteinander verglichen (schnelles "quick and dirty" Alignment) => Berechnen der Distanzen

22 22 CLUSTALX "guide tree" ADBCADBC 2) Ähnliche Sequenzen werden gruppiert => Cluster-Analyse = Erstellung eines hierarchischen Stammbaums ("guide tree"). -D 0.77-C B A DCBA

23 23 ADBCADBC CLUSTALX 3) Alignment von nahe verwandten Sequenzen; die ähnlichsten zuerst. BCBC ADAD

24 24 BCBC ADAD ADAD BCBC ADBCADBC CLUSTALX 4) Sukzessives globales Alignment Lücken = "gaps"

25 25 Alignment Parameter Substitutionsmatrix (Wahrscheinlichkeit von nt bzw. AS-Austauschen) "Gap creation" und "Gap length weights" jeweils für paarweise und Multi- Alignments

26 26 Stammbaumerstellung Anzahl der möglichen Stammbäume: Number of OTUs Number of rooted trees Number of unrooted trees

27 27 Stammbaumerstellung 1.Matrix-orientierte Methoden UPGMA (Unweighted Pair-Group Method with Arithmetric Means) Neighbor-joining Minimal Evolution (least squares) 2. Charakter-orientierte Methoden Maximum Parsimony Maximum Likelihood

28 28 Matrix-orientierte Methoden Aus jedem Datensatz kann im Prinzip eine Distanzmatrix erstellt werden Zwei Schritte: 1.Berechnen der paarweisen Abstände zwischen den einzelnen Sequenzen 2. Erstellen eines Stammbaums anhand dieser Abstandsdaten

29 29 Sequenzevolution Ursprungssequenz Sequenz ASequenz B Zeit Mutationen Unterschied = Divergenz = Distanz

30 30 Berechnung einer Distanzmatrix Sequenz 1 TATAAGCATGACTAGTAAGC Sequenz 2 TATTAGCATGACTGGTAACC Sequenz 3 TATTGGCATGACTAGCAGGC Sequenz 4 TGTTGCCACGATTAGCTACC Sequenz 5 CGTAGCTATGACCAACGGGC Distanz = Durchschnittliche Änderung pro Position hier: 20 Positionen; => Wieviele beobachtete Änderungen?

31 Sequenz Sequenz 2 Sequenz 3 Sequenz 4 Sequenz Sequenz Sequenz 2 Sequenz 3 Sequenz 4 Sequenz 5 Distanzmatrix Sequenz Sequenz Sequenz Sequenz Sequenz Sequenz Sequenz Sequenz Sequenz Sequenz Abstand zwischen Sequenz 1 und Sequenz 2, ausgedrückt in durchschnittlichen Änderungen pro Nukleotidposition (unkorrigierte Hamming-Distanz).

32 32 Abstand gegen Zeit! t % beobachteter Abstand tatsächlicher Abstand zweier Sequenzen = Anzahl der Mutationen => Abstand wird unterschätzt! Sättigung

33 33 Warum? 13 Mutationen => 3 Unterschiede

34 34 Korrektur der Distanzen t % beobachteter Abstand tatsächlicher Abstand = Anzahl der Mutationen Korrektur

35 35 Korrektur der Distanzen Frage: Wie korrigieren wir? Wir wollen die tatsächliche Anzahl der evolutiven Ereignisse rekonstruieren. Wir brauchen also ein Evolutionsmodell, welches die Wahrscheinlichkeit von multiplen Austauschen, Rückmutationen etc. berücksichtigt.

36 36 DNA-Evolutionsmodelle 1969: Jukes & Cantor (JC) 1980: Kimura 2-Parameter (K2P) 1981: Felsenstein 81 (F81) 1985: Hasegawa, Koshino & Yano (HKY85) 1990: General Reversible Model (REV) etc.

37 37 Evolutionsmodell Jukes & Cantor K ist der berechnete Abstand (Anzahl der tatsächlichen Substitutionen), p der beobachtete Abstand zwischen zwei Sequenzen. Korrigierte Distanz nach Jukes & Cantor:

38 38 Abstandsberechnung - Proteine Modelle für Proteinevolution meist empirisch. Nach Kimura 1983: D = - ln(1 - p x p 2 ) Beispiel: Beobachtete Distanz = 60% => p = 0.6 => D = - ln(1 – 0.6 – 0.2 x ) = => d.h., im Schnitt hat an jeder Position ~ 1,11 AS-Austausche stattgefunden

39 39 Aber: Modell ist zu einfach! Denn jeder Aminosäureaustausch wird gleich bewertet. In der Natur aber nicht so beobachtet. In der Praxis sind meist bessere Modelle notwendig. Wir kennen diese Modelle: => PAM, BLOSUM-Matrizen

40 40 Aminosäureeigenschaften C P G G A V I L M F Y WH K R E Q D N S T C SH S+S positiv geladen polar aliphatisch aromatisch klein Sehr klein hydrophob

41 A R N D C Q E G H I L K M F P S T W Y V B Z A R N D C Q E G H I L K M F P S T W Y V B Z F F C PAM- Distanzmatrix Y

42 42 PAM und BLOSUM Matricen Hohe Sequenzähnlichkeit Geringe Sequenzähnlichkeit PAM 1 PAM 120 PAM 250 Hohe Sequenzähnlichkeit Geringe Sequenzähnlichkeit BLOSUM 80 BLOSUM 62 BLOSUM 30

43 43 Distanzmatrix Sequenz Sequenz Sequenz Sequenz Sequenz Sequenz Sequenz Sequenz Sequenz Sequenz Ausgedrückt i.d.R. als Mutationen pro Position Abstand kann > 1 werden! Berechnen des paarweisen Abstands

44 44 Stammbaumerstellung Wie kommen wir von einer Distanzmatrix zu einem Stammbaum? => Algorithmus berechnet aus den Distanzen den "besten" Stammbaum. Sequenzen selbst werden nicht mehr berücksichtigt.

45 45 UPGMA Unweighted Pair-Group Method with Arithmetric Means Additive Methode. OTUs werden durch sequenzielles Clustern nach absteigender Ähnlichkeit gruppiert.

46 46 UPGMA Unweighted Pair-Group Method with Arithmetric Means A B C D OTU A OTU B OTU C 0 19 OTU D 0 A B C D OTU A OTU B OTU C 0 19 OTU D 0 A/B C D OTU A/B OTU C 0 19 OTU D 0 A/B C D OTU A/B OTU C 0 19 OTU D 0 3 A 3 B C 3 A 3 B 6

47 47 UPGMA A/B/C D Sequenz A/B/C 0 19 Sequenz D 0 A/B/C D Sequenz A/B/C 0 19 Sequenz D 0 A 3 B C D nimmt konstante Evolutionsraten an Außengruppe wird "automatisch" bestimmt

48 48 UPGMA A B C D OTU A OTU B OTU C 0 19 OTU D 0 A B C D OTU A OTU B OTU C 0 19 OTU D 0 A B C D OTU A OTU B OTU C 0 19 OTU D 0 A B C D OTU A OTU B OTU C 0 19 OTU D 0 A 3 B C D Ausgangsmatrix rekonstruierte Matrix

49 49 Neighbor-joining (NJ) Ähnlicher Algorithmus wie UPGMA berücksichtigt unterschiedliche Evolutionsraten: => Astlängenberechnung Sukzessives Gruppieren der OTUs Minimierung der Astlängen => Stammbaum wird aufgelöst => keine konstante Evolutionsrate angenommen

50 50 Neighbor-joining (NJ) S = ( d ji )/N; 1 i j N S = Summe aller Astlängen d = Distanzen zwischen allen OTUs N = Anzahl der OTUs Ziel NJ => Minimierung von S

51 51 Neighbor-joining (NJ) Beispiel: A B C D OTU A OTU B OTU C 0 19 OTU D 0 A B C D OTU A OTU B OTU C 0 19 OTU D Abstand OTU A zu allen anderen ist aber kürzer als der von OTU B => Astlängen werden bei ungleichen Raten falsch berechnet. NJ korrigiert dies, indem es den Gesamtabstand des betrachteten OTUs zu allen anderen Sequenzen berücksichtigt B A D C

52 52 Neighbor-joining (NJ) Beispiel: A B C D OTU A OTU B OTU C 0 19 OTU D 0 A B C D OTU A OTU B OTU C 0 19 OTU D 0 1. Schritt: Berechnung der Summe der Abstände S A = d AB + d AC + d AD S

53 53 Neighbor-joining (NJ) A B C D OTU A OTU B OTU C 0 19 OTU D 0 A B C D OTU A OTU B OTU C 0 19 OTU D 0 2. Schritt: Transformation der Matrix: d' AB = d AB – (S A + S B )/2 = 6 – ( )/2 = –30 usw. -30 S

54 54 Neighbor-joining (NJ) Transformation der Matrix: d' AB = d AB – (S A + S B )/2 = 6 – ( )/2 = –30 usw. A B C D S OTU A OTU B OTU C OTU D A B C D S OTU A OTU B OTU C OTU D => Auswahl der Nachbarn (negativster Wert) hier: A+B oder C+D (führen zum gleichen Ergebnis) => Werden durch Knotenpunkt verbunden

55 55 Neighbor-joining (NJ) 3. Schritt: Berechnen des Abstands von A und B zu Knotenpunkt X: d XA = d AB /2 + [S A /(N-2)* - S B /(N-2)]/2 6/2 + ( )/2 = 2 d XB = d AB /2 + [S B /(N-2) - S A /(N-2)]/2 6/2 + ( )/2 = 4 oder einfacher: d AB – d XA = 6 – 2 = 4 B A X 4 2 C D *N-2 = Anzahl der Knotenpunkte A B C D S OTU A OTU B OTU C OTU D A B C D S OTU A OTU B OTU C OTU D

56 56 Neighbor-joining (NJ) Erstellen einer reduzierten Datenmatrix d XC = (d AC – d AX + d BC – d BX )/2 (10 – –4)/2 = 8 usw. X C D S OTU X OTU C OTU D X C D S OTU X OTU C OTU D usw...

57 57 Neighbor-joining (NJ) A B 2 4 C D

58 58 Neighbor-joining (NJ) A B C D OTU A OTU B OTU C 0 19 OTU D 0 A B C D OTU A OTU B OTU C 0 19 OTU D 0 A B C D OTU A OTU B OTU C 0 19 OTU D 0 A B C D OTU A OTU B OTU C 0 19 OTU D 0 Ausgangsmatrix rekonstruierte Matrix A B 2 4 C D

59 59 Neighbor-joining (NJ) Warum Transformation? A B C D OTU A OTU B OTU C 0 13 OTU D 0 A B C D OTU A OTU B OTU C 0 13 OTU D A B C D

60 60 Neighbor-joining (NJ) UPGMA würde rekonstruieren: A B C D OTU A OTU B OTU C 0 13 OTU D 0 A B C D OTU A OTU B OTU C 0 13 OTU D A C D B => "long branch attraction"

61 61 Neighbor-joining (NJ) NJ konstruiert? A B C D S OTU A OTU B OTU C OTU D A B C D S OTU A OTU B OTU C OTU D A B C D

62 62 A 3 B C D UPGMA A B 2 4 C D Neighbor-joining Matrix-orientierte Methoden

63 63 Charakter-orientierte Methoden 1. Maximum Parsimony (MP) 2. Maximum Likelihood (ML) Arbeiten direkt mit dem Alignment Extrahieren mehr Information

64 64 Charakter-orientierte Methoden Charaktere kontinuierliche oder diskontinuierliche Eigenschaften Nukleotide und Aminosäuren können als diskrete, diskontinuierliche Charaktere behandelt werden Der phylogenetische Stammbaum wird anhand des Musters der Änderungen der Charaktere berechnet 1,2,3,4.... = kontinuierliche Charaktere A,T,G,C = diskontinuierliche Charaktere

65 65 Maximum Parsimony Annahme: Evolution ging stets den kürzesten Weg => Methode des "maximalen Geizes" kürzester Stammbaum wird berechnet, d.h., der die wenigsten evolutiven Schritten benötigt.

66 66 Maximum Parsimony Position Sequenz A A A G A G T G C A B A G C C G T G C G C A G A T A T C C A D A G A G A T C C G Beispiel: A B C D A C B D A D B C 3 mögliche Stammbäume ((A,B)(C,D))((A,C)(B,D))((A,D)(B,C))

67 67 Maximum Parsimony Position Sequenz A A A G A G T G C A B A G C C G T G C G C A G A T A T C C A D A G A G A T C C G 3 Positionen invariabel => nicht informativ Welche Positionen sind informativ, bevorzugen also eine bestimmte Topologie?

68 68 Maximum Parsimony Position Sequenz A A A G A G T G C A B A G C C G T G C G C A G A T A T C C A D A G A G A T C C G 6 Positionen sind variabel => aber auch informativ?

69 69 Maximum Parsimony Position Sequenz A A A G A G T G C A B A G C C G T G C G C A G A T A T C C A D A G A G A T C C G 3 Positionen sind zwar variabel, aber nicht informativ

70 70 Maximum Parsimony Position Sequenz A A A G A G T G C A B A G C C G T G C G C A G A T A T C C A D A G A G A T C C G * * * Welche Positionen sind aber nun informativ? => nur 3 von 9 Positionen sind informativ, d.h., favorisieren eine best. Topologie A - G C G * => Indels sind Charaktere!

71 71 Maximum Parsimony Position 3: ((A,B),(C,D))((A,C),(B,D))((A,D),(B,C)) G C A A G A A C G A A C AAAAAA G G A A G A A G G A A G GAAAAA A G A G A A G G A G A G AAAGAA Position 5: Position 9: ?

72 72 Maximum Parsimony A B C D A C B D A D B C 3 mögliche Stammbäume 10 Mutationen 15 Mutationen 14 Mutationen Position Sequenz A A A G A G T G C A B A G C C G T G C G C A G A T A T C C A D A G A G A T C C G * * *

73 73 Maximum Parsimony Position Sequenz A A A G A G T G C A B A G C C G T G C G C A G A T A T C C A D A G A G A T C C G Aber: Ort der Mutation nicht (immer) eindeutig definiert => Parsimony kann keine Astlängen berechnen. A B C D 10 Mutationen A B C D A B C D ===.....

74 74 Proteinparsimony: 1. Modell (z.B. PAUP): Alle Substitutionen sind gleich wahrscheinlich (1 Schritt). Beispiel Ile -> Trp Ile -> Met Ile -> Ala Modell: liegt genetischen Code zugrunde, wobei "silent site mutations" ignoriert werden (PROTPARS-Modell in PHYLIP). Beispiel: Ile -> Met: ATA/C/T -> ATG: ein Schritt Ile -> Ala: ATA/C/T -> GCN: zwei Schritte Ile -> Trp: ATA/C/T -> TGG: drei Schritte Maximum Parsimony

75 75 Maximum Parsimony A B C (1) Start: 3 bel. Taxa (2a) A B D C A B D C A B C D (2b)(2c) + 4. Taxon (D) in jeder möglichen Position -> 3 Bäume + 5. Taxon (E) in jeder der fünf möglichen Positionen => 15 Stammbäume etc. E E E E E

76 76 Maximum Parsimony Problem: Anzahl der möglichen Stammbäume => bei > 10 Sequenzen ausführliche Suche aller Stammbäume de facto unmöglich

77 77 Maximum Parsimony 1. Lösung: "Branch and bound"-Methode verwirft Gruppen von Bäumen, die nicht kürzer werden können als der bis dahin erhaltene kürzeste Stammbaum. Man kann die maximale Stammbaumlänge (in Schritten) vorgeben. Kann für Problemlösungen mit < ~ 20 Taxa verwendet werden.

78 78 Maximum Parsimony 2. Lösung: Heuristische Verfahren: "Random addition" "Branch Swapping": Nearest neighbor interchange (NNI) Subtree pruning and regrafting (SPR) Tree bisection and reconnection (TBR)

79 79 Maximum Parsimony einfach; ohne konkretes Evolutionsmodell Errechnung ancestraler Positionen funktioniert gut mit konsistenen Datensätzen Vorteile: empfindlich gegen Homoplasien (Konvergenz) empfindlich gegen "Long Branch Attraction" Astlängen werden unterschätzt kein Evolutionsmodell möglich für die meisten molekularen Analysen nicht sehr gut geeignet Nachteile:

80 80 Charakter-orientierte Methoden 1. Maximum Parsimony (MP) 2. Maximum Likelihood (ML)

81 81 Maximum Likelihood Die "Likelihood" ist die Wahrscheinlichkeit der beobachteten Daten (Sequenzen!), gegeben die Hypothese (Stammbaum). d.h, es wird der Stammbaum errechnet, der die beobachteten Daten (also die alignierten Sequenzen) am besten (unter der Annahme des Modells) erklärt.

82 82 Maximum Likelihood Probability (P) = Wahrscheinlichkeit Wahrscheinlichkeiten summieren sich stets auf 1 auf: Wie wahrscheinlich ist es, dass ich eine 6 würfele? Antwort: 1/6. Wie wahrscheinlich ist es, dass ich keine 6 würfele? Antwort 5/6. => 1/6 + 5/6 =1. Maximum Likelihood (L) Wahrscheinlichkeit (P) Für "Likelihood"-Werte summieren sich nicht auf 1 auf: => Wie wahrscheinlich ist meine Hypothese unter dem gegebenen Randbedingungen?

83 83 Maximum Likelihood Seq1 CGAGAC Seq2 AGCGAC Seq3 AGATTA Seq4 GGATAG Frage: Wie hoch ist die Wahrscheinlichkeit, daß der Stammbaum A für die Daten (Sequenzen) unter dem gegebenen Modell verantwortlich ist? A

84 84 Maximum Likelihood OTU 1 CGAGA C OTU 2 AGCGA C OTU 3 AGATT A OTU 4 GGATA A j ACGT ? ? C C AA 4 x 4 Möglichkeiten Wurzel willkürlich! Die Wahrscheinlichkeit für eine best. Position j ist die Summe der Einzelwahrscheinlichkeiten aller möglichen ancestralen Nukleotide unter dem gegebenen Modell.

85 85 ML – Beispiel (vereinfacht): CCAACCAA Daten:Modell (nicht realistisch): A T C G A T C G 1 OTU 1 OTU 2 OTU 3 OTU 4

86 86 ML - Beispiel: C C A A Stammbaum A: X Y X,Y = A, T, G, oder C ML: Summe der 4 x 4 Einzelwahrscheinlichkeiten

87 87 ML - Beispiel: Stammbaum 1: C C A A C T C C A A C A 1 x 1 x 0.1 x 1 x 1 = x 1 x 0.1 x 0.1 x 0.1 = usw... Summe aus 16 möglichen Stammbäumen! Stammbaum 2:

88 88 ML - Beispiel: Stammbaum A: C C A A Gesamt"wahrscheinlichkeit": = => logL = C A C A Gesamt"wahrscheinlichkeit": = => logL = Stammbaum B:

89 89 Wahrscheinlichkeit des Stammbaums A ist das Produkt aller Wahrscheinlichkeiten für jede Position. ML-Stammbaum = Stammbaum mit größter "Likelihood". Maximum Likelihood 1 CGAGAC 2 AGCGAC 3 AGATTA 4 GGATAG i.... z A

90 90 Maximum Likelihood Austauschparameter werden aus Evolutionsmodell berechnet Typisches Evolutionsmodell: Substitationswahrscheinlichkeit unabhängig von der Historie der Position (Markov-Modell). Eine Substitutationswahrscheinlichkeit im Stammbaum unabhängig von Zeit oder Position (homogener Markov-Prozeß). Ratenreversibilität: P(A -> T) = P(T -> A).

91 91 Maximum Likelihood - Vorteile Mathematisch gut definiert Funktioniert gut in Simulationsexperimenten Erlaubt explizite Verbindung von Evolutionsmodell und Daten (Sequenzen) "Realistische" Annahmen zur Evolution Verschiedene Modelle und Stammbäume lassen sich testen

92 92 Maximum Likelihood - Nachteile Maximum likelihood ist nur konsistent (ergibt einen "wahren" Stammbaum) wenn die Evolution nach den gegebenen Modell ablief: Wie gut stimmt mein Modell mit den Daten überein? Computertechnisch nicht zu lösen wenn zu viele Taxa oder Parameter berücksichtigt werden müssen.

93 93 Maximum Likelihood Bei vielen Taxa sind computertechnisch nicht alle möglichen Stammbäume berechenbar Lösung: "Intelligente Algorithmen" - Quartet puzzling - Bayessche Methode + MCMCMC

94 94 Statistische Auswertung ML-Methoden Parametrisches Bootstrapping (Datensimulation) Nicht-parametrisches Bootstrapping => häufigste Methode

95 95 Bootstrapping Position Sequence A A A A A G T G C A B A G C C G T G C G C A G A T A T C C A D A G A G A T C C G Orginalsequenzen Position Sequence A A A A A G G G C C B A G G C G G C C C C A G G T A A C C C D A G G G A A C C C Pseudosample 1 z.B. 100 Wiederholungen Position Sequence A A A A A A T G G G B A A A C C T G G G C A A A T T T C C C D A A A G G T C C C Pseudosample 2

96 96 Bootstrapping Freq ** ** ** **** ****** ** ****.* ***** ******* **....* **.....* 1.00 Majority-rule consensus tree Taxon 1 Taxon 3 Taxon 8 Taxon 9 Taxon 4 Taxon 6 Taxon Taxon 2 Taxon 5


Herunterladen ppt "1 Biophysik F1-Praktikum – Kursteil "Molekulare Evolution" Thorsten Burmester Institut für Zoologie Universität Mainz."

Ähnliche Präsentationen


Google-Anzeigen