Biophysik F1-Praktikum – Kursteil "Molekulare Evolution"

Slides:



Advertisements
Ähnliche Präsentationen
Algorithmen und Datenstrukturen
Advertisements

Anzahl der ausgefüllten und eingesandten Fragebögen: 211
Vorlesung: 1 Betriebliche Informationssysteme 2003 Prof. Dr. G. Hellberg Studiengang Informatik FHDW Vorlesung: Betriebliche Informationssysteme Teil3.
Die Projektgruppe heißt Sie herzlichst willkommen
LS 2 / Informatik Datenstrukturen, Algorithmen und Programmierung 2 (DAP2)
Telefonnummer.
Genetische Algorithmen für die Variogrammanpassung
Modelle und Methoden der Linearen und Nichtlinearen Optimierung (Ausgewählte Methoden und Fallstudien) U N I V E R S I T Ä T H A M B U R G November 2011.
1 JIM-Studie 2010 Jugend, Information, (Multi-)Media Landesanstalt für Kommunikation Baden-Württemberg (LFK) Landeszentrale für Medien und Kommunikation.
= = = = 47 = 47 = 48 = =
Statistiken und Tabellen
Quantitative RT-PCR an nativen Prostatakarzinom-Biopsien: Etablierung der Technik und erste vergleichende Ergebnisse Medizinische Fakultät Universitätsklinikum.
Übersicht DIALIGN = DIagonal ALIGNment
Rechneraufbau & Rechnerstrukturen, Folie 2.1 © W. Oberschelp, G. Vossen W. Oberschelp G. Vossen Kapitel 2.
Mh9S170Nr6 a. x1= –9; x2 = 1 b. x1= –4; x2 = 1 c. x1= 1; x2 = 2 d. leer e. x1= –15; x2 = 4,2 f. x1= –3,53; x2 = 1,28 g. leer h. x1= 0,2; x2 = 2 i. x1=
Internet facts 2008-II Graphiken zu dem Berichtsband AGOF e.V. September 2008.
Vorlesung: 1 Betriebliche Informationssysteme 2003 Prof. Dr. G. Hellberg Studiengang Informatik FHDW Vorlesung: Betriebliche Informationssysteme Teil2.
Bioinformatik-Seminar
Differentielles Paar UIN rds gm UIN
Prof. Dr. Bernhard Wasmayr
Studienverlauf im Ausländerstudium
Datenstrukturen, Algorithmen und Programmierung 2 (DAP2)
Univariate Statistik M. Kresken.
Prof. Dr. Bernhard Wasmayr VWL 2. Semester
AWA 2007 Natur und Umwelt Natürlich Leben
Zerlegung von Quadraten und ????
Rechneraufbau & Rechnerstrukturen, Folie 12.1 © W. Oberschelp, G. Vossen W. Oberschelp G. Vossen Kapitel 12.
Prof. Dr. Günter Gerhardinger Soziale Arbeit mit Einzelnen und Familien Übersicht über die Lehrveranstaltung Grundlegende Bestimmungsfaktoren der Praxis.
Daten auswerten Boxplots
20:00.
So kannst du beide schnell berechnen.
„Küsse deine Freunde“ – FlexKom-App teilen
Zusatzfolien zu B-Bäumen
WIRTSCHAFTSLAGE NOCH SCHWIERIG
Eine Einführung in die CD-ROM
GBI Genios Wiso wiso bietet Ihnen das umfassendste Angebot deutsch- und englischsprachiger Literatur für die Wirtschafts- und Sozialwissenschaften. Wir.
Dokumentation der Umfrage
für Weihnachten oder als Tischdekoration für das ganze Jahr
Where Europe does business Lück, JDZB | Seite © GfW NRW 252 a.
Wir üben die Malsätzchen
Syntaxanalyse Bottom-Up und LR(0)
Addieren und Subtrahieren von Dezimalzahlen
Das entscheidende Kriterium ist Schönheit; für häßliche Mathematik ist auf dieser Welt kein beständiger Platz. Hardy.
Der Ablauf eines Clear Rex Klärzyklus
PROCAM Score Alter (Jahre)
Ertragsteuern, 5. Auflage Christiana Djanani, Gernot Brähler, Christian Lösel, Andreas Krenzin © UVK Verlagsgesellschaft mbH, Konstanz und München 2012.
Geometrische Aufgaben
Eine lllustration der Herausforderungen des Stromsystems der Zukunft
Symmetrische Blockchiffren DES – der Data Encryption Standard
Retuschen.ppt Die folgende Schau zeigt die Möglichkeiten, mit PhotoDraw Digitalbilder zu retuschieren. Vergleichen Sie jeweils zwei Bildpaare durch fleissiges.
Primarschule Raron 5. Klasse
Szenisches Lernen Wie Theaterelemente den Unterricht bereichern
Zahlentheorie und Zahlenspiele Hartmut Menzer, Ingo Althöfer ISBN: © 2014 Oldenbourg Wissenschaftsverlag GmbH Abbildungsübersicht / List.
MINDREADER Ein magisch - interaktives Erlebnis mit ENZO PAOLO
1 (C)2006, Hermann Knoll, HTW Chur, FHO Quadratische Reste Definitionen: Quadratischer Rest Quadratwurzel Anwendungen.
Parkplatz-Orga Diese Version ist vom finale Version!
Rekonstruktion phylogenetischer Bäume.
Kamin- und Kachelöfen in Oberösterreich
Zusammengestellt von OE3DSB
Folie Beispiel für eine Einzelauswertung der Gemeindedaten (fiktive Daten)
Dokumentation der Umfrage BR P2.t Ergebnisse in Prozent n= 502 telefonische CATI-Interviews, repräsentativ für die Linzer Bevölkerung ab 18 Jahre;
Technische Frage Technische Frage Bitte löse die folgende Gleichung:
Unternehmensbewertung Thomas Hering ISBN: © 2014 Oldenbourg Wissenschaftsverlag GmbH Abbildungsübersicht / List of Figures Tabellenübersicht.
Forschungsprojekt Statistik 2013 „Jugend zählt“ – Folie 1 Statistik 2013 „Jugend zählt“: Daten zur Arbeit mit Kindern und Jugendlichen.
AGOF facts & figures: Branchenpotenziale im Internet Q2 2014: Parfum & Kosmetik Basis: internet facts / mobile facts 2014-I.
Bürgermeister Absolute Stimmen Gesamt. Bürgermeister Prozentuale Aufteilung Gesamt.
Folie Einzelauswertung der Gemeindedaten
Datum:17. Dezember 2014 Thema:IFRS Update zum Jahresende – die Neuerungen im Überblick Referent:Eberhard Grötzner, EMA ® Anlass:12. Arbeitskreis Internationale.
Sehen, Hören, Schmecken: wenn uns unsere Sinne täuschen
1 Medienpädagogischer Forschungsverbund Südwest KIM-Studie 2014 Landesanstalt für Kommunikation Baden-Württemberg (LFK) Landeszentrale für Medien und Kommunikation.
 Präsentation transkript:

Biophysik F1-Praktikum – Kursteil "Molekulare Evolution" Thorsten Burmester Institut für Zoologie Universität Mainz

Ziel des Kurses: Wie erhalte ich aus meinen (Sequenz-) Daten einen Stammbaum, und was sagt mir dieser? Sequenz 1: KIADKNFTYRHHNQLV Sequenz 2: KVAEKNMTFRRFNDII Sequenz 3: KIADKDFTYRHW-QLV  Sequenz 4: KVADKNFSYRHHNNVV Sequenz 5: KLADKQFTFRHH-QLV

Programm Grundlagen der Molekularen Evolution Datenbanken und Datenbankanalysen Sequenzalignment Stammbaumerstellung Statistische Auswertung

Warum molekulare Phylogenie? Verständnis von phylogenetischen Zusammenhängen: Organismische Evolution (Systematik) Evolution von Proteinfamilien (Funktion!) forensische Medizin (Bsp. HIV) Epidemiologie Mathematische Probleme

Warum molekulare Phylogenie? Rekonstruktion von Verwandtschaftsverhältnissen Morphologische Daten Sequenzdaten Vorteil der Sequenzdaten: - leichte Zugänglichkeit - Grosse Datenmenge - Zumeist frei von Gewichtungen - können aber dennoch zu falschen Ergebnissen führen!

Voraussetzungen der molekularen Phylogenie 1. Evolution vollzieht sich durch Veränderungen. 2. Verwandte Spezies stammen von einem gemeinsamen Vorfahren ab. 3. Die Speziesbildung vollzog sich durch hierarchische Auftrennung. 4. Deren Verlauf läßt sich durch Stammbäume darstellen. 5. Es gibt nur einen historisch korrekten Stammbaum. 6. Organismen sind historisch. Sowohl die Morphologie als auch die DNA- und Aminosäuresequenzen speichern die Informationen über die Vergangenheit. 7. Die Methoden der molekularen Evolution erlauben die Extraktion der in der DNA bzw. den Proteinen gespeicherten Informationen.

Was ist ein Stammbaum? Darstellung der Verwandtschaftsverhältnisse A A Schwestergruppen A A B B C C D D E E F F t A – F auch "operational taxonomic units" (OTUs)

Phylogenetische Grundbegriffe Außengruppe (outgroup) A B C D E Dichotomie Polytomie A B C D E Ast (branch) Knotenpunkt (node)

Phylogenetische Grundbegriffe Monophylie monophyletische Taxa (AB) (CDEF) (DEF) (EF) A B C D E F

Phylogenetische Grundbegriffe "Reptilien" Paraphylie => nicht alle Nachkommen werden erfasst Eidechsen + Schlangen Schildkröten Krokodile Vögel aufgrund von Plesiomorphien (ursprünglichen Merkmalen)

Phylogenetische Grundbegriffe "Geier" Polyphylie => verschiedenen Ursprungs Neuwelt- Geier Storchen-vögel Altwelt- Geier Raubvögel aufgrund von Homoplasien (Konvergenzen)

ungewurzeletes Phylogramm Regenwurm Tausendfüsser Tintenfisch Schnecke Languste Vogelspinne Heuschrecke => keine Evolutions"richtung"

Stammbaum = "outgroup" Mit Außengruppe gewurzelt t Mensch (Außengruppe) Regenwurm Schnecke Tintenfisch Tausendfüsser Heuschrecke Languste Wurzel ("Root") Vogelspinne t

Molekure Phylogenie Vorgehensweise zur Stammbaumerstellung: Wie ist meine Sequenz zu anderen verwandt? Auswahl ähnlicher Sequenzen aus Datenbanken Sequenzalignment Molekularphylogenetische Analyse Statistische Überprüfung B. Wie sind bestimmte Taxa miteinander verwandt? Auswahl geeigneter Sequenzen Sequenzierung (Datenbanken, Klonierung, PCR) Sequenzalignment usw. wie oben

Welche Sequenz ist meiner Sequenz "ähnlich"? => Sequenzvergleich: Datenbanksuche: Welche Sequenz ist meiner Sequenz "ähnlich"? => Sequenzvergleich: "Alignment" (dt. Alignierung) DPEFKLSYFREDIAINSHHWHWHVIYPVGSNPS--DKKINRKGELFYYMHEQMLARYDAE ::: ::::::::: :: :::::: :: :: : :::::: ::: :: :::: : DPEYKLSYFREDIGINAHHWHWHIVYPATWNPTVMGKEKDRKGELFFYMHQQMCARYDSE

Datenbanksuche z.B. BLAST (Basic Local Alignment Search Tool) => vergleicht zwei Sequenzen miteinander BLASTN: Vergleicht eine Nukleinsäuresequenz mit Nukleinsäuredatenbank => nahe verwandte Sequenzen BLASTP: Vergleicht eine Aminosäuresequenz mit Proteindatenbank. => entfernt verwandte Sequenzen

Datenbanksuche . BLASTX: Vergleicht eine Nukleinsäuresequenz translatiert in allen 6 Leserastern mit Proteindatenbank. => Für welches Protein kodiert meine Sequenz? TBLASTN: Vergleicht eine Aminosäuresequenz mit Nukleinsäure- datenbank, die in allen 6 Leserastern translatiert wird. => findet z.B. nicht annotierte Proteine in DNA-Daten TBLASTX: Vergleicht die Translationsprodukte aller drei Leseraster einer Nukleinsäuresequenz mit den Translationsprodukten aller 6 Leseraster einer Nukleinsäuredatenbank. => z.B. entfernte Verwandtschaft unbek. DNA-Sequenzen

BLAST (Basic Local Alignment Search Tool)

Multiples Sequenz-Alignments Gegeben: SeqA N A F L S SeqB N A F S SeqC N A K Y L S SeqD N A Y L S Gesucht: SeqA N A - F L S SeqB N A - F - S SeqC N A K Y L S SeqD N A - Y L S

Sequenzalignments Wie erhält man ein multiples Sequenzalignment? Algorithmus (z.B. ClustalX): 1. paarweiser Vergleichen aller Sequenzen miteinander => Berechnung der Distanzen zw. Sequenzen 2. gruppiert Sequenzen nach Ähnlichkeit (Cluster-Bildung) 3. Erstellung paarweiser Alignments 4. sukzessives Alignment nach Ähnlichkeit, dabei die ähnlichsten Sequenzpaare zuerst

CLUSTALX 1) Sequenzvergleich B C D Alle Sequenzen werden miteinander verglichen (schnelles "quick and dirty" Alignment) => Berechnen der Distanzen

CLUSTALX 2) Ähnliche Sequenzen werden gruppiert => Cluster-Analyse = Erstellung eines hierarchischen Stammbaums ("guide tree"). A B C D A D B C A - 0.75 0.89 0.27 B - 0.45 0.82 C - 0.77 "guide tree" D -

CLUSTALX 3) Alignment von nahe verwandten Sequenzen; die ähnlichsten zuerst. B C A D A D B C

CLUSTALX 4) Sukzessives globales Alignment A D B C A D B C A D B C Lücken = "gaps"

Alignment Parameter Substitutionsmatrix (Wahrscheinlichkeit von nt bzw. AS-Austauschen) "Gap creation" und "Gap length weights" jeweils für paarweise und Multi-Alignments

Stammbaumerstellung Anzahl der möglichen Stammbäume: 2 1 1 3 3 1 4 15 Number Number of Number of of OTUs rooted trees unrooted trees 2 1 1 3 3 1 4 15 3 5 105 15 6 954 105 7 10395 954 8 135135 10395 9 2027025 135135 10 34459425 2027025

Stammbaumerstellung Matrix-orientierte Methoden UPGMA (Unweighted Pair-Group Method with Arithmetric Means) Neighbor-joining Minimal Evolution (least squares) 2. Charakter-orientierte Methoden Maximum Parsimony Maximum Likelihood

Matrix-orientierte Methoden Aus jedem Datensatz kann im Prinzip eine Distanzmatrix erstellt werden Zwei Schritte: Berechnen der paarweisen Abstände zwischen den einzelnen Sequenzen 2. Erstellen eines Stammbaums anhand dieser Abstandsdaten

Sequenzevolution Ursprungssequenz Mutationen Sequenz A Sequenz B Zeit Sequenz A Sequenz B Unterschied = Divergenz = Distanz

Berechnung einer Distanzmatrix Sequenz 1 TATAAGCATGACTAGTAAGC Sequenz 2 TATTAGCATGACTGGTAACC Sequenz 3 TATTGGCATGACTAGCAGGC Sequenz 4 TGTTGCCACGATTAGCTACC Sequenz 5 CGTAGCTATGACCAACGGGC Distanz = Durchschnittliche Änderung pro Position hier: 20 Positionen; => Wieviele beobachtete Änderungen?

Distanzmatrix 1 2 3 4 5 Sequenz 1 0.00 0.15 Sequenz 2 Sequenz 3 Sequenz 4 Sequenz 5 1 2 3 4 5 Sequenz 1 0.00 0.15 0.20 0.45 0.50 Sequenz 2 0.00 0.25 0.40 0.65 Sequenz 3 0.00 0.35 0.40 Sequenz 4 0.00 0.50 Sequenz 5 0.00 Abstand zwischen Sequenz 1 und Sequenz 2, ausgedrückt in durchschnittlichen Änderungen pro Nukleotidposition (unkorrigierte Hamming-Distanz).

Abstand gegen Zeit! % t => Abstand wird unterschätzt! tatsächlicher Abstand zweier Sequenzen = Anzahl der Mutationen % Sättigung beobachteter Abstand => Abstand wird unterschätzt! t

Warum? 13 Mutationen => 3 Unterschiede

Korrektur der Distanzen tatsächlicher Abstand = Anzahl der Mutationen % Korrektur beobachteter Abstand t

Korrektur der Distanzen Frage: Wie korrigieren wir? Wir wollen die tatsächliche Anzahl der evolutiven Ereignisse rekonstruieren. Wir brauchen also ein Evolutionsmodell, welches die Wahrscheinlichkeit von multiplen Austauschen, Rückmutationen etc. berücksichtigt.

DNA-Evolutionsmodelle 1969: Jukes & Cantor (JC) 1980: Kimura 2-Parameter (K2P) 1981: Felsenstein 81 (F81) 1985: Hasegawa, Koshino & Yano (HKY85) 1990: General Reversible Model (REV) etc.

Evolutionsmodell Jukes & Cantor Korrigierte Distanz nach Jukes & Cantor: K ist der berechnete Abstand (Anzahl der tatsächlichen Substitutionen), p der beobachtete Abstand zwischen zwei Sequenzen.

Abstandsberechnung - Proteine Modelle für Proteinevolution meist empirisch. Nach Kimura 1983: D = - ln(1 - p - 0.2 x p2) Beispiel: Beobachtete Distanz = 60% => p = 0.6 => D = - ln(1 – 0.6 – 0.2 x 0.62) = 1.11474 => d.h., im Schnitt hat an jeder Position ~ 1,11 AS-Austausche stattgefunden

Aber: Modell ist zu einfach! Denn jeder Aminosäureaustausch wird gleich bewertet. In der Natur aber nicht so beobachtet. In der Praxis sind meist bessere Modelle notwendig. Wir kennen diese Modelle: => PAM, BLOSUM-Matrizen

Aminosäureeigenschaften Sehr klein P aliphatisch C klein S+S G G I A V S C N SH L T D hydrophob M Y K E Q F W H R positiv aromatisch polar geladen

PAM-Distanzmatrix C F Y F -4 9 7 A R N D C Q E G H I L K M F P S T W Y V B Z A 2 -2 0 0 -2 0 0 1 -1 -1 -2 -1 -1 -3 1 1 1 -6 -3 0 2 1 R -2 6 0 -1 -4 1 -1 -3 2 -2 -3 3 0 -4 0 0 -1 2 -4 -2 1 2 N 0 0 2 2 -4 1 1 0 2 -2 -3 1 -2 -3 0 1 0 -4 -2 -2 4 3 D 0 -1 2 4 -5 2 3 1 1 -2 -4 0 -3 -6 -1 0 0 -7 -4 -2 5 4 C -2 -4 -4 -5 12 -5 -5 -3 -3 -2 -6 -5 -5 -4 -3 0 -2 -8 0 -2 -3 -4 Q 0 1 1 2 -5 4 2 -1 3 -2 -2 1 -1 -5 0 -1 -1 -5 -4 -2 3 5 E 0 -1 1 3 -5 2 4 0 1 -2 -3 0 -2 -5 -1 0 0 -7 -4 -2 4 5 G 1 -3 0 1 -3 -1 0 5 -2 -3 -4 -2 -3 -5 0 1 0 -7 -5 -1 2 1 H -1 2 2 1 -3 3 1 -2 6 -2 -2 0 -2 -2 0 -1 -1 -3 0 -2 3 3 I -1 -2 -2 -2 -2 -2 -2 -3 -2 5 2 -2 2 1 -2 -1 0 -5 -1 4 -1 -1 L -2 -3 -3 -4 -6 -2 -3 -4 -2 2 6 -3 4 2 -3 -3 -2 -2 -1 2 -2 -1 K -1 3 1 0 -5 1 0 -2 0 -2 -3 5 0 -5 -1 0 0 -3 -4 -2 2 2 M -1 0 -2 -3 -5 -1 -2 -3 -2 2 4 0 6 0 -2 -2 -1 -4 -2 2 -1 0 F -3 -4 -3 -6 -4 -5 -5 -5 -2 1 2 -5 0 9 -5 -3 -3 0 7 -1 -3 -4 P 1 0 0 -1 -3 0 -1 0 0 -2 -3 -1 -2 -5 6 1 0 -6 -5 -1 1 1 S 1 0 1 0 0 -1 0 1 -1 -1 -3 0 -2 -3 1 2 1 -2 -3 -1 2 1 T 1 -1 0 0 -2 -1 0 0 -1 0 -2 0 -1 -3 0 1 3 -5 -3 0 2 1 W -6 2 -4 -7 -8 -5 -7 -7 -3 -5 -2 -3 -4 0 -6 -2 -5 17 0 -6 -4 -4 Y -3 -4 -2 -4 0 -4 -4 -5 0 -1 -1 -4 -2 7 -5 -3 -3 0 10 -2 -2 -3 V 0 -2 -2 -2 -2 -2 -2 -1 -2 4 2 -2 2 -1 -1 -1 0 -6 -2 4 0 0 B 2 1 4 5 -3 3 4 2 3 -1 -2 2 -1 -3 1 2 2 -4 -2 0 6 5 Z 1 2 3 4 -4 5 5 1 3 -1 -1 2 0 -4 1 1 1 -4 -3 0 5 6 C F Y This is an example of a PAM matrix. The matrix has positive and negative values. The average score of all scores has to be negative in order to be able to detect weak local similarities. Extreme values: Lowest score: -8 (tryptophan - cystein) This substitution was rarely observed by Dayhoff and coworkers. Highest score: 17 tryptophan - tryptophan Tryptophan is a highly conserved residue. The score value of a pair of identical aa reflects the probability of remaining unchanged. F -4 9 7

PAM und BLOSUM Matricen Hohe Sequenzähnlichkeit Hohe Sequenzähnlichkeit PAM 1 PAM 120 PAM 250 BLOSUM 80 BLOSUM 62 BLOSUM 30 Geringe Sequenzähnlichkeit Geringe Sequenzähnlichkeit

Distanzmatrix Berechnen des paarweisen Abstands Sequenz 1 0.000 0.236 0.621 0.702 1.510 Sequenz 2 0.000 0.599 0.672 1.482 Sequenz 3 0.000 0.112 1.561 Sequenz 4 0.000 1.425 Sequenz 5 0.000 Ausgedrückt i.d.R. als Mutationen pro Position Abstand kann > 1 werden!

Stammbaumerstellung Wie kommen wir von einer Distanzmatrix zu einem Stammbaum? => Algorithmus berechnet aus den Distanzen den "besten" Stammbaum. Sequenzen selbst werden nicht mehr berücksichtigt.

UPGMA Unweighted Pair-Group Method with Arithmetric Means Additive Methode. OTUs werden durch sequenzielles Clustern nach absteigender Ähnlichkeit gruppiert.

UPGMA Unweighted Pair-Group Method with Arithmetric Means A B C D OTU A 0 6 10 18 OTU B 0 12 20 OTU C 0 19 OTU D 0 3 A B 6 3 A B 2.5 5.5 C A/B C D OTU A/B 0 11 19 OTU C 0 19 OTU D 0

UPGMA nimmt konstante Evolutionsraten an A/B/C D Sequenz A/B/C 0 19 Sequenz D 0 A 3 B 2.5 5.5 C D 4 9.5 nimmt konstante Evolutionsraten an Außengruppe wird "automatisch" bestimmt

UPGMA A B C D Ausgangsmatrix A B C D OTU A 0 6 10 18 OTU B 0 12 20 OTU C 0 19 OTU D 0 A 3 B 2.5 5.5 C D 4 9.5 rekonstruierte Matrix A B C D OTU A 0 6 11 19 OTU B 0 11 19 OTU C 0 19 OTU D 0

Neighbor-joining (NJ) Ähnlicher Algorithmus wie UPGMA berücksichtigt unterschiedliche Evolutionsraten: => Astlängenberechnung Sukzessives Gruppieren der OTUs Minimierung der Astlängen => Stammbaum wird aufgelöst => keine konstante Evolutionsrate angenommen

Neighbor-joining (NJ) S = ( dji)/N; 1ijN S = Summe aller Astlängen d = Distanzen zwischen allen OTUs N = Anzahl der OTUs Ziel NJ => Minimierung von S

Neighbor-joining (NJ) Beispiel: C A A B C D OTU A 0 6 10 18 OTU B 0 12 20 OTU C 0 19 OTU D 0 10 18 12 20 B D Abstand OTU A zu allen anderen ist aber kürzer als der von OTU B => Astlängen werden bei ungleichen Raten falsch berechnet. NJ korrigiert dies, indem es den Gesamtabstand des betrachteten OTUs zu allen anderen Sequenzen berücksichtigt

Neighbor-joining (NJ) Beispiel: A B C D OTU A 0 6 10 18 OTU B 0 12 20 OTU C 0 19 OTU D 0 S 34 38 41 57 1. Schritt: Berechnung der Summe der Abstände SA = dAB + dAC + dAD

Neighbor-joining (NJ) A B C D OTU A 0 6 10 18 OTU B 0 12 20 OTU C 0 19 OTU D 0 S 34 38 41 57 -30 2. Schritt: Transformation der Matrix: d'AB = dAB – (SA + SB)/2 = 6 – (34 + 38)/2 = –30 usw.

Neighbor-joining (NJ) Transformation der Matrix: d'AB = dAB – (SA + SB)/2 = 6 – (34 + 38)/2 = –30 usw. A B C D S OTU A 0 6 10 18 34 OTU B -30 0 12 20 38 OTU C -27.5 -27.5 0 19 41 OTU D -27.5 -29.5 -30 0 57 => Auswahl der Nachbarn (negativster Wert) hier: A+B oder C+D (führen zum gleichen Ergebnis) => Werden durch Knotenpunkt verbunden

Neighbor-joining (NJ) 3. Schritt: Berechnen des Abstands von A und B zu Knotenpunkt X: dXA = dAB/2 + [SA/(N-2)* - SB/(N-2)]/2 <=> 6/2 + (17 - 19)/2 = 2 dXB = dAB/2 + [SB/(N-2) - SA/(N-2)]/2 <=> <=> 6/2 + (19 - 17)/2 = 4 oder einfacher: dAB – dXA = 6 – 2 = 4 A B C D S OTU A 0 6 10 18 34 OTU B -30 0 12 20 38 OTU C -27.5 -27.5 0 19 41 OTU D -27.5 -29.5 -30 0 57 B A X 4 2 C D *N-2 = Anzahl der Knotenpunkte

Neighbor-joining (NJ) Erstellen einer reduzierten Datenmatrix dXC = (dAC – dAX + dBC – dBX)/2 <=> (10 – 2 + 12 –4)/2 = 8 usw. X C D S OTU X 0 8 16 24 OTU C -17.5 0 19 27 OTU D -15.5 -12 0 35 usw...

Neighbor-joining (NJ) A B 2 4 C 5.5 2.5 13.5 D

Neighbor-joining (NJ) Ausgangsmatrix A B C D OTU A 0 6 10 18 OTU B 0 12 20 OTU C 0 19 OTU D 0 A B 2 4 C 5.5 2.5 13.5 D rekonstruierte Matrix A B C D OTU A 0 6 10 18 OTU B 0 12 20 OTU C 0 19 OTU D 0

Neighbor-joining (NJ) Warum Transformation? 3 2 5 1 7 15 A B C D A B C D OTU A 0 18 10 13 OTU B 0 22 25 OTU C 0 13 OTU D 0

Neighbor-joining (NJ) UPGMA würde rekonstruieren: => "long branch attraction" 5 1.5 6.5 4.33 10.83 A C D B A B C D OTU A 0 18 10 13 OTU B 0 22 25 OTU C 0 13 OTU D 0

Neighbor-joining (NJ) NJ konstruiert? 3 2 5 1 7 15 A B C D A B C D S OTU A 0 18 10 13 41 OTU B -35 0 22 25 65 OTU C -33 -33 0 13 45 OTU D -31.5 -31.5 -33.5 0 48

Matrix-orientierte Methoden UPGMA Neighbor-joining A 3 B 2.5 5.5 C D 4 9.5 A B 2 4 C 5.5 2.5 13.5 D

Charakter-orientierte Methoden Maximum Parsimony (MP) Maximum Likelihood (ML) Arbeiten direkt mit dem Alignment Extrahieren mehr Information

Charakter-orientierte Methoden Charaktere kontinuierliche oder diskontinuierliche Eigenschaften Nukleotide und Aminosäuren können als diskrete, diskontinuierliche Charaktere behandelt werden Der phylogenetische Stammbaum wird anhand des Musters der Änderungen der Charaktere berechnet 1,2,3,4.... = kontinuierliche Charaktere A,T,G,C = diskontinuierliche Charaktere

Maximum Parsimony Annahme: Evolution ging stets den kürzesten Weg => Methode des "maximalen Geizes" kürzester Stammbaum wird berechnet, d.h., der die wenigsten evolutiven Schritten benötigt.

Maximum Parsimony Position Beispiel: Sequenz 1 2 3 4 5 6 7 8 9 A A A G A G T G C A B A G C C G T G C G C A G A T A T C C A D A G A G A T C C G Beispiel: A B C D A C B D A D B C 3 mögliche Stammbäume ((A,B)(C,D)) ((A,C)(B,D)) ((A,D)(B,C))

Maximum Parsimony Welche Positionen sind informativ, bevorzugen also eine bestimmte Topologie? Position Sequenz 1 2 3 4 5 6 7 8 9 A A A G A G T G C A B A G C C G T G C G C A G A T A T C C A D A G A G A T C C G 3 Positionen invariabel => nicht informativ

Maximum Parsimony 6 Positionen sind variabel Sequenz 1 2 3 4 5 6 7 8 9 A A A G A G T G C A B A G C C G T G C G C A G A T A T C C A D A G A G A T C C G 6 Positionen sind variabel => aber auch informativ?

Maximum Parsimony Position Sequenz 1 2 3 4 5 6 7 8 9 A A A G A G T G C A B A G C C G T G C G C A G A T A T C C A D A G A G A T C C G 3 Positionen sind zwar variabel, aber nicht informativ

Maximum Parsimony Welche Positionen sind aber nun informativ? Position Sequenz 1 2 3 4 5 6 7 8 9 A A A G A G T G C A B A G C C G T G C G C A G A T A T C C A D A G A G A T C C G * * * 10 11 - A - G C G * => nur 3 von 9 Positionen sind informativ, d.h., favorisieren eine best. Topologie. => Indels sind Charaktere!

? Maximum Parsimony Position 3: • • • • • • Position 5: • • • • • ((A,B),(C,D)) ((A,C),(B,D)) ((A,D),(B,C)) G C A G A C G A C ? Position 3: • • • A A A A A A • • • Position 5: G A G A G A • • • G A A A A A • • Position 9: A G A G A G • A A A G A A • • • •

Maximum Parsimony Position Sequenz 1 2 3 4 5 6 7 8 9 A A A G A G T G C A B A G C C G T G C G C A G A T A T C C A D A G A G A T C C G * * * A B C D A C B D A D B C 3 mögliche Stammbäume 10 Mutationen 15 Mutationen 14 Mutationen

Maximum Parsimony Aber: Ort der Mutation nicht (immer) eindeutig definiert => Parsimony kann keine Astlängen berechnen. Position Sequenz 1 2 3 4 5 6 7 8 9 A A A G A G T G C A B A G C C G T G C G C A G A T A T C C A D A G A G A T C C G A B C D 10 Mutationen = .....

Maximum Parsimony Proteinparsimony: 1. Modell (z.B. PAUP): Alle Substitutionen sind gleich wahrscheinlich (1 Schritt). Beispiel Ile -> Trp  Ile -> Met  Ile -> Ala ... 2. Modell: liegt genetischen Code zugrunde, wobei "silent site mutations" ignoriert werden (PROTPARS-Modell in PHYLIP). Beispiel: Ile -> Met: ATA/C/T -> ATG: ein Schritt Ile -> Ala: ATA/C/T -> GCN: zwei Schritte Ile -> Trp: ATA/C/T -> TGG: drei Schritte

Maximum Parsimony (1) B C A (2a) A B D C (2b) (2c) E Start: 3 bel. Taxa A (2a) A B D C (2b) (2c) + 4. Taxon (D) in jeder möglichen Position -> 3 Bäume + 5. Taxon (E) in jeder der fünf möglichen Positionen => 15 Stammbäume etc. E

Maximum Parsimony Problem: Anzahl der möglichen Stammbäume Number of OTUs Number of rooted trees unrooted trees 2 1 3 4 15 5 105 6 954 7 10395 8 135135 9 2027025 10 34459425 => bei > 10 Sequenzen ausführliche Suche aller Stammbäume de facto unmöglich

Maximum Parsimony Lösung: "Branch and bound"-Methode verwirft Gruppen von Bäumen, die nicht kürzer werden können als der bis dahin erhaltene kürzeste Stammbaum. Man kann die maximale Stammbaumlänge (in Schritten) vorgeben. Kann für Problemlösungen mit < ~ 20 Taxa verwendet werden.

Maximum Parsimony 2. Lösung: Heuristische Verfahren: "Random addition" "Branch Swapping": Nearest neighbor interchange (NNI) Subtree pruning and regrafting (SPR) Tree bisection and reconnection (TBR)

Maximum Parsimony Vorteile: einfach; ohne konkretes Evolutionsmodell Errechnung ancestraler Positionen funktioniert gut mit konsistenen Datensätzen Nachteile: empfindlich gegen Homoplasien (Konvergenz) empfindlich gegen "Long Branch Attraction" Astlängen werden unterschätzt kein Evolutionsmodell möglich für die meisten molekularen Analysen nicht sehr gut geeignet

Charakter-orientierte Methoden 1. Maximum Parsimony (MP)  2. Maximum Likelihood (ML)

Maximum Likelihood Die "Likelihood" ist die Wahrscheinlichkeit der beobachteten Daten (Sequenzen!), gegeben die Hypothese (Stammbaum). d.h, es wird der Stammbaum errechnet, der die beobachteten Daten (also die alignierten Sequenzen) am besten (unter der Annahme des Modells) erklärt.

Maximum Likelihood Probability (P) = Wahrscheinlichkeit Wahrscheinlichkeiten summieren sich stets auf 1 auf: Wie wahrscheinlich ist es, dass ich eine 6 würfele? Antwort: 1/6. Wie wahrscheinlich ist es, dass ich keine 6 würfele? Antwort 5/6. => 1/6 + 5/6 =1. Maximum Likelihood (L)  Wahrscheinlichkeit (P) Für "Likelihood"-Werte summieren sich nicht auf 1 auf: => Wie wahrscheinlich ist meine Hypothese unter dem gegebenen Randbedingungen?

Maximum Likelihood Seq1 CGAGAC Seq2 AGCGAC Seq3 AGATTA Seq4 GGATAG A 1 Frage: Wie hoch ist die Wahrscheinlichkeit, daß der Stammbaum A für die Daten (Sequenzen) unter dem gegebenen Modell verantwortlich ist?

Maximum Likelihood OTU 1 CGAGA C OTU 2 AGCGA C OTU 3 AGATT A OTU 4 GGATA A C C A A ACGT ? Wurzel willkürlich! j ? ACGT 4 x 4 Möglichkeiten Die Wahrscheinlichkeit für eine best. Position j ist die Summe der Einzelwahrscheinlichkeiten aller möglichen ancestralen Nukleotide unter dem gegebenen Modell.

ML – Beispiel (vereinfacht): Daten: Modell (nicht realistisch): A T C G A 1 0.1 0.1 0.1 T 1 0.1 0.1 C 1 0.1 G 1 OTU 1 OTU 2 OTU 3 OTU 4 C A

ML - Beispiel: Stammbaum A: A C X,Y = A, T, G, oder C X Y C A ML: Summe der 4 x 4 Einzelwahrscheinlichkeiten

ML - Beispiel: Stammbaum 1: Stammbaum 2: A A C C T 1 x 1 x 0.1 x 1 x 1 = 0.1 1 x 1 x 0.1 x 0.1 x 0.1 = 0.001 usw... Summe aus 16 möglichen Stammbäumen!

ML - Beispiel: Stammbaum A: Stammbaum B: C A C A Gesamt"wahrscheinlichkeit": = 0.12427 => logL = -0.90563 C A Gesamt"wahrscheinlichkeit": = 0.02302 => logL = -1.6379 Stammbaum B:

Maximum Likelihood 1 CGAGAC 2 AGCGAC 3 AGATTA 4 GGATAG A i . . . . z 1 Wahrscheinlichkeit des Stammbaums A ist das Produkt aller Wahrscheinlichkeiten für jede Position. ML-Stammbaum = Stammbaum mit größter "Likelihood".

Maximum Likelihood Austauschparameter werden aus Evolutionsmodell berechnet Typisches Evolutionsmodell: Substitationswahrscheinlichkeit unabhängig von der Historie der Position (Markov-Modell). Eine Substitutationswahrscheinlichkeit im Stammbaum unabhängig von Zeit oder Position (homogener Markov-Prozeß). Ratenreversibilität: P(A -> T) = P(T -> A).

Maximum Likelihood - Vorteile Mathematisch gut definiert Funktioniert gut in Simulationsexperimenten Erlaubt explizite Verbindung von Evolutionsmodell und Daten (Sequenzen) "Realistische" Annahmen zur Evolution Verschiedene Modelle und Stammbäume lassen sich testen

Maximum Likelihood - Nachteile Maximum likelihood ist nur konsistent (ergibt einen "wahren" Stammbaum) wenn die Evolution nach den gegebenen Modell ablief: Wie gut stimmt mein Modell mit den Daten überein? Computertechnisch nicht zu lösen wenn zu viele Taxa oder Parameter berücksichtigt werden müssen.

Maximum Likelihood Bei vielen Taxa sind computertechnisch nicht alle möglichen Stammbäume berechenbar Lösung: "Intelligente Algorithmen" - Quartet puzzling - Bayessche Methode + MCMCMC

Statistische Auswertung ML-Methoden Parametrisches Bootstrapping (Datensimulation) Nicht-parametrisches Bootstrapping => häufigste Methode

Bootstrapping Orginalsequenzen Pseudosample 1 Pseudosample 2 Position Sequence 1 2 2 4 5 5 7 8 8 A A A A A G G G C C B A G G C G G C C C C A G G T A A C C C D A G G G A A C C C Pseudosample 1 Position Sequence 1 2 3 4 5 6 7 8 9 A A A A A G T G C A B A G C C G T G C G C A G A T A T C C A D A G A G A T C C G Position Sequence 1 1 1 4 4 6 7 7 7 A A A A A A T G G G B A A A C C T G G G C A A A T T T C C C D A A A G G T C C C Pseudosample 2 z.B. 100 Wiederholungen

Bootstrapping 123456789 Freq ----------------- .**...... 100.00 Taxon 1 123456789 Freq ----------------- .**...... 100.00 ...**.... 100.00 .....**.. 100.00 ...****.. 100.00 ...****** 95.50 .......** 84.33 ...****.* 11.83 ...*****. 3.83 .*******. 2.50 .**....*. 1.00 .**.....* 1.00 Taxon 2 100 Taxon 3 Taxon 8 84 Taxon 9 96 Taxon 4 100 Taxon 5 100 Taxon 6 100 Taxon 7 Majority-rule consensus tree