Präsentation herunterladen
Veröffentlicht von:Gertie Alder Geändert vor über 10 Jahren
1
Einführung in die Phylogenie (lat.: phylum = Stamm)
2
Phylogenetische Bäume
Stammbaum (Phylogenetic Tree)
3
Stammbäume versus Klassifikation
Zuerst war die Klassifikation Carl Linnaeus, ca. 1740: Systema Naturae Annahme: Arten verändern sich nicht (Prä-Darwin) Einteilung der Lebewesen in Kingdoms -classes–orders–families–genera- species SKOFGA (Stamm, Klasse, Ordnung, Familie, Gattung, Art) Innere Knoten einer Klassifikation sind abstrakt
4
Tree of Life
5
Klassifikation Eukaryoten Tiere diverse Zwischenstufen
Chraniata (Schädelknochen) Vertebraten (Wirbeltier) Viele Zwischenstufen Mammals(Säugetiere) Eutheria(Plazentatiere/Höhere Säuger) Primaten (Affen) Catarrhini (Altweltaffen) Hominidae(Mensch, Schimpanse, Orang- Utan, Gorilla) Homo (erectus, sapiens ...) Homo Sapiens
6
Stammbäume Charles Darwin: „The origin of species“ (1859)
Arten sind nicht unveränderlich, sondern unterliegen im Laufe der Zeit einem Wandel „Survivalof the fittest“ Damals noch unklar, was sich eigentlich wandelt Stammbäume(Abstammungsbäume) Ergeben sich aus der Annahme der Evolution Auch Stammbäume wurden lange aus morphologischen Eigenschaften abgeleitet Jeder Knoten in einem Stammbaum hat einmal als Art existiert–Knoten im Baum (also Spezies) heißen taxa Was definiert eine Spezies?
7
„Homo floresiensis“ (Hobbit?)
Entdeckung 2003 Lebte vermutlich vor bis vor Jahren auf der indonesischen Insel Flores Körperhöhe nur ca. 100 cm Gehirnvolumen nur 380 cm3 Homo erectus: , h. sapiens: 1400 Rückentwicklung? Vorläufer? Quelle: Brown, P. et al. Nature431, (2004).
8
Evolutionsgeschichte neu geschrieben
Stammbaum –welche Art geht aus welcher hervor?
9
Computer-Abstammung
10
Moderne Stammbaumberechnung
Molecular phylogeny Mendel + Darwin: Das Erbgut unterliegt dem Wandel Berechnung von Stammbäumen aus molekularen Daten Zuckerkandl und Pauling, 1965 Berechnung aufgrund von DNA oder Proteinsequenzen Annahme: Evolution verläuft in kleinen Schritten Wenn sich Sequenzen ähnlich sind, sind die Spezies evolutionär eng verwandt Denn zufällige Ähnlichkeit ist zu unwahrscheinlich
11
Arten von Stammbäumen Individuelle Abstammung Speziesstammbäume
Stammbäume, Ahnentafeln Natürlich kein Baum: Zwei Eltern Rekombination Speziesstammbäume Ein Baum, wenn Spezies nicht verschmelzen können Sprachen verschmelzen Gene Trees Geschichte eines Sequenzabschnitts Nicht leicht zu definieren Baumförmig, wenn Gene nicht verschmelzen Aber: 2 Allele jedes Gens vorhanden (Besser: HaplotypTree)
12
Wozu? Aufklärung der evolutionären Verhältnisse
Aufklärung von familiären Verhältnissen Wenn genügend Sequenzen vorhanden Aufklärung von Infektionswegen Bei schnell mutierenden Viren (z.B. HIV) Varianten werden in verschiedenen Personen gefunden Herausrechnen des Verbreitungsweges anhand der Abstammungsverhältnisse Phylogenetic Inference Wenn alle nahe verwandten Spezies ein bestimmtes Gen haben, dann sollte ich das auch haben
13
Evolutionsmodell Lebewesen vermehren sich durch Kopieren
Kopieren mit kleinen Fehlern (Mutationen) Führen (manchmal) zu veränderter „Funktion“ Selektion – „Survival of the fittest“ Fatale Mutationen lassen Nachkommen gar nicht erst entstehen Einschränkungen der Überlebensfähigkeit führen zur schnellen Ausrottung Speziation Unterschiedliche Mutationen sind in unterschiedlichen Lebensräumen unterschiedlich vorteilhaft Anpassungan ökologische Nischen Führt zur Akkumulation von Änderungen Schließlich geht die gemeinsame Fortpflanzungsfähigkeit verloren
14
Artenbildung Arten entstehen durch Veränderungen aus einer anderen Art
15
Mutationsfrequenzen Treten Mutationen in gleicher Frequenz auf?
Sind alle Mutationen gleich wahrscheinlich? Substitutionsmatrizen Gibt es Zeiten erhöhter Mutationshäufigkeit? Sonneneruptionen, … Gibt es Zeiten erhöhten Selektionsdrucks? Meteoriteneinschlag, Klimaverschiebungen, … Gibt es Teilbäume, die schneller mutieren? Abhängig vom Anpassungsdruck oder der Güte der Reparaturmechanismen Gibt es Sequenzabschnitte, die unterschiedlich schnell mutieren? Codingversus non-coding Regions, House-Keeping genes, …
16
Molecular Clock Häufige Annahme: Molecular Clock
Mutationen setzen sich bzgl. der Zeit immer mit gleicher Häufigkeit durch Unabhängig von Teilbaum, Zeitpunkt, Ort und Art der Mutation Anzahl der beobachteten Mutationen proportional zur vergangenen Zeit Die ist manchmal hilfreich, aber falsch Unterschiedliche Zeiten erzeugen unterschiedlichen Selektionsdruck Unterschiedliche Sequenzabschnitte unterliegen unterschiedlichem Selektionsdruck Unterschiedliche Spezies unterliegen unterschiedlicher Frequenz erfolgreicher Mutationen …
17
Daten Messen kann man nur die DNA existierender Arten
Zwei mögliche Ziele Rekonstruktion des wahrscheinlichsten Stammbaums der Arten Rekonstruktion der wahrscheinlichsten Ur-DNA und aller Zwischenstufen Den tatsächlichen Stammbaum kann man nicht berechnen Man kennt die ausgestorbenen Arten nicht Man kann ausgestorbene Mutationen nicht erkennen Man kann Doppelmutationen nicht erkennen
18
Bäume Knoten = Arten Blätter = Lebende Arten Kanten
Länge kann (aber muss nicht) mit zeitlicher Entfernung korrelieren Scaledtrees Jeder Knoten hat exakt einen Vater Eine Wurzel Binäre Bäume Reihenfolge der Kinder ist egal Viele Visualisierungsvarianten
19
Distanzbasierte Phylogenie
An innere Knoten eines Stammbaum kann man den Speziationzeitpunkt schreiben („branchpoints“) Wenn die Molecular Clock Theory gilt Ist die Menge an Veränderungen auf einer Kante proportional zu der verstrichenen Zeit Damit proportional zur Länge der Kante Damit ist der Editabstand zweier Knoten (=Evolution dazwischen) proportional zur Summe der Editabstände beider Knoten zum kleinsten gemeinsamen Vater
20
Ultrametriken Wenn man den Baum und die Zeitpunkte weiß, dann gilt
Alle Zahlen auf einem Pfad von der Wurzel zu einem beliebigen Blatt nehmen strikt ab Der Zeitpunkt der Aufspaltung ist ein Abstandsmaß für zwei Arten Für Blätter X, Y sei d(X,Y) das Label des kleinsten gemeinsamen Vorfahren Im Beispiel: d(A,B)=80, d(B,C)=100, d(A,D)=80 Das ist eine Metrik d(X,X)=0, d(X,Y)>0, d(X,Y)=d(Y,X), und d(X,Y)≤d(X,Z)+d(Z,Y) Es ist sogar eine Ultrametrik(gleich)
21
Ultrametrische Bäume Definition Sei T ein Baum und D eine symmetrische Matrix mit n Zeilen und n Spalten. T heißt ultrametrischer Baum für D wenn gilt: T hat n Blätter, beschriftet mit den Zeilen von D Jeder innere Knoten von T hat zwei Kinder und ist mit einem Wert aus D beschriftet Auf jedem Pfad von der Wurzel zu einem Blatt in T sind die Zahlen strikt abnehmend Für alle Blätter i,j mit i≠j gilt: der kleinste gemeinsame Vorfahr von i und j ist mit D(i,j) beschriftet Bemerkung Jeder Stammbaum ist ultrametrisch für die Abstandsmatrix mit den Aufsplittzeitpunkten als Abstandsmaß
22
Beispiel
23
Überlegungen Das kann auch nicht immer gehen
Matrix hat (n2-n)/2 relevante Zellen Baum hat nur n-1 innere Knoten Eine Matrix, zu der man einen ultrametrischen Baum konstruieren kann, muss also Duplikate enthalten Definition Eine symmetrische Matrix D mit n Spalten und Zeilen ist ultrametrisch, wenn für beliebige Zeilen i, j, k gilt, dass das Maximum von D(i,j), D(j,k) und D(i,k) genau zweimal vorkommt Es gilt also D(i,j)=D(j,k) und D(i,j)>D(i,k) oder D(i,j)=D(i,k) und D(i,j)>D(j,k) oder D(j,k)=D(i,k) und D(j,k)>D(i,j)
24
Ultrametrik Definition Ultrametrik Eine Ultrametrik ist eine Metrik für die gilt: d(a,c) ≤ max( d(a,b), d(b,c) ) Bemerkung Metrik Für Metriken muss nur gelten: d(a,c) ≤d(a,b)+d(b,c)
25
Ultrametrik Theorem Eine symmetrische Matrix D hat einen ultrametrischen Baum gdw. D selber ultrametrisch ist Beweis Nehmen wir erst an, dass zu D ein ultrametrischer Baum T existiert Nehmen wir an, dass i, j, k wie folgt liegen (alle anderen Knoten können wir ignorieren) Dann gilt offensichtlich D(i,k)=D(j,k)=Y und D(i,k)>D(i,j)=X Dito kann man für die zwei anderen Varianten der möglichen Lage von i, j, k verfahren Das gilt für alle Tripel von Knoten Also ist D ultrametrisch
26
Distanzbasierte Algorithmen
Konstruktion des ultrametrischen Baumes basiert rein auf Distanzmassen Einen ultrametrischen Baum gibt es nicht für alle Matrizen Es gibt weniger empfindliche Verfahren Die Geschichte einzelner „Sites“ wird nicht berücksichtigt Solche Algorithmen zur Berechnung von Stammbäumen nennt man distanzbasiert
27
UPGMA -Hierarchisches Clustering
„Unweighted pair group method with arithmetic mean“ Anderer Name: Hierarchisches Clustering Sehr einfaches und allgemeines Verfahren, kann bei allen möglichen Problemen angewandt werden Wenn eine Matrix ultrametrisch ist, dann findet UPGMA den dazugehörenden ultrametrischen Baum UPGMA nimmt die Molecular Clock an – alle Pfade von einem Blatt zur Wurzel haben am Ende die selbe Länge Achtung: UPGMA konstruiert immer einen Baum Auch wenn die Matrix nicht ultrametrisch ist
28
UPGMA Verfahren Gegeben: Distanzmatrix D
Erzeuge ein „Baumgerüst“ mit n Blättern Wähle den kleinsten D(i,j) Wert der Matrix und verbinde die Knoten i und j durch einen neuen Knoten (ij) mit Beschriftung D(i,j) und Kanten zu i und zu j Anfangs sind i und j Blätter, später können es auch innere Knoten sein Lösche Zeilen und Spalten i und j aus D Füge in D eine Zeile und eine Spalte (ij) hinzu mit D(ij,k) = (D(i,k)+D(j,k))/2 Wiederhole, bis D leer ist
29
Beispiel: Distanzbaum (I)
30
Beispiel: Distanzbaum (II)
31
Anwendungsbeispiel Sequenzierung der mitochondrialer DNA (16 KB) von 86 geographisch verteilt lebenden Personen Ergebnis: mitochondriale DNA scheint nach einer molekularen Uhr abzulaufen; Divergenz ist ca. 1,7E-8 pro Base und Jahr
32
Distanz versus Zeichen
Distanzbasierte Algorithmen abstrahieren von einzelnen Zeichen und basieren auf dem Abstand von Taxa Character-basierte Verfahren betrachten die Entwicklung jedes einzelnen „Characters“ Nuklein- oder Aminosäure Morphologische Eigenschaften Vorhandensein / Abwesenheit bestimmter Gene/Funktionen ... Character sollten in einem Abstammungsverhältnis stehen Sequenzen müssen homolog sein Wahl der Character beeinflusst das Ergebnis erheblich Eine „korrekte“ Wahl gibt es nicht –erheblicher Freiraum
33
Mögliche Probleme Genetischer Distanz
34
Beispiel für Zeichen/Character-Matrix
35
Abgeleiteter Phylogenetischer Baum
Gesucht: Der Baum mit den wenigsten Änderungen
36
Idee der Perfekten Phylogeny
Für Sequenzen unrealistisch, für komplexe Eigensch. nicht Definition Sei D eine binäre Matrix aus n Zeilen (Arten) und m Spalten (Character). D(i,j)=1 gdw Art i Eigenschaft j hat T ist ein (perfekt-) phylogenetischer Baum für D, wenn gilt T hat n Blätter, beschriftet mit den Zeilen von D Jeder Character, der in mindestens einer Art vorhanden ist, steht an genau einer Kante von T Für jede Art i gilt, dass die Beschriftungen der Kanten auf dem Pfad von der Wurzel zu i genau die Character sind, die i hat Bemerkungen Nicht an jeder Kante von T muss ein Character stehen, aber jeder Character muss an genau einer Kante stehen
37
Beispiel
38
Zusammenfassung Phylogenie als Konzept zur Analyse der Evolutionärer Mechanismen Gilt nur bei einfachen Evolutionsmodellen Güte hängt von den Eigenschaften der Daten ab Distanzbasierte Methoden Am ungenauesten, dafür schnell Brauchen numerische Abstandsmasse Zeichen-basierte Methoden: Besser, aber aufwendig zu berechnen Scoring aller möglichen Baum- Topologien
39
Werkzeuge zur phylogenetischen Sequenzanalyse
40
Paarweises Alignment Distanzberechnung basierend auf Alignement
Sequenzabständen Strukturalignement Proportionalität zwischen Sequenz- und evolutionärer Abstand Vergleich der Entwicklung von homologen Genen Verschiedenen Spezies haben Struktur und Funktionsgleiche Proteine „Housekeeping“ Proteine z.B. „alcohol dehydrogenase“ Enzym im Glykolyse-Stoffwechsel
41
Beispiel Enzym: Alkoholdehydrogenase (ADH) Spezies
An alcohol + NAD+ = an aldehyde or ketone + NADH Spezies Human Chimpanzee Mouse Dog Frog Zebrafish Fruit flig Rice E. coli Quelle: KEGG
42
Proteinsequenzen ADH KEGG: 330 Gene über mehrere Spezies zu ADH
43
Sequenzextraktion >Human MSTAGKVIKCKAAVLWELKKPFSIEEVEVAPPKAHEVRIKMVAVGICGTDDHVVSGTMVTPLPVILGHEAAGIVESVGEGVTTVKPGDKVIPLAIPQCGKCRICKNPESNYCLKNDVSNPQGTLQDGTSRFTCRRKPIHHFLGISTFSQYTVVDENAVAKIDAASPLEKVCLIGCGFSTGYGSAVNVAKVTPGSTCAVFGLGGVGLSAIMGCKAAGAARIIAVDINKDKFAKAKELGATECINPQDYKKPIQEVLKEMTDGGVDFSFEVIGRLDTMMASLLCCHEACGTSVIVGVPPDSQNLSMNPMLLLTGRTWKGAILGGFKSKECVPKLVADFMAKKFSLDALITHVLPFEKINEGFDLLHSGKSIRTILMF >Chimpanzee MSTAGKVIKCKAAVLWEVKKPFSIEDVEVAPPKAYEVRIKMVAVGICRTDDHVVSGNLVTPLPAILHEAAGIVESVGEGVTTVKPGDKVIPLFTPQCGKCRVCKNPESNYCLKNDLGNPRGTLQDGTRRFTCRGKPIHHFLGTSTFSQYTVVDENAVAKIDAASPLEKVCLIGCGFSTGYGSAVNVAKVTPGSTCAVFGLGGVGLSAVMGCKAAGAARIIAVDINKDKFAKAKELGATECINPQDYKKPIQEVLKEMTDGGVDFSFEVIGRLDTMMASLLCCHEACGTSVIVGVPPASQNLSINPMLLLTGRTWKGAVYGGFKSKEGIPKLVADFMAKKFSLDALITHVLPFEKINEGFDLLHSGKSIRTVLTF >Fruit fly MSRKNVLGLINTIVANSCKCPAHSHNYGSAAPTASQTGRMEYAFEMSASTVRFGPGVSAEVGADLRNLGARKVCLVTDKNVVQLPSVKVALDSLARNGINYEVYDETRVEPTDGSMWHAVEFARGKEFDAFLAIGGGSAMDTAKAANLFSSDANAEFLDYVNCPIGRGKEISVKLKPLIAMPTTSGTGSETTGVAIFDYKKLHAKTGISSKFLKPTLAVIDPLHTLSQPQRVMAFAGFDVFCHALESFTAVDYRERGLAPSDPSLRPTYQGRNPVSDVWARFALETIRKNFVNAIYQPDNLEARSQMHLASTMAGVGFGNAGVHLCHGLSYPISGNVRDYKPKGYSADHALIPHGLSVVISAPAVFEFTAPACPDRHLEAAQLLGAEVRGVEKADAGRLLADTVRGFMQRAGIENGLRELGFSSSDIPALVEGTLPQERITKLAPRAQTQENLSQLFEKSMEVY
44
Multiples Alignement ClustalW
45
ClustalW Sequenzeingabe
46
ClustalW Resultat: Alignment
47
ClustalW Resultat: Phylogenetischer Baum
Ähnliche Präsentationen
© 2024 SlidePlayer.org Inc.
All rights reserved.