Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

Einführung in die Phylogenie (lat.: phylum = Stamm)

Ähnliche Präsentationen


Präsentation zum Thema: "Einführung in die Phylogenie (lat.: phylum = Stamm)"—  Präsentation transkript:

1 Einführung in die Phylogenie (lat.: phylum = Stamm)

2 Phylogenetische Bäume
Stammbaum (Phylogenetic Tree)

3 Stammbäume versus Klassifikation
Zuerst war die Klassifikation Carl Linnaeus, ca. 1740: Systema Naturae Annahme: Arten verändern sich nicht (Prä-Darwin) Einteilung der Lebewesen in Kingdoms -classes–orders–families–genera- species SKOFGA (Stamm, Klasse, Ordnung, Familie, Gattung, Art) Innere Knoten einer Klassifikation sind abstrakt

4 Tree of Life

5 Klassifikation Eukaryoten Tiere diverse Zwischenstufen
Chraniata (Schädelknochen) Vertebraten (Wirbeltier) Viele Zwischenstufen Mammals(Säugetiere) Eutheria(Plazentatiere/Höhere Säuger) Primaten (Affen) Catarrhini (Altweltaffen) Hominidae(Mensch, Schimpanse, Orang- Utan, Gorilla) Homo (erectus, sapiens ...) Homo Sapiens

6 Stammbäume Charles Darwin: „The origin of species“ (1859)
Arten sind nicht unveränderlich, sondern unterliegen im Laufe der Zeit einem Wandel „Survivalof the fittest“ Damals noch unklar, was sich eigentlich wandelt Stammbäume(Abstammungsbäume) Ergeben sich aus der Annahme der Evolution Auch Stammbäume wurden lange aus morphologischen Eigenschaften abgeleitet Jeder Knoten in einem Stammbaum hat einmal als Art existiert–Knoten im Baum (also Spezies) heißen taxa Was definiert eine Spezies?

7 „Homo floresiensis“ (Hobbit?)
Entdeckung 2003 Lebte vermutlich vor bis vor Jahren auf der indonesischen Insel Flores Körperhöhe nur ca. 100 cm Gehirnvolumen nur 380 cm3 Homo erectus: , h. sapiens: 1400 Rückentwicklung? Vorläufer? Quelle: Brown, P. et al. Nature431, (2004).

8 Evolutionsgeschichte neu geschrieben
Stammbaum –welche Art geht aus welcher hervor?

9 Computer-Abstammung

10 Moderne Stammbaumberechnung
Molecular phylogeny Mendel + Darwin: Das Erbgut unterliegt dem Wandel Berechnung von Stammbäumen aus molekularen Daten Zuckerkandl und Pauling, 1965 Berechnung aufgrund von DNA oder Proteinsequenzen Annahme: Evolution verläuft in kleinen Schritten Wenn sich Sequenzen ähnlich sind, sind die Spezies evolutionär eng verwandt Denn zufällige Ähnlichkeit ist zu unwahrscheinlich

11 Arten von Stammbäumen Individuelle Abstammung Speziesstammbäume
Stammbäume, Ahnentafeln Natürlich kein Baum: Zwei Eltern Rekombination Speziesstammbäume Ein Baum, wenn Spezies nicht verschmelzen können Sprachen verschmelzen Gene Trees Geschichte eines Sequenzabschnitts Nicht leicht zu definieren Baumförmig, wenn Gene nicht verschmelzen Aber: 2 Allele jedes Gens vorhanden (Besser: HaplotypTree)

12 Wozu? Aufklärung der evolutionären Verhältnisse
Aufklärung von familiären Verhältnissen Wenn genügend Sequenzen vorhanden Aufklärung von Infektionswegen Bei schnell mutierenden Viren (z.B. HIV) Varianten werden in verschiedenen Personen gefunden Herausrechnen des Verbreitungsweges anhand der Abstammungsverhältnisse Phylogenetic Inference Wenn alle nahe verwandten Spezies ein bestimmtes Gen haben, dann sollte ich das auch haben

13 Evolutionsmodell Lebewesen vermehren sich durch Kopieren
Kopieren mit kleinen Fehlern (Mutationen) Führen (manchmal) zu veränderter „Funktion“ Selektion – „Survival of the fittest“ Fatale Mutationen lassen Nachkommen gar nicht erst entstehen Einschränkungen der Überlebensfähigkeit führen zur schnellen Ausrottung Speziation Unterschiedliche Mutationen sind in unterschiedlichen Lebensräumen unterschiedlich vorteilhaft Anpassungan ökologische Nischen Führt zur Akkumulation von Änderungen Schließlich geht die gemeinsame Fortpflanzungsfähigkeit verloren

14 Artenbildung Arten entstehen durch Veränderungen aus einer anderen Art

15 Mutationsfrequenzen Treten Mutationen in gleicher Frequenz auf?
Sind alle Mutationen gleich wahrscheinlich? Substitutionsmatrizen Gibt es Zeiten erhöhter Mutationshäufigkeit? Sonneneruptionen, … Gibt es Zeiten erhöhten Selektionsdrucks? Meteoriteneinschlag, Klimaverschiebungen, … Gibt es Teilbäume, die schneller mutieren? Abhängig vom Anpassungsdruck oder der Güte der Reparaturmechanismen Gibt es Sequenzabschnitte, die unterschiedlich schnell mutieren? Codingversus non-coding Regions, House-Keeping genes, …

16 Molecular Clock Häufige Annahme: Molecular Clock
Mutationen setzen sich bzgl. der Zeit immer mit gleicher Häufigkeit durch Unabhängig von Teilbaum, Zeitpunkt, Ort und Art der Mutation Anzahl der beobachteten Mutationen proportional zur vergangenen Zeit Die ist manchmal hilfreich, aber falsch Unterschiedliche Zeiten erzeugen unterschiedlichen Selektionsdruck Unterschiedliche Sequenzabschnitte unterliegen unterschiedlichem Selektionsdruck Unterschiedliche Spezies unterliegen unterschiedlicher Frequenz erfolgreicher Mutationen

17 Daten Messen kann man nur die DNA existierender Arten
Zwei mögliche Ziele Rekonstruktion des wahrscheinlichsten Stammbaums der Arten Rekonstruktion der wahrscheinlichsten Ur-DNA und aller Zwischenstufen Den tatsächlichen Stammbaum kann man nicht berechnen Man kennt die ausgestorbenen Arten nicht Man kann ausgestorbene Mutationen nicht erkennen Man kann Doppelmutationen nicht erkennen

18 Bäume Knoten = Arten Blätter = Lebende Arten Kanten
Länge kann (aber muss nicht) mit zeitlicher Entfernung korrelieren Scaledtrees Jeder Knoten hat exakt einen Vater Eine Wurzel Binäre Bäume Reihenfolge der Kinder ist egal Viele Visualisierungsvarianten

19 Distanzbasierte Phylogenie
An innere Knoten eines Stammbaum kann man den Speziationzeitpunkt schreiben („branchpoints“) Wenn die Molecular Clock Theory gilt Ist die Menge an Veränderungen auf einer Kante proportional zu der verstrichenen Zeit Damit proportional zur Länge der Kante Damit ist der Editabstand zweier Knoten (=Evolution dazwischen) proportional zur Summe der Editabstände beider Knoten zum kleinsten gemeinsamen Vater

20 Ultrametriken Wenn man den Baum und die Zeitpunkte weiß, dann gilt
Alle Zahlen auf einem Pfad von der Wurzel zu einem beliebigen Blatt nehmen strikt ab Der Zeitpunkt der Aufspaltung ist ein Abstandsmaß für zwei Arten Für Blätter X, Y sei d(X,Y) das Label des kleinsten gemeinsamen Vorfahren Im Beispiel: d(A,B)=80, d(B,C)=100, d(A,D)=80 Das ist eine Metrik d(X,X)=0, d(X,Y)>0, d(X,Y)=d(Y,X), und d(X,Y)≤d(X,Z)+d(Z,Y) Es ist sogar eine Ultrametrik(gleich)

21 Ultrametrische Bäume Definition Sei T ein Baum und D eine symmetrische Matrix mit n Zeilen und n Spalten. T heißt ultrametrischer Baum für D wenn gilt: T hat n Blätter, beschriftet mit den Zeilen von D Jeder innere Knoten von T hat zwei Kinder und ist mit einem Wert aus D beschriftet Auf jedem Pfad von der Wurzel zu einem Blatt in T sind die Zahlen strikt abnehmend Für alle Blätter i,j mit i≠j gilt: der kleinste gemeinsame Vorfahr von i und j ist mit D(i,j) beschriftet Bemerkung Jeder Stammbaum ist ultrametrisch für die Abstandsmatrix mit den Aufsplittzeitpunkten als Abstandsmaß

22 Beispiel

23 Überlegungen Das kann auch nicht immer gehen
Matrix hat (n2-n)/2 relevante Zellen Baum hat nur n-1 innere Knoten Eine Matrix, zu der man einen ultrametrischen Baum konstruieren kann, muss also Duplikate enthalten Definition Eine symmetrische Matrix D mit n Spalten und Zeilen ist ultrametrisch, wenn für beliebige Zeilen i, j, k gilt, dass das Maximum von D(i,j), D(j,k) und D(i,k) genau zweimal vorkommt Es gilt also D(i,j)=D(j,k) und D(i,j)>D(i,k) oder D(i,j)=D(i,k) und D(i,j)>D(j,k) oder D(j,k)=D(i,k) und D(j,k)>D(i,j)

24 Ultrametrik Definition Ultrametrik Eine Ultrametrik ist eine Metrik für die gilt: d(a,c) ≤ max( d(a,b), d(b,c) ) Bemerkung Metrik Für Metriken muss nur gelten: d(a,c) ≤d(a,b)+d(b,c)

25 Ultrametrik Theorem Eine symmetrische Matrix D hat einen ultrametrischen Baum gdw. D selber ultrametrisch ist Beweis Nehmen wir erst an, dass zu D ein ultrametrischer Baum T existiert Nehmen wir an, dass i, j, k wie folgt liegen (alle anderen Knoten können wir ignorieren) Dann gilt offensichtlich D(i,k)=D(j,k)=Y und D(i,k)>D(i,j)=X Dito kann man für die zwei anderen Varianten der möglichen Lage von i, j, k verfahren Das gilt für alle Tripel von Knoten Also ist D ultrametrisch

26 Distanzbasierte Algorithmen
Konstruktion des ultrametrischen Baumes basiert rein auf Distanzmassen Einen ultrametrischen Baum gibt es nicht für alle Matrizen Es gibt weniger empfindliche Verfahren Die Geschichte einzelner „Sites“ wird nicht berücksichtigt Solche Algorithmen zur Berechnung von Stammbäumen nennt man distanzbasiert

27 UPGMA -Hierarchisches Clustering
„Unweighted pair group method with arithmetic mean“ Anderer Name: Hierarchisches Clustering Sehr einfaches und allgemeines Verfahren, kann bei allen möglichen Problemen angewandt werden Wenn eine Matrix ultrametrisch ist, dann findet UPGMA den dazugehörenden ultrametrischen Baum UPGMA nimmt die Molecular Clock an – alle Pfade von einem Blatt zur Wurzel haben am Ende die selbe Länge Achtung: UPGMA konstruiert immer einen Baum Auch wenn die Matrix nicht ultrametrisch ist

28 UPGMA Verfahren Gegeben: Distanzmatrix D
Erzeuge ein „Baumgerüst“ mit n Blättern Wähle den kleinsten D(i,j) Wert der Matrix und verbinde die Knoten i und j durch einen neuen Knoten (ij) mit Beschriftung D(i,j) und Kanten zu i und zu j Anfangs sind i und j Blätter, später können es auch innere Knoten sein Lösche Zeilen und Spalten i und j aus D Füge in D eine Zeile und eine Spalte (ij) hinzu mit D(ij,k) = (D(i,k)+D(j,k))/2 Wiederhole, bis D leer ist

29 Beispiel: Distanzbaum (I)

30 Beispiel: Distanzbaum (II)

31 Anwendungsbeispiel Sequenzierung der mitochondrialer DNA (16 KB) von 86 geographisch verteilt lebenden Personen Ergebnis: mitochondriale DNA scheint nach einer molekularen Uhr abzulaufen; Divergenz ist ca. 1,7E-8 pro Base und Jahr

32 Distanz versus Zeichen
Distanzbasierte Algorithmen abstrahieren von einzelnen Zeichen und basieren auf dem Abstand von Taxa Character-basierte Verfahren betrachten die Entwicklung jedes einzelnen „Characters“ Nuklein- oder Aminosäure Morphologische Eigenschaften Vorhandensein / Abwesenheit bestimmter Gene/Funktionen ... Character sollten in einem Abstammungsverhältnis stehen Sequenzen müssen homolog sein Wahl der Character beeinflusst das Ergebnis erheblich Eine „korrekte“ Wahl gibt es nicht –erheblicher Freiraum

33 Mögliche Probleme Genetischer Distanz

34 Beispiel für Zeichen/Character-Matrix

35 Abgeleiteter Phylogenetischer Baum
Gesucht: Der Baum mit den wenigsten Änderungen

36 Idee der Perfekten Phylogeny
Für Sequenzen unrealistisch, für komplexe Eigensch. nicht Definition Sei D eine binäre Matrix aus n Zeilen (Arten) und m Spalten (Character). D(i,j)=1 gdw Art i Eigenschaft j hat T ist ein (perfekt-) phylogenetischer Baum für D, wenn gilt T hat n Blätter, beschriftet mit den Zeilen von D Jeder Character, der in mindestens einer Art vorhanden ist, steht an genau einer Kante von T Für jede Art i gilt, dass die Beschriftungen der Kanten auf dem Pfad von der Wurzel zu i genau die Character sind, die i hat Bemerkungen Nicht an jeder Kante von T muss ein Character stehen, aber jeder Character muss an genau einer Kante stehen

37 Beispiel

38 Zusammenfassung Phylogenie als Konzept zur Analyse der Evolutionärer Mechanismen Gilt nur bei einfachen Evolutionsmodellen Güte hängt von den Eigenschaften der Daten ab Distanzbasierte Methoden Am ungenauesten, dafür schnell Brauchen numerische Abstandsmasse Zeichen-basierte Methoden: Besser, aber aufwendig zu berechnen Scoring aller möglichen Baum- Topologien

39 Werkzeuge zur phylogenetischen Sequenzanalyse

40 Paarweises Alignment Distanzberechnung basierend auf Alignement
Sequenzabständen Strukturalignement Proportionalität zwischen Sequenz- und evolutionärer Abstand Vergleich der Entwicklung von homologen Genen Verschiedenen Spezies haben Struktur und Funktionsgleiche Proteine „Housekeeping“ Proteine z.B. „alcohol dehydrogenase“ Enzym im Glykolyse-Stoffwechsel

41 Beispiel Enzym: Alkoholdehydrogenase (ADH) Spezies
An alcohol + NAD+ = an aldehyde or ketone + NADH Spezies Human Chimpanzee Mouse Dog Frog Zebrafish Fruit flig Rice E. coli Quelle: KEGG

42 Proteinsequenzen ADH KEGG: 330 Gene über mehrere Spezies zu ADH

43 Sequenzextraktion >Human MSTAGKVIKCKAAVLWELKKPFSIEEVEVAPPKAHEVRIKMVAVGICGTDDHVVSGTMVTPLPVILGHEAAGIVESVGEGVTTVKPGDKVIPLAIPQCGKCRICKNPESNYCLKNDVSNPQGTLQDGTSRFTCRRKPIHHFLGISTFSQYTVVDENAVAKIDAASPLEKVCLIGCGFSTGYGSAVNVAKVTPGSTCAVFGLGGVGLSAIMGCKAAGAARIIAVDINKDKFAKAKELGATECINPQDYKKPIQEVLKEMTDGGVDFSFEVIGRLDTMMASLLCCHEACGTSVIVGVPPDSQNLSMNPMLLLTGRTWKGAILGGFKSKECVPKLVADFMAKKFSLDALITHVLPFEKINEGFDLLHSGKSIRTILMF >Chimpanzee MSTAGKVIKCKAAVLWEVKKPFSIEDVEVAPPKAYEVRIKMVAVGICRTDDHVVSGNLVTPLPAILHEAAGIVESVGEGVTTVKPGDKVIPLFTPQCGKCRVCKNPESNYCLKNDLGNPRGTLQDGTRRFTCRGKPIHHFLGTSTFSQYTVVDENAVAKIDAASPLEKVCLIGCGFSTGYGSAVNVAKVTPGSTCAVFGLGGVGLSAVMGCKAAGAARIIAVDINKDKFAKAKELGATECINPQDYKKPIQEVLKEMTDGGVDFSFEVIGRLDTMMASLLCCHEACGTSVIVGVPPASQNLSINPMLLLTGRTWKGAVYGGFKSKEGIPKLVADFMAKKFSLDALITHVLPFEKINEGFDLLHSGKSIRTVLTF >Fruit fly MSRKNVLGLINTIVANSCKCPAHSHNYGSAAPTASQTGRMEYAFEMSASTVRFGPGVSAEVGADLRNLGARKVCLVTDKNVVQLPSVKVALDSLARNGINYEVYDETRVEPTDGSMWHAVEFARGKEFDAFLAIGGGSAMDTAKAANLFSSDANAEFLDYVNCPIGRGKEISVKLKPLIAMPTTSGTGSETTGVAIFDYKKLHAKTGISSKFLKPTLAVIDPLHTLSQPQRVMAFAGFDVFCHALESFTAVDYRERGLAPSDPSLRPTYQGRNPVSDVWARFALETIRKNFVNAIYQPDNLEARSQMHLASTMAGVGFGNAGVHLCHGLSYPISGNVRDYKPKGYSADHALIPHGLSVVISAPAVFEFTAPACPDRHLEAAQLLGAEVRGVEKADAGRLLADTVRGFMQRAGIENGLRELGFSSSDIPALVEGTLPQERITKLAPRAQTQENLSQLFEKSMEVY

44 Multiples Alignement ClustalW

45 ClustalW Sequenzeingabe

46 ClustalW Resultat: Alignment

47 ClustalW Resultat: Phylogenetischer Baum


Herunterladen ppt "Einführung in die Phylogenie (lat.: phylum = Stamm)"

Ähnliche Präsentationen


Google-Anzeigen