Einführung in die Phylogenie (lat.: phylum = Stamm)

Slides:



Advertisements
Ähnliche Präsentationen
Definition [1]: Sei S eine endliche Menge und sei p eine Abbildung von S in die positiven reellen Zahlen Für einen Teilmenge ES von S sei p definiert.
Advertisements

Programmierung 1 - Repetitorium WS 2002/2003 Programmierung 1 - Repetitorium Andreas Augustin und Marc Wagner Homepage:
Rekursion: Rekurrenz: Algorithmen rufen sich selbst (rekursiv) auf.
Algebraische Zahlen: Exaktes Rechnen mit Wurzeln
LS 2 / Informatik Datenstrukturen, Algorithmen und Programmierung 2 (DAP2)
Claudio Moraga; Gisbert Dittrich
LS 2 / Informatik Datenstrukturen, Algorithmen und Programmierung 2 (DAP2)
Das LCA – Problem in Suffixbäumen
B-Bäume.
CPCP Institute of Clinical Pharmacology AGAH Annual Meeting, 29. Februar 2004, Berlin, Praktischer Umgang mit den Genehmigungsanträgen gemäß 12. AMG Novelle.
7. Natürliche Binärbäume
R. Der - Vorlesung Algorithmen und Datenstrukturen (Magister)
Modelle und Methoden der Linearen und Nichtlinearen Optimierung (Ausgewählte Methoden und Fallstudien) U N I V E R S I T Ä T H A M B U R G November 2011.
Christian Schindelhauer
Sortierverfahren Richard Göbel.
Algorithmentheorie 04 –Hashing
WS Algorithmentheorie 05 - Treaps Prof. Dr. Th. Ottmann.
Vorlesung Informatik 2 Algorithmen und Datenstrukturen (19 - Analyse natürlicher Bäume) Prof. Th. Ottmann.
Vorlesung Informatik 2 Algorithmen und Datenstrukturen (27 – Kürzeste Wege) Prof. Th. Ottmann.
1 Vorlesung Informatik 2 Algorithmen und Datenstrukturen (17 – Fibonacci-Heaps – Analyse) Tobias Lauer.
Kapitel 5 Stetigkeit.
Kapitel 6 Differenzierbarkeit. Kapitel 6: Differenzierbarkeit © Beutelspacher Juni 2005 Seite 2 Inhalt 6.1 Die Definition 6.2 Die Eigenschaften 6.3 Extremwerte.
EINI-I Einführung in die Informatik für Naturwissenschaftler und Ingenieure I Vorlesung 2 SWS WS 99/00 Gisbert Dittrich FBI Unido
PKJ 2005/1 Stefan Dissmann Zusammenfassung Bisher im Kurs erarbeitete Konzepte(1): Umgang mit einfachen Datentypen Umgang mit Feldern Umgang mit Referenzen.
Die moderne Evolutionstheorie
PG 520 Intelligence Service – gezielte Informationen aus dem Internet
Christian Schindelhauer
Christian Schindelhauer
Christian Schindelhauer
Einführung in Berechenbarkeit, Formale Sprachen und Komplexitätstheorie Wintersemester 2005/ Vorlesung Dominic Dumrauf.
Evolutionary Trees and Perfect Phylogeny Zentrum für Bioinformatik
Minimum Spanning Tree: MST
Phylogenetische Bäume & ihre Konstruktion
Vorlesung: Biometrie für Studierende der Veterinärmedizin
Phylogenetic Footprinting
20:00.
Effiziente Algorithmen
LS 2 / Informatik Datenstrukturen, Algorithmen und Programmierung 2 (DAP2)
Effiziente Algorithmen
Effiziente Algorithmen
Black Box Algorithmen Hartmut Klauck Universität Frankfurt SS
Effiziente Algorithmen Hartmut Klauck Universität Frankfurt SS
Effiziente Algorithmen
Quantum Computing Hartmut Klauck Universität Frankfurt WS 05/
Effiziente Algorithmen Hartmut Klauck Universität Frankfurt SS
Effiziente Algorithmen Hartmut Klauck Universität Frankfurt SS
Effiziente Algorithmen Hartmut Klauck Universität Frankfurt SS
Effiziente Algorithmen Hartmut Klauck Universität Frankfurt SS
Hartmut Klauck Universität Frankfurt SS
Information und Kommunikation Hartmut Klauck Universität Frankfurt SS
Information und Kommunikation
Quantum Computing Hartmut Klauck Universität Frankfurt WS 04/
Information und Kommunikation Hartmut Klauck Universität Frankfurt SS
Polynome und schnelle Fourier-Transformation
Intelligent Design und Darwinismus
NEU! 1 2. Wo kommt diese Art von Rezeptor im Körper vor?
Vorlesung Mai 2000 Konstruktion des Voronoi-Diagramms II
Symmetrische Blockchiffren DES – der Data Encryption Standard
1 (C)2006, Hermann Knoll, HTW Chur, FHO Quadratische Reste Definitionen: Quadratischer Rest Quadratwurzel Anwendungen.
Rekonstruktion phylogenetischer Bäume.
ENDLICHE KÖRPER RSA – VERFAHREN.
Schutzvermerk nach DIN 34 beachten 20/05/14 Seite 1 Grundlagen XSoft Lösung :Logische Grundschaltung IEC-Grundlagen und logische Verknüpfungen.
1 Albert-Ludwigs-Universität Freiburg Rechnernetze und Telematik Prof. Dr. Christian Schindelhauer Informatik III Christian Schindelhauer Wintersemester.
1 Albert-Ludwigs-Universität Freiburg Rechnernetze und Telematik Prof. Dr. Christian Schindelhauer Informatik III Christian Schindelhauer Wintersemester.
Arne Vater Wintersemester 2006/ Vorlesung
Christian Schindelhauer Wintersemester 2006/07 2. Vorlesung
1 Albert-Ludwigs-Universität Freiburg Rechnernetze und Telematik Prof. Dr. Christian Schindelhauer Informatik III Christian Schindelhauer Wintersemester.
Analyse der Laufzeit von Algorithmen
1 Medienpädagogischer Forschungsverbund Südwest KIM-Studie 2014 Landesanstalt für Kommunikation Baden-Württemberg (LFK) Landeszentrale für Medien und Kommunikation.
Monatsbericht Ausgleichsenergiemarkt Gas – Oktober
 Präsentation transkript:

Einführung in die Phylogenie (lat.: phylum = Stamm)

Phylogenetische Bäume Stammbaum (Phylogenetic Tree)

Stammbäume versus Klassifikation Zuerst war die Klassifikation Carl Linnaeus, ca. 1740: Systema Naturae Annahme: Arten verändern sich nicht (Prä-Darwin) Einteilung der Lebewesen in Kingdoms -classes–orders–families–genera- species SKOFGA (Stamm, Klasse, Ordnung, Familie, Gattung, Art) Innere Knoten einer Klassifikation sind abstrakt

Tree of Life

Klassifikation Eukaryoten Tiere diverse Zwischenstufen Chraniata (Schädelknochen) Vertebraten (Wirbeltier) Viele Zwischenstufen Mammals(Säugetiere) Eutheria(Plazentatiere/Höhere Säuger) Primaten (Affen) Catarrhini (Altweltaffen) Hominidae(Mensch, Schimpanse, Orang- Utan, Gorilla) Homo (erectus, sapiens ...) Homo Sapiens

Stammbäume Charles Darwin: „The origin of species“ (1859) Arten sind nicht unveränderlich, sondern unterliegen im Laufe der Zeit einem Wandel „Survivalof the fittest“ Damals noch unklar, was sich eigentlich wandelt Stammbäume(Abstammungsbäume) Ergeben sich aus der Annahme der Evolution Auch Stammbäume wurden lange aus morphologischen Eigenschaften abgeleitet Jeder Knoten in einem Stammbaum hat einmal als Art existiert–Knoten im Baum (also Spezies) heißen taxa Was definiert eine Spezies?

„Homo floresiensis“ (Hobbit?) Entdeckung 2003 Lebte vermutlich vor 95000 bis vor 12000 Jahren auf der indonesischen Insel Flores Körperhöhe nur ca. 100 cm Gehirnvolumen nur 380 cm3 Homo erectus: 600-1200, h. sapiens: 1400 Rückentwicklung? Vorläufer? Quelle: Brown, P. et al. Nature431, 1055-1061 (2004).

Evolutionsgeschichte neu geschrieben Stammbaum –welche Art geht aus welcher hervor?

Computer-Abstammung

Moderne Stammbaumberechnung Molecular phylogeny Mendel + Darwin: Das Erbgut unterliegt dem Wandel Berechnung von Stammbäumen aus molekularen Daten Zuckerkandl und Pauling, 1965 Berechnung aufgrund von DNA oder Proteinsequenzen Annahme: Evolution verläuft in kleinen Schritten Wenn sich Sequenzen ähnlich sind, sind die Spezies evolutionär eng verwandt Denn zufällige Ähnlichkeit ist zu unwahrscheinlich

Arten von Stammbäumen Individuelle Abstammung Speziesstammbäume Stammbäume, Ahnentafeln Natürlich kein Baum: Zwei Eltern Rekombination Speziesstammbäume Ein Baum, wenn Spezies nicht verschmelzen können Sprachen verschmelzen Gene Trees Geschichte eines Sequenzabschnitts Nicht leicht zu definieren Baumförmig, wenn Gene nicht verschmelzen Aber: 2 Allele jedes Gens vorhanden (Besser: HaplotypTree)

Wozu? Aufklärung der evolutionären Verhältnisse Aufklärung von familiären Verhältnissen Wenn genügend Sequenzen vorhanden Aufklärung von Infektionswegen Bei schnell mutierenden Viren (z.B. HIV) Varianten werden in verschiedenen Personen gefunden Herausrechnen des Verbreitungsweges anhand der Abstammungsverhältnisse Phylogenetic Inference Wenn alle nahe verwandten Spezies ein bestimmtes Gen haben, dann sollte ich das auch haben

Evolutionsmodell Lebewesen vermehren sich durch Kopieren Kopieren mit kleinen Fehlern (Mutationen) Führen (manchmal) zu veränderter „Funktion“ Selektion – „Survival of the fittest“ Fatale Mutationen lassen Nachkommen gar nicht erst entstehen Einschränkungen der Überlebensfähigkeit führen zur schnellen Ausrottung Speziation Unterschiedliche Mutationen sind in unterschiedlichen Lebensräumen unterschiedlich vorteilhaft Anpassungan ökologische Nischen Führt zur Akkumulation von Änderungen Schließlich geht die gemeinsame Fortpflanzungsfähigkeit verloren

Artenbildung Arten entstehen durch Veränderungen aus einer anderen Art

Mutationsfrequenzen Treten Mutationen in gleicher Frequenz auf? Sind alle Mutationen gleich wahrscheinlich? Substitutionsmatrizen Gibt es Zeiten erhöhter Mutationshäufigkeit? Sonneneruptionen, … Gibt es Zeiten erhöhten Selektionsdrucks? Meteoriteneinschlag, Klimaverschiebungen, … Gibt es Teilbäume, die schneller mutieren? Abhängig vom Anpassungsdruck oder der Güte der Reparaturmechanismen Gibt es Sequenzabschnitte, die unterschiedlich schnell mutieren? Codingversus non-coding Regions, House-Keeping genes, …

Molecular Clock Häufige Annahme: Molecular Clock Mutationen setzen sich bzgl. der Zeit immer mit gleicher Häufigkeit durch Unabhängig von Teilbaum, Zeitpunkt, Ort und Art der Mutation Anzahl der beobachteten Mutationen proportional zur vergangenen Zeit Die ist manchmal hilfreich, aber falsch Unterschiedliche Zeiten erzeugen unterschiedlichen Selektionsdruck Unterschiedliche Sequenzabschnitte unterliegen unterschiedlichem Selektionsdruck Unterschiedliche Spezies unterliegen unterschiedlicher Frequenz erfolgreicher Mutationen …

Daten Messen kann man nur die DNA existierender Arten Zwei mögliche Ziele Rekonstruktion des wahrscheinlichsten Stammbaums der Arten Rekonstruktion der wahrscheinlichsten Ur-DNA und aller Zwischenstufen Den tatsächlichen Stammbaum kann man nicht berechnen Man kennt die ausgestorbenen Arten nicht Man kann ausgestorbene Mutationen nicht erkennen Man kann Doppelmutationen nicht erkennen

Bäume Knoten = Arten Blätter = Lebende Arten Kanten Länge kann (aber muss nicht) mit zeitlicher Entfernung korrelieren Scaledtrees Jeder Knoten hat exakt einen Vater Eine Wurzel Binäre Bäume Reihenfolge der Kinder ist egal Viele Visualisierungsvarianten

Distanzbasierte Phylogenie An innere Knoten eines Stammbaum kann man den Speziationzeitpunkt schreiben („branchpoints“) Wenn die Molecular Clock Theory gilt Ist die Menge an Veränderungen auf einer Kante proportional zu der verstrichenen Zeit Damit proportional zur Länge der Kante Damit ist der Editabstand zweier Knoten (=Evolution dazwischen) proportional zur Summe der Editabstände beider Knoten zum kleinsten gemeinsamen Vater

Ultrametriken Wenn man den Baum und die Zeitpunkte weiß, dann gilt Alle Zahlen auf einem Pfad von der Wurzel zu einem beliebigen Blatt nehmen strikt ab Der Zeitpunkt der Aufspaltung ist ein Abstandsmaß für zwei Arten Für Blätter X, Y sei d(X,Y) das Label des kleinsten gemeinsamen Vorfahren Im Beispiel: d(A,B)=80, d(B,C)=100, d(A,D)=80 Das ist eine Metrik d(X,X)=0, d(X,Y)>0, d(X,Y)=d(Y,X), und d(X,Y)≤d(X,Z)+d(Z,Y) Es ist sogar eine Ultrametrik(gleich)

Ultrametrische Bäume Definition Sei T ein Baum und D eine symmetrische Matrix mit n Zeilen und n Spalten. T heißt ultrametrischer Baum für D wenn gilt: T hat n Blätter, beschriftet mit den Zeilen von D Jeder innere Knoten von T hat zwei Kinder und ist mit einem Wert aus D beschriftet Auf jedem Pfad von der Wurzel zu einem Blatt in T sind die Zahlen strikt abnehmend Für alle Blätter i,j mit i≠j gilt: der kleinste gemeinsame Vorfahr von i und j ist mit D(i,j) beschriftet Bemerkung Jeder Stammbaum ist ultrametrisch für die Abstandsmatrix mit den Aufsplittzeitpunkten als Abstandsmaß

Beispiel

Überlegungen Das kann auch nicht immer gehen Matrix hat (n2-n)/2 relevante Zellen Baum hat nur n-1 innere Knoten Eine Matrix, zu der man einen ultrametrischen Baum konstruieren kann, muss also Duplikate enthalten Definition Eine symmetrische Matrix D mit n Spalten und Zeilen ist ultrametrisch, wenn für beliebige Zeilen i, j, k gilt, dass das Maximum von D(i,j), D(j,k) und D(i,k) genau zweimal vorkommt Es gilt also D(i,j)=D(j,k) und D(i,j)>D(i,k) oder D(i,j)=D(i,k) und D(i,j)>D(j,k) oder D(j,k)=D(i,k) und D(j,k)>D(i,j)

Ultrametrik Definition Ultrametrik Eine Ultrametrik ist eine Metrik für die gilt: d(a,c) ≤ max( d(a,b), d(b,c) ) Bemerkung Metrik Für Metriken muss nur gelten: d(a,c) ≤d(a,b)+d(b,c)

Ultrametrik Theorem Eine symmetrische Matrix D hat einen ultrametrischen Baum gdw. D selber ultrametrisch ist Beweis Nehmen wir erst an, dass zu D ein ultrametrischer Baum T existiert Nehmen wir an, dass i, j, k wie folgt liegen (alle anderen Knoten können wir ignorieren) Dann gilt offensichtlich D(i,k)=D(j,k)=Y und D(i,k)>D(i,j)=X Dito kann man für die zwei anderen Varianten der möglichen Lage von i, j, k verfahren Das gilt für alle Tripel von Knoten Also ist D ultrametrisch

Distanzbasierte Algorithmen Konstruktion des ultrametrischen Baumes basiert rein auf Distanzmassen Einen ultrametrischen Baum gibt es nicht für alle Matrizen Es gibt weniger empfindliche Verfahren Die Geschichte einzelner „Sites“ wird nicht berücksichtigt Solche Algorithmen zur Berechnung von Stammbäumen nennt man distanzbasiert

UPGMA -Hierarchisches Clustering „Unweighted pair group method with arithmetic mean“ Anderer Name: Hierarchisches Clustering Sehr einfaches und allgemeines Verfahren, kann bei allen möglichen Problemen angewandt werden Wenn eine Matrix ultrametrisch ist, dann findet UPGMA den dazugehörenden ultrametrischen Baum UPGMA nimmt die Molecular Clock an – alle Pfade von einem Blatt zur Wurzel haben am Ende die selbe Länge Achtung: UPGMA konstruiert immer einen Baum Auch wenn die Matrix nicht ultrametrisch ist

UPGMA Verfahren Gegeben: Distanzmatrix D Erzeuge ein „Baumgerüst“ mit n Blättern Wähle den kleinsten D(i,j) Wert der Matrix und verbinde die Knoten i und j durch einen neuen Knoten (ij) mit Beschriftung D(i,j) und Kanten zu i und zu j Anfangs sind i und j Blätter, später können es auch innere Knoten sein Lösche Zeilen und Spalten i und j aus D Füge in D eine Zeile und eine Spalte (ij) hinzu mit D(ij,k) = (D(i,k)+D(j,k))/2 Wiederhole, bis D leer ist

Beispiel: Distanzbaum (I)

Beispiel: Distanzbaum (II)

Anwendungsbeispiel Sequenzierung der mitochondrialer DNA (16 KB) von 86 geographisch verteilt lebenden Personen Ergebnis: mitochondriale DNA scheint nach einer molekularen Uhr abzulaufen; Divergenz ist ca. 1,7E-8 pro Base und Jahr

Distanz versus Zeichen Distanzbasierte Algorithmen abstrahieren von einzelnen Zeichen und basieren auf dem Abstand von Taxa Character-basierte Verfahren betrachten die Entwicklung jedes einzelnen „Characters“ Nuklein- oder Aminosäure Morphologische Eigenschaften Vorhandensein / Abwesenheit bestimmter Gene/Funktionen ... Character sollten in einem Abstammungsverhältnis stehen Sequenzen müssen homolog sein Wahl der Character beeinflusst das Ergebnis erheblich Eine „korrekte“ Wahl gibt es nicht –erheblicher Freiraum

Mögliche Probleme Genetischer Distanz

Beispiel für Zeichen/Character-Matrix

Abgeleiteter Phylogenetischer Baum Gesucht: Der Baum mit den wenigsten Änderungen

Idee der Perfekten Phylogeny Für Sequenzen unrealistisch, für komplexe Eigensch. nicht Definition Sei D eine binäre Matrix aus n Zeilen (Arten) und m Spalten (Character). D(i,j)=1 gdw Art i Eigenschaft j hat T ist ein (perfekt-) phylogenetischer Baum für D, wenn gilt T hat n Blätter, beschriftet mit den Zeilen von D Jeder Character, der in mindestens einer Art vorhanden ist, steht an genau einer Kante von T Für jede Art i gilt, dass die Beschriftungen der Kanten auf dem Pfad von der Wurzel zu i genau die Character sind, die i hat Bemerkungen Nicht an jeder Kante von T muss ein Character stehen, aber jeder Character muss an genau einer Kante stehen

Beispiel

Zusammenfassung Phylogenie als Konzept zur Analyse der Evolutionärer Mechanismen Gilt nur bei einfachen Evolutionsmodellen Güte hängt von den Eigenschaften der Daten ab Distanzbasierte Methoden Am ungenauesten, dafür schnell Brauchen numerische Abstandsmasse Zeichen-basierte Methoden: Besser, aber aufwendig zu berechnen Scoring aller möglichen Baum- Topologien

Werkzeuge zur phylogenetischen Sequenzanalyse

Paarweises Alignment Distanzberechnung basierend auf Alignement Sequenzabständen Strukturalignement Proportionalität zwischen Sequenz- und evolutionärer Abstand Vergleich der Entwicklung von homologen Genen Verschiedenen Spezies haben Struktur und Funktionsgleiche Proteine „Housekeeping“ Proteine z.B. „alcohol dehydrogenase“ Enzym im Glykolyse-Stoffwechsel

Beispiel Enzym: Alkoholdehydrogenase (ADH) Spezies An alcohol + NAD+ = an aldehyde or ketone + NADH Spezies Human Chimpanzee Mouse Dog Frog Zebrafish Fruit flig Rice E. coli Quelle: KEGG http://www.genome.jp

Proteinsequenzen ADH KEGG: 330 Gene über mehrere Spezies zu ADH http://www.genome.jp/dbget-bin/www_bget?ko:K00001

Sequenzextraktion >Human MSTAGKVIKCKAAVLWELKKPFSIEEVEVAPPKAHEVRIKMVAVGICGTDDHVVSGTMVTPLPVILGHEAAGIVESVGEGVTTVKPGDKVIPLAIPQCGKCRICKNPESNYCLKNDVSNPQGTLQDGTSRFTCRRKPIHHFLGISTFSQYTVVDENAVAKIDAASPLEKVCLIGCGFSTGYGSAVNVAKVTPGSTCAVFGLGGVGLSAIMGCKAAGAARIIAVDINKDKFAKAKELGATECINPQDYKKPIQEVLKEMTDGGVDFSFEVIGRLDTMMASLLCCHEACGTSVIVGVPPDSQNLSMNPMLLLTGRTWKGAILGGFKSKECVPKLVADFMAKKFSLDALITHVLPFEKINEGFDLLHSGKSIRTILMF >Chimpanzee MSTAGKVIKCKAAVLWEVKKPFSIEDVEVAPPKAYEVRIKMVAVGICRTDDHVVSGNLVTPLPAILHEAAGIVESVGEGVTTVKPGDKVIPLFTPQCGKCRVCKNPESNYCLKNDLGNPRGTLQDGTRRFTCRGKPIHHFLGTSTFSQYTVVDENAVAKIDAASPLEKVCLIGCGFSTGYGSAVNVAKVTPGSTCAVFGLGGVGLSAVMGCKAAGAARIIAVDINKDKFAKAKELGATECINPQDYKKPIQEVLKEMTDGGVDFSFEVIGRLDTMMASLLCCHEACGTSVIVGVPPASQNLSINPMLLLTGRTWKGAVYGGFKSKEGIPKLVADFMAKKFSLDALITHVLPFEKINEGFDLLHSGKSIRTVLTF >Fruit fly MSRKNVLGLINTIVANSCKCPAHSHNYGSAAPTASQTGRMEYAFEMSASTVRFGPGVSAEVGADLRNLGARKVCLVTDKNVVQLPSVKVALDSLARNGINYEVYDETRVEPTDGSMWHAVEFARGKEFDAFLAIGGGSAMDTAKAANLFSSDANAEFLDYVNCPIGRGKEISVKLKPLIAMPTTSGTGSETTGVAIFDYKKLHAKTGISSKFLKPTLAVIDPLHTLSQPQRVMAFAGFDVFCHALESFTAVDYRERGLAPSDPSLRPTYQGRNPVSDVWARFALETIRKNFVNAIYQPDNLEARSQMHLASTMAGVGFGNAGVHLCHGLSYPISGNVRDYKPKGYSADHALIPHGLSVVISAPAVFEFTAPACPDRHLEAAQLLGAEVRGVEKADAGRLLADTVRGFMQRAGIENGLRELGFSSSDIPALVEGTLPQERITKLAPRAQTQENLSQLFEKSMEVY

Multiples Alignement ClustalW

ClustalW Sequenzeingabe

ClustalW Resultat: Alignment

ClustalW Resultat: Phylogenetischer Baum