Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

Rekonstruktion eines Genbaums über Gen-/Artenbaum-Reconcilierung 1)Bayesian gene/species tree reconciliation and orthology analysis using MCMC (2003) 2)Gene.

Ähnliche Präsentationen


Präsentation zum Thema: "Rekonstruktion eines Genbaums über Gen-/Artenbaum-Reconcilierung 1)Bayesian gene/species tree reconciliation and orthology analysis using MCMC (2003) 2)Gene."—  Präsentation transkript:

1 Rekonstruktion eines Genbaums über Gen-/Artenbaum-Reconcilierung 1)Bayesian gene/species tree reconciliation and orthology analysis using MCMC (2003) 2)Gene tree reconstruction and orthology analysis based on an integrated model for duplications and sequence evolution (2004) Seminar: Aktuelle Themen in der Bioinformatik Bianca Büttner SS 2005

2 Bianca BüttnerErstellung eines Genbaums über Genbaum/Artenbaum-Reconcilierung2/42 1.Einführung in die Thematik 2.Der Algorithmus von Arvestad et al. 3.Definitionen und Notationen der Parameter 4.Gen-Evolutions- & Gen-Sequenz-Evolutions-Modell 5.Der MCMC-Algorithmus 6.Berechnung der Likelihood einer Reconcilierung 7.Zusammenfassung Übersicht

3 Bianca BüttnerErstellung eines Genbaums über Genbaum/Artenbaum-Reconcilierung3/42 Was ist ein Genbaum? - Während der Evolution können ganze Genloci (oder auch nur einzelne Basen) dupliziert werden oder verloren gehen. - Duplikationen lassen Rückschlüsse auf Genfamilien zu wurden das erste Mal Unterschiede zwischen Globinen entdeckt (Zuckerkandl & Pauling). - Für Vergleiche zwischen Mitgliedern dieser Genfamilie innerhalb einer Spezies wurde ein Genbaum erstellt. Einführung in die Thematik

4 Bianca BüttnerErstellung eines Genbaums über Genbaum/Artenbaum-Reconcilierung4/42 Was ist eine Reconcilierung? - Zusammen mit einem Genbaum und in Abhängigkeit eines Artenbaums, erklärt die Reconcilierung die Evolution einer Genfamilie suchte Goodman als einer der Ersten nach einem Algorithmus, der Gen- und Artenbäume in Übereinstimmung bringen konnte. - Ziel war es, eine Reconcilierung zu finden, in der der Genbaum die geringste Anzahl an Substitutionen, Genduplikationen und Genverluste aufwies. Einführung in die Thematik

5 Bianca BüttnerErstellung eines Genbaums über Genbaum/Artenbaum-Reconcilierung5/42 Was ist eine Reconcilierung? Einführung in die Thematik GenduplikationGenverlust

6 Bianca BüttnerErstellung eines Genbaums über Genbaum/Artenbaum-Reconcilierung6/42 Walter Fitch`s (Zoologe,1970) original Definition von paralog und ortholog: - Wenn die Homologie zweier Gene das Resultat einer Genduplikation ist und sie die Entwicklung einer Art beschreiben, nennt man die Gene paralog. - Ist die Homologie zweier Gene das Resultat einer Speziation (Artenbildung) und reflektiert die Entwicklung eines Gens die Entwicklung mehrerer Arten, nennt man die Gene ortholog. Einführung in die Thematik

7 Bianca BüttnerErstellung eines Genbaums über Genbaum/Artenbaum-Reconcilierung7/42 Oder in kurz: Zwei Gene sind paralog, wenn sie nach einer Duplikation divergieren. Zwei Gene sind ortholog, wenn sie nach einer Speziation divergieren. Einführung in die Thematik

8 Bianca BüttnerErstellung eines Genbaums über Genbaum/Artenbaum-Reconcilierung8/42 Beispiel: Einführung in die Thematik ( ) = Speziation X = Duplikation Rattengene 1 & 2 sind paralog. Mausgene 1 & 2 sind paralog. Aber: Rattengen 1 bzw. 2 ist ortholog zu Mausgen 1 & 2 und umgekehrt.

9 Bianca BüttnerErstellung eines Genbaums über Genbaum/Artenbaum-Reconcilierung9/42 Der Algorithmus versucht Fragen zu beantworten wie z.B. Wie viele Duplikationen und Verlust geschahen in einer Genfamilie? Oder welche Gene sind ortholog? Die Autoren entwickelten als Grundlage für den Algorithmus ein Gen- Evolutionsmodell, dass im 2. Paper noch durch ein Gen-Sequenz- Evolutionsmodell erweitert wurde. Die Verfahren und Modelle auf denen der Algorithmus basiert, gehören zu den statistischen Methoden und sind laut Autor den üblichen parsimonischen Methoden in Realitätsnähe und Mächtigkeit weit überlegen. Der Algorithmus von Arvestad et al.

10 Bianca BüttnerErstellung eines Genbaums über Genbaum/Artenbaum-Reconcilierung10/42 Ein Genbaum G bezeichnet seine Knoten und Blätter mit Kleinbuchstaben wie u, v und w. Ein Artenbaum S verwendet meist die Großbuchstaben X, Y, Z. Die Blätter eines Genbaums repräsentieren Gene, die Blätter eines Artenbaums repräsentieren Arten. Definitionen und Notationen I

11 Bianca BüttnerErstellung eines Genbaums über Genbaum/Artenbaum-Reconcilierung11/42 Ein Genbaum G besitzt eine Blatt-Benennungs-Funktion: : L(G) L(S) -Das heißt, das Gen l L(G) gehört zum Genom der Spezies (l), da L(G) und L(S) miteinander assoziiert sind. Definitionen und Notationen II Bsp: a 1 und a 2 sind Gene der Spezies A.

12 Bianca BüttnerErstellung eines Genbaums über Genbaum/Artenbaum-Reconcilierung12/42 Ein Baum T hat folgende Merkmale: -V(T) => Eine Menge von Knoten von T. -A(T) => Eine Menge von Kanten von T. -L(T) => Eine Menge von Blättern von T. - r(T) => Eine Wurzel von T. Definitionen und Notationen III

13 Bianca BüttnerErstellung eines Genbaums über Genbaum/Artenbaum-Reconcilierung13/42 -Ist binär, d.h. jeder innere Knoten hat zwei Kinder. -T u => Ist ein Teilbaum von T mit Wurzel u. -c 1 (u) ist das linke und c 2 (u) das rechte Kind von u. -T u,v => Ist ein Kanten-Teilbaum von T. - bedeutet: v ist ein Nachkomme von u in T. Definitionen und Notationen V u v

14 Bianca BüttnerErstellung eines Genbaums über Genbaum/Artenbaum-Reconcilierung14/42 In diesem Modell lassen wir den Genbaum innerhalb eines Artenbaums wachsen, entsprechend eines sogenannten Birth-Death-Prozesses. Dieser Standard-Prozess wurde bereits von Kendall 1948 entwickelt und induziert die Reconcilierung: -Birth rate => Anzahl der Duplikationen -Death rate => Anzahl der Genverluste -Der Birth-Death-Prozess wird auf die Kanten des Artenbaums angewendet. Das Gen-Evolutions-Modell I

15 Bianca BüttnerErstellung eines Genbaums über Genbaum/Artenbaum-Reconcilierung15/42 Wie funktioniert der Birth-Death-Prozess? 1.Der Prozess beginnt an der Wurzel und arbeitet sich abwärts bis zu den Blättern des Artenbaums vor. 2.Sobald der Prozess das Ende einer Kante erreicht, splittet er Knoten x in zwei identische Kopien. 3.Der Prozess geht rekursiv links und rechts an den ausgehenden Kanten von x weiter, bis er in den Blättern von S stoppt. Das Gen-Evolutions-Modell II

16 Bianca BüttnerErstellung eines Genbaums über Genbaum/Artenbaum-Reconcilierung16/42 4.Dann wird der Baum zurechtgestutzt, d.h. Knoten ohne Blätter (Genverluste) werden gelöscht, eingehende und ausgehende Kanten von Knoten mit nur einem Kind zu einer Kante (ohne den Knoten) zusammengeführt. 5.Dann werden die Blätter des entstandenen Genbaums entsprechend der Blätter des Artenbaums benannt. Das Gen-Evolutions-Modell III Beispiel:

17 Bianca BüttnerErstellung eines Genbaums über Genbaum/Artenbaum-Reconcilierung17/42 Beispiel: Genbaum entwickelt sich innerhalb eines Artenbaums Duplikation SpeziationArtenbaum Genverlust

18 Bianca BüttnerErstellung eines Genbaums über Genbaum/Artenbaum-Reconcilierung18/42 Entwicklung eines Genbaums II II I Reconcilierung aus dem Birth-Death- Prozess. Genbaum nach dem Zurechtschneiden des Birth-Death- Prozesses.

19 Bianca BüttnerErstellung eines Genbaums über Genbaum/Artenbaum-Reconcilierung19/42 Entwicklung eines Genbaums III IIIIV Eine mögliche Reconcilierung Bei gegebenem Arten- und Genbaum aus I. Reconcilierung durch parsimonische Methoden. Gen d wird fälschlicherweise als Speziation interpretiert.

20 Bianca BüttnerErstellung eines Genbaums über Genbaum/Artenbaum-Reconcilierung20/42 Erweiterung des Gen-Evolutions-Modells. Bei jeder Entstehung einer neuen Genlinie – entweder durch Duplikation oder Speziation – wird ein Modell zur Evolution der Sequenz angewendet (hier: Jukes-Cantor und Molecular-Clock-Model für die Kanten). Das Modell ist hierarchisch, d.h. es ist egal ob zuerst der Gen-Baum nach dem Gen-Evolutions-Modell entwickelt wird und danach das Sequenz-Evolutions-Modell darauf angewendet wird oder umgekehrt. Das Gen-Sequenz- Evolutions- Modell

21 Bianca BüttnerErstellung eines Genbaums über Genbaum/Artenbaum-Reconcilierung21/42 Definitionen einer Reconcilierung I Formal: Eine Reconcilierung eines Artenbaums S und eines Genbaums G ist ein Paar (,G´) wobei eine Funktion ist: Das bedeutet: Jeder Art ist eine Menge von Genen zugeordnet. Beispiel: u (x) - also: u gehört zu den Genen von X.

22 Bianca BüttnerErstellung eines Genbaums über Genbaum/Artenbaum-Reconcilierung22/42 Definitionen einer Reconcilierung II G´wird zu G, sobald alle Knoten, mit nur insgesamt zwei eingehenden und ausgehenden Kanten, gelöscht wurden. Beispiel: G und G` Eine Reconcilierung von G & S

23 Bianca BüttnerErstellung eines Genbaums über Genbaum/Artenbaum-Reconcilierung23/42 Definitionen einer Reconcilierung III 1. Die Wurzel des Artenbaums, ist einem Gen im Genbaum zugeordnet. 2. Für jedes Blatt im Genbaum gibt es eine zugehörige Spezies im Artenbaum. 3. Ein Gen kann nicht zu zwei Arten gleichzeitig gehören. 4. Kein Gen einer Spezies kann in der Reconcilierung Vor- oder Nachfahre von einem anderen Gen der gleichen Spezies sein.

24 Bianca BüttnerErstellung eines Genbaums über Genbaum/Artenbaum-Reconcilierung24/42 Definitionen einer Reconcilierung IV 5. Wenn y und z ebensowenig voneinander abstammen, wie ihre zugehörigen Gene v und w, dann ist der letzte gemeinsame Vorfahre von y und z an einer Gabelung und trennt v und w voneinander. 6. Wenn x,y,z von einander abstammen, stammen ihre zugehörigen Gene u,v,w in gleicher Reihenfolge von einander ab.

25 Bianca BüttnerErstellung eines Genbaums über Genbaum/Artenbaum-Reconcilierung25/42 Markov-Ketten-Monte-Carlo- Verfahren (MCMC) Der hier verwendete Algorithmus basiert auf dem Metropolis-Hastings-Algorithmus, der zu den MCMC- Methoden gehört. In einem Zustandsraum wird durch eine zufällige Übergangswahrscheinlichkeit (proposal distribution) eine Markov-Kette aus Zuständen gebildet. Eine Akzeptanz-Wahrscheinlichkeit (der Metropolis- Hastings-Quotient) entscheidet, ob der Übergang von einem Zustand in den Anderen akzeptiert wird.

26 Bianca BüttnerErstellung eines Genbaums über Genbaum/Artenbaum-Reconcilierung26/42 Markov-Ketten-Monte-Carlo- Verfahren (MCMC) II Dieser Quotient sorgt dafür, dass die Markov-Kette sich nach einer gewissen Zeit (Burn-In) gerichtet einer stationären Zielverteilung nähert. Aus ihr werden später die Werte gesampelt. In dieser Zielverteilung sind die Zustände nach ihrer Wahrscheinlichkeit gewichtet. D.h. die wahrscheinlicheren Zustände werden öfter besucht, als die weniger Wahrscheinlichen.

27 Bianca BüttnerErstellung eines Genbaums über Genbaum/Artenbaum-Reconcilierung27/42 Markov-Ketten-Monte-Carlo- Verfahren (MCMC) II Der Metropolis-Hastings-Quotient: } vorgeschlagener neuer Zustand } alter Zustand WS, dass aktueller Zustand X ist. Übergangs-WS, von Zustand X nach Zustand Y. => Quotient gibt WS an, mit der neuer Zustand akzeptiert wird.

28 Bianca BüttnerErstellung eines Genbaums über Genbaum/Artenbaum-Reconcilierung28/42 MCMC-Abschätzung der a posteriori WS-Verteilung von Genbäumen Hier besteht der Zustand einer Markov-Kette aus einem Tripel: (G, ) – entsprechend: Genbaum, Birth rate, Death rate. Die stationäre Ziel-Wahrscheinlichkeitsverteilung ist eine a posteriori- Verteilung von Genbäumen (posterior in Bezug auf F). Bei gegebenem F bekommen wir durch Sampeln aus dieser Verteilung folgende Wahrscheinlichkeit: } Prinzip der bedingten WS nach dem Satz von Bayes F ist die Menge aller zu betrachtenden Gensequenzen einer Genfamilie. => F = {q 1,..., q n }, wobei n die Anzahl aller Speziesarten ist.

29 Bianca BüttnerErstellung eines Genbaums über Genbaum/Artenbaum-Reconcilierung29/42 MCMC-Abschätzung der a posteriori WS-Verteilung von Genbäumen und (Birth-Death-Prozess) werden zur Berechnung a priori angenommen und später durch die richtigen Werte aus den gesampelten Ergebnissen ersetzt. Die Berechnung der Akzeptanz-Wahrscheinlichkeit des neuen Zustands (G´, ´, ´) durch den Metropolis-Hastings-Quotienten wurde etwas abgewandelt: } Aktueller Zustand } Neuer Zustand ist die Likelihood.

30 Bianca BüttnerErstellung eines Genbaums über Genbaum/Artenbaum-Reconcilierung30/42 Berechnung der Likelihood Die Likelihood soll die Wahrscheinlichkeit abschätzen, dass im Gen-Evolutions-Prozess G der Genbaum, die Geburtsrate und die Todesrate - bei gegebenen Gensequenzen F - war. Da es für jeden Genbaum eine entsprechende Reconcilierung gibt, gilt diese Likelihood-Berechnung auch gleichzeitig als Wahrscheinlichkeit für die jeweilige Reconcilierung.

31 Bianca BüttnerErstellung eines Genbaums über Genbaum/Artenbaum-Reconcilierung31/42 Berechnung der Likelihood II Nach dem Prinzip der dynamischen Programmierung wird zur Berechnung der Likelihood einer Reconcilierung der Genbaum in sogenannte Sliced Subtrees zerlegt. Die Größe der Sliced Subtrees wird durch eine obere und eine untere Schranke begrenzt. Es sind komplizierte rekursive Gleichungen notwendig, um einen Genbaum in diese Teilbäume zu zerlegen, die hier aber nicht gezeigt werden.

32 Bianca BüttnerErstellung eines Genbaums über Genbaum/Artenbaum-Reconcilierung32/42 Definitionen eines Sliced Subtrees ist ein Sliced Subtree, für A(S) und u (x). Beispiel:

33 Bianca BüttnerErstellung eines Genbaums über Genbaum/Artenbaum-Reconcilierung33/42 Definitionen eines Sliced Subtrees II ist noch mal ein spezieller Sliced Subtree, bei dem von vorneherein festgelegt ist, dass er nur eine Kante lang und bei u gewurzelt ist. U ist ein Gen von X. Es gibt keine Spezies zwischen X und Y. Für jeden Sliced Subtree werden nun rekursiv Likelihood- Berechnungen angestellt. Die Ergebnisse dieser Rekursionsgleichungen ergeben zusammengesetzt dann die Likelihood einer speziellen Reconcilierung.

34 Bianca BüttnerErstellung eines Genbaums über Genbaum/Artenbaum-Reconcilierung34/42 Berechnung der Likelihood für eine einzelne Reconcilierung ist definiert, als die WS, dass G u und u sich aus u in S x entwickelt haben. D.h. X ist die Startspezies, u die Wurzel des Subtrees. ist die WS, dass sich und von u aus in S x,y entwickelt haben. Y ist hier das Ende der Kante (Zielspezies).

35 Bianca BüttnerErstellung eines Genbaums über Genbaum/Artenbaum-Reconcilierung35/42 Berechnung der Likelihood für eine einzelne Reconcilierung II Die Likelihood-Berechnung basiert auf folgenden rekursiven Gleichungen: Berechnung beginnt im Blatt der Sliced Subtrees und steigt rekursiv immer einen Knoten höher. Berechnet linke und rechte Kante von X. X hat die Kinder y und z in S.

36 Bianca BüttnerErstellung eines Genbaums über Genbaum/Artenbaum-Reconcilierung36/42 Berechnung der Likelihood für eine einzelne Reconcilierung III e A betrachtet die Kante von X nach Y und setzt sich aus mehreren Variablen zusammen, die wiederum rekursiv berechnet werden müssen.

37 Bianca BüttnerErstellung eines Genbaums über Genbaum/Artenbaum-Reconcilierung37/42 Berechnung der Likelihood für eine einzelne Reconcilierung IV p y (l) => Wahrscheinlichkeit, dass der Birth-Death-Prozess auch tatsächlich l Blätter generiert hat.

38 Bianca BüttnerErstellung eines Genbaums über Genbaum/Artenbaum-Reconcilierung38/42 Berechnung der Likelihood für eine einzelne Reconcilierung V h(,y,u) => Wahrscheinlichkeit der Baumstruktur (Topologie) Der Birth-Death-Prozess generiert Labeled Trees mit l Blättern und gleicher Wahrscheinlichkeit. Aber nach Entfernen der Labels (Blattnamen) ist eine Baumstruktur wahrscheinlicher als die Andere. Während die History (zeitliche Abfolge der Knoten) ohne Labels überhaupt keine Rolle mehr spielt.

39 Bianca BüttnerErstellung eines Genbaums über Genbaum/Artenbaum-Reconcilierung39/42 Berechnung der Likelihood für eine einzelne Reconcilierung V Bsp: Wahrscheinlichkeit der Baumstruktur (Topologie) 12 Permutationen der Labeled Trees => WS = 2/3 6 Permutationen der Labeled Trees => WS = 1/3

40 Bianca BüttnerErstellung eines Genbaums über Genbaum/Artenbaum-Reconcilierung40/42 Berechnung der Likelihood für eine einzelne Reconcilierung VI Berechnung von h(,y,u): Anzahl der Blätter des Sliced Subtrees - 1 Rekursiv für linkes und rechtes Kind von u Blätter bekommen den Wert 1 zugewiesen. kann den Wert 0 (bei gleicher Topologie) oder 1 (verschieden) annehmen. Die rekursiven Teilgleichungen werden miteinander multipliziert.

41 Bianca BüttnerErstellung eines Genbaums über Genbaum/Artenbaum-Reconcilierung41/42 Berechnung der Likelihood für eine einzelne Reconcilierung VII (,y,u) => Anzahl der isomorphen (äquivalenten) Reconcilierungen Ähnliches Prinzip wie bei h. bekommt nur den Wert 1 zugewiesen, wenn die Reconcilierungen am Anfang und Ende übereinstimmen und sie dürfen nicht genau gleich sein. Führt Kante zu weiteren Knoten wird e v noch mal rekursiv gestartet.

42 Bianca BüttnerErstellung eines Genbaums über Genbaum/Artenbaum-Reconcilierung42/42 Zusammenfassung. Der eben vorgestellte Algorithmus erlaubt bei gegebener Gensequenz: - Eine Orthologische Analyse (Ist ein Genpaar ortholog?) - Eine Genbaum-Rekonstruierung - Eine Artenbaum-Rekonstruierung (analog zu Genbaum) Bei gegebenen Artenbaum ist es auch möglich die Wahrscheinlichkeit eines Genbaums zu errechnen.


Herunterladen ppt "Rekonstruktion eines Genbaums über Gen-/Artenbaum-Reconcilierung 1)Bayesian gene/species tree reconciliation and orthology analysis using MCMC (2003) 2)Gene."

Ähnliche Präsentationen


Google-Anzeigen