Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

Rekonstruktion eines Genbaums über Gen-/Artenbaum-Reconcilierung

Ähnliche Präsentationen


Präsentation zum Thema: "Rekonstruktion eines Genbaums über Gen-/Artenbaum-Reconcilierung"—  Präsentation transkript:

1 Rekonstruktion eines Genbaums über Gen-/Artenbaum-Reconcilierung
Seminar: Aktuelle Themen in der Bioinformatik Rekonstruktion eines Genbaums über Gen-/Artenbaum-Reconcilierung Bayesian gene/species tree reconciliation and orthology analysis using MCMC (2003) Gene tree reconstruction and orthology analysis based on an integrated model for duplications and sequence evolution (2004) Bianca Büttner SS 2005

2 Erstellung eines Genbaums über Genbaum/Artenbaum-Reconcilierung
Übersicht Einführung in die Thematik Der Algorithmus von Arvestad et al. Definitionen und Notationen der Parameter Gen-Evolutions- & Gen-Sequenz-Evolutions-Modell Der MCMC-Algorithmus Berechnung der Likelihood einer Reconcilierung Zusammenfassung Bianca Büttner Erstellung eines Genbaums über Genbaum/Artenbaum-Reconcilierung

3 Einführung in die Thematik
Was ist ein Genbaum? - Während der Evolution können ganze Genloci (oder auch nur einzelne Basen) dupliziert werden oder verloren gehen. - Duplikationen lassen Rückschlüsse auf Genfamilien zu. wurden das erste Mal Unterschiede zwischen Globinen entdeckt (Zuckerkandl & Pauling). - Für Vergleiche zwischen Mitgliedern dieser Genfamilie innerhalb einer Spezies wurde ein Genbaum erstellt. Bianca Büttner Erstellung eines Genbaums über Genbaum/Artenbaum-Reconcilierung

4 Einführung in die Thematik
Was ist eine Reconcilierung? - Zusammen mit einem Genbaum und in Abhängigkeit eines Artenbaums, erklärt die Reconcilierung die Evolution einer Genfamilie. suchte Goodman als einer der Ersten nach einem Algorithmus, der Gen- und Artenbäume in Übereinstimmung bringen konnte. - Ziel war es, eine Reconcilierung zu finden, in der der Genbaum die geringste Anzahl an Substitutionen, Genduplikationen und Genverluste aufwies. Duplikationen können auch zum Wurzeln von Bäumen verwendet werden, Da sie irreversibel sind, d.h. man kennt keine Ereignisse, die eine Duplikation Rückgängig machen können indem sie zwei Gene wieder zu Einem verschmelzen. Bianca Büttner Erstellung eines Genbaums über Genbaum/Artenbaum-Reconcilierung

5 Einführung in die Thematik
Was ist eine Reconcilierung? Gene des Genbaums z.B. a1, c1 gehören entsprechend zu Spezies A und C. Duplikation an Wurzel: da D bei Artenbaum an B hängt, beim Genbaum hängen d1, d2 aber an e. Genduplikation Genverlust Bianca Büttner Erstellung eines Genbaums über Genbaum/Artenbaum-Reconcilierung

6 Einführung in die Thematik
Walter Fitch`s (Zoologe,1970) original Definition von „paralog“ und „ortholog“: - Wenn die Homologie zweier Gene das Resultat einer Genduplikation ist und sie die Entwicklung einer Art beschreiben, nennt man die Gene paralog. - Ist die Homologie zweier Gene das Resultat einer Speziation (Artenbildung) und reflektiert die Entwicklung eines Gens die Entwicklung mehrerer Arten, nennt man die Gene ortholog. Wichtig, da gesamtes Paper und der Algorithmus darauf basieren. Bsp1: Alpha- und Beta-Hämoglobin Bsp2: Alpha Hämoglobin bei Maus und Mensch Speziation => Gabelung eines Artenbaumes Bianca Büttner Erstellung eines Genbaums über Genbaum/Artenbaum-Reconcilierung

7 Einführung in die Thematik
Oder in kurz: Zwei Gene sind paralog, wenn sie nach einer Duplikation divergieren. Zwei Gene sind ortholog, wenn sie nach einer Speziation divergieren. Bianca Büttner Erstellung eines Genbaums über Genbaum/Artenbaum-Reconcilierung

8 Einführung in die Thematik
Beispiel: Rattengene 1 & 2 sind paralog. Mausgene 1 & 2 sind paralog. Aber: Rattengen 1 bzw. 2 ist ortholog zu Mausgen 1 & 2 und umgekehrt. ( ) = Speziation X = Duplikation Bianca Büttner Erstellung eines Genbaums über Genbaum/Artenbaum-Reconcilierung

9 Der Algorithmus von Arvestad et al.
Der Algorithmus versucht Fragen zu beantworten wie z.B. Wie viele Duplikationen und Verlust geschahen in einer Genfamilie? Oder welche Gene sind ortholog? Die Autoren entwickelten als Grundlage für den Algorithmus ein Gen-Evolutionsmodell, dass im 2. Paper noch durch ein Gen-Sequenz-Evolutionsmodell erweitert wurde. Die Verfahren und Modelle auf denen der Algorithmus basiert, gehören zu den statistischen Methoden und sind laut Autor den üblichen parsimonischen Methoden in Realitätsnähe und Mächtigkeit weit überlegen. Bianca Büttner Erstellung eines Genbaums über Genbaum/Artenbaum-Reconcilierung

10 Definitionen und Notationen I
Ein Genbaum G bezeichnet seine Knoten und Blätter mit Kleinbuchstaben wie u, v und w. Ein Artenbaum S verwendet meist die Großbuchstaben X, Y, Z. Die Blätter eines Genbaums repräsentieren Gene, die Blätter eines Artenbaums repräsentieren Arten. Bianca Büttner Erstellung eines Genbaums über Genbaum/Artenbaum-Reconcilierung

11 Definitionen und Notationen II
Ein Genbaum G besitzt eine Blatt-Benennungs-Funktion: s: L(G) L(S) Das heißt, das Gen l e L(G) gehört zum Genom der Spezies s(l), da L(G) und L(S) miteinander assoziiert sind. Bsp: a1 und a2 sind Gene der Spezies A. Bianca Büttner Erstellung eines Genbaums über Genbaum/Artenbaum-Reconcilierung

12 Definitionen und Notationen III
Ein Baum T hat folgende Merkmale: V(T) => Eine Menge von Knoten von T. A(T) => Eine Menge von Kanten von T. L(T) => Eine Menge von Blättern von T. r(T) => Eine Wurzel von T. Bianca Büttner Erstellung eines Genbaums über Genbaum/Artenbaum-Reconcilierung

13 Definitionen und Notationen V
Ist binär, d.h. jeder innere Knoten hat zwei Kinder. Tu => Ist ein Teilbaum von T mit Wurzel u. c1(u) ist das linke und c2(u) das rechte Kind von u. Tu,v => Ist ein Kanten-Teilbaum von T. bedeutet: v ist ein Nachkomme von u in T. u v Bianca Büttner Erstellung eines Genbaums über Genbaum/Artenbaum-Reconcilierung

14 Das Gen-Evolutions-Modell I
In diesem Modell lassen wir den Genbaum innerhalb eines Artenbaums wachsen, entsprechend eines sogenannten Birth-Death-Prozesses. Dieser Standard-Prozess wurde bereits von Kendall 1948 entwickelt und induziert die Reconcilierung: Birth rate l => Anzahl der Duplikationen Death rate m => Anzahl der Genverluste Der Birth-Death-Prozess wird auf die Kanten des Artenbaums angewendet. Bianca Büttner Erstellung eines Genbaums über Genbaum/Artenbaum-Reconcilierung

15 Das Gen-Evolutions-Modell II
Wie funktioniert der Birth-Death-Prozess? Der Prozess beginnt an der Wurzel und arbeitet sich abwärts bis zu den Blättern des Artenbaums vor. 2. Sobald der Prozess das Ende einer Kante erreicht, splittet er Knoten x in zwei identische Kopien. 3. Der Prozess geht rekursiv links und rechts an den ausgehenden Kanten von x weiter, bis er in den Blättern von S stoppt. Bianca Büttner Erstellung eines Genbaums über Genbaum/Artenbaum-Reconcilierung

16 Das Gen-Evolutions-Modell III
Dann wird der Baum „zurechtgestutzt“, d.h. Knoten ohne Blätter (Genverluste) werden gelöscht, eingehende und ausgehende Kanten von Knoten mit nur einem Kind zu einer Kante (ohne den Knoten) zusammengeführt. 5. Dann werden die Blätter des entstandenen Genbaums entsprechend der Blätter des Artenbaums benannt. Beispiel: Bianca Büttner Erstellung eines Genbaums über Genbaum/Artenbaum-Reconcilierung

17 Beispiel: Genbaum entwickelt sich innerhalb eines Artenbaums
Speziation Duplikation Großbuchstaben: Arten – X ist die Wurzel des Artenbaums Kleinbuchstaben: Gene, die zur jeweiligen Art gehören. Genverlust Bianca Büttner Erstellung eines Genbaums über Genbaum/Artenbaum-Reconcilierung

18 Entwicklung eines Genbaums II
nach dem Zurechtschneiden des Birth-Death-Prozesses. Reconcilierung aus dem Birth-Death-Prozess. I: Reconcilierung nach Birth-Death-Prozess-> Entfernen der Genverluste, Verschmelzen der Kanten u. Knoten nach den Reconc.-Definitionen II. Eine mögliche Reconcilierung III: Reconcilierung mit den wenigsten Duplikationen (parsimonischste Reconc.) IV: Fertiger Genbaum (u ist Wurzel des Genbaum u. gleichzeitig assoziiert mit X des Artenbaums, d + u = Speziationen) Bianca Büttner Erstellung eines Genbaums über Genbaum/Artenbaum-Reconcilierung

19 Entwicklung eines Genbaums III
IV Reconcilierung durch parsimonische Methoden. Gen d wird fälschlicherweise als Speziation interpretiert. Eine mögliche Reconcilierung Bei gegebenem Arten- und Genbaum aus I. I: Reconcilierung nach Birth-Death-Prozess-> Entfernen der Genverluste, Verschmelzen der Kanten u. Knoten nach den Reconc.-Definitionen II. Eine mögliche Reconcilierung III: Reconcilierung mit den wenigsten Duplikationen (parsimonischste Reconc.) IV: Fertiger Genbaum (u ist Wurzel des Genbaum u. gleichzeitig assoziiert mit X des Artenbaums, d + u = Speziationen) Bianca Büttner Erstellung eines Genbaums über Genbaum/Artenbaum-Reconcilierung

20 Das Gen-Sequenz- Evolutions-Modell
Erweiterung des Gen-Evolutions-Modells. Bei jeder Entstehung einer neuen Genlinie – entweder durch Duplikation oder Speziation – wird ein Modell zur Evolution der Sequenz angewendet (hier: Jukes-Cantor und Molecular-Clock-Model für die Kanten). Das Modell ist hierarchisch, d.h. es ist egal ob zuerst der Gen-Baum nach dem Gen-Evolutions-Modell entwickelt wird und danach das Sequenz-Evolutions-Modell darauf angewendet wird oder umgekehrt. Jukes-Cantor: DNA-Substitutionen-Modell wobei jede Base gleich WS von ¼ hat. Molekulare Uhr: Gesamtkantenlänge gleich da alle Blätter in gleicher Zeit (heute) Bianca Büttner Erstellung eines Genbaums über Genbaum/Artenbaum-Reconcilierung

21 Definitionen einer Reconcilierung I
Formal: Eine Reconcilierung eines Artenbaums S und eines Genbaums G ist ein Paar (g,G´) wobei g eine Funktion ist: Das bedeutet: Jeder Art ist eine Menge von Genen zugeordnet. Beispiel: u e g(x) - also: u gehört zu den Genen von X. Bianca Büttner Erstellung eines Genbaums über Genbaum/Artenbaum-Reconcilierung

22 Definitionen einer Reconcilierung II
G´wird zu G, sobald alle Knoten, mit nur insgesamt zwei eingehenden und ausgehenden Kanten, gelöscht wurden. Beispiel: G und G` Eine Reconcilierung g von G & S Bianca Büttner Erstellung eines Genbaums über Genbaum/Artenbaum-Reconcilierung

23 Definitionen einer Reconcilierung III
1. Die Wurzel des Artenbaums, ist einem Gen im Genbaum zugeordnet. 2. Für jedes Blatt im Genbaum gibt es eine zugehörige Spezies im Artenbaum. 3. Ein Gen kann nicht zu zwei Arten gleichzeitig gehören. 4. Kein Gen einer Spezies kann in der Reconcilierung Vor- oder Nachfahre von einem anderen Gen der gleichen Spezies sein. 3. Überschneidet sich Schnittmenge zweier Genmengen, gehören sie demzufolge zur gleichen Art. 4. Incomparable = stammen nicht voneinander ab, antichain => u ist nicht Nachfahre von v und umgekehrt. Bianca Büttner Erstellung eines Genbaums über Genbaum/Artenbaum-Reconcilierung

24 Definitionen einer Reconcilierung IV
5. Wenn y und z ebensowenig voneinander abstammen, wie ihre zugehörigen Gene v und w, dann ist der letzte gemeinsame Vorfahre von y und z an einer Gabelung und trennt v und w voneinander. 6. Wenn x,y,z von einander abstammen, stammen ihre zugehörigen Gene u,v,w in gleicher Reihenfolge von einander ab. Bianca Büttner Erstellung eines Genbaums über Genbaum/Artenbaum-Reconcilierung

25 Markov-Ketten-Monte-Carlo-Verfahren (MCMC)
Der hier verwendete Algorithmus basiert auf dem Metropolis-Hastings-Algorithmus, der zu den MCMC-Methoden gehört. In einem Zustandsraum wird durch eine zufällige Übergangswahrscheinlichkeit (proposal distribution) eine Markov-Kette aus Zuständen gebildet. Eine Akzeptanz-Wahrscheinlichkeit (der Metropolis-Hastings-Quotient) entscheidet, ob der Übergang von einem Zustand in den Anderen akzeptiert wird. Bianca Büttner Erstellung eines Genbaums über Genbaum/Artenbaum-Reconcilierung

26 Markov-Ketten-Monte-Carlo-Verfahren (MCMC) II
Dieser Quotient sorgt dafür, dass die Markov-Kette sich nach einer gewissen Zeit (Burn-In) gerichtet einer stationären Zielverteilung nähert. Aus ihr werden später die Werte gesampelt. In dieser Zielverteilung sind die Zustände nach ihrer Wahrscheinlichkeit gewichtet. D.h. die wahrscheinlicheren Zustände werden öfter besucht, als die weniger Wahrscheinlichen. Bianca Büttner Erstellung eines Genbaums über Genbaum/Artenbaum-Reconcilierung

27 Markov-Ketten-Monte-Carlo-Verfahren (MCMC) II
Der Metropolis-Hastings-Quotient: } vorgeschlagener neuer Zustand } alter Zustand WS, dass aktueller Zustand X ist. Übergangs-WS, von Zustand X nach Zustand Y. => Quotient gibt WS an, mit der neuer Zustand akzeptiert wird. Bianca Büttner Erstellung eines Genbaums über Genbaum/Artenbaum-Reconcilierung

28 MCMC-Abschätzung der a posteriori WS-Verteilung von Genbäumen
Hier besteht der Zustand einer Markov-Kette aus einem Tripel: (G, l, m) – entsprechend: Genbaum, Birth rate, Death rate. Die stationäre Ziel-Wahrscheinlichkeitsverteilung ist eine a posteriori-Verteilung von Genbäumen (posterior in Bezug auf F). Bei gegebenem F bekommen wir durch Sampeln aus dieser Verteilung folgende Wahrscheinlichkeit: } Prinzip der bedingten WS nach dem Satz von Bayes F ist die Menge aller zu betrachtenden Gensequenzen einer Genfamilie. => F = {q1, ... , qn}, wobei n die Anzahl aller Speziesarten ist. Bianca Büttner Erstellung eines Genbaums über Genbaum/Artenbaum-Reconcilierung

29 MCMC-Abschätzung der a posteriori WS-Verteilung von Genbäumen
l und m (Birth-Death-Prozess) werden zur Berechnung a priori angenommen und später durch die richtigen Werte aus den gesampelten Ergebnissen ersetzt. Die Berechnung der Akzeptanz-Wahrscheinlichkeit des neuen Zustands (G´,l´,m´) durch den Metropolis-Hastings-Quotienten wurde etwas abgewandelt: } Aktueller Zustand } Neuer Zustand ist die Likelihood. Bianca Büttner Erstellung eines Genbaums über Genbaum/Artenbaum-Reconcilierung

30 Berechnung der Likelihood
Die Likelihood soll die Wahrscheinlichkeit abschätzen, dass im Gen-Evolutions-Prozess G der Genbaum, l die Geburtsrate und m die Todesrate - bei gegebenen Gensequenzen F - war. Da es für jeden Genbaum eine entsprechende Reconcilierung gibt, gilt diese Likelihood-Berechnung auch gleichzeitig als Wahrscheinlichkeit für die jeweilige Reconcilierung. Bianca Büttner Erstellung eines Genbaums über Genbaum/Artenbaum-Reconcilierung

31 Berechnung der Likelihood II
Nach dem Prinzip der dynamischen Programmierung wird zur Berechnung der Likelihood einer Reconcilierung der Genbaum in sogenannte „Sliced Subtrees“ zerlegt. Die Größe der Sliced Subtrees wird durch eine obere und eine untere Schranke begrenzt. Es sind komplizierte rekursive Gleichungen notwendig, um einen Genbaum in diese Teilbäume zu zerlegen, die hier aber nicht gezeigt werden. Bianca Büttner Erstellung eines Genbaums über Genbaum/Artenbaum-Reconcilierung

32 Definitionen eines Sliced Subtrees
ist ein Sliced Subtree, für <x,y> e A(S) und u e g(x). Beispiel: Bianca Büttner Erstellung eines Genbaums über Genbaum/Artenbaum-Reconcilierung

33 Definitionen eines Sliced Subtrees II
ist noch mal ein spezieller Sliced Subtree, bei dem von vorneherein festgelegt ist, dass er nur eine Kante <x,y> lang und bei u gewurzelt ist. U ist ein Gen von X. Es gibt keine Spezies zwischen X und Y. Für jeden Sliced Subtree werden nun rekursiv Likelihood-Berechnungen angestellt. Die Ergebnisse dieser Rekursionsgleichungen ergeben zusammengesetzt dann die Likelihood einer speziellen Reconcilierung. Bianca Büttner Erstellung eines Genbaums über Genbaum/Artenbaum-Reconcilierung

34 Berechnung der Likelihood für eine einzelne Reconcilierung
ist definiert, als die WS, dass Gu und gu sich aus u in Sx entwickelt haben. D.h. X ist die Startspezies, u die Wurzel des Subtrees. ist die WS, dass sich und von u aus in Sx,y entwickelt haben. Y ist hier das Ende der Kante (Zielspezies). Bianca Büttner Erstellung eines Genbaums über Genbaum/Artenbaum-Reconcilierung

35 Berechnung der Likelihood für eine einzelne Reconcilierung II
Die Likelihood-Berechnung basiert auf folgenden rekursiven Gleichungen: Berechnung beginnt im Blatt der Sliced Subtrees und steigt rekursiv immer einen Knoten höher. X hat die Kinder y und z in S. Berechnet linke und rechte Kante von X. Bianca Büttner Erstellung eines Genbaums über Genbaum/Artenbaum-Reconcilierung

36 Berechnung der Likelihood für eine einzelne Reconcilierung III
eA betrachtet die Kante von X nach Y und setzt sich aus mehreren Variablen zusammen, die wiederum rekursiv berechnet werden müssen. Bianca Büttner Erstellung eines Genbaums über Genbaum/Artenbaum-Reconcilierung

37 Berechnung der Likelihood für eine einzelne Reconcilierung IV
py(l) => Wahrscheinlichkeit, dass der Birth-Death-Prozess auch tatsächlich l Blätter generiert hat. Bianca Büttner Erstellung eines Genbaums über Genbaum/Artenbaum-Reconcilierung

38 Berechnung der Likelihood für eine einzelne Reconcilierung V
h(g,y,u) => Wahrscheinlichkeit der Baumstruktur (Topologie) Der Birth-Death-Prozess generiert „Labeled Trees“ mit l Blättern und gleicher Wahrscheinlichkeit. Aber nach Entfernen der Labels (Blattnamen) ist eine Baumstruktur wahrscheinlicher als die Andere. Während die History (zeitliche Abfolge der Knoten) ohne Labels überhaupt keine Rolle mehr spielt. Bianca Büttner Erstellung eines Genbaums über Genbaum/Artenbaum-Reconcilierung

39 Berechnung der Likelihood für eine einzelne Reconcilierung V
Bsp: Wahrscheinlichkeit der Baumstruktur (Topologie) 6 Permutationen der Labeled Trees => WS = 1/3 12 Permutationen der Labeled Trees => WS = 2/3 Bianca Büttner Erstellung eines Genbaums über Genbaum/Artenbaum-Reconcilierung

40 Berechnung der Likelihood für eine einzelne Reconcilierung VI
Berechnung von h(g,y,u): Rekursiv für linkes und rechtes Kind von u Anzahl der Blätter des Sliced Subtrees - 1 Blätter bekommen den Wert 1 zugewiesen. d kann den Wert 0 (bei gleicher Topologie) oder 1 (verschieden) annehmen. Die rekursiven Teilgleichungen werden miteinander multipliziert. Bianca Büttner Erstellung eines Genbaums über Genbaum/Artenbaum-Reconcilierung

41 Berechnung der Likelihood für eine einzelne Reconcilierung VII
Führt Kante zu weiteren Knoten wird ev noch mal rekursiv gestartet. f(g,y,u) => Anzahl der isomorphen (äquivalenten) Reconcilierungen Ähnliches Prinzip wie bei h. d bekommt nur den Wert 1 zugewiesen, wenn die Reconcilierungen am Anfang und Ende übereinstimmen und sie dürfen nicht genau gleich sein. Bianca Büttner Erstellung eines Genbaums über Genbaum/Artenbaum-Reconcilierung

42 Erstellung eines Genbaums über Genbaum/Artenbaum-Reconcilierung
Zusammenfassung Der eben vorgestellte Algorithmus erlaubt bei gegebener Gensequenz: Eine Orthologische Analyse (Ist ein Genpaar ortholog?) Eine Genbaum-Rekonstruierung Eine Artenbaum-Rekonstruierung (analog zu Genbaum) Bei gegebenen Artenbaum ist es auch möglich die Wahrscheinlichkeit eines Genbaums zu errechnen. . Bianca Büttner Erstellung eines Genbaums über Genbaum/Artenbaum-Reconcilierung


Herunterladen ppt "Rekonstruktion eines Genbaums über Gen-/Artenbaum-Reconcilierung"

Ähnliche Präsentationen


Google-Anzeigen