Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

MCMC genome rearrangement SE Aktuelle Themen der BioInformatik André Brück (2579542)

Ähnliche Präsentationen


Präsentation zum Thema: "MCMC genome rearrangement SE Aktuelle Themen der BioInformatik André Brück (2579542)"—  Präsentation transkript:

1 MCMC genome rearrangement SE Aktuelle Themen der BioInformatik André Brück (2579542)

2 15.06.2015André Brück - MCMC genome rearrangement 2/80 Gliederung Einführung Grundlagen Miklós – „MCMC genome rearrangement“ Ausblick Fragen / Diskussion

3 15.06.2015André Brück - MCMC genome rearrangement 3/80 Einführung Worum geht es? Abschätzung evolutionärer Abstände mittels Zählen der benötigten Mutationen „reversals“ „signed permutations“

4 15.06.2015André Brück - MCMC genome rearrangement 4/80 Einführung Wie viele Mutationen benötigt man, um aus einem Grünkohl eine Mohrrübe zu machen ???...und wie viele um von der Mitochondrien – DNA eines Wurmes zu der humanen zu kommen ???

5 15.06.2015André Brück - MCMC genome rearrangement 5/80 Gliederung Einführung Grundlagen Miklós – „MCMC genome rearrangement“ Ausblick Fragen / Diskussion

6 15.06.2015André Brück - MCMC genome rearrangement 6/80 Grundlagen Permutation 1,5,3,4,2 vorzeichen-behaftete Permutation +1,-5,+3,+4,-2 Jede Zahl steht für eine bei beiden Individuen gleiche Abfolge der DNA- Moleküle

7 15.06.2015André Brück - MCMC genome rearrangement 7/80 Grundlagen Was ist ein „reversal“? „Eine Inversion der Abfolge der Nukleotide einer DNA-Sequenz“ ACGATA -> ATAGCA +1 -> -1

8 15.06.2015André Brück - MCMC genome rearrangement 8/80 Grundlagen 7631582416847325 76315824 13675824 13675284 13674825 16374825 5 reversals

9 15.06.2015André Brück - MCMC genome rearrangement 9/80 Grundlagen 7

10 15.06.2015André Brück - MCMC genome rearrangement 10/80 Grundlagen 26

11 15.06.2015André Brück - MCMC genome rearrangement 11/80 Grundlagen „Reality – Desire – Diagram“ (+3,-2,-1,+4,-5) Definieren wir als:

12 15.06.2015André Brück - MCMC genome rearrangement 12/80 Grundlagen „Reality-Diagram“ = tatsächliches Vorkommen „Desire-Diagram“ = „so soll´s sein“ bzw. „so war es einmal“

13 15.06.2015André Brück - MCMC genome rearrangement 13/80 Grundlagen Koventionen: –„Reality“ wird auf den Kreis gezeichnet (Lit.: „black edges“) –„Desire“ als Kanten im Kreis (Lit.: „gray edges“) –Pfeilrichtung immer - +

14 15.06.2015André Brück - MCMC genome rearrangement 14/80 Grundlagen „Reality – Desire – Diagram“ für Beispiel R=(+3,-2,-1,+4,-5) und D=(+1,+2,+3,+4,+5)

15 15.06.2015André Brück - MCMC genome rearrangement 15/80 Grundlagen „Reality – Desire - Diagram“

16 15.06.2015André Brück - MCMC genome rearrangement 16/80 Grundlagen „breakpoint – graph“  eine Abschätzung, wie viele „reversals“ mindestens benötigt werden  Grobe untere Schranke

17 15.06.2015André Brück - MCMC genome rearrangement 17/80 Grundlagen Was ist ein „breakpoint“ ? Definition: Wenn (x,y) in einem Graphen α vorliegt, in einem Graphen β aber weder (x,y) noch (-y,-x) vorkommen, so bezeichnet man (x,y) als „breakpoint“ von α in Bezug auf β. Beispiel: (+3,-2,-1,+4,-5) (+1,+2,+3,+4,+5) (+3,-2) (-1,+4) sind „breakpoints“, (-2,-1) ist KEIN „breakpoint“

18 15.06.2015André Brück - MCMC genome rearrangement 18/80 Grundlagen Warum sind „breakpoints“ wichtig, bzw. als Abschätzung geeignet? Intuitiv: Wenn (x,y) ein „breakpoint“ ist, dann muss es eine Veränderung von α gegeben haben, um zu β zu kommen. Anzahl der „breakpoints“ ≈ Anzahl der „reversals“ b β (α) := # “breakpoints” von α in Bezug auf β

19 15.06.2015André Brück - MCMC genome rearrangement 19/80 Grundlagen Beispiel: (3, 5, 8, 6, 4, 7, 9, 2, 1, 10, 11)

20 15.06.2015André Brück - MCMC genome rearrangement 20/80 Grundlagen Genauere untere Schranke: (0,2,3,1,4,6,5,7,8) (0,1,2,3,4,5,6,7,8) Ein „reversal“ kann maximal 2 „breakpoints“ löschen (0,2,3,1,4,6,5,7,8)(0,2,3,1,4,5,6,7,8) b β (α) = 5b β (α) = 3 d β (α) ≥ b β (α)/ 2

21 15.06.2015André Brück - MCMC genome rearrangement 21/80 Grundlagen Kurze Zwischenzusammenfassung: „signed permutations“ „Reality-Desire-Diagrams“ „breakpoint-graph“

22 15.06.2015André Brück - MCMC genome rearrangement 22/80 Grundlagen Was passiert, wenn ein „reversal“ im RD- Diagramm vorkommt?

23 15.06.2015André Brück - MCMC genome rearrangement 23/80 Grundlagen „Hürden“ und „Festungen“ (Hannenhalli & Pevzner 95)

24 15.06.2015André Brück - MCMC genome rearrangement 24/80 Grundlagen

25 15.06.2015André Brück - MCMC genome rearrangement 25/80 Grundlagen „Interleaving graph“„RD-diagram“

26 15.06.2015André Brück - MCMC genome rearrangement 26/80 Grundlagen Komponenten Interleaving-Graph gibt Komponenten zurück F ist „good“ A/E ist „bad“ B/C/D ist „good“

27 15.06.2015André Brück - MCMC genome rearrangement 27/80 Grundlagen Definitionen nach Hannenhalli & Pevzner Hurdle –Simple Hurdle: »Wenn durch diese Hürde nicht zwei „schlechte“ Komponenten getrennt werden –Super Hurdle: »Wenn bei einem reversal aus einer „guten“ Komponente eine Hürde wird –Non-Hurdle: »Wenn bei einem reversal nur „gute“ Kreise entstehen

28 15.06.2015André Brück - MCMC genome rearrangement 28/80 Grundlagen Definitionen(2) Fortress Wenn das Diagramm aus einer ungeraden Anzahl von Super- Hürden besteht. (hier 3 SH)

29 15.06.2015André Brück - MCMC genome rearrangement 29/80 Grundlagen A,C,D,F sind Hürden A,C,D „simple H.“ F „super H.“ Methode: Man nimmt „formal“ einen Nachbarn raus. Definitionen ergeben Klassifizierung

30 15.06.2015André Brück - MCMC genome rearrangement 30/80 Grundlagen L +3 -3 +4 -4 -1 +1 -2 2 6 -6 5 -5 R L -1 +1 -2 +2 -3 +3 -4 +4 -5 +5 -6 +6 R (-3,-4,+1,+2,-6,-5)

31 15.06.2015André Brück - MCMC genome rearrangement 31/80 Grundlagen L -3 +3 +4 -6 -5 +5 R -4 +2 +6 -2 +1 Ziel

32 15.06.2015André Brück - MCMC genome rearrangement 32/80 Grundlagen -3 +3 +5 +6 -6 +2 -5 -2 +1 +4 -4 L R

33 15.06.2015André Brück - MCMC genome rearrangement 33/80 Grundlagen -3 +3 +5 +6 -6 +4 -5 -4 +1 +2 -2 LR

34 15.06.2015André Brück - MCMC genome rearrangement 34/80 Grundlagen +1 +6 +4 -5 -4 +3 -3 -2 +2 RL -6 +5 3 Reversals

35 15.06.2015André Brück - MCMC genome rearrangement 35/80 Grundlagen Reversal-Typen Kind I: („safe reversal“) Divergente „reality edges“ werden invertiert. Kind II: („Hurdle Merging“) gerade Zwei gegenüberliegende Hürden, falls die Anzahl der Hürden gerade ist.

36 15.06.2015André Brück - MCMC genome rearrangement 36/80 Grundlagen Kind III: („Hurdle Cutting“) ungerade Zwei gegenüberliegende Hürden, falls die Anzahl der Hürden ungerade ist. Diese 3 Möglichkeiten decken alles ab: -Gute Komponente -Schlechte Komponente -Gerade Anzahl -Ungerade Anzahl

37 15.06.2015André Brück - MCMC genome rearrangement 37/80 Grundlagen Algorithmus-Skizze repeat if es gibt eine gute Komponente in RD β (α) führe Kind I reversal durch else if gerade Anzahl Hürden führe Kind II reversal durch else if ungerade Anzahl Hürden und min 1 Simple H. führe Kind III reversal durch else [fortress] Kind II reversal mit beliebigen Hürden until α = β.

38 15.06.2015André Brück - MCMC genome rearrangement 38/80 Grundlagen Laufzeit-Verhalten Erstellen von RDO(n) Interleaving graphO(n 2 ) KomponentenO(n) -------------- RD β (α)(dynamisch)O(n 2 )

39 15.06.2015André Brück - MCMC genome rearrangement 39/80 Grundlagen Laufzeit-Verhalten Für einen reversal (2 edges) O(n 2 ) Prüfen ob schlechte Komp.(RD)O(n 2 ) Maximal n-malO(n) GesamtlaufzeitO(n 5 )

40 15.06.2015André Brück - MCMC genome rearrangement 40/80 Grundlagen Kurze Zwischenzusammenfassung: Interleaving Graph Hürden & Festungen Algorithmus mit O(n 5 )

41 15.06.2015André Brück - MCMC genome rearrangement 41/80 Gliederung Einführung Grundlagen Miklós – „MCMC genome rearrangement“ Ausblick Fragen / Diskussion

42 15.06.2015André Brück - MCMC genome rearrangement 42/80 Miklós – „MCMC genome rearrangement“ University of Oxford, 2003. Greift mehrere Essays auf, die er einfließen lässt: –Hannenhalli & Pevzner, 1999. –Blanchette et al., 1996. –Eriksen et al., 2001. –Geman & Geman, 1984.

43 15.06.2015André Brück - MCMC genome rearrangement 43/80 Miklós – „MCMC genome rearrangement“ Miklós teilt Mutationen in 3 Kategorien ein: –Inversions: Ein Teilabschnitt wird nur umgedreht –Transposition Ein Teilabschnitt wird an einer anderen Stelle lokalisiert –Inverted Transposition Inversion+Transposition

44 15.06.2015André Brück - MCMC genome rearrangement 44/80 Miklós – „MCMC genome rearrangement“

45 15.06.2015André Brück - MCMC genome rearrangement 45/80 Miklós – „MCMC genome rearrangement“ Zur Erinnerung: –1 (inverted) Transposition kann mehrere inversions ersetzen –Beispiel vom Anfang 7631582416847325 Inverted transposition 31567824

46 15.06.2015André Brück - MCMC genome rearrangement 46/80 Miklós – „MCMC genome rearrangement“ Wie werden die Mutationen gewichtet? –In den meisten existierenden Algorithmen werden alle Mutationen gleichgewichtet. (Gu et al, Kececioglu & Sankoff, etc) –(fast) alle bisherigen Veröffentlichungen / Untersuchungen beruhen nur auf einem Typ. (inversions: Larget et al, Sankoff & Blanchette) –Miklós führt stochastische Methode zur Gewichtung ein

47 15.06.2015André Brück - MCMC genome rearrangement 47/80 Miklós – „MCMC genome rearrangement“ Stochastisches Modell Miklós nimmt eine Gleichverteilung der Mutationstypen an (Poisson-Verteilung) Hierbei wird λ als Rate α·t für inversions und β·t für inv. Transpos. dargestellt.

48 15.06.2015André Brück - MCMC genome rearrangement 48/80 Miklós – „MCMC genome rearrangement“ Es gibt maximal... verschiedene Inversionen und verschiedene Transpositionen. Inv. Transpositionen werden definiert als: n : Länge der Permutation

49 15.06.2015André Brück - MCMC genome rearrangement 49/80 Miklós – „MCMC genome rearrangement“ l ist die Summe aller Positionen an denen i Inversionen stattgefunden haben. m ist die Summe aller Positionen an denen j Transpositionen oder invertierte Transpositionen stattgefunden haben. l i und m j sind die Summen aller Positionen, an denen Inversionen oder Transpositionen stattgefunden haben.

50 15.06.2015André Brück - MCMC genome rearrangement 50/80 Miklós – „MCMC genome rearrangement“ Da die Ereignisse als unabhängig angenommen werden, kann die Wahrscheinlichkeit der Ereignisse für einen Datensatz so dargestellt werden. (multiplizieren der Einzelwahrscheinl.) t t

51 15.06.2015André Brück - MCMC genome rearrangement 51/80 Miklós – „MCMC genome rearrangement“ Permutationen sind nicht kommutativ  Daraus ergibt sich die Wahrscheinlichkeit für einen Pfad  [(8) durch (9) geteilt]

52 15.06.2015André Brück - MCMC genome rearrangement 52/80 Miklós – „MCMC genome rearrangement“ MCs likelihood wird mit dem Satz von Bayes bestimmt, wobei G 1 und G 2 zwei Genome sind, α und β die Parameter. Das t kann weggelassen werden, da Zeit und Rate nicht getrennt werden können.

53 15.06.2015André Brück - MCMC genome rearrangement 53/80 Miklós – „MCMC genome rearrangement“ ist die Wahrscheinlichkeit, dass G 2 aus G 1 entstanden ist, mit den Parametern α und β, wobei Traj(G 1, G 2 ) die Menge aller möglichen Pfade von G1 zu G2 angibt. Dies kann so nicht berechnet werden!!!

54 15.06.2015André Brück - MCMC genome rearrangement 54/80 Miklós – „MCMC genome rearrangement“ Aber: interessiert uns auch nicht ;-) Was wir wollen: Abschätzung α und β Wir wollen nur die Rate der Mutationen, bzw. die Anzahlen der verschiedenen Mutationen in Bezug auf einen Datensatz.

55 15.06.2015André Brück - MCMC genome rearrangement 55/80 Miklós – „MCMC genome rearrangement“ Zurück zu MCMC: Per Definition ist die „posterior distribution“ eines MCMC Netzwerkes:

56 15.06.2015André Brück - MCMC genome rearrangement 56/80 Miklós – „MCMC genome rearrangement“ Dies wird mit den Formeln (10)-(12) eingesetzt zu:

57 15.06.2015André Brück - MCMC genome rearrangement 57/80 Miklós – „MCMC genome rearrangement“ wobei.... P(α) und P(β) sind die Eingangs- wahrscheinlichkeiten der Parameter α und β. (Dichtefunktion über zwei Parameter)

58 15.06.2015André Brück - MCMC genome rearrangement 58/80 Miklós – „MCMC genome rearrangement“ Nun kann P(α, β |G1,G2) aus P( t, α, β) gesampelt werden. Mittels einer niedrigen Eingangs- wahrscheinlichkeit für α und β und einem sehr hohem cut-off wird der Einfluss der a priori Verteilung minimiert.

59 15.06.2015André Brück - MCMC genome rearrangement 59/80 Miklós – „MCMC genome rearrangement“ Wir betrachten nur die folgende Näherung:

60 15.06.2015André Brück - MCMC genome rearrangement 60/80 Miklós – „MCMC genome rearrangement“ Wie bei Markoff-Ketten üblich wird eine Funktion erstellt, die uns angibt, ob wir den Pfad annehmen oder verwerfen: Diese Berechnung heißt „Metropolis-Hastings ratio“

61 15.06.2015André Brück - MCMC genome rearrangement 61/80 Miklós – „MCMC genome rearrangement“ Grundidee für die „proposal distribution“: 1. Eine Mutation, die die Anzahl der Kreise erhöht, bekommt eine hohe Wahrscheinlichkeit => „Der Weg zum Ziel“

62 15.06.2015André Brück - MCMC genome rearrangement 62/80 Miklós – „MCMC genome rearrangement“ 2. Eine Mutation, die die Anzahl der Kreise nicht verändert, bekommt eine niedrigere Wahrscheinlichkeit => „Die Natur nimmt „normalerweise“ den kürzesten Weg“

63 15.06.2015André Brück - MCMC genome rearrangement 63/80 Miklós – „MCMC genome rearrangement“ Folge daraus... 3. Eine Mutation, die die Anzahl der Kreise vermindert, bekommt die niedrigste Wahrscheinlichkeit.

64 15.06.2015André Brück - MCMC genome rearrangement 64/80 Miklós – „MCMC genome rearrangement“ Versuchen wir den Bogen zu den Grundlagen zu schlagen : Inversions / Transpositions verändern die „black edges“ => Reality-Linien (RD) (und ziehen die D-Edges mit) „Gut ist, was Kreise schafft...“ Hannenhalli & Pevzner: –Ein reversal kann maximal 2 breakpoints löschen –Ein reversal kann maximal 1 Kreis neu erzeugen

65 15.06.2015André Brück - MCMC genome rearrangement 65/80 Miklós – „MCMC genome rearrangement“ Wie wird mit diesen Vorgaben ein neuer Pfad vorhergesagt? 1. Fange am Start an (Komponentenweise) 2. Laufe den Weg auf den Desire-Edges durch den Graphen und markiere die Kanten entsprechend ihrer Orientierung mit +1 oder -1 3. Wenn man mindestens 3 R-Edges überspannt, prüfe ob eine Transposition vorkommen kann und notiere alle Möglichkeiten. 4. Berechne Anzahl der Inversionen

66 15.06.2015André Brück - MCMC genome rearrangement 66/80 Miklós – „MCMC genome rearrangement“ Was wissen wir jetzt? Maximale Anzahl der Inversionen Alle möglichen Transpositionen Anzahl der Kreise / Komponenten

67 15.06.2015André Brück - MCMC genome rearrangement 67/80 Miklós – „MCMC genome rearrangement“ Jetzt kommt die „proposal distribution“ ins Spiel: Gibt es einen safe-Reversal: hohe Wahrscheinlichkeit Gibt es nicht: Gibt es eine Möglichkeit, safe- Reversals zu erzeugen? (Ist es schon die Ziel-Permutation?) Alles andere: niedrige Wahrscheinlichkeiten

68 15.06.2015André Brück - MCMC genome rearrangement 68/80 Miklós – „MCMC genome rearrangement“ Die „proposal-distribution“ wurde von Miklós empirisch bestimmt.

69 15.06.2015André Brück - MCMC genome rearrangement 69/80 Miklós – „MCMC genome rearrangement“ Kurze Wiederholung: Miklós nutzt die MCMC Methode um die Raten α und β zu berechnen Dazu hat er eine Verteilung empirisch bestimmt (proposal distribution) Sein Algorithmus läuft über alle Reality-Kanten des RD-Diagrammes und berechnet in jedem Zyklus alle möglichen Mutationen und gewichtet sie mittels seiner Wahrscheinlichkeitswerte.

70 15.06.2015André Brück - MCMC genome rearrangement 70/80 Miklós – „MCMC genome rearrangement“ Ergebnis auf simulierten Daten: 5 inversions / 5 Transpositions / n = 50 Ein run (Sample / MIS) benötigte ca. 3 Stunden auf 1.5 GHz Rechner. In allen Fällen wurden mehr Mutationen vorhergesagt, wie simuliert.

71 15.06.2015André Brück - MCMC genome rearrangement 71/80 Miklós – „MCMC genome rearrangement“ Auffällig ist, dass wenn keine Inversionen / Transpositionen vorhanden waren, trotzdem welche gefunden wurden („Problem mit Wahrscheinlichkeiten“)

72 15.06.2015André Brück - MCMC genome rearrangement 72/80 Miklós – „MCMC genome rearrangement“ Test auf reelen Daten gegen DERANGE2 Humane / Drosophila mitochondrialer DNA DERANGE2 –unterteilt nur in gute / schlechte Mutation -> manche Pfade können nie begangen werden –Blanchette et al. (1996)

73 15.06.2015André Brück - MCMC genome rearrangement 73/80 Miklós – „MCMC genome rearrangement“ Miklós 6.76 ± 3.32 Inversionen 6.80 ± 1.12 Transpositionen Mit angepassten Gewichten: 2 Inversions + 9 Transpositions = 11 Mutationen DERANGE2 Findet minimal 12 Mutationen, davon 3 Transpositionen Bei leichter Veränderung der Gewichte 16 / 3

74 15.06.2015André Brück - MCMC genome rearrangement 74/80 Miklós – „MCMC genome rearrangement“ Bewertung von Miklós MCMC Ansatz: Sein Algorithmus kann bessere Werte erzielen, wenn die proposal distribution sinnvoll gewählt ist. Er findet mehr Transpositionen und weniger Inversionen als vorhanden sind.

75 15.06.2015André Brück - MCMC genome rearrangement 75/80 Miklós – „MCMC genome rearrangement“ Zwei Zitate: –„a better implementation of the approach might improve both the theoretical time complexity and the running time in practice“ –„The proposed auxiliary distribution in the MIS step is far from the optimal“

76 15.06.2015André Brück - MCMC genome rearrangement 76/80 Gliederung Einführung Grundlagen Miklós – „MCMC genome rearrangement“ Ausblick Fragen / Diskussion

77 15.06.2015André Brück - MCMC genome rearrangement 77/80 Ausblick Weiterentwicklung von Algorithmus mit besserer Laufzeit Bessere „proposal distribution“, die nicht empirisch bestimmt ist, sondern die den Daten (allen Daten) mehr entspricht => Bessere & schnellere Ergebnisse

78 15.06.2015André Brück - MCMC genome rearrangement 78/80 Gliederung Einführung Grundlagen Miklós – „MCMC genome rearrangement“ Ausblick Fragen / Diskussion

79 15.06.2015André Brück - MCMC genome rearrangement 79/80 Fragen / Diskussion

80 Danke für Eure Aufmerksamkeit !!!


Herunterladen ppt "MCMC genome rearrangement SE Aktuelle Themen der BioInformatik André Brück (2579542)"

Ähnliche Präsentationen


Google-Anzeigen