Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

Genome Rearrangements

Ähnliche Präsentationen


Präsentation zum Thema: "Genome Rearrangements"—  Präsentation transkript:

1 Genome Rearrangements
Zentrum für Bioinformatik der Universität des Saarlandes WS 2001/2002

2 Ende der achtziger Jahre haben Jeffrey Palmer und seine Kollegen durch Vergleich der
mitrochondralen Genome von Pflanzen ein bemerkenswertes Muster evolutionärer Ent- wicklung entdeckt. B. oleracea (Kohl) B. campestris (Steckrübe) Viele Gene sind zu 99 % identisch nur ihre Reihenfolge (und ihre Richtung) haben sich geändert. Ganze Blöcke von Genen wurden umsortiert und eventuell wurde auch die Richtung der Blöcke geändert. Genome Rearrangement: Finde eine minimale Reihe von Transformationen, die ein Genom (oder Chromosom) in ein anderes Genom (oder Chromosom) überführt. Die Standardtransformation ist die Umkehrung (Reversal). Ein Reversal kehrt die Richtung eines oder mehrerer Blöcke um.

3 Maus (X Chromosom) Mensch (X Chromosom) Da sich die Gene auf den X Chromosomen der Säugetiere im Laufe der Evolution kaum geändert haben (Ohno [1967]), kann man durch das Studium der X Chromsomen und der vorliegenden Rearrangements die Evolution der Säugetiere in den letzten 125 Millionen Jahren studieren. Herpes Viren haben bis zu 200 Gene. Die Genome dieser Viren entwickeln sich so schnell weiter, dass man kaum mehr eine Ähnlichkeit zwischen den „verwandten“ Genen verschiedener Herpes Arten feststellen kann. Aber alle Arten weisen sieben Blöcke von Genen auf, die in den ver- schiedenen Viren unterschiedlich angeordnet sind.

4 David Sankoff hat den folgenden Ansatz zum Vergleich der Genreihenfolge formuliert:
Sorting by Reversals: Die Reihenfolge der Gene von zwei Organismen wird durch zwei Permutationen repräsentiert:  = 1 2 ... n  = 1 2 ... n Ein Reversal ( i, j) eines Intervals [i,j] ist die Permutation  = 1 2 ... i-1 i i+1... j-1 j j+1 ...n  ( i, j) = 1 2 ... i-1 j j-1... i+1 i j+1 ...n Reversal Distance Problem: Gegeben zwei Permutationen  und . Bestimme eine minimale Serie von Reversals 1 2... t , so dass gilt:  1 2... t =  Die minimale Zahl d( ) von Reversals, die eine Permutation  in die Identität überführt, nennt man die Reversal-Distanz von  Identität = ( n).

5 Pancake Flipping Problem:
Die minimale Zahl dpräf( ) von Präfix-Reversals (1,i) , die eine Permutation  in die Identität überführt, nennt man die Präfix-Reversal-Distanz von  Identität = ( n). Bill Gates (ein „undergraduate“ Student in Harvard) und Christos Papadimitriou machten die ersten Versuche dieses Problem zu lösen (Gates & Papadimitriou [1979]). Sie zeigten, dass der Präfix-Reversal-Diameter dpräf(n) = max dpräf() der symmetrischen Gruppe mit n Elementen kleiner gleich 5/3(n+1) ist und für unendlich viele n größer gleich 17/16n ist. Bezeichnung: Falls |i-j| = 1, dann schreiben wir i~j . Falls |i-j|  1, dann schreiben wir i~j . Definition: Man nennt ein Paar (i , i+1) adjazent, falls i ~ i+1. Man nennt ein Paar (i , i+1) einen Haltepunkt, falls i ~ i+1 Da die Identität keine Haltepunkte hat und da jedes Reversal bestenfalls zwei Haltepunkte beseitigen kann, gilt: wobei b() die Zahl der Haltepunkte von  ist.

6 Der Haltepunkt-Graph einer Permutation  = 0 1 ...n n+1 ist ein Graph mit n+2 Knoten V = {0 ,1, ...,n ,n+1} und gefärbten Kanten: Die benachbarten Knoten i und i+1 werden durch blaue Kanten verbunden. Jedes Knotenpaar (i , j) mit i ~ j wird über eine rote Kante miteinander verbunden. 2 3 1 4 6 5 7 Definition: Man nennt einen Rundgang in diesem Graphen alternierend, wenn jedes aufeinander folgende Paar von Kanten im Rundgang aus einer blauen und einer roten Kante besteht. ( ... rot, blau, rot, blau, rot, ....) Wenn wir im folgenden Abschnitt von einem Rundgang sprechen, so ist immer ein alternierender Rundgang gemeint. Die Knoten in Haltepunkt-Graphen sind balanciert, d.h., #rote Kanten (v) = #blauen Kanten (v). Es existiert ein alternier. Euler-Rundgang (d.h. der Rundgang geht genau einmal über jede Kante). Der Graph kann in kanten-disjunkte alternierende Rundgänge zerlegt werden.

7 2 3 1 4 6 5 7 2 3 1 4 6 5 7 2 3 1 4 6 5 7 Zerlegung in kanten- disjunkte alternierende Rundgänge. 2 3 1 4 6 5 7 2 3 1 4 6 5 7 Der Graph kann in kanten-disjunkte alternierende Rundgänge zerlegt werden.

8 Wir interessieren uns für die Zerlegung eines Haltepunkt-Graphen in maximal viele Rundgänge.
1 2 3 4 5 6 7 Die Identität kann in n+1 Rundgänge zerlegt werden. Sei  eine Permutation. Der Haltepunkt- Graph von G() habe eine maximale Rundgang-Zerlegung der Größe c(). Wir werden im folgenden Abschnitt zeigen, dass Satz: Die Anwendung  eines beliebigen Reversals  auf  die maximale Zahl von Rundgängen um höchstens einen Rundgang vergrößert, d.h. c() – c()  1 Beweis: Siehe nächste Seite! Es folgt dann: Satz (Bafna & Pevzner [1996]) Für jede Permutation  gilt: d()  n+1 – c().

9 Beweis des Satzes: Ein beliebiges Reversal (i,j) verändert den Graphen G() in vier Knoten. 2 3 1 4 6 5 7 (5,6) DEL ADD Die schwarzen Kanten DEL={(i-1, i), (j, j+1)} werden ersetzt durch ADD={(i-1, j), (i, j+1)} (1) Gehören die Kanten in ADD zum gleichen Rundgang einer maximalen Zerlegung von G(), so erhalten wir durch Löschen dieses Rundgangs eine Menge von c() –1 Rundgängen von (in) G(). Folglich ist in diesem Fall c()  c() –1. ADD (1,2) 1 2 3 4 5 6 7 1 2 3 4 5 6 7

10 Beweis des Satzes: Ein beliebiges Reversal (i,j) verändert den Graphen G() in vier Knoten. 2 3 1 4 6 5 7 (5,6) DEL ADD Die schwarzen Kanten DEL={(i-1, i), (j, j+1)} werden ersetzt durch ADD={(i-1, j), (i, j+1)} (1) Gehören die Kanten in ADD zu zwei Rundgängen R1 und R2 der max. Zerlegung von G (), so erhalten wir durch Löschen dieser Rundgänge eine Menge von c() –2 Rundgängen von (in) G()\(R1R2). Offensichtlich bildet die Kantenmenge (R1 R2 DEL)\ADD einen balanciertenTeilgraphen von G(), der wenigstens einen weiteren Rundgang enthält. ADD (1,2) 1 2 3 4 5 6 7 R1 R2 c()  c() - 2 + 1 2 1 3 4 5 6 7 c()  c() - 1

11 Erwartete Reversal-Distanz:
Für eine beliebige Permutation Sn betrachten wir alle Rundgänge in einer max. Zerlegung. Sei ci() die Zahl der Rundgänge mit Länge i in der max. Zerlegung (die nicht 0 und n+1 besuchen). Sei   2 die Zahl der Rundgänge in der max. Zerlegung, die entweder 0 oder n+1 besuchen. Es gilt: Wir betrachten nun alle Rundgänge deren Länge mindestens k ist. Die Zahl dieser Rundgänge ist Da der Haltepunkt-Graph genau 2(n+1) Kanten hat da die Rundgänge kanten-disjunkt sind, gilt: d()  (n+1) – c()

12 Erwartete Reversal-Distanz:
Für eine beliebige Permutation Sn bezeichnen wir die erwartete Zahl von Rundgängen der Länge i in der maximalen Zerlegung von G() mit E(ci()). Lemma: Beweis: Ein Rundgang der Länge i = 2t enthält t blaue Kanten von der Form {(x‘t , x1), (x‘1 , x2), (x‘2 , x3), .... , (x‘t-1 , xt) } mit xj ~ x‘j Wir betrachten die Menge x1, x2 , .... , xt und zeigen, dass für jeden Rundgang in einer max. Zerlegung gilt, dass alle xi verschieden sind (xi  xj). Wir nehmen an, dass xk = xl ist. = (x‘t , x1) .... (x‘k-1 , xk) (x‘k , xk+1) (x‘l-1 , xl)(x‘l , xl+1) (x‘t-1 , xt) Dann ist die Zerlegung nicht maximal, da wir einen weiteren Rundgang (siehe Bild) zur Zerlegung hinzufügen könnten und eine Menge von balancierten Knoten übrigbleiben würde (weitere Rundgänge). Wir erhalten also einen Widerspruch zur Annahme, dass xk = xl. Fortsetzung des Beweises auf der nächsten Seite.

13 Es gibt n!/(n-t)! mögliche Auswahlen von sortierten Menge x1, ... , xt.
Für jede mögliche Auswahl gilt: Es existieren für jedes xi (höchstens) zwei Nachbarn x‘i. 2t n!/(n-t)! mögliche Rundgänge der Länge 2t. Man beachte, dass wir bei dieser Zählung jeden Rundgang 2t mal zählen. (2t /2t)(n!/(n-t)!) mögliche Rundgänge der Länge 2t. Man wähle einen beliebigen 2t-Rundgang. Die Zahl der Permutationen, in denen dieser Rund- gang höchtens auftreten kann, kann wie folgt abgeschätzt werden: da die Elemente der t Paare nebeneinander gesetzt werden müssen und man daher nur die möglichen Permutationen von (n-t) Elemente betrachten muß (=>(n-t)!)und man für jedes Paar zwei mögliche Reihenfolgen hat => 2t. 2t(n-t)! Die Wahrscheinlichkeit, dass irgend ein 2t-Rundgang in einer zufällig gewählten Permutation auftritt, kann daher wie folgt abgeschätzt werden:

14 Satz (Bafna & Pevzner [1996])
Beweis: Fortsetzung des Beweises auf der nächsten Seite.

15 Wähle Bafna und Pevzner geben ferner die folgende Abschätzung an:

16 Satz (Caprara [1997]) Das Reversal-Distanz-Problem für vorzeichenlose Permutationen ist NP-hard. Satz (Kaplan, Shamir, Tarjan [1997]) Es existiert ein Algorithmus mit Laufzeit O(n2), der die optimale Folge von Reversals (Reversal-Distanz) für jede vorgegebene Permutation  mit Vorzeichen (signed permutation) bestimmt. Maus (X Chromosom) Mensch (X Chromosom)

17 Definition: Ein Block einer Permutation  ist ein maximales Teilinterval von , das keine Haltepunkte enthält. Ein Block wird wachsend genannt, wenn die Zahlenwerte im Block wachsen. Der Block wird fallend genannt, wenn die Zahlenwerte vom Anfang zum Ende hin im Block kleiner werden. Ein Block, der nur aus einer Zahl besteht, wird auch fallend genannt. Sei  eine Permutation, die einen fallenden Block (gelb markiert) enthält: ..... i-1 i i i+1  i - 1 und i+1  i + 1 Haltepunkt Unter der Annahme, dass i-1 i der fallende Block in  mit der kleinsten Zahl i am Ende des Blocks ist, gilt: und dem rechten Nachbarn der Zahl i – 1. Es existiert ein weiterer Haltepunkt zwischen der Zahl i - 1 Fall1: ..i i+1 .. (j = i-1) j+1 .. ..i (j = i-1) .... i+1j+1 .. Haltepunkte Haltepunkt ? .. (j = i-1) j+1 .. i i+1. .. (j = i-1) i .... j+1i+1 .. Fall2:

18 Lemma: Falls eine Permutation  einen fallenden Block enthält, dann existiert ein Reversal, das die Zahl der Haltepunkte um wenigstens einen Haltepunkt verkleinert. Beweis: Siehe vorhergehende Seite. Jeder Block ist steigend und besteht daher aus mindestens zwei aufeinander folgenden Zahlen. Sei  eine Permutation, die keinen fallenden Block enthält. Falls  nicht die Identität ist, so gibt es an jedem Ende eines Blockes einen Haltepunkt. Dreht man einen solchen steigenden Block um, so erhält man einen fallenden Block und die Zahl der Haltepunkte ändert sich nicht. Lemma: Sei  eine Permutation, die nicht die Identität ist und keine fallenden Blöcke enthält, dann gibt es ein Reversal, das nicht die Zahl der Haltepunkte ändert und einen fallenden Block der Länge größer gleich 2 produziert. Heuristik 1: Gegeben eine Permutation . Solange es einen Haltepunkt in der Permutation gibt, führe man die folgenden Operationen aus: Falls es mindestens einen fallenden Block gibt, dann finde einen, dessen Umkehrung (Reversal) die Zahl der Haltepunkte reduziert und drehe ihn um. Falls es keinen fallenden Block gibt, dann finde einen steigenden Block und drehe ihn um (Reversal).

19 Satz: Die vorhergehende Heuristik (1) benötigt im schlimmsten Fall 2b() Reversals, um eine beliebige Permutation  in die Identität zu überführen. Hierbei ist b( ) die Zahl der Halte- punkte von . Daher ist die Zahl der von der Heuristik verwendeten Reversals immer kleiner gleich 4 x d(), wobei d() die Reversal-Distanz (die optimale Zahl von Reversals) ist. Beweis: Siehe vorhergehende Seite und siehe Seite 5: d()  b()/2, wobei b() die Zahl der Haltepunkte ist. Lemma: Sei  eine Permutation mit einem fallenden Block. Falls es kein Reversal gibt, das die Zahl der Haltepunkte verkleinert und einen anderen fallenden Block zurücklässt (oder produziert), dann gibt es ein Reversal in , das die Zahl der Haltepunkte um zwei verkleinert. Beweis: und dem rechten Nachbarn der Zahl i – 1. Es existiert ein weiterer Haltepunkt zwischen der Zahl i - 1 Sei i-1 i der fallende Block in  mit der kleinsten Zahl i am Ende des Blocks: ..i i+1 .. (j = i-1) j+1 .. Fall1: Haltepunkte ..i (j = i-1) .... i+1j+1 .. Haltepunkt Fall2: .. (j = i-1) j+1 .. i i+1. ? .. (j = i-1) i .... j+1i+1 .. Es existiert ein fallender Block i (j = i-1)... ! (j = i-1) muß links von j liegen!

20 Sei ..... k k+1 .... der fallende Block in  mit der größten Zahl k am Anfang des Blocks:
Mit einem symmetrischen Argument kann man zeigen, dass k + 1 rechts von k liegen muß. i k + 1 k i -1 da andernfalls das Reversal des Intervals von i – 1 bis i die Zahl der Haltepunkte reduzieren würde und den fallenden Block mit k zurücklassen würde. k muß links von i liegen, da andernfalls das Reversal des Intervals von i – 1 bis i die Zahl der Haltepunkte reduzieren würde und den fallenden Block mit k zurücklassen würde. k muß rechts von i -1 liegen, Mit symmetrischer Argumentation folgt, dass i links von k + 1 liegen muß. Siehe Übung!

21 Heuristik 2: Solange es einen Haltepunkt in der Permutation gibt, führe man die folgenden Operationen aus: Gegeben eine Permutation . Falls es einen fallenden Block gibt, dessen Reversal die Zahl der Haltepunkte reduziert und einen fallenden Block zurücklässt, dann drehe ihn um. Falls es keinen solchen Block gibt, dann finde (1) einen Block, dessen Reversal die Zahl der Haltepunkte um zwei reduziert, und drehe ihn um und (2) suche einen steigenden Block, dessen Reversal keine neuen Halte- punkte produziert, und drehe ihn um. Satz: Die Heuristik 2 verwendet höchstens b() Reversals und verwendet daher höchstens 2 x d() viele Reversals (höchstens zwei mal die optimale Zahl von Reversals).


Herunterladen ppt "Genome Rearrangements"

Ähnliche Präsentationen


Google-Anzeigen