Seminar: Aktuelle Themen der Bioinformatik Thema: Genome Rearrangement Ceyhun Tamer

Slides:



Advertisements
Ähnliche Präsentationen
Fast Fourier Transformation
Advertisements

Anzahl der ausgefüllten und eingesandten Fragebögen: 211
Programmierung 1 - Repetitorium WS 2002/2003 Programmierung 1 - Repetitorium Andreas Augustin und Marc Wagner Homepage:
Genome Rearrangements
Vorlesung Informatik 2 Algorithmen und Datenstrukturen (26-Graphenalgorithmen: Wiederholung und Übung) Prof. Th. Ottmann.
Algebraische Zahlen: Exaktes Rechnen mit Wurzeln
Vorlesung: 1 Betriebliche Informationssysteme 2003 Prof. Dr. G. Hellberg Studiengang Informatik FHDW Vorlesung: Betriebliche Informationssysteme Teil3.
LS 2 / Informatik Datenstrukturen, Algorithmen und Programmierung 2 (DAP2)
Claudio Moraga; Gisbert Dittrich
Telefonnummer.
Modelle und Methoden der Linearen und Nichtlinearen Optimierung (Ausgewählte Methoden und Fallstudien) U N I V E R S I T Ä T H A M B U R G November 2012.
Modelle und Methoden der Linearen und Nichtlinearen Optimierung (Ausgewählte Methoden und Fallstudien) U N I V E R S I T Ä T H A M B U R G November 2011.
Modelle und Methoden der Linearen und Nichtlinearen Optimierung (Ausgewählte Methoden und Fallstudien) U N I V E R S I T Ä T H A M B U R G November 2011.
1 JIM-Studie 2010 Jugend, Information, (Multi-)Media Landesanstalt für Kommunikation Baden-Württemberg (LFK) Landeszentrale für Medien und Kommunikation.
= = = = 47 = 47 = 48 = =
Algorithmentheorie 04 –Hashing
WS Algorithmentheorie 02 - Polynomprodukt und Fast Fourier Transformation Prof. Dr. Th. Ottmann.
WS Algorithmentheorie 05 - Treaps Prof. Dr. Th. Ottmann.
WS Algorithmentheorie 08 – Dynamische Programmierung (2) Matrixkettenprodukt Prof. Dr. Th. Ottmann.
Vorlesung Informatik 2 Algorithmen und Datenstrukturen (27 – Kürzeste Wege) Prof. Th. Ottmann.
Vorlesung Informatik 2 Algorithmen und Datenstrukturen (17 – Bäume: Grundlagen und natürliche Suchbäume) Prof. Th. Ottmann.
1 Vorlesung Informatik 2 Algorithmen und Datenstrukturen (21 – Kürzeste Wege) T. Lauer.
Rechneraufbau & Rechnerstrukturen, Folie 2.1 © W. Oberschelp, G. Vossen W. Oberschelp G. Vossen Kapitel 2.
Grundkurs Theoretische Informatik, Folie 2.1 © 2006 G. Vossen,K.-U. Witt Grundkurs Theoretische Informatik Kapitel 2 Gottfried Vossen Kurt-Ulrich Witt.
Internet facts 2008-II Graphiken zu dem Berichtsband AGOF e.V. September 2008.
Vorlesung: 1 Betriebliche Informationssysteme 2003 Prof. Dr. G. Hellberg Studiengang Informatik FHDW Vorlesung: Betriebliche Informationssysteme Teil2.
Bewegte Bezugssysteme
PG 478 – Open Graph Drawing Framework Thema: Compounds & Force-Directed Francois Bertault & Mirka Miller – An Algorithm for Drawing Compound Graphs [1999]
AC Analyse.
Differentielles Paar UIN rds gm UIN
Maxwell-Boltzmann Ausgewählte Themen des analogen Schaltungsentwurfs
Prof. Dr. Bernhard Wasmayr
Studienverlauf im Ausländerstudium
Minimum Spanning Tree: MST
Datenstrukturen, Algorithmen und Programmierung 2 (DAP2)
LS 2 / Informatik Datenstrukturen, Algorithmen und Programmierung 2 (DAP2)
Datenstrukturen, Algorithmen und Programmierung 2 (DAP2)
Prof. Dr. Bernhard Wasmayr VWL 2. Semester
AWA 2007 Natur und Umwelt Natürlich Leben
Rechneraufbau & Rechnerstrukturen, Folie 12.1 © W. Oberschelp, G. Vossen W. Oberschelp G. Vossen Kapitel 12.
20:00.
Zusatzfolien zu B-Bäumen
Eine Einführung in die CD-ROM
Dokumentation der Umfrage
für Weihnachten oder als Tischdekoration für das ganze Jahr
Wir üben die Malsätzchen
Syntaxanalyse Bottom-Up und LR(0)
Diskrete Mathematik II
PROCAM Score Alter (Jahre)
VL Algorithmische BioInformatik (19710)
Ertragsteuern, 5. Auflage Christiana Djanani, Gernot Brähler, Christian Lösel, Andreas Krenzin © UVK Verlagsgesellschaft mbH, Konstanz und München 2012.
Geometrische Aufgaben
Vorlesung Mai 2000 Konstruktion des Voronoi-Diagramms II
Symmetrische Blockchiffren DES – der Data Encryption Standard
Retuschen.ppt Die folgende Schau zeigt die Möglichkeiten, mit PhotoDraw Digitalbilder zu retuschieren. Vergleichen Sie jeweils zwei Bildpaare durch fleissiges.
1 (C)2006, Hermann Knoll, HTW Chur, FHO Quadratische Reste Definitionen: Quadratischer Rest Quadratwurzel Anwendungen.
Zahlentheorie und Zahlenspiele Hartmut Menzer, Ingo Althöfer ISBN: © 2014 Oldenbourg Wissenschaftsverlag GmbH Abbildungsübersicht / List.
MINDREADER Ein magisch - interaktives Erlebnis mit ENZO PAOLO
1 (C)2006, Hermann Knoll, HTW Chur, FHO Quadratische Reste Definitionen: Quadratischer Rest Quadratwurzel Anwendungen.
Schutzvermerk nach DIN 34 beachten 20/05/14 Seite 1 Grundlagen XSoft Lösung :Logische Grundschaltung IEC-Grundlagen und logische Verknüpfungen.
Folie Beispiel für eine Einzelauswertung der Gemeindedaten (fiktive Daten)
1 Arbeitsgemeinschaft Biologische Psychiatrie Verordnungsgewohnheiten von Psychopharmaka Statuserhebung 2005 W.Günther G.Laux T.Messer N.Müller M.Schmauss.
1 Mathematical Programming Nichtlineare Programmierung.
Unternehmensbewertung Thomas Hering ISBN: © 2014 Oldenbourg Wissenschaftsverlag GmbH Abbildungsübersicht / List of Figures Tabellenübersicht.
Folie Einzelauswertung der Gemeindedaten
Datum:17. Dezember 2014 Thema:IFRS Update zum Jahresende – die Neuerungen im Überblick Referent:Eberhard Grötzner, EMA ® Anlass:12. Arbeitskreis Internationale.
Technische Kommunikation
Einführung in die Volkswirtschaftslehre, Mikroökonomie und Wettbewerbspolitik Lothar Wildmann ISBN: © 2014 Oldenbourg Wissenschaftsverlag.
Sehen, Hören, Schmecken: wenn uns unsere Sinne täuschen
1 Medienpädagogischer Forschungsverbund Südwest KIM-Studie 2014 Landesanstalt für Kommunikation Baden-Württemberg (LFK) Landeszentrale für Medien und Kommunikation.
 Präsentation transkript:

Seminar: Aktuelle Themen der Bioinformatik Thema: Genome Rearrangement Ceyhun Tamer

Ceyhun Tamer, 6.Semester Bioinformatik Übersicht Einleitung in das Thema Genome Rearrangement Multiple genome rearrangement: a general approach via the evolutionary genome graph (Dmitry Korkin, Lev Goldfarb; 2002) Multiple genome rearrangement (David Sankoff, Mathieu Blanchette;1998)

Ceyhun Tamer, 6.Semester Bioinformatik Grundlagen Genome Rearrangement Möglichkeiten der Evolution auf DNA-Ebene: Änderungen in der Sequenzabfolge der Basen in Genen: Änderungen in der Anordnung der Gene:

Ceyhun Tamer, 6.Semester Bioinformatik Grundlagen Genome Rearrangement

Ceyhun Tamer, 6.Semester Bioinformatik Grundlagen Genome Rearrangement Möglichkeiten der Evolution auf DNA-Ebene: Änderungen in der Sequenzabfolge der Basen in Genen: Änderungen in der Anordnung der Gene:

Ceyhun Tamer, 6.Semester Bioinformatik Grundlagen Genome Rearrangement (Weißkohl) (Weißrübe)

Ceyhun Tamer, 6.Semester Bioinformatik Grundlagen Genome Rearrangement Entdeckung des Genome Rearrangement Ende 1980er Jahren von Jeffrey Palmer und seinen Kollegen entdeckt mitochondriale Gene von Weißkohl und der Weißrübe zu 99% identisch mitochondriale Genome unterscheiden sich stark in der Gen- Reihenfolge

Ceyhun Tamer, 6.Semester Bioinformatik Grundlagen Genome Rearrangement Wozu Genome Rearrangement?? Traditionell Rekonstruktion phylogenetischer Bäume anhand von Punktmutationen in einzelnen oder wenigen Genen für den Fall Weißkohl vs. Weißrübe keine gute Wahl Herpesviren evolvieren sehr schnell Betrachtung 7 konservierter Blöcke; Veränderungen in deren Reihenfolge ist wesentlich langsamer Optimal wäre es die Vorteile von Gen- und Genom-Vergleichen in einem Algorithmus zu vereinen

Multiple genome rearrangement: a general approach via the evolutionary genome graph Dmitry Korkin und Lev Goldfarb

Ceyhun Tamer, 6.Semester Bioinformatik Multiple genome rearrangement: a general approach via the evolutionary genome graph Motivation: Es existiert kein vereinheitlichter Rahmen, um Fragestellungen aus diesem Bereich zu behandeln Ziel: einen solchen Rahmen bereitstellen Und z.B. die Ähnlichkeit zweier Genome über den jüngsten gemeinsamen Vorfahren berechnen Einführung des EG-Graphen (evolutionary genome graph)

Ceyhun Tamer, 6.Semester Bioinformatik Grundlegende Definitionen 0 = {A,C,G,T} ist unser Alphabet Ein Gen ist definiert als ein Element aus einer Menge von Strings Ein Genom G ist definiert als eine Sequenz von Genen G = (s 1, s 2,…,s n ), s k є S, 1 k n daraus resultiert die Genomsequenz G = s 1 ° s 2 ° … ° s n |G| ist die Länge der Genomsequenz Multiple genome rearrangement: a general approach via the evolutionary genome graph

Ceyhun Tamer, 6.Semester Bioinformatik Multiple genome rearrangement: a general approach via the evolutionary genome graph Grundlegende Definitionen Subsequenz: = {a,b,…,z} a = s 1, s 2,…, s n, s i є, 1 i n b = s i1, s i2,…, s ik, 1 i j n, 1 j k

Ceyhun Tamer, 6.Semester Bioinformatik Multiple genome rearrangement: a general approach via the evolutionary genome graph Grundlegende Definitionen MLCS (multiple longest subsequence): = {a,b,…,z} S = {a 1, a 2,…,a d } eine Menge von Sequenzen |a 1 | = n 1, |a 2 | = n 2,…, |a d | = n d b ist der MLCS dann wenn: b ist eine Subsequenz von a i für 1 i d b ist die Längste Sequenz auf, die die vorige Bedingung zutrifft Wenn d=2 so wird der MLCS nur LCS (longest common subsequence) genannt

Ceyhun Tamer, 6.Semester Bioinformatik Multiple genome rearrangement: a general approach via the evolutionary genome graph Grundlegende Definitionen A = (a 1, a 2,…, a n ), B = (b 1, b 2,…, b n ) p: {1,2,…,n} {1,2,…,n}, so daß b i = a p(i) oder b i = a p(i) Abbildungsfunktion f: Γ Γ, f(A) = B wird gene order transformation (gor-transformation) für Genom A genannt die Menge aller gor-Transformationen wird mit Φ gor bezeichnet

Ceyhun Tamer, 6.Semester Bioinformatik Multiple genome rearrangement: a general approach via the evolutionary genome graph Grundlegende Definitionen genome rearrangement: ein Rearrangement von Genom G nach Genom G m ist eine Sequenz (f 1, f 2,…, f m ), m 1, f i є Φ gor G 1 = f 1 (G), G 2 = f 2 (G 1 ), G i = f i (G i-1 ), 1 i m (Weißkohl) (Weißrübe) f1f1 f2f2 f3f3

Ceyhun Tamer, 6.Semester Bioinformatik Multiple genome rearrangement: a general approach via the evolutionary genome graph Grundlegende Definitionen gor-Transformationen: Inversionen Transpositionen ins-Transformation (Insertions-Transformation)

Ceyhun Tamer, 6.Semester Bioinformatik Multiple genome rearrangement: a general approach via the evolutionary genome graph Grundlegende Definitionen Inversionen: A = (a 1, a 2,…, a n ), B = (b 1, b 2,…, b n ) f є Φ gor ist eine Inversion einer Subsequenz A 1 = (a k, a k+1,…, a k+m ), wenn: b i = a i, 1 i k-1 oder k+m+1 i n b k+i = a k+(m-i), 0 i m a 1,…,a k-1, a k,a k+1, …,a k+m, a k+m+1,…,a n a 1,…,a k-1, a k+m,a k+m-1, …,a k, a k+m+1,…,a n Genom A: Genom B:

Ceyhun Tamer, 6.Semester Bioinformatik Multiple genome rearrangement: a general approach via the evolutionary genome graph Grundlegende Definitionen Transpositionen: A = (a 1, a 2,…, a n ), B = (b 1, b 2,…, b n ) f є Φ gor ist eine Transposition einer Subsequenz A1 = (a k, a k+1,…, a k+m ), wenn: b i = a i, 1 i min(k,j) oder max(k,j)+m+1 i n b j+i = a k+i, 1 i m a 1,…,a k, a k+1,a k+2, …,a k+m, a k+m+1,…,a n a 1,…,a j, a k+1,a k+2, …,a k+m, a j+1,…,a n Genom A: Genom B:

Ceyhun Tamer, 6.Semester Bioinformatik Multiple genome rearrangement: a general approach via the evolutionary genome graph Grundlegende Definitionen b i+m = a i, j+1 i k (Achtung nur für j k ) a 1,…,a j, a j+1,…,a k, a k+1,a k+2,…,a k+m, a k+m+1,.. a n a 1,…,a j, a k+1,a k+2,…,a k+m, a j+1,…,a k, a k+m+1,…,a n Genom A: Genom B:

Ceyhun Tamer, 6.Semester Bioinformatik Multiple genome rearrangement: a general approach via the evolutionary genome graph Grundlegende Definitionen Insertions-Transformation: ändert die Länge eines Genoms A = (a 1,a 2,…,a n ), B = (b 1,b 2,…,b n+m ) für m > 0 Abbildungsfunktion f: Γ Γ, f(A) = B wird ins-Transformation einer Sequenz A 1 = (c 1,c 2,…,c m ) genannt, wenn ein k existiert mit 1 k n : b i = a i, 1 i k b k+i = c i, 1 i m b i+k+m = a i+k, 1 i n-k a 1,…, a k, a k+1,…, a n a 1,…,a k, c 1,c 2,, …,c m, a k+1,…,a n A: B:

Ceyhun Tamer, 6.Semester Bioinformatik Multiple genome rearrangement: a general approach via the evolutionary genome graph Grundlegende Definitionen Menge der ins-Transformationen wird mit Φ ins bezeichnet Menge der ins- und gor-Transformationen ist Φ Eine Entwicklung von Genom G zu Genom G m ist eine Folge (f 1,f 2,…,f m ), m 1, f i є Φ G 1 = f 1 (G), G 2 = f 2 (G1), G i = f i (G i-1 ), mit f i є Φ

Ceyhun Tamer, 6.Semester Bioinformatik Multiple genome rearrangement: a general approach via the evolutionary genome graph Grundlegende Definitionen Genom C ist gemeinsamer Vorfahre für Γ 1 : für alle G є Γ 1 : G = C oder C G existiert Γ 1A ist die Menge aller gemeinsamen Vorfahren von Γ 1 Γ 1 = {1,2,…,7} Γ 1A = {7,8}

Ceyhun Tamer, 6.Semester Bioinformatik Multiple genome rearrangement: a general approach via the evolutionary genome graph Grundlegende Definitionen Genom C ist jüngster gemeinsamer Vorfahre von Γ 1 wenn es zur Menge gehört, so daß für alle G є Γ 1A mit G є Γ 1C ein C є Γ 1C und G C existiert Γ 1 = {1,2,…,7} Γ 1A = {7,8} Γ 1C = {7}

Ceyhun Tamer, 6.Semester Bioinformatik Multiple genome rearrangement: a general approach via the evolutionary genome graph EG-Graph und Problemstellung EG-Graph für Γ 1 : gerichtet, zusammenhängend DG = (V,E) mit l V : V Γ, l E : E Φ sink node: O source node: O es existiert genau ein source node V 0, V 0 є V l V ist injektiv und wenn G 0 = l V (V 0 ), dann ist G 0 = C von Γ 1 Problem: Wege sind nicht eindeutig

Ceyhun Tamer, 6.Semester Bioinformatik Multiple genome rearrangement: a general approach via the evolutionary genome graph EG-Graph und Problemstellung Ähnlichkeitsbegriff: um 2 Genome unter Einbeziehung von Transformationen vergleichen zu können µDG: l V (V) x l V (V) R Problemstellung: gegeben Γ 1 = {G 1, G 2,…, G n } und ein Ähnlichkeitsmaß µDG konstruiere EG-Graph DG, DG = (V,E), so daß und p DG ( Γ 1 ) = minimal unter allen EG-Graphen +

Ceyhun Tamer, 6.Semester Bioinformatik Multiple genome rearrangement: a general approach via the evolutionary genome graph ein evolutionsbasiertes Modell der Genom-Entwicklung EG-Graph: S = {g 1,g 2,…,g n ), Γ = {G|G = {g i1,g i2,…,g ik ) es ist, f ist eine Inversion oder Insertion und für V S die Menge der sink nodes ist l V (V S ) = Γ 1 Beschränkungen für den EG-Graphen: kein Genom in Γ enthält doppelte Gene ein Gen g є S darf nicht zweimal invertiert werden keine Transpositionen alle Genome bestehen aus denselben Genen

Ceyhun Tamer, 6.Semester Bioinformatik Multiple genome rearrangement: a general approach via the evolutionary genome graph ein evolutionsbasiertes Modell der Genom-Entwicklung Lemma: durch die Beschränkungen ist DG = (V,E) ein azyklischer Graph Transpositionen sind nicht erlaubt ein Genom kann niemals zu einer Vorstufe zurückkehren durch Beschränkung der Anzahl an Insertionen ist die Erstellung aller möglichen Genome endlich Transformation f einer Sequenz von Genen X = f X

Ceyhun Tamer, 6.Semester Bioinformatik Multiple genome rearrangement: a general approach via the evolutionary genome graph ein evolutionsbasiertes Modell der Genom-Entwicklung Lemma: A,B є Γ und C der jüngste gemeinsame Vorfahre wenn B = f X (A), für f X eine Transposition, dann A = f X (C) und B = f X (C) wenn B = f(A), für f eine Inversion, dann ist A = C (bzw. umgekehrt im symmetrischen Fall)

Ceyhun Tamer, 6.Semester Bioinformatik Multiple genome rearrangement: a general approach via the evolutionary genome graph ein evolutionsbasiertes Modell der Genom-Entwicklung weighting scheme: Gewichtung für Inversionen und Insertionen für eine Transformation f A ist das Gewicht w(f A ) = |A| Bestimmung der Ähnlichkeit von A und B : EG-Graph mit A,B є Γ und C gegeben A = f n ° f n-1 ° … f 1 (C) B = g m ° g m-1 ° … g 1 (C) µDG(A,B) =

Ceyhun Tamer, 6.Semester Bioinformatik Multiple genome rearrangement: a general approach via the evolutionary genome graph ein evolutionsbasiertes Modell der Genom-Entwicklung Was wurde dadurch erreicht? ein Maß für Verwandtschaft es ist nun möglich einer Verwandtschaftsbeziehung einen reellen Wert zuzuweisen je geringer µDG(A,B), desto verwandter sind die beiden Genome

Ceyhun Tamer, 6.Semester Bioinformatik Multiple genome rearrangement: a general approach via the evolutionary genome graph ein evolutionsbasiertes Modell der Genom-Entwicklung kontextsensitive Gen-Transformationen: Sinn: Prozess des Genome Rearrangement von der Struktur des Genoms abhängig abhängig von bestimmter Region: lokaler Kontext abhängig von weit entfernten Regionen: globaler Kontext globaler Kontext ist sehr komplex wird hier nicht behandelt außerdem Beschränkung auf Inversionen und Insertionen

Ceyhun Tamer, 6.Semester Bioinformatik Multiple genome rearrangement: a general approach via the evolutionary genome graph ein evolutionsbasiertes Modell der Genom-Entwicklung Definition: gegeben Γ 1 und eine Transformation f X (Inversion/Insertion) lokaler Kontext ist (C 1,C 2 ), C 1,C 2 є * f X eine Inversion von X nach X, B = f X (A) A = A 1 C 1 X C 2 A 2 B = B 1 C 1 X C 2 B 2 f X eine Insertion, B = f X (A) A = A 1 C 1 C 2 A 2 B = B 1 C 1 X C 2 B 2 wobei A 1, A 2, B 1, B 2, C 1, C 2 є * wenn C 1 und C 2 Null-String f X ist kontextfrei

Ceyhun Tamer, 6.Semester Bioinformatik Multiple genome rearrangement: a general approach via the evolutionary genome graph ein evolutionsbasiertes Modell der Genom-Entwicklung Wozu kontextsensitive Transformationen? cs-Transformation ist diskriminierender cf-Transformation erstellt Genome, die weiter entfernt sind biologisch plausibler cs-Transformationen sollten bevorzugt werden

Ceyhun Tamer, 6.Semester Bioinformatik Multiple genome rearrangement: a general approach via the evolutionary genome graph ein evolutionsbasiertes Modell der Genom-Entwicklung weighting scheme update: w cs (f X ) = wenn C 1 und C 2 leer sind ist w cs (f x ) = w cf (f x ) wenn C 1 und C 2 groß geringeres Gewicht spezifischere Transformation kontextsensitive Transformation ist bevorzugt

Ceyhun Tamer, 6.Semester Bioinformatik Multiple genome rearrangement: a general approach via the evolutionary genome graph ein evolutionsbasiertes Modell der Genom-Entwicklung Was haben wir gewonnen? Transformationen können reelle Werte zugewiesen werden Möglichkeit Verwandtschaftsbeziehungen zu berechnen Verwandtschaftsbeziehungen vergleichen Miteinbeziehung eines möglichen lokalen Kontexts Was fehlt? Transpositionen globaler Kontext Unterscheidung zwischen Insertion und Inversion

Ceyhun Tamer, 6.Semester Bioinformatik Multiple genome rearrangement: a general approach via the evolutionary genome graph Implementierung: nur mit Transpositionen Was wird gemacht: Erstellen eines EG-Graphen aus Γ es werden nur Insertionen betrachtet die Idee des MLCS wird verwendet (dominant-points) Beschränkung auf, so daß jedes Genom in ein anderes durch endlich viele Operationen überführt werden kann Beschränkung, daß jedes Genom aus Δ, aus denselben Genen in S besteht es wird ein möglicher EG-Graph ausgegeben

Ceyhun Tamer, 6.Semester Bioinformatik Multiple genome rearrangement: a general approach via the evolutionary genome graph Algorithmus Input: Γ 1, | Γ 1 | = N Output: DG = (V,E), mit V = {v 1,v 2,…,v K } ist die Menge der Knoten und E = {e 1,e 2,…,e M } ist die Menge der Kanten

Ceyhun Tamer, 6.Semester Bioinformatik Multiple genome rearrangement: a general approach via the evolutionary genome graph

Ceyhun Tamer, 6.Semester Bioinformatik Multiple genome rearrangement: a general approach via the evolutionary genome graph Zeitkomplexität Ο(s * d (T + L)) | Γ 1 | = d, |S| = s, O(T) Komplexität für MLCS, L = max{|G 1 |,…,|G d |} O(T) = O(n * s * d + |D| * s * d * (log d-3 * n + log d-2 * s)) |D| ist die Größe der Menge aller dominanten Positionen

Ceyhun Tamer, 6.Semester Bioinformatik Multiple genome rearrangement: a general approach via the evolutionary genome graph Ergebnisse G 1 = D A B E C F G H; G 2 = A D G B C F H E; G 3 = A G B D C F E H; G 4 = G A B D C F E H; G 5 = E G C A F D B H; G 6 = C E A F B G H D.

Ceyhun Tamer, 6.Semester Bioinformatik Multiple genome rearrangement: a general approach via the evolutionary genome graph Ergebnisse

Ceyhun Tamer, 6.Semester Bioinformatik Multiple genome rearrangement: a general approach via the evolutionary genome graph Fazit Einführung des EG-Graphen, der die Entwicklung mehrerer Genome repräsentiert Es ist möglich gleich mehrere Genome untereinander zu vergleichen Aber es gibt noch viel zu tun, da bisher viele Einschränkungen vorhanden sind

Multiple genome rearrangement David Sankoff und Mathieu Blanchette

Ceyhun Tamer, 6.Semester Bioinformatik Multiple genome rearrangement Motivation: Multiples Alignment von Sequenzen betrachtet nur lokale Insertion, Deletion und Substitution Ziel: Multiples Alignment für Gensequenzen mit Inversionen und Transpositionen

Ceyhun Tamer, 6.Semester Bioinformatik Multiple genome rearrangement Worum wird es gehen: gesucht: Belegung der inneren Knoten (Vorfahren) bisher selten genutzt

Ceyhun Tamer, 6.Semester Bioinformatik Multiple genome rearrangement Breakpoint Analyse: A = (a 1,a 2,…,a n ) und B = (b 1,b 2,…,b n ) mit a i,b i є S a i und a i+1 sind adjazent in A aber nicht in B, so bilden sie einen Breakpoint Φ(A,B) ist die Anzahl Breakpoints in A A:g 1, g 2, g 3, g 4, g 5, g 6 BP: (g 1,g 2 ), (g 2, g 3 ), (g 3, g 4 ) B:g 2, g 1, g 4, g 5, g 6, g 3 BP: (g 2,g 1 ), (g 1, g 4 ), (g 6, g 3 )

Ceyhun Tamer, 6.Semester Bioinformatik Multiple genome rearrangement Orientierte Genome: Miteinbeziehung einer Polarität der Gene Orientierung gibt die Richtung der Transkription an Modifizierung des Begriffs: Breakpoint keine Breakpoints: g h -h -g Breakpoints: h g -g -h g -h -g h h -g -h g

Ceyhun Tamer, 6.Semester Bioinformatik Multiple genome rearrangement Multiple Genome Rearrangement auf Graphen: Definition: S = {g 1,g 2,…,g n } eine Menge von Genen T = (V,E) ein ungewurzelter Baum mit N 3 Blättern, die Blätter des Baumes, N+1 L 2N-2, die inneren Knoten minimiere:

Ceyhun Tamer, 6.Semester Bioinformatik Multiple genome rearrangement Multiple Genome Rearrangement auf Graphen: Aufgabe: minimiere: finde eine Belegung der inneren Knoten, so daß die Anzahl der Breakpoints minimal ist

Ceyhun Tamer, 6.Semester Bioinformatik Multiple genome rearrangement Multiple Genome Rearrangement auf Graphen: Consensus-Graph (Stars): Bestimmung eines Medians für N Genome mit jeweils n Genen ohne Orientierung S = {g 1, g 2, g 3 }, N = 3, n = 3 G 1 = g 2 g 1 g 3 G 2 = g 3 g 2 g 1 G 3 = g 1 g 3 g 2

Ceyhun Tamer, 6.Semester Bioinformatik Multiple genome rearrangement Multiple Genome Rearrangement auf Bäumen: Consensus-Graph (Stars): Γ ist der vollständige Graph die Knoten sind Element aus S für jede Kante gh in E(Γ) sei u(gh) die Anzahl in der g und h adjazent sind g1g1 g3g3 g2g2

Ceyhun Tamer, 6.Semester Bioinformatik Multiple genome rearrangement Multiple Genome Rearrangement auf Bäumen: Consensus-Graph (Stars): G 1 = g 2 g 1 g 3 (g 2 g 1 ), (g 1 g 3 ) G 2 = g 3 g 2 g 1 (g 3 g 2 ), (g 2 g 1 ) G 3 = g 1 g 3 g 2 (g 1 g 3 ), (g 3 g 2 ) u(g 2 g 1 ) = 2, u(g 1 g 3 ) = 2 u(g 3 g 2 ) = 2, u(g 1 g 2 ) = 0 u(g 2 g 3 ) = 0, u(g 3 g 1 ) = 0

Ceyhun Tamer, 6.Semester Bioinformatik Multiple genome rearrangement Multiple Genome Rearrangement auf Bäumen: Consensus-Graph (Stars): w(gh) ist das Gewicht der Kante gh mit w(gh) = N - u(gh) w(g 2 g 1 ) = 1, w(g 1 g 3 ) = 1, w(g 3 g 2 ) = 1, w(g 1 g 2 ) = 3 w(g 2 g 3 ) = 3, w(g 3 g 1 ) = 3 das TSP wird auf ( Γ,w) angewendet

Ceyhun Tamer, 6.Semester Bioinformatik Multiple genome rearrangement Multiple Genome Rearrangement auf Bäumen: Consensus-Graph (Stars): mögliche Lösungen (Mediane): g1 g3 g2Kosten: 3 g2 g1 g3 g3 g2 g1 G 1 = g 2 g 1 g 3 G 2 = g 3 g 2 g 1 G 3 = g 1 g 3 g 2 g1g1 g3g3 g2g

Ceyhun Tamer, 6.Semester Bioinformatik Multiple genome rearrangement Multiple Genome Rearrangement auf Graphen: Consensus-Graph (Stars): Bestimmung eines Medians für N Genome mit jeweils n Genen mit Orientierung S = {-g 1, g 1, -g 2, g 2, -g 3, g 3 }, N = 3, n = 3 G 1 = -g 2 g 1 g 3 G 2 = g 3 -g 1 -g 2 G 3 = g 1 g 2 g 3

Ceyhun Tamer, 6.Semester Bioinformatik Multiple genome rearrangement Multiple Genome Rearrangement auf Graphen: Consensus-Graph (Stars): Γ ist der vollständige Graph die Knoten sind Element aus S für jede Kante gh in E(Γ) sei u(gh) die Anzahl in der - g und h adjazent sind w(gh) = N - u(gh) wenn g = -h w(gh) = -Z g1g1 g3g3 g2g2 -g 1 -g 2 -g 3 G 1 = g 1 g 2 g 3 G 1 = g 1 -g 1 | g 2 -g 2 | g 3 -g 3 G 2 = g 1 g 2 -g 3 G 2 = g 1 -g 1 | g 2 -g 2 | -g 3 g 3

Ceyhun Tamer, 6.Semester Bioinformatik Multiple genome rearrangement Multiple Genome Rearrangement auf Graphen: Consensus-Graph (Stars): G 1 = -g 2 g 1 g 3, G 2 = g 3 -g 1 -g 2, G 3 = g 1 g 2 g 3 u(g 2 g 1 ) = 1, u(-g 1 g 3 ) = 1, u(-g 3 -g 1 ) = 1, u(g 1 -g 2 ) = 1, u(-g 1 g 2 ) = 1, u(-g 2 g 3 ) = 1 w(g 2 g 1 ) = 2, w(-g 1 g 3 ) = 2, w(-g 3 -g 1 ) = 2, w(g 1 -g 2 ) = 2, w(-g 1 g 2 ) = 2, w(-g 2 g 3 ) = 2

Ceyhun Tamer, 6.Semester Bioinformatik Multiple genome rearrangement

Ceyhun Tamer, 6.Semester Bioinformatik Multiple genome rearrangement Multiple Genome Rearrangement auf Graphen: Consensus-Graph (Stars): Lösungen: g 1 -g 1 g 2 -g 2 g 3 -g 3 Kosten: -3 * Z + 4 g 2 -g 2 g 3 -g 3 -g 1 g 1 -g 2 g 2 g 1 -g 1 g 3 -g 3 g 3 -g 3 -g 1 g 1 -g 2 g 2 Mediane: g 1 g 2 g 3 : 4 Inversionen Abstand g 2 g 3 -g 1 : 7 Inversionen Abstand -g 2 g 1 g 3 : 5 Inversionen Abstand g 3 -g 1 -g 2 : 5 Inversionen Abstand

Ceyhun Tamer, 6.Semester Bioinformatik Multiple genome rearrangement Wie gut sind die Lösungen?

Ceyhun Tamer, 6.Semester Bioinformatik Multiple genome rearrangement Multiple Genome Rearrangement auf Graphen: binäre Bäume (completely resolved): |V(T)| = 2N - 2 alle nicht-terminalen Knoten haben Grad 3 Beginn mit einem Start-Baum inneren Knoten werden Genome zugeordnet Zerlegung des Gesamtproblems in Teile von 3-Stars

Ceyhun Tamer, 6.Semester Bioinformatik Multiple genome rearrangement Multiple Genome Rearrangement auf Graphen: binäre Bäume (completely resolved): initiale Belegung der inneren Knoten: eine feste Permutation zufällige Permutationen eine Permutation aus nächster Verwandtschaft Consensus von drei Permutationen aus nächster Verwandtschaft Initiales TSP für jeden inneren Knoten, Kantengewichte über dynamische Programmierung Initiales TSP für jeden inneren Knoten, Kantengewichte sind gemittelt über drei benachbarte Knoten

Ceyhun Tamer, 6.Semester Bioinformatik Multiple genome rearrangement Multiple Genome Rearrangement auf Graphen: Der Algorithmus: algorithm optimizetree input G 1,…,G N initialize each of G N+1,…,G 2N-2 to some Genome cost := routine iteratemedian output G N+1,…,G 2N-2

Ceyhun Tamer, 6.Semester Bioinformatik Multiple genome rearrangement Multiple Genome Rearrangement auf Graphen: routine iteratemedian while C = < cost, cost := C do for i = N+1,…,2N-2, G* := median(G h, G j, G k ) if G i := G * end if enddo endwhile

Ceyhun Tamer, 6.Semester Bioinformatik Multiple genome rearrangement Wie gut sind die Ergebnisse:

Ceyhun Tamer, 6.Semester Bioinformatik Multiple genome rearrangement Fazit Multiples Alignment von Genomen mit Hilfe von Stars und binären Bäumen Aussagen über die Genauigkeit der Lösung Beschränkung der Genome auf dieselbe Genmenge ist unrealistisch

Ceyhun Tamer, 6.Semester Bioinformatik Multiple genome rearrangement