Martina Fröhlich - Aktuelle Themen der Bioinformatik1 Predicting RNA Secondary Structures with Arbitrary Pseudoknots by Maximizing the Number of Stacking.

Slides:



Advertisements
Ähnliche Präsentationen
Algorithmentheorie 08 – Dynamische Programmierung (1)
Advertisements

Freie Universität Berlin Institut für Informatik
Christian Scheideler SS 2009
Christian Scheideler SS 2009
Definition [1]: Sei S eine endliche Menge und sei p eine Abbildung von S in die positiven reellen Zahlen Für einen Teilmenge ES von S sei p definiert.
Polynomial Root Isolation
Algebraische Zahlen: Exaktes Rechnen mit Wurzeln
Zerlegung von Graphen.
Datenstrukturen, Algorithmen und Programmierung 2 (DAP2)
Datenstrukturen, Algorithmen und Programmierung 2 (DAP2)
LS 2 / Informatik Datenstrukturen, Algorithmen und Programmierung 2 (DAP2)
Das LCA – Problem in Suffixbäumen
Suche in Texten (Stringsuche )
Marco Barz Seminar über Algorithmen SoSe2007
Algorithmen und Komplexität
Christian Schindelhauer
Algorithmentheorie 04 –Hashing
WS Algorithmentheorie 08 – Dynamische Programmierung (2) Matrixkettenprodukt Prof. Dr. Th. Ottmann.
Vorlesung Informatik 2 Algorithmen und Datenstrukturen (27 – Kürzeste Wege) Prof. Th. Ottmann.
1 Vorlesung Informatik 2 Algorithmen und Datenstrukturen (21 – Kürzeste Wege) T. Lauer.
Einführung in Berechenbarkeit, Formale Sprachen und Komplexitätstheorie Wintersemester 2005/ Vorlesung Dominic Dumrauf.
Minimum Spanning Tree: MST
Hauptseminar Automaten und Formale Sprachen
Datenstrukturen, Algorithmen und Programmierung 2 (DAP2)
Beweissysteme Hartmut Klauck Universität Frankfurt WS 06/
Effiziente Algorithmen
Effiziente Algorithmen
Effiziente Algorithmen
Chromatische Zahl.
Effiziente Algorithmen
Black Box Algorithmen Hartmut Klauck Universität Frankfurt SS
Effiziente Algorithmen
Effiziente Algorithmen
Black Box Algorithmen Hartmut Klauck Universität Frankfurt SS
Effiziente Algorithmen Hartmut Klauck Universität Frankfurt SS
Black Box Algorithmen Hartmut Klauck Universität Frankfurt SS
Black Box Algorithmen Hartmut Klauck Universität Frankfurt SS
Quantum Computing Hartmut Klauck Universität Frankfurt WS 05/
Effiziente Algorithmen Hartmut Klauck Universität Frankfurt SS
Black Box Algorithmen Hartmut Klauck Universität Frankfurt SS
Effiziente Algorithmen Hartmut Klauck Universität Frankfurt SS
Effiziente Algorithmen Hartmut Klauck Universität Frankfurt SS
Effiziente Algorithmen Hartmut Klauck Universität Frankfurt SS
Effiziente Algorithmen
Effiziente Algorithmen
Effiziente Algorithmen Hartmut Klauck Universität Frankfurt SS
Hartmut Klauck Universität Frankfurt SS
Beweissysteme Hartmut Klauck Universität Frankfurt WS 06/
Information und Kommunikation
Information und Kommunikation Hartmut Klauck Universität Frankfurt SS
Quantum Computing Hartmut Klauck Universität Frankfurt WS 04/
Hartmut Klauck Universität Frankfurt WS 06/
Hartmut Klauck Universität Frankfurt WS 06/
Christian Scheideler Institut für Informatik Universität Paderborn
Mehrkriterielle Optimierung mit Metaheuristiken
Black Box Algorithmen Hartmut Klauck Universität Frankfurt SS
Informatik III Christian Schindelhauer Wintersemester 2006/07
Das Traveling Salesman Problem (TSP)
Institut für Kartographie und Geoinformation Prof. Dr. Lutz Plümer Geoinformation II 6. Sem. Vorlesung Mai 2000 Konstruktion des Voronoi-Diagramms.
Bipartite Graphen Der Satz von König.
Vergleich von RNA Strukturen A General Edit Distance between RNA Structures von Sebastian Juenemann.
HEINZ NIXDORF INSTITUT Universität Paderborn Fachbereich Mathematik/Informatik Algorithmische Probleme in Funknetzwerken VI Christian Schindelhauer
Institut für Kartographie und Geoinformation Prof. Dr. Lutz Plümer Diskrete Mathematik II Vorlesung Datenstrukturen für den Algorithmus von.
1/67 Johann-Wolfgang-Goethe Universität Frankfurt am Main Aktuelle Themen der Bioinformatik RNA-Sekundärstruktur- vorhersage mit Pseudoknots Johann-Wolfgang-Goethe.
Konvexe Hüllen (Convex Hulls)
Matchings (Paarungen) in Graphen
Gliederung der Vorlesung
Algorithmen und Datenstrukturen Prof. Dr. Ralf Möller Universität zu Lübeck Institut für Informationssysteme Stefan Werner (Übungen) sowie viele Tutoren.
Programmiersprachen II Fortsetzung Datenstrukturen Balancierte Bäume 3 Prof. Dr. Reiner Güttler Fachbereich GIS HTW.
Punkt-in-Landkarte II
 Präsentation transkript:

Martina Fröhlich - Aktuelle Themen der Bioinformatik1 Predicting RNA Secondary Structures with Arbitrary Pseudoknots by Maximizing the Number of Stacking Pairs

Martina Fröhlich - Aktuelle Themen der Bioinformatik2 Predicting RNA Secondary Structures Einleitung Ein approximativer Algorithmus für planare Sekundärstrukturen Ein approximativer Algorithmus für allgemeine Sekundärstrukturen NP-Vollständigkeit

Martina Fröhlich - Aktuelle Themen der Bioinformatik3 RNA Lineare Polymere, aufgebaut aus Nukleotiden Jeder Nukleotid aufgebaut aus Ribose, Phosphatrest und einer der 4 Basen Adenin, Guanin, Cytosin, Uracil Im Gegensatz zur DNA einzelsträngig bildet über Watson-Crick-Paarungen dreidimensionale Struktur aus

Martina Fröhlich - Aktuelle Themen der Bioinformatik4 Sekundärstruktur Sei S=s 1 s 2 …s n eine RNA-Sequenz aus n Basen. Eine Sekundärstruktur P ist eine Menge von Watson-Crick-Basenpaaren (s i1,s j1 ),…,(s ip,s jp ), so dass gilt s ir +2 ≤ s jr für alle r = 1,...,p, wobei keine Base gleichzeitig zu zwei Paaren gehören kann.

Martina Fröhlich - Aktuelle Themen der Bioinformatik5 Häufigste RNA-Strukturen Hairpin Loop Internal Loop Multi-branched Loop Bulge Stacking Pair

Martina Fröhlich - Aktuelle Themen der Bioinformatik6 Stacking Pair Von zwei aufeinanderfolgenden Basenpaaren (s i,s j ) und (s i+1,s j-1 ) gebildete Schleife mit i+4≤j Enthalten keine ungepaarten Basen, haben negative Freie Energie und stabilisieren die Sekundärstruktur q aufeinanderfolgende Stacking Pairs (s i,s j ), (s i+1,s j-1 ); (s i+1,s j-1 ), (s i+2,s j-2 )… (s i+q-1, s j-q+1 ),(s i+q,s j-q ) von P werden durch (s i,s i+1,…, s i+q ; s j-q,…, s j-1,s j ) dargestellt.

Martina Fröhlich - Aktuelle Themen der Bioinformatik7 Die Herausforderung: Pseudoknots Sei S eine RNA-Sequenz. Ein Pseudoknot wird gebildet aus zwei überlappenden Basenpaaren (s i,s j ) und (s k, s l ) der Form i<k<j<l Pseudoknots machen die Bestimmung einer optimalen Sekundärstruktur NP-hart

Martina Fröhlich - Aktuelle Themen der Bioinformatik8 Definitionen Der ungerichtete Graph G(P) einer gegebener Sekundärstruktur P sei derart aufgebaut, dass die Basen von S die Knoten in G(P) darstellen. (s i,s j ) ist eine Kante in G(P), wenn j = i+1 oder (s i,s j ) ein Basenpaar in P ist. Eine Sekundärstruktur P ist planar, wenn G(P) planar ist Eine Sekundärstruktur P enthält einen „interleaving block“, wenn sie drei Stacking Pairs der Form (s i,s i+1 ;s j-1,s j ), (s i`, s i+1 ;s j´-1,s j´ ), (s i´´,s i´´+1 ;s j´´-1,s j´´ ) enthält, bei denen i<i´<i´´<j<j´<j´´ ist.

Martina Fröhlich - Aktuelle Themen der Bioinformatik9 Nonplanare Sekundärstruktur Wenn eine Sekundärstruktur P einen „Interleaving Block“ enthält, ist sie nonplanar

Martina Fröhlich - Aktuelle Themen der Bioinformatik10 Beweis Angenommen P enthält einen „interleaving block“ der o.B.d.A. von folgenden Stacking pairs gebildet wird (s 1,s 2 ;s 7,s 8 ), (s 3,s 4 ;s 9,s 10 ) und (s 5,s 6 ;s 11,s 12 ) Der Subgraph dieser Stacking Pairs kann nicht planar abgebildet werden G(P) ist nicht planar  P ist nicht planar

Martina Fröhlich - Aktuelle Themen der Bioinformatik11 Predicting RNA Secondary Structures Einleitung Ein approximativer Algorithmus für planare Sekundärstrukturen Ein approximativer Algorithmus für allgemeine Sekundärstrukturen NP-Vollständigkeit

Martina Fröhlich - Aktuelle Themen der Bioinformatik12 Definitionen Die Stacking Pairs einer Sekundärstruktur P können in ein Rasterfeld eingebettet werden Die Basen der dazugehörigen RNA-Sequenz werden nacheinander durch Gitterpunkte auf einer horizontalen Linie L des Feldes dargestellt Ein Stacking Pair (s i,s i+1 ;s j-1,s j ) wird in der Art dargestellt, dass die Punkte s i bzw. s i+1 mit s j bzw. s j-1 derart verbunden sind, dass sich beide Linien entweder unter oder oberhalb von L befinden

Martina Fröhlich - Aktuelle Themen der Bioinformatik13 Stacking Pair - Einbettung

Martina Fröhlich - Aktuelle Themen der Bioinformatik14 Lemma Die Einbettung E von Stacking Pairs einer planaren Sekundärstruktur P ist planar P planar => E planar wird bewiesen durch ⌐ E planar => ⌐ P planar

Martina Fröhlich - Aktuelle Themen der Bioinformatik15 Beweis P hat keine planare Stacking-Pair-Einbettung => P enthält einen „interleaving block“ P enthält einen „interleaving block“ => P ist nonplanar

Martina Fröhlich - Aktuelle Themen der Bioinformatik16 Algorithmus MaxSP V(i,j) (j ≥ i) sei die maximale Anzahl an Stacking Pairs, die von s i...s j ohne Pseudoknots gebildet werden kann, wenn s i und s j ein Watson-Crick- Paar bilden W(i,j) (j ≥ i) sei die maximale Anzahl an Stacking Pairs, die von s i...s j ohne Pseudoknots gebildet werden kann. => W(1,n) ist die maximale Anzahl an Stacking Pairs die von S ohne Pseudoknots gebildet werden kann.

Martina Fröhlich - Aktuelle Themen der Bioinformatik17 Algorithmus MaxSP Basis For j=i,i+1,i+2 oder i+3 (j ≤ n) V(i,j)=0 s i,s j sind Basenpaare W(i,j)=0. Weiterführung For j>i+3

Martina Fröhlich - Aktuelle Themen der Bioinformatik18 MaxSP ist 1/2-approximativ Gegebene RNA-Sequenz S N* die maximale Anzahl an Stacking Pairs in einer planaren Sekundärstruktur, die von S geformt werden kann W die maximale Anzahl an Stacking Pairs in einer planaren Sekundärstruktur ohne Pseudoknots, die von S geformt werden kann

Martina Fröhlich - Aktuelle Themen der Bioinformatik19 Beweis P* sei die planare Sekundärstruktur von S mit N* Stacking Pairs P* ist planar => jede Stacking Pair-Einbettung von P* ist planar Sei E eine Stacking Pair-Einbettung von P*, in der sich keine Linien überkreuzen Seien n 1 und n 2 die Anzahl der Stacking Pairs ober- bzw. unterhalb von L O.B.d.A n 1 ≥ n 2 Sekundärstruktur P sei P*, jedoch ohne die Stacking Pairs unterhalb von L Da n 1 ≥ n 2, n 1 ≥ N*/2, W ≥ n 1 => W ≥ N*/2

Martina Fröhlich - Aktuelle Themen der Bioinformatik20 Komplexität und Speicherplatz Algorithmus MaxSP berechnet die maximale Anzahl an Stacking Pairs einer Sekundärstruktur S ohne Pseudoknots in Zeit O(n 3 ) und mit Speicherplatz O(n²).

Martina Fröhlich - Aktuelle Themen der Bioinformatik21 Beweis Es werden jeweils O(n²) Einträge V(i,j) und W(i,j) gefüllt. Das Füllen der W`s benötigt konstante Zeit, das der V`s höchstens O(n). => O(n²) Einträge in O(n 3 ) Zeit

Martina Fröhlich - Aktuelle Themen der Bioinformatik22 Predicting RNA Secondary Structures Einleitung Ein approximativer Algorithmus für planare Sekundärstrukturen Ein approximativer Algorithmus für allgemeine Sekundärstrukturen NP-Vollständigkeit

Martina Fröhlich - Aktuelle Themen der Bioinformatik23 Algorithmus GreedySP() Sei S=s 1 s 2...s n die Eingabesequenz und E die Menge der Basenpaare, die der Algorithmus ausgibt. Zu Beginn sind alle s j unmarkiert und E= Ø GreedySP(S,i)//i ≥ 3 1. Finde die am weitesten links liegenden aufeinanderfolgenden i Stacking Pairs SP, die von unmarkierten Basen gebildet werden. Nimm SP zu E hinzu und markiere diese Basen. Wiederhole bis Sequenz einmal durchlaufen. 2.For k=i-1 downto 2, Finde die am weitesten links liegenden aufeinanderfolgenden i Stacking Pairs SP, die von unmarkierten Basen gebildet werden. Nimm SP zu E hinzu und markiere diese Basen. Wiederhole bis Sequenz einmal durchlaufen.. 3.Finde das am weitesten links liegende Stacking Pair SP, das von unmarkierten Basen gebildet wird. Nimm es zu E hinzu und markiere diese Basen. Wiederhole bis Sequenz einmal durchlaufen.

Martina Fröhlich - Aktuelle Themen der Bioinformatik24 Beweis zur Approximation Zu beweisen: GreedySP findet 1/3 der maximal möglichen Stacking Pairs

Martina Fröhlich - Aktuelle Themen der Bioinformatik25 Definitionen Die von GreedySP ermittelten SP`s werden nacheinender mit SP 1, SP 2,...,SP h bezeichnet Für jedes SP j = (s p,...s p+t ;s q-t,...s q ) werden die beiden Intervalle I j und J j für die Indices [p...p+1] und [q-t...q] definiert Sei F die Menge der Stacking Pairs einer optimalen Sekundärstruktur S mit der maximalen Anzahl an Stacking Pairs. Für jedes berechnete SP j sei X ß = {(s k,s k+1 ;s w-1,s w ) F|mindestens einer der Indices k, k+1, w-1, w liegt in ß} für ß = I j oder J j.

Martina Fröhlich - Aktuelle Themen der Bioinformatik26 Definitionen Für jedes j sei und Es sei |SP j | die Anzahl der von SP j repräsentierten Stacking Pairs. Es seien |I j | und |J j | die Anzahlen der Indices im Intervall I j und J j

Martina Fröhlich - Aktuelle Themen der Bioinformatik27 2 Teilschritte Sei N die von GreedySP(S,i) berechnete und N* die maximal mögliche Anzahl an Stacking Pairs in S. Folgend 2 Schritte müssen bewiesen werden: Wenn |SP j | ≥ 1/r * |(X´ Ij X´ Jj )| für alle j => N ≥ 1/r * N* Für jedes von GreedySP(S,i) berechnete SPj gilt |SP j | ≥ 1/3 * |(X´ Ij X´ Jj )|

Martina Fröhlich - Aktuelle Themen der Bioinformatik28 1.Schritt Lemma 1≤j≤h { X Ij X Jj } = F Beweis durch Widerspruch Stacking Pair(s k,s k+1 ;s w-1,s w ) in F, aber in keinem der XIj, XJj => keiner der Indices in einem XIj, XJj =>Widerspruch zu Schritt 3 des Algo`s

Martina Fröhlich - Aktuelle Themen der Bioinformatik29 1.Schritt Aus der Definition der X´ Ij und X´ Jj folgt {X Ik X Jk } = {X´ Ik X´ Jk } Da N = Σ j |SP j | folgt Wenn |SP j | ≥ 1/r * |(X´ Ij X´ Jj )| für alle j N ≥ 1/r * | {X Ik X Jk }| Und somit N ≥ 1/r * N*

Martina Fröhlich - Aktuelle Themen der Bioinformatik30 2.Schritt Zu beweisen war: Für jedes von GreedySP(S,i) berechnete SPj gilt |SP j | ≥ 1/3 * |(X´ Ij X´ Jj )| Fallunterscheidung für die 3 Schritte des Algorithmus

Martina Fröhlich - Aktuelle Themen der Bioinformatik31 Fall 1 SP j generiert von GreedySP(S,i) in Schritt 1 Per Definition |X´ Ij |, |X´ Jj | ≤ i+2 Behauptung: |X´ Ij | ≤ i+1 Beweis durch Widerspruch: -für eine Zahl t hat F i+2 aufeinanderfolgende Stacking Pairs (s p-1,...,s p+i+1 ;s t-i-1,...,s t+1 ) -alle Basen vor der Wahl von SP j unmarkiert -in SP j wären nicht die i linkesten Stacking Pairs  Widerspruch Somit: |SP j |/|X´ Ij X´ Jj | ≥ i/((i+1)+(i+2)) ≥ 1/3 (wenn i ≥ 3)

Martina Fröhlich - Aktuelle Themen der Bioinformatik32 Fall 2 SP j generiert von GreedySP(S,i) in Schritt 2. |SP j | =k ≥ 2; SP j = (s p,...,s p+k ;s q-k,...,s q ) Per Definition |X´ Ij |, |X´ Jj | ≤ i+2 Behauptung: |X´ Ij |, |X´ Jj |, ≤ k+1 Beweis: Wie in Fall 1 Widerspruch bei s p-1,...,s p+k+1 ;s t-k-1,...,s t+1 Kann für X´ Ij und X´ Jj bewiesen werden.. Somit: |SP j |/|X´ Ij X´ Jj | ≥ k/((k+1)+(k+1)) ≥ 1/3 (wenn k ≥ 2)

Martina Fröhlich - Aktuelle Themen der Bioinformatik33 Fall 3 SP j generiert von GreedySP(S,i) in Schritt 3. Sei SP j = (s p,s p+1 ;s q-1,s q ) Wie in Fall 2 kann bewiesen werden, dass |X´ Ij |, |X´ Jj | ≤ k+1 Behauptung |X´ Ij | ≤1 Beweis: Einziger möglicher Fall mit |X´ Ij | =2, wenn (s p-1,s p ;s r-1,s r ) und (s p,s p+1 ;s t-1,s t ) beide zu X´ Ij gehören würden.  SP j nicht linkestes Stacking Pair  Widerspruch Somit: |SP j |/|X´ Ij X´ Jj | ≥ 1/(1+2) ≥ 1/3

Martina Fröhlich - Aktuelle Themen der Bioinformatik34 Zeit und Komplexität Bei gegebener RNA Sequenz S von Länge n und einer Konstante k benötigt GreedySP(S,k) Zeit und Speicherplatz O(n).

Martina Fröhlich - Aktuelle Themen der Bioinformatik35 Zeit und Komplexität Für jedes j mit 1 ≤j ≤k gibt nur 4 j verschiedene Muster aus {A,G,C,U} Darstellbar durch k verkettete Listen mit je 4 j Indices O(n) Einträge pro Liste => O(kn)Einträge in allen Listen k-maliges Scannen der Sequenz, jeder Eintrag der Liste wird höchstens einmal besucht => O(kn) Zeit

Martina Fröhlich - Aktuelle Themen der Bioinformatik36 Fazit Algorithmus GreedySP ist 1/3-approximativ Berücksichtigt Pseudoknots Zeit O(n) Platz O(n)

Martina Fröhlich - Aktuelle Themen der Bioinformatik37 Alternativen Nussinov et al (1978) – Freie Energie-Funktion, die minimiert wird, wenn die Sekundärstruktur die maximale Anzahl an komplementären Basenpaaren enthält. Ohne Pseudoknots. (Zeit O(n 3 )) Mfold : –Berechnung über stabile Strukturen(z. B. Helices) –(Zeit O(n 3 )) –ohne Pseudoknots

Martina Fröhlich - Aktuelle Themen der Bioinformatik38 Alternativen Rivas, Eddy (1998) Algorithmus mit dynamischer Programmierung, handelt bestimmte Pseudoknots in O(n 6 )Zeit und O(n 4 ) Speicherplatz Stochastische kontextfreie Grammatiken Genetische Algorithmen. Fitnessfunktion: Selektion nach Länge der Helix oder nach freier Energie.

Martina Fröhlich - Aktuelle Themen der Bioinformatik39 Predicting RNA Secondary Structures Einleitung Ein approximativer Algorithmus für planare Sekundärstrukturen Ein approximativer Algorithmus für allgemeine Sekundärstrukturen NP-Vollständigkeit

Martina Fröhlich - Aktuelle Themen der Bioinformatik40 NP-Vollständigkeit Das Ermitteln einer planaren RNA-Sekundärstruktur mit der maximalen Anzahl an Stacking Pairs ist NP- Vollständig. Beweis durch Reduktion des Tripartite Matching Problems auf unser Problem Gegeben: 3 Knotenmengen mit Kardinalität n Kantenmenge E als Teilmenge von X × Y × Z von Grösse m Konstruktion einer RNA-Sequenz S E und eines Integers h in polynomieller Zeit. E enthält perfektes Matching  sp(S E ) ≥ h E enthält kein perfektes Matching  sp(S E ) < h

Martina Fröhlich - Aktuelle Themen der Bioinformatik41 Konstruktion der RNA- Sequenz S E X ={x 1,...,x n }, Y={y 1,...,y n }, Z={z 1,...,z n } E=e 1,...,e m ; e j = x pj, y qj, z rj RNA-Sequenz aufgebaut aus A, U, G, C Sei d = max {6n, 4(m+1)}+1 Für k<d sei δ(k) = U d A k GU d A d-k δ(k) =U d-k A d GU k A d π(k)=C 2d+2k AGC 4d-2k π (k)=G 4d-2k AG 2d+2k

Martina Fröhlich - Aktuelle Themen der Bioinformatik42 Kodierung der Knoten Für 1≤i≤n ‹x i ›= δ(i) ‹yi›= δ(n+i) ‹z i ›= δ(2n+i) Wobei ‹x i › ist die Kodierung für Knoten x i ‹x i › = δ(i) ‹y i › = δ(n+i) ‹z i › = δ(2n+i) Knotenmenge X =‹x 1 ›G‹x 2 ›G...G‹x n › X = ‹x n ›G‹x n-1 ›G...G‹x 1 › X-x i = ‹x 1 ›G...G‹x i-1 ›G‹x i+1 ›G...G‹x n › X-x i =‹x n ›G...G‹x i+1 ›G‹x i-1 ›G...G‹x 1 ›

Martina Fröhlich - Aktuelle Themen der Bioinformatik43 Kodierung der Kanten Für jede Kante e j (1≤j≤m) sei V j = π(j) W j = π(m+1+j) e j =(x pj,y qj,z rj ) = S j = AG V j AG W j AG X G Y G Z G (Z-z rj ) G (Y-y qj ) G (X-x pj ) V j A W j Zusätzliche Sequenz S m+1 = AG V m+1 AG W m+1 AG Z G Y G X V m+1 A W m+1 S E = S m+1 S m... S 1 h = m σ + n(6d-4) + 12d-5 mit σ =3n(3d-2) + 6d - 1

Martina Fröhlich - Aktuelle Themen der Bioinformatik44 Komplexität S E besteht aus O((n+m) 3 ) Basen und kann in Zeit O(S E ) konstruiert werden Zu beweisen: Genau dann, wenn E ein perfektes Matching enthält, ist sp(S E ) ≥ h

Martina Fröhlich - Aktuelle Themen der Bioinformatik45 Definitionen Jedes S j wird als Region bezeichnet Die Substrings U + A + der δ(i), C + der π und G + der π werden als Fragmente bezeichnet

Martina Fröhlich - Aktuelle Themen der Bioinformatik46 Korrektheit des “Wenn”-Falles Wenn E ein perfektes Matching enthält, dann ist sp(S E ) ≥ h

Martina Fröhlich - Aktuelle Themen der Bioinformatik47 Bildung von Stacking Pairs δ(i) oder δ(i) d-1 δ(i) mit δ(i) 3d-2 π(i) mit π(i) 6d-2 Für jedes i ≠ j, π(i) mit π(i) 6d-3

Martina Fröhlich - Aktuelle Themen der Bioinformatik48 Definitionen Sei M ={e j1,e j2,...,e jn } ein perfektes Matching Definiert j n+1 =m+1

Martina Fröhlich - Aktuelle Themen der Bioinformatik49 Vorgehen Durchlaufe Region für Region 3 Fälle zu Unterscheiden: 1. Fall: S j, so dass e j M 2. Fall: S j, so dass e j M 3. Fall:S m+1

Martina Fröhlich - Aktuelle Themen der Bioinformatik50 Fall1 e j = (x pj, y qj, z rj ) 6d-2 Stacking Pairs zwischen V j und V j und W j und W j 3d-2 Stacking Pairs zwischen ‹x i › und ‹x i › für i ≠ p j, ‹y i › und ‹y i › für i ≠ q j, ‹z i › und ‹z i › für i ≠ r j, ‹x pj ›, ‹y qj ›, ‹z rj › jeweils d-1 Stacking Pairs

Martina Fröhlich - Aktuelle Themen der Bioinformatik51 Fall 1 Stacking Pairs in Sj 2(6d-2) + 3(n-1)(3d-2) + 3(d-1) = 3n(3d-2) + 6d-1 = σ Es existieren (m-n) solcher Ecken

Martina Fröhlich - Aktuelle Themen der Bioinformatik52 Fall 2 6d-3 Stacking Pairs zwischen W jk in S jk und W jk+1 in S jk+1 6d-2 Stacking Pairs zwischen V jk in S jk und V jk in S jk 3d-2 Stacking Pairs zwischen ‹x i › in S jk und ‹x i › in S jk für alle i ≠ p j1,…, p jk (analog bei ‹y i › und ‹z i ›) 3d-2 Stacking Pairs zwischen ‹x i › in S jk und ‹x i › in S jk+1 für alle i = p j1,…, p jk (analog bei ‹y i › und ‹z i ›)

Martina Fröhlich - Aktuelle Themen der Bioinformatik53 Fall 2 Stacking Pairs in Sj 6d-3 + 6d-2 + 3n(3d-2) = σ + 6d-4 Es existieren n solcher Ecken

Martina Fröhlich - Aktuelle Themen der Bioinformatik54 Fall 3 6d-2 Stacking Pairs zwischen V m+1 und V m+1 6d-3 Stacking Pairs zwischen W m+1 und W m+1 Anzahl solcher Stacking Pairs in S m+1 12d-5

Martina Fröhlich - Aktuelle Themen der Bioinformatik55 Resultat E enthält perfektes Matching  Stacking Pairs in S E = (m-n) σ + n(σ + 6d-4) + 12d – 5 = h  sp(S E ) ≥ h

Martina Fröhlich - Aktuelle Themen der Bioinformatik56 Korrektheit des “Nur dann, wenn”-Falles Wenn E kein perfektes Matching enthält, dann ist sp(S E )<h

Martina Fröhlich - Aktuelle Themen der Bioinformatik57 Definitionen OPT : Sekundärstruktur von S E mit der maximalen Anzahl an Stacking Pairs #OPT = sp(S E ) Konjugat: Für Substring H = s 1,s 2,...,s k ist das Konjugat Ĥ = ŝ 1, ŝ 2,..., ŝ k mit Â=U, Û=A, Ĉ=G, Ĝ=C 2-Substring: zwei adjazente Basen

Martina Fröhlich - Aktuelle Themen der Bioinformatik58 Vorkommen der verschiedenen 2-Substrings

Martina Fröhlich - Aktuelle Themen der Bioinformatik59 Fakten #OPT ≤ min { # AA, # UU} + min { # GG, # CC} + # UA/2 + # GC/2 = h + n +1 + (2m+2) Anzahl nichtgepaarter Substrings sei ◊ #OPT ≤ min {# AA- ◊AA, # UU- ◊UU} + min {# GG- ◊GG, # CC- ◊CC} + (#UA- ◊UA)/2 + (#GC- ◊GC)/2

Martina Fröhlich - Aktuelle Themen der Bioinformatik60 Grundlage des Beweises S E enthält kein perfektes Matching  untere Schranke für die ◊-Werte ist so hoch, daß sp(S E ) < h

Martina Fröhlich - Aktuelle Themen der Bioinformatik61 Definitionen Offene Region: UU-,AA-, oder UA-Substrings innerhalb S j sind mit Regionen außerhalb von S j verbunden ist. Sonst: S j ist geschlossene Region Konjugierte Fragmente: F sei Fragment in S E F´ ist kunjugiertes Fragment von F, wenn F´das Konjugat von F ist Begrenzungsfragmente:V j oder W j (für 1 ≤ j ≤ m+1)

Martina Fröhlich - Aktuelle Themen der Bioinformatik62 Weiteres Vorgehen Fallunterscheidungen: –S m+1 ist geschlossene Region –S m+1 ist offene Region Anzahl offener Regionen < n+1 Anzahl offener Regionen > n+1 Anzahl offener Regionen = n+1

Martina Fröhlich - Aktuelle Themen der Bioinformatik63 S m+1 ist geschlossene Region  #OPT < h Beweis: S m+1 hat 3nd mehr AA- als UU-Substrings  ◊AA ≥ 3nd  #OPT < h + (n+1) + (2m+2) - 3nd < h

Martina Fröhlich - Aktuelle Themen der Bioinformatik64 Nichtgebundene CC`s und GG`s Sei α die Anzahl an Begrenzungsfragmenten, die nicht mit ihren konjugierenden Fragmenten verbunden sind ◊CC+ ◊GG ≥ α + (#GC – GC)

Martina Fröhlich - Aktuelle Themen der Bioinformatik65 ◊CC+ ◊GG ≥ α + (#GC – GC) GC nur in Begrenzungsfragment F GC gepaart  linkestes CC nicht gepaart (#GC- ◊GC) Begrenzungsfragmente, deren GC gepaart ist  Linkestes CC nicht gepaart+weiteres CC oder GG nicht gepaart  Anzahl ungepaarter CC und GG ≥ 2(#GC – GC) α - (#GC- ◊GC) Begrenzungsfragmente, deren GC nicht gepaart ist  entweder ungepaartes CC oder GG  Anzahl ungepaarter CC und GG ≥ α-(#GC – GC)

Martina Fröhlich - Aktuelle Themen der Bioinformatik66 V j und W j in offener Region S j ist offene Region  es dürfen nicht beide Fragmente V j und W j mit ihren konjugierenden Fragmenten verbunden sein Grund: Interleaving Block  unpolar

Martina Fröhlich - Aktuelle Themen der Bioinformatik67 Untere Grenze der ◊ -Werte Sei l ≥1 die Anzahl der offenen Regionen in OPT 1)S m+1 ist offene Region  ◊UU ≥ 3(m+1-l)d 2)max {◊CC, ◊GG} ≥ l + (#GC- ◊GC)/2 3)l=n+1, S m+1 ist offene Region, E hat kein perfektes Matching  entweder a) ◊UU ≥3(m-n)d+1 b) ◊AA ≥1 oder c) ◊ UA≥2

Martina Fröhlich - Aktuelle Themen der Bioinformatik68 Beweis von 1) S j geschlossen (j ≠ m+1)  3d ungepaarte UU-Substrings Da m+1-l geschlossene Regionen  3(m+1-l)d ungepaarte UU-Substrings  S m+1 ist offene Region  UU ≥ 3(m+1-l)d

Martina Fröhlich - Aktuelle Themen der Bioinformatik69 Beweis von 2) 2l Fragmente in V j und W j in l, die nicht mit ihren konjugierten Fragmenten verbunden sind  ◊CC + ◊GG ≥ 2l + (#GC- ◊GC)  max {◊CC, ◊GG} ≥ l + (#GC- ◊GC)/2

Martina Fröhlich - Aktuelle Themen der Bioinformatik70 Beweis von 3) m+1-l = m-n geschlossene Regionen  3(m-n)d ungepaarte UU-Substrings

Martina Fröhlich - Aktuelle Themen der Bioinformatik71 Beweis von 3) n+1 offene Regionen bestehen aus S m+1 und S j1...S jn In n Ecken kein perfektes Match  in den n+1 Regionen von mind. einem x k mehr ‹x k › als ‹x k ›  mind. 2 Fragmente F in allen ‹x i › nicht gepaart Fall1: ungepaarter UU-Substring in F Fall2: ungepaarter AA-Substring in F Fall3: alle UU-und AA-Substrings gepaart  UA- Substrings der entsprechenden Fragmente ungepaart  a) ◊UU ≥3(m-n)d+1 b) ◊AA ≥1 oder c) ◊ UA≥2

Martina Fröhlich - Aktuelle Themen der Bioinformatik72 Wenn E kein perfektes Matching enthält  #OPT < h 1)l< n+1  ◊UU ≥ 3(m+1-l)d  #OPT = h + n (2m+2) - 3(n+1-l)d ≤ h + n + 1+(2m+2) - 3d < h 2)l> n+1  max{◊CC, ◊GG} ≥ l + (#GC- ◊GC)/2  #OPT ≤ h + n + 1 – l < h, da l ≥ n+1 3)l=n+1  entweder a) ◊UU ≥3(m-n)d+1 b) ◊AA ≥1 oder c) ◊UA ≥2  #OPT ≤ h + n – max{CC,GG}+(GC-GC)/2 < h, da l ≥ n+1

Martina Fröhlich - Aktuelle Themen der Bioinformatik73 Ergebnis E enthält perfektes Matching  sp(S E ) ≥ h E enthält kein perfektes Matching  sp(S E ) < h Wenn planare RNA-Sekundärstruktur über Stacking Pairs in polynomieller Zeit berechnet werden könnte, könnte man auch das Tripartite Matching Problem in polynomieller Zeit lösen  Widerspruch

Martina Fröhlich - Aktuelle Themen der Bioinformatik74 Quellen -Predicting RNA Secondary Structures with Arbitrary Pseudoknots by Maximizing the Number of Stacking Pairs, Samuel Ieong, Ming-Yang Kao, Tak-Wah Lam, Wing-Kin Sung and Siu-Ming Yiu, published in Journal of Computational Biology, vol. 10. Number 6, 2003, pp. 981–995 -RNA Pseudoknot Prediction in Energy Based Models, Rune B. Lyngsø and Christian N. S. Pedersen, published in Journal of Computational Biology, vol. 7(3/4), pp. 409–428, - skript/pdf/bioinformatik_2003_007.pdf