Martina Fröhlich - Aktuelle Themen der Bioinformatik1 Predicting RNA Secondary Structures with Arbitrary Pseudoknots by Maximizing the Number of Stacking Pairs
Martina Fröhlich - Aktuelle Themen der Bioinformatik2 Predicting RNA Secondary Structures Einleitung Ein approximativer Algorithmus für planare Sekundärstrukturen Ein approximativer Algorithmus für allgemeine Sekundärstrukturen NP-Vollständigkeit
Martina Fröhlich - Aktuelle Themen der Bioinformatik3 RNA Lineare Polymere, aufgebaut aus Nukleotiden Jeder Nukleotid aufgebaut aus Ribose, Phosphatrest und einer der 4 Basen Adenin, Guanin, Cytosin, Uracil Im Gegensatz zur DNA einzelsträngig bildet über Watson-Crick-Paarungen dreidimensionale Struktur aus
Martina Fröhlich - Aktuelle Themen der Bioinformatik4 Sekundärstruktur Sei S=s 1 s 2 …s n eine RNA-Sequenz aus n Basen. Eine Sekundärstruktur P ist eine Menge von Watson-Crick-Basenpaaren (s i1,s j1 ),…,(s ip,s jp ), so dass gilt s ir +2 ≤ s jr für alle r = 1,...,p, wobei keine Base gleichzeitig zu zwei Paaren gehören kann.
Martina Fröhlich - Aktuelle Themen der Bioinformatik5 Häufigste RNA-Strukturen Hairpin Loop Internal Loop Multi-branched Loop Bulge Stacking Pair
Martina Fröhlich - Aktuelle Themen der Bioinformatik6 Stacking Pair Von zwei aufeinanderfolgenden Basenpaaren (s i,s j ) und (s i+1,s j-1 ) gebildete Schleife mit i+4≤j Enthalten keine ungepaarten Basen, haben negative Freie Energie und stabilisieren die Sekundärstruktur q aufeinanderfolgende Stacking Pairs (s i,s j ), (s i+1,s j-1 ); (s i+1,s j-1 ), (s i+2,s j-2 )… (s i+q-1, s j-q+1 ),(s i+q,s j-q ) von P werden durch (s i,s i+1,…, s i+q ; s j-q,…, s j-1,s j ) dargestellt.
Martina Fröhlich - Aktuelle Themen der Bioinformatik7 Die Herausforderung: Pseudoknots Sei S eine RNA-Sequenz. Ein Pseudoknot wird gebildet aus zwei überlappenden Basenpaaren (s i,s j ) und (s k, s l ) der Form i<k<j<l Pseudoknots machen die Bestimmung einer optimalen Sekundärstruktur NP-hart
Martina Fröhlich - Aktuelle Themen der Bioinformatik8 Definitionen Der ungerichtete Graph G(P) einer gegebener Sekundärstruktur P sei derart aufgebaut, dass die Basen von S die Knoten in G(P) darstellen. (s i,s j ) ist eine Kante in G(P), wenn j = i+1 oder (s i,s j ) ein Basenpaar in P ist. Eine Sekundärstruktur P ist planar, wenn G(P) planar ist Eine Sekundärstruktur P enthält einen „interleaving block“, wenn sie drei Stacking Pairs der Form (s i,s i+1 ;s j-1,s j ), (s i`, s i+1 ;s j´-1,s j´ ), (s i´´,s i´´+1 ;s j´´-1,s j´´ ) enthält, bei denen i<i´<i´´<j<j´<j´´ ist.
Martina Fröhlich - Aktuelle Themen der Bioinformatik9 Nonplanare Sekundärstruktur Wenn eine Sekundärstruktur P einen „Interleaving Block“ enthält, ist sie nonplanar
Martina Fröhlich - Aktuelle Themen der Bioinformatik10 Beweis Angenommen P enthält einen „interleaving block“ der o.B.d.A. von folgenden Stacking pairs gebildet wird (s 1,s 2 ;s 7,s 8 ), (s 3,s 4 ;s 9,s 10 ) und (s 5,s 6 ;s 11,s 12 ) Der Subgraph dieser Stacking Pairs kann nicht planar abgebildet werden G(P) ist nicht planar P ist nicht planar
Martina Fröhlich - Aktuelle Themen der Bioinformatik11 Predicting RNA Secondary Structures Einleitung Ein approximativer Algorithmus für planare Sekundärstrukturen Ein approximativer Algorithmus für allgemeine Sekundärstrukturen NP-Vollständigkeit
Martina Fröhlich - Aktuelle Themen der Bioinformatik12 Definitionen Die Stacking Pairs einer Sekundärstruktur P können in ein Rasterfeld eingebettet werden Die Basen der dazugehörigen RNA-Sequenz werden nacheinander durch Gitterpunkte auf einer horizontalen Linie L des Feldes dargestellt Ein Stacking Pair (s i,s i+1 ;s j-1,s j ) wird in der Art dargestellt, dass die Punkte s i bzw. s i+1 mit s j bzw. s j-1 derart verbunden sind, dass sich beide Linien entweder unter oder oberhalb von L befinden
Martina Fröhlich - Aktuelle Themen der Bioinformatik13 Stacking Pair - Einbettung
Martina Fröhlich - Aktuelle Themen der Bioinformatik14 Lemma Die Einbettung E von Stacking Pairs einer planaren Sekundärstruktur P ist planar P planar => E planar wird bewiesen durch ⌐ E planar => ⌐ P planar
Martina Fröhlich - Aktuelle Themen der Bioinformatik15 Beweis P hat keine planare Stacking-Pair-Einbettung => P enthält einen „interleaving block“ P enthält einen „interleaving block“ => P ist nonplanar
Martina Fröhlich - Aktuelle Themen der Bioinformatik16 Algorithmus MaxSP V(i,j) (j ≥ i) sei die maximale Anzahl an Stacking Pairs, die von s i...s j ohne Pseudoknots gebildet werden kann, wenn s i und s j ein Watson-Crick- Paar bilden W(i,j) (j ≥ i) sei die maximale Anzahl an Stacking Pairs, die von s i...s j ohne Pseudoknots gebildet werden kann. => W(1,n) ist die maximale Anzahl an Stacking Pairs die von S ohne Pseudoknots gebildet werden kann.
Martina Fröhlich - Aktuelle Themen der Bioinformatik17 Algorithmus MaxSP Basis For j=i,i+1,i+2 oder i+3 (j ≤ n) V(i,j)=0 s i,s j sind Basenpaare W(i,j)=0. Weiterführung For j>i+3
Martina Fröhlich - Aktuelle Themen der Bioinformatik18 MaxSP ist 1/2-approximativ Gegebene RNA-Sequenz S N* die maximale Anzahl an Stacking Pairs in einer planaren Sekundärstruktur, die von S geformt werden kann W die maximale Anzahl an Stacking Pairs in einer planaren Sekundärstruktur ohne Pseudoknots, die von S geformt werden kann
Martina Fröhlich - Aktuelle Themen der Bioinformatik19 Beweis P* sei die planare Sekundärstruktur von S mit N* Stacking Pairs P* ist planar => jede Stacking Pair-Einbettung von P* ist planar Sei E eine Stacking Pair-Einbettung von P*, in der sich keine Linien überkreuzen Seien n 1 und n 2 die Anzahl der Stacking Pairs ober- bzw. unterhalb von L O.B.d.A n 1 ≥ n 2 Sekundärstruktur P sei P*, jedoch ohne die Stacking Pairs unterhalb von L Da n 1 ≥ n 2, n 1 ≥ N*/2, W ≥ n 1 => W ≥ N*/2
Martina Fröhlich - Aktuelle Themen der Bioinformatik20 Komplexität und Speicherplatz Algorithmus MaxSP berechnet die maximale Anzahl an Stacking Pairs einer Sekundärstruktur S ohne Pseudoknots in Zeit O(n 3 ) und mit Speicherplatz O(n²).
Martina Fröhlich - Aktuelle Themen der Bioinformatik21 Beweis Es werden jeweils O(n²) Einträge V(i,j) und W(i,j) gefüllt. Das Füllen der W`s benötigt konstante Zeit, das der V`s höchstens O(n). => O(n²) Einträge in O(n 3 ) Zeit
Martina Fröhlich - Aktuelle Themen der Bioinformatik22 Predicting RNA Secondary Structures Einleitung Ein approximativer Algorithmus für planare Sekundärstrukturen Ein approximativer Algorithmus für allgemeine Sekundärstrukturen NP-Vollständigkeit
Martina Fröhlich - Aktuelle Themen der Bioinformatik23 Algorithmus GreedySP() Sei S=s 1 s 2...s n die Eingabesequenz und E die Menge der Basenpaare, die der Algorithmus ausgibt. Zu Beginn sind alle s j unmarkiert und E= Ø GreedySP(S,i)//i ≥ 3 1. Finde die am weitesten links liegenden aufeinanderfolgenden i Stacking Pairs SP, die von unmarkierten Basen gebildet werden. Nimm SP zu E hinzu und markiere diese Basen. Wiederhole bis Sequenz einmal durchlaufen. 2.For k=i-1 downto 2, Finde die am weitesten links liegenden aufeinanderfolgenden i Stacking Pairs SP, die von unmarkierten Basen gebildet werden. Nimm SP zu E hinzu und markiere diese Basen. Wiederhole bis Sequenz einmal durchlaufen.. 3.Finde das am weitesten links liegende Stacking Pair SP, das von unmarkierten Basen gebildet wird. Nimm es zu E hinzu und markiere diese Basen. Wiederhole bis Sequenz einmal durchlaufen.
Martina Fröhlich - Aktuelle Themen der Bioinformatik24 Beweis zur Approximation Zu beweisen: GreedySP findet 1/3 der maximal möglichen Stacking Pairs
Martina Fröhlich - Aktuelle Themen der Bioinformatik25 Definitionen Die von GreedySP ermittelten SP`s werden nacheinender mit SP 1, SP 2,...,SP h bezeichnet Für jedes SP j = (s p,...s p+t ;s q-t,...s q ) werden die beiden Intervalle I j und J j für die Indices [p...p+1] und [q-t...q] definiert Sei F die Menge der Stacking Pairs einer optimalen Sekundärstruktur S mit der maximalen Anzahl an Stacking Pairs. Für jedes berechnete SP j sei X ß = {(s k,s k+1 ;s w-1,s w ) F|mindestens einer der Indices k, k+1, w-1, w liegt in ß} für ß = I j oder J j.
Martina Fröhlich - Aktuelle Themen der Bioinformatik26 Definitionen Für jedes j sei und Es sei |SP j | die Anzahl der von SP j repräsentierten Stacking Pairs. Es seien |I j | und |J j | die Anzahlen der Indices im Intervall I j und J j
Martina Fröhlich - Aktuelle Themen der Bioinformatik27 2 Teilschritte Sei N die von GreedySP(S,i) berechnete und N* die maximal mögliche Anzahl an Stacking Pairs in S. Folgend 2 Schritte müssen bewiesen werden: Wenn |SP j | ≥ 1/r * |(X´ Ij X´ Jj )| für alle j => N ≥ 1/r * N* Für jedes von GreedySP(S,i) berechnete SPj gilt |SP j | ≥ 1/3 * |(X´ Ij X´ Jj )|
Martina Fröhlich - Aktuelle Themen der Bioinformatik28 1.Schritt Lemma 1≤j≤h { X Ij X Jj } = F Beweis durch Widerspruch Stacking Pair(s k,s k+1 ;s w-1,s w ) in F, aber in keinem der XIj, XJj => keiner der Indices in einem XIj, XJj =>Widerspruch zu Schritt 3 des Algo`s
Martina Fröhlich - Aktuelle Themen der Bioinformatik29 1.Schritt Aus der Definition der X´ Ij und X´ Jj folgt {X Ik X Jk } = {X´ Ik X´ Jk } Da N = Σ j |SP j | folgt Wenn |SP j | ≥ 1/r * |(X´ Ij X´ Jj )| für alle j N ≥ 1/r * | {X Ik X Jk }| Und somit N ≥ 1/r * N*
Martina Fröhlich - Aktuelle Themen der Bioinformatik30 2.Schritt Zu beweisen war: Für jedes von GreedySP(S,i) berechnete SPj gilt |SP j | ≥ 1/3 * |(X´ Ij X´ Jj )| Fallunterscheidung für die 3 Schritte des Algorithmus
Martina Fröhlich - Aktuelle Themen der Bioinformatik31 Fall 1 SP j generiert von GreedySP(S,i) in Schritt 1 Per Definition |X´ Ij |, |X´ Jj | ≤ i+2 Behauptung: |X´ Ij | ≤ i+1 Beweis durch Widerspruch: -für eine Zahl t hat F i+2 aufeinanderfolgende Stacking Pairs (s p-1,...,s p+i+1 ;s t-i-1,...,s t+1 ) -alle Basen vor der Wahl von SP j unmarkiert -in SP j wären nicht die i linkesten Stacking Pairs Widerspruch Somit: |SP j |/|X´ Ij X´ Jj | ≥ i/((i+1)+(i+2)) ≥ 1/3 (wenn i ≥ 3)
Martina Fröhlich - Aktuelle Themen der Bioinformatik32 Fall 2 SP j generiert von GreedySP(S,i) in Schritt 2. |SP j | =k ≥ 2; SP j = (s p,...,s p+k ;s q-k,...,s q ) Per Definition |X´ Ij |, |X´ Jj | ≤ i+2 Behauptung: |X´ Ij |, |X´ Jj |, ≤ k+1 Beweis: Wie in Fall 1 Widerspruch bei s p-1,...,s p+k+1 ;s t-k-1,...,s t+1 Kann für X´ Ij und X´ Jj bewiesen werden.. Somit: |SP j |/|X´ Ij X´ Jj | ≥ k/((k+1)+(k+1)) ≥ 1/3 (wenn k ≥ 2)
Martina Fröhlich - Aktuelle Themen der Bioinformatik33 Fall 3 SP j generiert von GreedySP(S,i) in Schritt 3. Sei SP j = (s p,s p+1 ;s q-1,s q ) Wie in Fall 2 kann bewiesen werden, dass |X´ Ij |, |X´ Jj | ≤ k+1 Behauptung |X´ Ij | ≤1 Beweis: Einziger möglicher Fall mit |X´ Ij | =2, wenn (s p-1,s p ;s r-1,s r ) und (s p,s p+1 ;s t-1,s t ) beide zu X´ Ij gehören würden. SP j nicht linkestes Stacking Pair Widerspruch Somit: |SP j |/|X´ Ij X´ Jj | ≥ 1/(1+2) ≥ 1/3
Martina Fröhlich - Aktuelle Themen der Bioinformatik34 Zeit und Komplexität Bei gegebener RNA Sequenz S von Länge n und einer Konstante k benötigt GreedySP(S,k) Zeit und Speicherplatz O(n).
Martina Fröhlich - Aktuelle Themen der Bioinformatik35 Zeit und Komplexität Für jedes j mit 1 ≤j ≤k gibt nur 4 j verschiedene Muster aus {A,G,C,U} Darstellbar durch k verkettete Listen mit je 4 j Indices O(n) Einträge pro Liste => O(kn)Einträge in allen Listen k-maliges Scannen der Sequenz, jeder Eintrag der Liste wird höchstens einmal besucht => O(kn) Zeit
Martina Fröhlich - Aktuelle Themen der Bioinformatik36 Fazit Algorithmus GreedySP ist 1/3-approximativ Berücksichtigt Pseudoknots Zeit O(n) Platz O(n)
Martina Fröhlich - Aktuelle Themen der Bioinformatik37 Alternativen Nussinov et al (1978) – Freie Energie-Funktion, die minimiert wird, wenn die Sekundärstruktur die maximale Anzahl an komplementären Basenpaaren enthält. Ohne Pseudoknots. (Zeit O(n 3 )) Mfold : –Berechnung über stabile Strukturen(z. B. Helices) –(Zeit O(n 3 )) –ohne Pseudoknots
Martina Fröhlich - Aktuelle Themen der Bioinformatik38 Alternativen Rivas, Eddy (1998) Algorithmus mit dynamischer Programmierung, handelt bestimmte Pseudoknots in O(n 6 )Zeit und O(n 4 ) Speicherplatz Stochastische kontextfreie Grammatiken Genetische Algorithmen. Fitnessfunktion: Selektion nach Länge der Helix oder nach freier Energie.
Martina Fröhlich - Aktuelle Themen der Bioinformatik39 Predicting RNA Secondary Structures Einleitung Ein approximativer Algorithmus für planare Sekundärstrukturen Ein approximativer Algorithmus für allgemeine Sekundärstrukturen NP-Vollständigkeit
Martina Fröhlich - Aktuelle Themen der Bioinformatik40 NP-Vollständigkeit Das Ermitteln einer planaren RNA-Sekundärstruktur mit der maximalen Anzahl an Stacking Pairs ist NP- Vollständig. Beweis durch Reduktion des Tripartite Matching Problems auf unser Problem Gegeben: 3 Knotenmengen mit Kardinalität n Kantenmenge E als Teilmenge von X × Y × Z von Grösse m Konstruktion einer RNA-Sequenz S E und eines Integers h in polynomieller Zeit. E enthält perfektes Matching sp(S E ) ≥ h E enthält kein perfektes Matching sp(S E ) < h
Martina Fröhlich - Aktuelle Themen der Bioinformatik41 Konstruktion der RNA- Sequenz S E X ={x 1,...,x n }, Y={y 1,...,y n }, Z={z 1,...,z n } E=e 1,...,e m ; e j = x pj, y qj, z rj RNA-Sequenz aufgebaut aus A, U, G, C Sei d = max {6n, 4(m+1)}+1 Für k<d sei δ(k) = U d A k GU d A d-k δ(k) =U d-k A d GU k A d π(k)=C 2d+2k AGC 4d-2k π (k)=G 4d-2k AG 2d+2k
Martina Fröhlich - Aktuelle Themen der Bioinformatik42 Kodierung der Knoten Für 1≤i≤n ‹x i ›= δ(i) ‹yi›= δ(n+i) ‹z i ›= δ(2n+i) Wobei ‹x i › ist die Kodierung für Knoten x i ‹x i › = δ(i) ‹y i › = δ(n+i) ‹z i › = δ(2n+i) Knotenmenge X =‹x 1 ›G‹x 2 ›G...G‹x n › X = ‹x n ›G‹x n-1 ›G...G‹x 1 › X-x i = ‹x 1 ›G...G‹x i-1 ›G‹x i+1 ›G...G‹x n › X-x i =‹x n ›G...G‹x i+1 ›G‹x i-1 ›G...G‹x 1 ›
Martina Fröhlich - Aktuelle Themen der Bioinformatik43 Kodierung der Kanten Für jede Kante e j (1≤j≤m) sei V j = π(j) W j = π(m+1+j) e j =(x pj,y qj,z rj ) = S j = AG V j AG W j AG X G Y G Z G (Z-z rj ) G (Y-y qj ) G (X-x pj ) V j A W j Zusätzliche Sequenz S m+1 = AG V m+1 AG W m+1 AG Z G Y G X V m+1 A W m+1 S E = S m+1 S m... S 1 h = m σ + n(6d-4) + 12d-5 mit σ =3n(3d-2) + 6d - 1
Martina Fröhlich - Aktuelle Themen der Bioinformatik44 Komplexität S E besteht aus O((n+m) 3 ) Basen und kann in Zeit O(S E ) konstruiert werden Zu beweisen: Genau dann, wenn E ein perfektes Matching enthält, ist sp(S E ) ≥ h
Martina Fröhlich - Aktuelle Themen der Bioinformatik45 Definitionen Jedes S j wird als Region bezeichnet Die Substrings U + A + der δ(i), C + der π und G + der π werden als Fragmente bezeichnet
Martina Fröhlich - Aktuelle Themen der Bioinformatik46 Korrektheit des “Wenn”-Falles Wenn E ein perfektes Matching enthält, dann ist sp(S E ) ≥ h
Martina Fröhlich - Aktuelle Themen der Bioinformatik47 Bildung von Stacking Pairs δ(i) oder δ(i) d-1 δ(i) mit δ(i) 3d-2 π(i) mit π(i) 6d-2 Für jedes i ≠ j, π(i) mit π(i) 6d-3
Martina Fröhlich - Aktuelle Themen der Bioinformatik48 Definitionen Sei M ={e j1,e j2,...,e jn } ein perfektes Matching Definiert j n+1 =m+1
Martina Fröhlich - Aktuelle Themen der Bioinformatik49 Vorgehen Durchlaufe Region für Region 3 Fälle zu Unterscheiden: 1. Fall: S j, so dass e j M 2. Fall: S j, so dass e j M 3. Fall:S m+1
Martina Fröhlich - Aktuelle Themen der Bioinformatik50 Fall1 e j = (x pj, y qj, z rj ) 6d-2 Stacking Pairs zwischen V j und V j und W j und W j 3d-2 Stacking Pairs zwischen ‹x i › und ‹x i › für i ≠ p j, ‹y i › und ‹y i › für i ≠ q j, ‹z i › und ‹z i › für i ≠ r j, ‹x pj ›, ‹y qj ›, ‹z rj › jeweils d-1 Stacking Pairs
Martina Fröhlich - Aktuelle Themen der Bioinformatik51 Fall 1 Stacking Pairs in Sj 2(6d-2) + 3(n-1)(3d-2) + 3(d-1) = 3n(3d-2) + 6d-1 = σ Es existieren (m-n) solcher Ecken
Martina Fröhlich - Aktuelle Themen der Bioinformatik52 Fall 2 6d-3 Stacking Pairs zwischen W jk in S jk und W jk+1 in S jk+1 6d-2 Stacking Pairs zwischen V jk in S jk und V jk in S jk 3d-2 Stacking Pairs zwischen ‹x i › in S jk und ‹x i › in S jk für alle i ≠ p j1,…, p jk (analog bei ‹y i › und ‹z i ›) 3d-2 Stacking Pairs zwischen ‹x i › in S jk und ‹x i › in S jk+1 für alle i = p j1,…, p jk (analog bei ‹y i › und ‹z i ›)
Martina Fröhlich - Aktuelle Themen der Bioinformatik53 Fall 2 Stacking Pairs in Sj 6d-3 + 6d-2 + 3n(3d-2) = σ + 6d-4 Es existieren n solcher Ecken
Martina Fröhlich - Aktuelle Themen der Bioinformatik54 Fall 3 6d-2 Stacking Pairs zwischen V m+1 und V m+1 6d-3 Stacking Pairs zwischen W m+1 und W m+1 Anzahl solcher Stacking Pairs in S m+1 12d-5
Martina Fröhlich - Aktuelle Themen der Bioinformatik55 Resultat E enthält perfektes Matching Stacking Pairs in S E = (m-n) σ + n(σ + 6d-4) + 12d – 5 = h sp(S E ) ≥ h
Martina Fröhlich - Aktuelle Themen der Bioinformatik56 Korrektheit des “Nur dann, wenn”-Falles Wenn E kein perfektes Matching enthält, dann ist sp(S E )<h
Martina Fröhlich - Aktuelle Themen der Bioinformatik57 Definitionen OPT : Sekundärstruktur von S E mit der maximalen Anzahl an Stacking Pairs #OPT = sp(S E ) Konjugat: Für Substring H = s 1,s 2,...,s k ist das Konjugat Ĥ = ŝ 1, ŝ 2,..., ŝ k mit Â=U, Û=A, Ĉ=G, Ĝ=C 2-Substring: zwei adjazente Basen
Martina Fröhlich - Aktuelle Themen der Bioinformatik58 Vorkommen der verschiedenen 2-Substrings
Martina Fröhlich - Aktuelle Themen der Bioinformatik59 Fakten #OPT ≤ min { # AA, # UU} + min { # GG, # CC} + # UA/2 + # GC/2 = h + n +1 + (2m+2) Anzahl nichtgepaarter Substrings sei ◊ #OPT ≤ min {# AA- ◊AA, # UU- ◊UU} + min {# GG- ◊GG, # CC- ◊CC} + (#UA- ◊UA)/2 + (#GC- ◊GC)/2
Martina Fröhlich - Aktuelle Themen der Bioinformatik60 Grundlage des Beweises S E enthält kein perfektes Matching untere Schranke für die ◊-Werte ist so hoch, daß sp(S E ) < h
Martina Fröhlich - Aktuelle Themen der Bioinformatik61 Definitionen Offene Region: UU-,AA-, oder UA-Substrings innerhalb S j sind mit Regionen außerhalb von S j verbunden ist. Sonst: S j ist geschlossene Region Konjugierte Fragmente: F sei Fragment in S E F´ ist kunjugiertes Fragment von F, wenn F´das Konjugat von F ist Begrenzungsfragmente:V j oder W j (für 1 ≤ j ≤ m+1)
Martina Fröhlich - Aktuelle Themen der Bioinformatik62 Weiteres Vorgehen Fallunterscheidungen: –S m+1 ist geschlossene Region –S m+1 ist offene Region Anzahl offener Regionen < n+1 Anzahl offener Regionen > n+1 Anzahl offener Regionen = n+1
Martina Fröhlich - Aktuelle Themen der Bioinformatik63 S m+1 ist geschlossene Region #OPT < h Beweis: S m+1 hat 3nd mehr AA- als UU-Substrings ◊AA ≥ 3nd #OPT < h + (n+1) + (2m+2) - 3nd < h
Martina Fröhlich - Aktuelle Themen der Bioinformatik64 Nichtgebundene CC`s und GG`s Sei α die Anzahl an Begrenzungsfragmenten, die nicht mit ihren konjugierenden Fragmenten verbunden sind ◊CC+ ◊GG ≥ α + (#GC – GC)
Martina Fröhlich - Aktuelle Themen der Bioinformatik65 ◊CC+ ◊GG ≥ α + (#GC – GC) GC nur in Begrenzungsfragment F GC gepaart linkestes CC nicht gepaart (#GC- ◊GC) Begrenzungsfragmente, deren GC gepaart ist Linkestes CC nicht gepaart+weiteres CC oder GG nicht gepaart Anzahl ungepaarter CC und GG ≥ 2(#GC – GC) α - (#GC- ◊GC) Begrenzungsfragmente, deren GC nicht gepaart ist entweder ungepaartes CC oder GG Anzahl ungepaarter CC und GG ≥ α-(#GC – GC)
Martina Fröhlich - Aktuelle Themen der Bioinformatik66 V j und W j in offener Region S j ist offene Region es dürfen nicht beide Fragmente V j und W j mit ihren konjugierenden Fragmenten verbunden sein Grund: Interleaving Block unpolar
Martina Fröhlich - Aktuelle Themen der Bioinformatik67 Untere Grenze der ◊ -Werte Sei l ≥1 die Anzahl der offenen Regionen in OPT 1)S m+1 ist offene Region ◊UU ≥ 3(m+1-l)d 2)max {◊CC, ◊GG} ≥ l + (#GC- ◊GC)/2 3)l=n+1, S m+1 ist offene Region, E hat kein perfektes Matching entweder a) ◊UU ≥3(m-n)d+1 b) ◊AA ≥1 oder c) ◊ UA≥2
Martina Fröhlich - Aktuelle Themen der Bioinformatik68 Beweis von 1) S j geschlossen (j ≠ m+1) 3d ungepaarte UU-Substrings Da m+1-l geschlossene Regionen 3(m+1-l)d ungepaarte UU-Substrings S m+1 ist offene Region UU ≥ 3(m+1-l)d
Martina Fröhlich - Aktuelle Themen der Bioinformatik69 Beweis von 2) 2l Fragmente in V j und W j in l, die nicht mit ihren konjugierten Fragmenten verbunden sind ◊CC + ◊GG ≥ 2l + (#GC- ◊GC) max {◊CC, ◊GG} ≥ l + (#GC- ◊GC)/2
Martina Fröhlich - Aktuelle Themen der Bioinformatik70 Beweis von 3) m+1-l = m-n geschlossene Regionen 3(m-n)d ungepaarte UU-Substrings
Martina Fröhlich - Aktuelle Themen der Bioinformatik71 Beweis von 3) n+1 offene Regionen bestehen aus S m+1 und S j1...S jn In n Ecken kein perfektes Match in den n+1 Regionen von mind. einem x k mehr ‹x k › als ‹x k › mind. 2 Fragmente F in allen ‹x i › nicht gepaart Fall1: ungepaarter UU-Substring in F Fall2: ungepaarter AA-Substring in F Fall3: alle UU-und AA-Substrings gepaart UA- Substrings der entsprechenden Fragmente ungepaart a) ◊UU ≥3(m-n)d+1 b) ◊AA ≥1 oder c) ◊ UA≥2
Martina Fröhlich - Aktuelle Themen der Bioinformatik72 Wenn E kein perfektes Matching enthält #OPT < h 1)l< n+1 ◊UU ≥ 3(m+1-l)d #OPT = h + n (2m+2) - 3(n+1-l)d ≤ h + n + 1+(2m+2) - 3d < h 2)l> n+1 max{◊CC, ◊GG} ≥ l + (#GC- ◊GC)/2 #OPT ≤ h + n + 1 – l < h, da l ≥ n+1 3)l=n+1 entweder a) ◊UU ≥3(m-n)d+1 b) ◊AA ≥1 oder c) ◊UA ≥2 #OPT ≤ h + n – max{CC,GG}+(GC-GC)/2 < h, da l ≥ n+1
Martina Fröhlich - Aktuelle Themen der Bioinformatik73 Ergebnis E enthält perfektes Matching sp(S E ) ≥ h E enthält kein perfektes Matching sp(S E ) < h Wenn planare RNA-Sekundärstruktur über Stacking Pairs in polynomieller Zeit berechnet werden könnte, könnte man auch das Tripartite Matching Problem in polynomieller Zeit lösen Widerspruch
Martina Fröhlich - Aktuelle Themen der Bioinformatik74 Quellen -Predicting RNA Secondary Structures with Arbitrary Pseudoknots by Maximizing the Number of Stacking Pairs, Samuel Ieong, Ming-Yang Kao, Tak-Wah Lam, Wing-Kin Sung and Siu-Ming Yiu, published in Journal of Computational Biology, vol. 10. Number 6, 2003, pp. 981–995 -RNA Pseudoknot Prediction in Energy Based Models, Rune B. Lyngsø and Christian N. S. Pedersen, published in Journal of Computational Biology, vol. 7(3/4), pp. 409–428, - skript/pdf/bioinformatik_2003_007.pdf