Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

Martina Fröhlich - Aktuelle Themen der Bioinformatik1 Predicting RNA Secondary Structures with Arbitrary Pseudoknots by Maximizing the Number of Stacking.

Ähnliche Präsentationen


Präsentation zum Thema: "Martina Fröhlich - Aktuelle Themen der Bioinformatik1 Predicting RNA Secondary Structures with Arbitrary Pseudoknots by Maximizing the Number of Stacking."—  Präsentation transkript:

1 Martina Fröhlich - Aktuelle Themen der Bioinformatik1 Predicting RNA Secondary Structures with Arbitrary Pseudoknots by Maximizing the Number of Stacking Pairs

2 Martina Fröhlich - Aktuelle Themen der Bioinformatik2 Predicting RNA Secondary Structures Einleitung Ein approximativer Algorithmus für planare Sekundärstrukturen Ein approximativer Algorithmus für allgemeine Sekundärstrukturen NP-Vollständigkeit

3 Martina Fröhlich - Aktuelle Themen der Bioinformatik3 RNA Lineare Polymere, aufgebaut aus Nukleotiden Jeder Nukleotid aufgebaut aus Ribose, Phosphatrest und einer der 4 Basen Adenin, Guanin, Cytosin, Uracil Im Gegensatz zur DNA einzelsträngig bildet über Watson-Crick-Paarungen dreidimensionale Struktur aus

4 Martina Fröhlich - Aktuelle Themen der Bioinformatik4 Sekundärstruktur Sei S=s 1 s 2 …s n eine RNA-Sequenz aus n Basen. Eine Sekundärstruktur P ist eine Menge von Watson-Crick-Basenpaaren (s i1,s j1 ),…,(s ip,s jp ), so dass gilt s ir +2 ≤ s jr für alle r = 1,...,p, wobei keine Base gleichzeitig zu zwei Paaren gehören kann.

5 Martina Fröhlich - Aktuelle Themen der Bioinformatik5 Häufigste RNA-Strukturen Hairpin Loop Internal Loop Multi-branched Loop Bulge Stacking Pair

6 Martina Fröhlich - Aktuelle Themen der Bioinformatik6 Stacking Pair Von zwei aufeinanderfolgenden Basenpaaren (s i,s j ) und (s i+1,s j-1 ) gebildete Schleife mit i+4≤j Enthalten keine ungepaarten Basen, haben negative Freie Energie und stabilisieren die Sekundärstruktur q aufeinanderfolgende Stacking Pairs (s i,s j ), (s i+1,s j-1 ); (s i+1,s j-1 ), (s i+2,s j-2 )… (s i+q-1, s j-q+1 ),(s i+q,s j-q ) von P werden durch (s i,s i+1,…, s i+q ; s j-q,…, s j-1,s j ) dargestellt.

7 Martina Fröhlich - Aktuelle Themen der Bioinformatik7 Die Herausforderung: Pseudoknots Sei S eine RNA-Sequenz. Ein Pseudoknot wird gebildet aus zwei überlappenden Basenpaaren (s i,s j ) und (s k, s l ) der Form i

8 Martina Fröhlich - Aktuelle Themen der Bioinformatik8 Definitionen Der ungerichtete Graph G(P) einer gegebener Sekundärstruktur P sei derart aufgebaut, dass die Basen von S die Knoten in G(P) darstellen. (s i,s j ) ist eine Kante in G(P), wenn j = i+1 oder (s i,s j ) ein Basenpaar in P ist. Eine Sekundärstruktur P ist planar, wenn G(P) planar ist Eine Sekundärstruktur P enthält einen „interleaving block“, wenn sie drei Stacking Pairs der Form (s i,s i+1 ;s j-1,s j ), (s i`, s i+1 ;s j´-1,s j´ ), (s i´´,s i´´+1 ;s j´´-1,s j´´ ) enthält, bei denen i

9 Martina Fröhlich - Aktuelle Themen der Bioinformatik9 Nonplanare Sekundärstruktur Wenn eine Sekundärstruktur P einen „Interleaving Block“ enthält, ist sie nonplanar

10 Martina Fröhlich - Aktuelle Themen der Bioinformatik10 Beweis Angenommen P enthält einen „interleaving block“ der o.B.d.A. von folgenden Stacking pairs gebildet wird (s 1,s 2 ;s 7,s 8 ), (s 3,s 4 ;s 9,s 10 ) und (s 5,s 6 ;s 11,s 12 ) Der Subgraph dieser Stacking Pairs kann nicht planar abgebildet werden G(P) ist nicht planar  P ist nicht planar

11 Martina Fröhlich - Aktuelle Themen der Bioinformatik11 Predicting RNA Secondary Structures Einleitung Ein approximativer Algorithmus für planare Sekundärstrukturen Ein approximativer Algorithmus für allgemeine Sekundärstrukturen NP-Vollständigkeit

12 Martina Fröhlich - Aktuelle Themen der Bioinformatik12 Definitionen Die Stacking Pairs einer Sekundärstruktur P können in ein Rasterfeld eingebettet werden Die Basen der dazugehörigen RNA-Sequenz werden nacheinander durch Gitterpunkte auf einer horizontalen Linie L des Feldes dargestellt Ein Stacking Pair (s i,s i+1 ;s j-1,s j ) wird in der Art dargestellt, dass die Punkte s i bzw. s i+1 mit s j bzw. s j-1 derart verbunden sind, dass sich beide Linien entweder unter oder oberhalb von L befinden

13 Martina Fröhlich - Aktuelle Themen der Bioinformatik13 Stacking Pair - Einbettung

14 Martina Fröhlich - Aktuelle Themen der Bioinformatik14 Lemma Die Einbettung E von Stacking Pairs einer planaren Sekundärstruktur P ist planar P planar => E planar wird bewiesen durch ⌐ E planar => ⌐ P planar

15 Martina Fröhlich - Aktuelle Themen der Bioinformatik15 Beweis P hat keine planare Stacking-Pair-Einbettung => P enthält einen „interleaving block“ P enthält einen „interleaving block“ => P ist nonplanar

16 Martina Fröhlich - Aktuelle Themen der Bioinformatik16 Algorithmus MaxSP V(i,j) (j ≥ i) sei die maximale Anzahl an Stacking Pairs, die von s i...s j ohne Pseudoknots gebildet werden kann, wenn s i und s j ein Watson-Crick- Paar bilden W(i,j) (j ≥ i) sei die maximale Anzahl an Stacking Pairs, die von s i...s j ohne Pseudoknots gebildet werden kann. => W(1,n) ist die maximale Anzahl an Stacking Pairs die von S ohne Pseudoknots gebildet werden kann.

17 Martina Fröhlich - Aktuelle Themen der Bioinformatik17 Algorithmus MaxSP Basis For j=i,i+1,i+2 oder i+3 (j ≤ n) V(i,j)=0 s i,s j sind Basenpaare W(i,j)=0. Weiterführung For j>i+3

18 Martina Fröhlich - Aktuelle Themen der Bioinformatik18 MaxSP ist 1/2-approximativ Gegebene RNA-Sequenz S N* die maximale Anzahl an Stacking Pairs in einer planaren Sekundärstruktur, die von S geformt werden kann W die maximale Anzahl an Stacking Pairs in einer planaren Sekundärstruktur ohne Pseudoknots, die von S geformt werden kann

19 Martina Fröhlich - Aktuelle Themen der Bioinformatik19 Beweis P* sei die planare Sekundärstruktur von S mit N* Stacking Pairs P* ist planar => jede Stacking Pair-Einbettung von P* ist planar Sei E eine Stacking Pair-Einbettung von P*, in der sich keine Linien überkreuzen Seien n 1 und n 2 die Anzahl der Stacking Pairs ober- bzw. unterhalb von L O.B.d.A n 1 ≥ n 2 Sekundärstruktur P sei P*, jedoch ohne die Stacking Pairs unterhalb von L Da n 1 ≥ n 2, n 1 ≥ N*/2, W ≥ n 1 => W ≥ N*/2

20 Martina Fröhlich - Aktuelle Themen der Bioinformatik20 Komplexität und Speicherplatz Algorithmus MaxSP berechnet die maximale Anzahl an Stacking Pairs einer Sekundärstruktur S ohne Pseudoknots in Zeit O(n 3 ) und mit Speicherplatz O(n²).

21 Martina Fröhlich - Aktuelle Themen der Bioinformatik21 Beweis Es werden jeweils O(n²) Einträge V(i,j) und W(i,j) gefüllt. Das Füllen der W`s benötigt konstante Zeit, das der V`s höchstens O(n). => O(n²) Einträge in O(n 3 ) Zeit

22 Martina Fröhlich - Aktuelle Themen der Bioinformatik22 Predicting RNA Secondary Structures Einleitung Ein approximativer Algorithmus für planare Sekundärstrukturen Ein approximativer Algorithmus für allgemeine Sekundärstrukturen NP-Vollständigkeit

23 Martina Fröhlich - Aktuelle Themen der Bioinformatik23 Algorithmus GreedySP() Sei S=s 1 s 2...s n die Eingabesequenz und E die Menge der Basenpaare, die der Algorithmus ausgibt. Zu Beginn sind alle s j unmarkiert und E= Ø GreedySP(S,i)//i ≥ 3 1. Finde die am weitesten links liegenden aufeinanderfolgenden i Stacking Pairs SP, die von unmarkierten Basen gebildet werden. Nimm SP zu E hinzu und markiere diese Basen. Wiederhole bis Sequenz einmal durchlaufen. 2.For k=i-1 downto 2, Finde die am weitesten links liegenden aufeinanderfolgenden i Stacking Pairs SP, die von unmarkierten Basen gebildet werden. Nimm SP zu E hinzu und markiere diese Basen. Wiederhole bis Sequenz einmal durchlaufen.. 3.Finde das am weitesten links liegende Stacking Pair SP, das von unmarkierten Basen gebildet wird. Nimm es zu E hinzu und markiere diese Basen. Wiederhole bis Sequenz einmal durchlaufen.

24 Martina Fröhlich - Aktuelle Themen der Bioinformatik24 Beweis zur Approximation Zu beweisen: GreedySP findet 1/3 der maximal möglichen Stacking Pairs

25 Martina Fröhlich - Aktuelle Themen der Bioinformatik25 Definitionen Die von GreedySP ermittelten SP`s werden nacheinender mit SP 1, SP 2,...,SP h bezeichnet Für jedes SP j = (s p,...s p+t ;s q-t,...s q ) werden die beiden Intervalle I j und J j für die Indices [p...p+1] und [q-t...q] definiert Sei F die Menge der Stacking Pairs einer optimalen Sekundärstruktur S mit der maximalen Anzahl an Stacking Pairs. Für jedes berechnete SP j sei X ß = {(s k,s k+1 ;s w-1,s w ) F|mindestens einer der Indices k, k+1, w-1, w liegt in ß} für ß = I j oder J j.

26 Martina Fröhlich - Aktuelle Themen der Bioinformatik26 Definitionen Für jedes j sei und Es sei |SP j | die Anzahl der von SP j repräsentierten Stacking Pairs. Es seien |I j | und |J j | die Anzahlen der Indices im Intervall I j und J j

27 Martina Fröhlich - Aktuelle Themen der Bioinformatik27 2 Teilschritte Sei N die von GreedySP(S,i) berechnete und N* die maximal mögliche Anzahl an Stacking Pairs in S. Folgend 2 Schritte müssen bewiesen werden: Wenn |SP j | ≥ 1/r * |(X´ Ij X´ Jj )| für alle j => N ≥ 1/r * N* Für jedes von GreedySP(S,i) berechnete SPj gilt |SP j | ≥ 1/3 * |(X´ Ij X´ Jj )|

28 Martina Fröhlich - Aktuelle Themen der Bioinformatik28 1.Schritt Lemma 1≤j≤h { X Ij X Jj } = F Beweis durch Widerspruch Stacking Pair(s k,s k+1 ;s w-1,s w ) in F, aber in keinem der XIj, XJj => keiner der Indices in einem XIj, XJj =>Widerspruch zu Schritt 3 des Algo`s

29 Martina Fröhlich - Aktuelle Themen der Bioinformatik29 1.Schritt Aus der Definition der X´ Ij und X´ Jj folgt {X Ik X Jk } = {X´ Ik X´ Jk } Da N = Σ j |SP j | folgt Wenn |SP j | ≥ 1/r * |(X´ Ij X´ Jj )| für alle j N ≥ 1/r * | {X Ik X Jk }| Und somit N ≥ 1/r * N*

30 Martina Fröhlich - Aktuelle Themen der Bioinformatik30 2.Schritt Zu beweisen war: Für jedes von GreedySP(S,i) berechnete SPj gilt |SP j | ≥ 1/3 * |(X´ Ij X´ Jj )| Fallunterscheidung für die 3 Schritte des Algorithmus

31 Martina Fröhlich - Aktuelle Themen der Bioinformatik31 Fall 1 SP j generiert von GreedySP(S,i) in Schritt 1 Per Definition |X´ Ij |, |X´ Jj | ≤ i+2 Behauptung: |X´ Ij | ≤ i+1 Beweis durch Widerspruch: -für eine Zahl t hat F i+2 aufeinanderfolgende Stacking Pairs (s p-1,...,s p+i+1 ;s t-i-1,...,s t+1 ) -alle Basen vor der Wahl von SP j unmarkiert -in SP j wären nicht die i linkesten Stacking Pairs  Widerspruch Somit: |SP j |/|X´ Ij X´ Jj | ≥ i/((i+1)+(i+2)) ≥ 1/3 (wenn i ≥ 3)

32 Martina Fröhlich - Aktuelle Themen der Bioinformatik32 Fall 2 SP j generiert von GreedySP(S,i) in Schritt 2. |SP j | =k ≥ 2; SP j = (s p,...,s p+k ;s q-k,...,s q ) Per Definition |X´ Ij |, |X´ Jj | ≤ i+2 Behauptung: |X´ Ij |, |X´ Jj |, ≤ k+1 Beweis: Wie in Fall 1 Widerspruch bei s p-1,...,s p+k+1 ;s t-k-1,...,s t+1 Kann für X´ Ij und X´ Jj bewiesen werden.. Somit: |SP j |/|X´ Ij X´ Jj | ≥ k/((k+1)+(k+1)) ≥ 1/3 (wenn k ≥ 2)

33 Martina Fröhlich - Aktuelle Themen der Bioinformatik33 Fall 3 SP j generiert von GreedySP(S,i) in Schritt 3. Sei SP j = (s p,s p+1 ;s q-1,s q ) Wie in Fall 2 kann bewiesen werden, dass |X´ Ij |, |X´ Jj | ≤ k+1 Behauptung |X´ Ij | ≤1 Beweis: Einziger möglicher Fall mit |X´ Ij | =2, wenn (s p-1,s p ;s r-1,s r ) und (s p,s p+1 ;s t-1,s t ) beide zu X´ Ij gehören würden.  SP j nicht linkestes Stacking Pair  Widerspruch Somit: |SP j |/|X´ Ij X´ Jj | ≥ 1/(1+2) ≥ 1/3

34 Martina Fröhlich - Aktuelle Themen der Bioinformatik34 Zeit und Komplexität Bei gegebener RNA Sequenz S von Länge n und einer Konstante k benötigt GreedySP(S,k) Zeit und Speicherplatz O(n).

35 Martina Fröhlich - Aktuelle Themen der Bioinformatik35 Zeit und Komplexität Für jedes j mit 1 ≤j ≤k gibt nur 4 j verschiedene Muster aus {A,G,C,U} Darstellbar durch k verkettete Listen mit je 4 j Indices O(n) Einträge pro Liste => O(kn)Einträge in allen Listen k-maliges Scannen der Sequenz, jeder Eintrag der Liste wird höchstens einmal besucht => O(kn) Zeit

36 Martina Fröhlich - Aktuelle Themen der Bioinformatik36 Fazit Algorithmus GreedySP ist 1/3-approximativ Berücksichtigt Pseudoknots Zeit O(n) Platz O(n)

37 Martina Fröhlich - Aktuelle Themen der Bioinformatik37 Alternativen Nussinov et al (1978) – Freie Energie-Funktion, die minimiert wird, wenn die Sekundärstruktur die maximale Anzahl an komplementären Basenpaaren enthält. Ohne Pseudoknots. (Zeit O(n 3 )) Mfold : –Berechnung über stabile Strukturen(z. B. Helices) –(Zeit O(n 3 )) –ohne Pseudoknots

38 Martina Fröhlich - Aktuelle Themen der Bioinformatik38 Alternativen Rivas, Eddy (1998) Algorithmus mit dynamischer Programmierung, handelt bestimmte Pseudoknots in O(n 6 )Zeit und O(n 4 ) Speicherplatz Stochastische kontextfreie Grammatiken Genetische Algorithmen. Fitnessfunktion: Selektion nach Länge der Helix oder nach freier Energie.

39 Martina Fröhlich - Aktuelle Themen der Bioinformatik39 Predicting RNA Secondary Structures Einleitung Ein approximativer Algorithmus für planare Sekundärstrukturen Ein approximativer Algorithmus für allgemeine Sekundärstrukturen NP-Vollständigkeit

40 Martina Fröhlich - Aktuelle Themen der Bioinformatik40 NP-Vollständigkeit Das Ermitteln einer planaren RNA-Sekundärstruktur mit der maximalen Anzahl an Stacking Pairs ist NP- Vollständig. Beweis durch Reduktion des Tripartite Matching Problems auf unser Problem Gegeben: 3 Knotenmengen mit Kardinalität n Kantenmenge E als Teilmenge von X × Y × Z von Grösse m Konstruktion einer RNA-Sequenz S E und eines Integers h in polynomieller Zeit. E enthält perfektes Matching  sp(S E ) ≥ h E enthält kein perfektes Matching  sp(S E ) < h

41 Martina Fröhlich - Aktuelle Themen der Bioinformatik41 Konstruktion der RNA- Sequenz S E X ={x 1,...,x n }, Y={y 1,...,y n }, Z={z 1,...,z n } E=e 1,...,e m ; e j = x pj, y qj, z rj RNA-Sequenz aufgebaut aus A, U, G, C Sei d = max {6n, 4(m+1)}+1 Für k

42 Martina Fröhlich - Aktuelle Themen der Bioinformatik42 Kodierung der Knoten Für 1≤i≤n ‹x i ›= δ(i) ‹yi›= δ(n+i) ‹z i ›= δ(2n+i) Wobei ‹x i › ist die Kodierung für Knoten x i ‹x i › = δ(i) ‹y i › = δ(n+i) ‹z i › = δ(2n+i) Knotenmenge X =‹x 1 ›G‹x 2 ›G...G‹x n › X = ‹x n ›G‹x n-1 ›G...G‹x 1 › X-x i = ‹x 1 ›G...G‹x i-1 ›G‹x i+1 ›G...G‹x n › X-x i =‹x n ›G...G‹x i+1 ›G‹x i-1 ›G...G‹x 1 ›

43 Martina Fröhlich - Aktuelle Themen der Bioinformatik43 Kodierung der Kanten Für jede Kante e j (1≤j≤m) sei V j = π(j) W j = π(m+1+j) e j =(x pj,y qj,z rj ) = S j = AG V j AG W j AG X G Y G Z G (Z-z rj ) G (Y-y qj ) G (X-x pj ) V j A W j Zusätzliche Sequenz S m+1 = AG V m+1 AG W m+1 AG Z G Y G X V m+1 A W m+1 S E = S m+1 S m... S 1 h = m σ + n(6d-4) + 12d-5 mit σ =3n(3d-2) + 6d - 1

44 Martina Fröhlich - Aktuelle Themen der Bioinformatik44 Komplexität S E besteht aus O((n+m) 3 ) Basen und kann in Zeit O(S E ) konstruiert werden Zu beweisen: Genau dann, wenn E ein perfektes Matching enthält, ist sp(S E ) ≥ h

45 Martina Fröhlich - Aktuelle Themen der Bioinformatik45 Definitionen Jedes S j wird als Region bezeichnet Die Substrings U + A + der δ(i), C + der π und G + der π werden als Fragmente bezeichnet

46 Martina Fröhlich - Aktuelle Themen der Bioinformatik46 Korrektheit des “Wenn”-Falles Wenn E ein perfektes Matching enthält, dann ist sp(S E ) ≥ h

47 Martina Fröhlich - Aktuelle Themen der Bioinformatik47 Bildung von Stacking Pairs δ(i) oder δ(i) d-1 δ(i) mit δ(i) 3d-2 π(i) mit π(i) 6d-2 Für jedes i ≠ j, π(i) mit π(i) 6d-3

48 Martina Fröhlich - Aktuelle Themen der Bioinformatik48 Definitionen Sei M ={e j1,e j2,...,e jn } ein perfektes Matching Definiert j n+1 =m+1

49 Martina Fröhlich - Aktuelle Themen der Bioinformatik49 Vorgehen Durchlaufe Region für Region 3 Fälle zu Unterscheiden: 1. Fall: S j, so dass e j M 2. Fall: S j, so dass e j M 3. Fall:S m+1

50 Martina Fröhlich - Aktuelle Themen der Bioinformatik50 Fall1 e j = (x pj, y qj, z rj ) 6d-2 Stacking Pairs zwischen V j und V j und W j und W j 3d-2 Stacking Pairs zwischen ‹x i › und ‹x i › für i ≠ p j, ‹y i › und ‹y i › für i ≠ q j, ‹z i › und ‹z i › für i ≠ r j, ‹x pj ›, ‹y qj ›, ‹z rj › jeweils d-1 Stacking Pairs

51 Martina Fröhlich - Aktuelle Themen der Bioinformatik51 Fall 1 Stacking Pairs in Sj 2(6d-2) + 3(n-1)(3d-2) + 3(d-1) = 3n(3d-2) + 6d-1 = σ Es existieren (m-n) solcher Ecken

52 Martina Fröhlich - Aktuelle Themen der Bioinformatik52 Fall 2 6d-3 Stacking Pairs zwischen W jk in S jk und W jk+1 in S jk+1 6d-2 Stacking Pairs zwischen V jk in S jk und V jk in S jk 3d-2 Stacking Pairs zwischen ‹x i › in S jk und ‹x i › in S jk für alle i ≠ p j1,…, p jk (analog bei ‹y i › und ‹z i ›) 3d-2 Stacking Pairs zwischen ‹x i › in S jk und ‹x i › in S jk+1 für alle i = p j1,…, p jk (analog bei ‹y i › und ‹z i ›)

53 Martina Fröhlich - Aktuelle Themen der Bioinformatik53 Fall 2 Stacking Pairs in Sj 6d-3 + 6d-2 + 3n(3d-2) = σ + 6d-4 Es existieren n solcher Ecken

54 Martina Fröhlich - Aktuelle Themen der Bioinformatik54 Fall 3 6d-2 Stacking Pairs zwischen V m+1 und V m+1 6d-3 Stacking Pairs zwischen W m+1 und W m+1 Anzahl solcher Stacking Pairs in S m+1 12d-5

55 Martina Fröhlich - Aktuelle Themen der Bioinformatik55 Resultat E enthält perfektes Matching  Stacking Pairs in S E = (m-n) σ + n(σ + 6d-4) + 12d – 5 = h  sp(S E ) ≥ h

56 Martina Fröhlich - Aktuelle Themen der Bioinformatik56 Korrektheit des “Nur dann, wenn”-Falles Wenn E kein perfektes Matching enthält, dann ist sp(S E )

57 Martina Fröhlich - Aktuelle Themen der Bioinformatik57 Definitionen OPT : Sekundärstruktur von S E mit der maximalen Anzahl an Stacking Pairs #OPT = sp(S E ) Konjugat: Für Substring H = s 1,s 2,...,s k ist das Konjugat Ĥ = ŝ 1, ŝ 2,..., ŝ k mit Â=U, Û=A, Ĉ=G, Ĝ=C 2-Substring: zwei adjazente Basen

58 Martina Fröhlich - Aktuelle Themen der Bioinformatik58 Vorkommen der verschiedenen 2-Substrings

59 Martina Fröhlich - Aktuelle Themen der Bioinformatik59 Fakten #OPT ≤ min { # AA, # UU} + min { # GG, # CC} + # UA/2 + # GC/2 = h + n +1 + (2m+2) Anzahl nichtgepaarter Substrings sei ◊ #OPT ≤ min {# AA- ◊AA, # UU- ◊UU} + min {# GG- ◊GG, # CC- ◊CC} + (#UA- ◊UA)/2 + (#GC- ◊GC)/2

60 Martina Fröhlich - Aktuelle Themen der Bioinformatik60 Grundlage des Beweises S E enthält kein perfektes Matching  untere Schranke für die ◊-Werte ist so hoch, daß sp(S E ) < h

61 Martina Fröhlich - Aktuelle Themen der Bioinformatik61 Definitionen Offene Region: UU-,AA-, oder UA-Substrings innerhalb S j sind mit Regionen außerhalb von S j verbunden ist. Sonst: S j ist geschlossene Region Konjugierte Fragmente: F sei Fragment in S E F´ ist kunjugiertes Fragment von F, wenn F´das Konjugat von F ist Begrenzungsfragmente:V j oder W j (für 1 ≤ j ≤ m+1)

62 Martina Fröhlich - Aktuelle Themen der Bioinformatik62 Weiteres Vorgehen Fallunterscheidungen: –S m+1 ist geschlossene Region –S m+1 ist offene Region Anzahl offener Regionen < n+1 Anzahl offener Regionen > n+1 Anzahl offener Regionen = n+1

63 Martina Fröhlich - Aktuelle Themen der Bioinformatik63 S m+1 ist geschlossene Region  #OPT < h Beweis: S m+1 hat 3nd mehr AA- als UU-Substrings  ◊AA ≥ 3nd  #OPT < h + (n+1) + (2m+2) - 3nd < h

64 Martina Fröhlich - Aktuelle Themen der Bioinformatik64 Nichtgebundene CC`s und GG`s Sei α die Anzahl an Begrenzungsfragmenten, die nicht mit ihren konjugierenden Fragmenten verbunden sind ◊CC+ ◊GG ≥ α + (#GC – GC)

65 Martina Fröhlich - Aktuelle Themen der Bioinformatik65 ◊CC+ ◊GG ≥ α + (#GC – GC) GC nur in Begrenzungsfragment F GC gepaart  linkestes CC nicht gepaart (#GC- ◊GC) Begrenzungsfragmente, deren GC gepaart ist  Linkestes CC nicht gepaart+weiteres CC oder GG nicht gepaart  Anzahl ungepaarter CC und GG ≥ 2(#GC – GC) α - (#GC- ◊GC) Begrenzungsfragmente, deren GC nicht gepaart ist  entweder ungepaartes CC oder GG  Anzahl ungepaarter CC und GG ≥ α-(#GC – GC)

66 Martina Fröhlich - Aktuelle Themen der Bioinformatik66 V j und W j in offener Region S j ist offene Region  es dürfen nicht beide Fragmente V j und W j mit ihren konjugierenden Fragmenten verbunden sein Grund: Interleaving Block  unpolar

67 Martina Fröhlich - Aktuelle Themen der Bioinformatik67 Untere Grenze der ◊ -Werte Sei l ≥1 die Anzahl der offenen Regionen in OPT 1)S m+1 ist offene Region  ◊UU ≥ 3(m+1-l)d 2)max {◊CC, ◊GG} ≥ l + (#GC- ◊GC)/2 3)l=n+1, S m+1 ist offene Region, E hat kein perfektes Matching  entweder a) ◊UU ≥3(m-n)d+1 b) ◊AA ≥1 oder c) ◊ UA≥2

68 Martina Fröhlich - Aktuelle Themen der Bioinformatik68 Beweis von 1) S j geschlossen (j ≠ m+1)  3d ungepaarte UU-Substrings Da m+1-l geschlossene Regionen  3(m+1-l)d ungepaarte UU-Substrings  S m+1 ist offene Region  UU ≥ 3(m+1-l)d

69 Martina Fröhlich - Aktuelle Themen der Bioinformatik69 Beweis von 2) 2l Fragmente in V j und W j in l, die nicht mit ihren konjugierten Fragmenten verbunden sind  ◊CC + ◊GG ≥ 2l + (#GC- ◊GC)  max {◊CC, ◊GG} ≥ l + (#GC- ◊GC)/2

70 Martina Fröhlich - Aktuelle Themen der Bioinformatik70 Beweis von 3) m+1-l = m-n geschlossene Regionen  3(m-n)d ungepaarte UU-Substrings

71 Martina Fröhlich - Aktuelle Themen der Bioinformatik71 Beweis von 3) n+1 offene Regionen bestehen aus S m+1 und S j1...S jn In n Ecken kein perfektes Match  in den n+1 Regionen von mind. einem x k mehr ‹x k › als ‹x k ›  mind. 2 Fragmente F in allen ‹x i › nicht gepaart Fall1: ungepaarter UU-Substring in F Fall2: ungepaarter AA-Substring in F Fall3: alle UU-und AA-Substrings gepaart  UA- Substrings der entsprechenden Fragmente ungepaart  a) ◊UU ≥3(m-n)d+1 b) ◊AA ≥1 oder c) ◊ UA≥2

72 Martina Fröhlich - Aktuelle Themen der Bioinformatik72 Wenn E kein perfektes Matching enthält  #OPT < h 1)l< n+1  ◊UU ≥ 3(m+1-l)d  #OPT = h + n (2m+2) - 3(n+1-l)d ≤ h + n + 1+(2m+2) - 3d < h 2)l> n+1  max{◊CC, ◊GG} ≥ l + (#GC- ◊GC)/2  #OPT ≤ h + n + 1 – l < h, da l ≥ n+1 3)l=n+1  entweder a) ◊UU ≥3(m-n)d+1 b) ◊AA ≥1 oder c) ◊UA ≥2  #OPT ≤ h + n – max{CC,GG}+(GC-GC)/2 < h, da l ≥ n+1

73 Martina Fröhlich - Aktuelle Themen der Bioinformatik73 Ergebnis E enthält perfektes Matching  sp(S E ) ≥ h E enthält kein perfektes Matching  sp(S E ) < h Wenn planare RNA-Sekundärstruktur über Stacking Pairs in polynomieller Zeit berechnet werden könnte, könnte man auch das Tripartite Matching Problem in polynomieller Zeit lösen  Widerspruch

74 Martina Fröhlich - Aktuelle Themen der Bioinformatik74 Quellen -Predicting RNA Secondary Structures with Arbitrary Pseudoknots by Maximizing the Number of Stacking Pairs, Samuel Ieong, Ming-Yang Kao, Tak-Wah Lam, Wing-Kin Sung and Siu-Ming Yiu, published in Journal of Computational Biology, vol. 10. Number 6, 2003, pp. 981–995 -RNA Pseudoknot Prediction in Energy Based Models, Rune B. Lyngsø and Christian N. S. Pedersen, published in Journal of Computational Biology, vol. 7(3/4), pp. 409–428, -www.bpc.mh-hannover.de/lehre/ skript/pdf/bioinformatik_2003_007.pdf


Herunterladen ppt "Martina Fröhlich - Aktuelle Themen der Bioinformatik1 Predicting RNA Secondary Structures with Arbitrary Pseudoknots by Maximizing the Number of Stacking."

Ähnliche Präsentationen


Google-Anzeigen