Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

Vorhersage von RNA-Sekundärstrukturen inklusive Pseudoknoten

Ähnliche Präsentationen


Präsentation zum Thema: "Vorhersage von RNA-Sekundärstrukturen inklusive Pseudoknoten"—  Präsentation transkript:

1 Vorhersage von RNA-Sekundärstrukturen inklusive Pseudoknoten
Markus Hartenfeller Vortrag im Rahmen des Seminars „Aktuelle Themen der Bioinformatik“

2 Übersicht Einleitung Der Algorithmus von Rivas/Eddy
Eine „fast“ kontextfreie Grammatik zur Erzeugung von Sequenzen mit Pseudoknoten Der Algorithmus von Reeder/Giegerich Markus Hartenfeller - Vorhersage von RNA-Sekundärstrukturen inklusive Pseudoknoten

3 Übersicht Einleitung Der Algorithmus von Rivas/Eddy
Eine „fast“ kontextfreie Grammatik zur Erzeugung von Sequenzen mit Pseudoknoten Der Algorithmus von Reeder/Giegerich Markus Hartenfeller - Vorhersage von RNA-Sekundärstrukturen inklusive Pseudoknoten

4 „simple“ Elemente der RNA-Sekundärstruktur
gehorchen allesamt der „nesting convention“: Zwei Basenpaare i, j und k, l (wobei i<j, k<l, i<k) zeigen eine der folgenden Konstellationen: i<k<l<j i<j<k<l Markus Hartenfeller - Vorhersage von RNA-Sekundärstrukturen inklusive Pseudoknoten

5 Pseudoknoten Pseudoknoten sind all jene Basenpaar-Strukturen, die die nesting convention verletzen, z.B.: Pseudoknoten sind zwar im Vergleich zu anderen Sekundärstrukturen selten, dafür aber entscheidend für die 3-dimensionale Struktur einfachster Pseudoknoten Markus Hartenfeller - Vorhersage von RNA-Sekundärstrukturen inklusive Pseudoknoten

6 Wo kommen Pseudoknoten vor?
Beispiele des Vorkommens: ribosomale RNA selbstsplicende Gruppe- I -Introns 3´-Ende einiger Pflanzenviren-RNAs (Mimik) RNase P (processing des 5´-Endes von pre-tRNAs) Markus Hartenfeller - Vorhersage von RNA-Sekundärstrukturen inklusive Pseudoknoten

7 Pseudoknoten und Berechnungskomplexität
Die vorhersagen beliebiger Pseudoknoten-Strukturen ist NP-vollständig, also wahrscheinlich nicht effizient lösbar Aktuelle Ansätze zur Vorhersage von Pseudoknoten machen daher Einschränkungen, um Laufzeit und Platzbedarf in polynomieller Größenordnung zu halten, sind also nicht universell frühere Vorhersage-Algorithmen (Nussinov, Zuker) konnten keinerlei Pseudoknoten vorhersagen und blenden diese völlig aus Markus Hartenfeller - Vorhersage von RNA-Sekundärstrukturen inklusive Pseudoknoten

8 Übersicht Einleitung Der Algorithmus von Rivas/Eddy
Eine „fast“ kontextfreie Grammatik zur Erzeugung von Sequenzen mit Pseudoknoten Der Algorithmus von Reeder/Giegerich Markus Hartenfeller - Vorhersage von RNA-Sekundärstrukturen inklusive Pseudoknoten

9 Der Algorithmus von Rivas/Eddy
Basiert auf dynamischem Programmieren und experimentell bestimmten thermodynamischen Daten (Turner), ähnelt daher durchaus dem Zuker-Algorithmus Laufzeit: O(n6) Speicherbedarf: O(n4) Ermittelt die thermodynamisch günstigste Sekundärstruktur (es wird ΔG berechnet wie bei Zuker) Zur didaktischen Vermittlung und vor allem auch als Entwurfshilfe wird auf Feynman-Diagramme zur Visualisierung zurückgegriffen Markus Hartenfeller - Vorhersage von RNA-Sekundärstrukturen inklusive Pseudoknoten

10 Feynman-Diagramme Sekundästruktur-Interaktion (H-Brücke)
Backbone (Sequenz) Markus Hartenfeller - Vorhersage von RNA-Sekundärstrukturen inklusive Pseudoknoten

11 Zuker-Algorithmus in Diagramm-Repräsentation
befüllt im wesentlich die beiden NxN-Matrizen wx und vx vx(i,j) enthält den Score der optimalen Struktur zwischen Position i und j, bei der i und j ein Basenpaar bilden (nur ≠ +∞, falls i und j überhaupt Basenpaar bilden können) wx(i,j) enthält den Score der optimalen Struktur zwischen Position i und j; dabei müssen i und j nicht zwangsläufig ein Basenpaar bilden vx wird benötigt, um die Werte für wx zu errechnen Markus Hartenfeller - Vorhersage von RNA-Sekundärstrukturen inklusive Pseudoknoten

12 Zuker-Algorithmus in Diagramm-Repräsentation
Rekursion für vx: Erste Einschränkung diagrammatische Repräsentation: Markus Hartenfeller - Vorhersage von RNA-Sekundärstrukturen inklusive Pseudoknoten

13 Zuker-Algorithmus in Diagramm-Repräsentation
Rekursion für wx: diagrammatische Repräsentation: Markus Hartenfeller - Vorhersage von RNA-Sekundärstrukturen inklusive Pseudoknoten

14 Erweiterung durch Pseudoknoten
Der Algorithmus von Rivas/Eddy erweitert den Zuker-Algorithmus um die Berechnung von Pseudoknoten Dazu werden zusätzlich zu wx und vx die vier Gap-Matrizen whx, vhx, yhx, zhx eingeführt. (Es handelt sich um NxNxNxN-Matrizen, woraus auch der Speicherbedarf von O(n4) des Verfahrens resultiert.) Diagramme: Markus Hartenfeller - Vorhersage von RNA-Sekundärstrukturen inklusive Pseudoknoten

15 Der Algorithmus von Rivas und Eddy
Die Gap-Matrizen dienen der Berechnung von Pseudoknoten, indem zwei Gapmatrizen mit „komplementären“ Gaps zusammengefügt werden: Markus Hartenfeller - Vorhersage von RNA-Sekundärstrukturen inklusive Pseudoknoten

16 Der Algorithmus von Rivas und Eddy
zweite Einschränkung Markus Hartenfeller - Vorhersage von RNA-Sekundärstrukturen inklusive Pseudoknoten

17 Der Algorithmus von Rivas und Eddy
zweite Einschränkung Markus Hartenfeller - Vorhersage von RNA-Sekundärstrukturen inklusive Pseudoknoten

18 Erste Einschränkung Die erste Einschränkung hat nichts mit der NP-Vollständigkeit des Pseudoknotenproblems zu tun, sonder begrenzt lediglich die Komplexität des Zuker-Algorithmus auf O(n3): Alle Multiloops werden energetisch gleich bewertet, egal wie viele Stems von ihnen abgehen. Es wird nicht überprüft, ob eine Struktur mit mehr als 3 Stems existiert. Markus Hartenfeller - Vorhersage von RNA-Sekundärstrukturen inklusive Pseudoknoten

19 Zweite Einschränkung Die zweite, eben vorgestellte Einschränkung des Algorithmus dient dazu, die Berechnungskomplexität von exponentiellem auf polynomielles Niveau zu begrenzen. Dadurch kann der Algorithmus allerdings nicht jeden beliebigen Pseudoknoten berechnen. (Es können aber alle zur Zeit des Entwurfs bekannten Pseudoknoten vorhergesagt werden!) Es werden niemals mehr als zwei Gap-Matrizen auf einmal miteinander kombiniert. In der Berechnung von wx und vx sind je nur zwei Gap-Matrizen pro Rekursion berücksichtigt. Markus Hartenfeller - Vorhersage von RNA-Sekundärstrukturen inklusive Pseudoknoten

20 Zweite Einschränkung Das funktioniert: Das nicht:
(2 „parallele β-sheets“, einfache copy-language) eine Matrix durch 2 aufgelöst  Das nicht: (mehr als 2 „parallele β-sheets“) eine Matrix durch 4 aufgelöst  Markus Hartenfeller - Vorhersage von RNA-Sekundärstrukturen inklusive Pseudoknoten

21 Der Algorithmus von Rivas/Eddy
Die Berechnungen von vhx: 6 verschachtelte Laufvariable --> O(n6) (gilt auch für anderen 3 Gap-Matrizen) Markus Hartenfeller - Vorhersage von RNA-Sekundärstrukturen inklusive Pseudoknoten

22 Der Algorithmus von Rivas/Eddy
Die Berechnungen von yhx: Markus Hartenfeller - Vorhersage von RNA-Sekundärstrukturen inklusive Pseudoknoten

23 Der Algorithmus von Rivas/Eddy
Die Berechnungen von zhx: Markus Hartenfeller - Vorhersage von RNA-Sekundärstrukturen inklusive Pseudoknoten

24 Der Algorithmus von Rivas/Eddy
Die Berechnungen von whx: Markus Hartenfeller - Vorhersage von RNA-Sekundärstrukturen inklusive Pseudoknoten

25 Der Algorithmus von Rivas/Eddy
Die Berechnungen von whx: Markus Hartenfeller - Vorhersage von RNA-Sekundärstrukturen inklusive Pseudoknoten

26 Der Algorithmus von Rivas und Eddy
grober Aufbau: Was dient zur Berechnung von was innerhalb einer Rekursion? zhx vhx whx wx vx yhx Zeit innerhalb einer Rekursion Markus Hartenfeller - Vorhersage von RNA-Sekundärstrukturen inklusive Pseudoknoten

27 Der Algorithmus von Rivas und Eddy
Aufbau: Was dient zur Berechnung von was? Wert aus aktueller Rekusion zhx Wert aus älterer Rekusion vhx whx wx vx yhx Markus Hartenfeller - Vorhersage von RNA-Sekundärstrukturen inklusive Pseudoknoten

28 Der Algorithmus von Rivas/Eddy
Zusätzlich zu der Erweiterung des Zuker-Algorithmus um Pseudoknoten wurde noch thermodynamische Parameter für Dangles und Coaxial-Stacking (Walter et al.) hinzugefügt (keine zusätzliche Verschlechterung in Asymptotiken). Diese werden in die Berechnungen aller 6 Matrizen eingebunden. Dangles: Ungepaarte Basen in direkter Nachbarschaft zu gepaarten Coaxiales Stacking: Zwei oder mehr überlagerte Stems Markus Hartenfeller - Vorhersage von RNA-Sekundärstrukturen inklusive Pseudoknoten

29 Erweiterung duch Stacking und Dangles
Exemplarisch für wx: Dangles Stacking Markus Hartenfeller - Vorhersage von RNA-Sekundärstrukturen inklusive Pseudoknoten

30 Ergebnisse des Algorithmus von Rivas/Eddy
Mit dem Algorithmus können potentiell alle bisher bekannten Pseudoknoten vorhergesagt werden Obwohl der Suchraum entscheidend vergrößert wird, faltet der Algorithmus auch relativ lange Sequenzen und solche ohne Pseudoknoten mit hoher Zuverlässigkeit (er tendiert also nicht zum Einfügen falsch-positiver Pseudoknoten). Ergebnisse bei Strukturen ohne Pseudoknoten sehr ähnlich zu denen von MFOLD (basierend auf Zuker-Algorithmus) Auf Grund der hohen Berechnungskomplexität können nur Sequenzen bis zu einer Länge von ca. 140 untersucht werden! Markus Hartenfeller - Vorhersage von RNA-Sekundärstrukturen inklusive Pseudoknoten

31 Ergebnisse des Algorithmus von Rivas/Eddy
tRNA´s: - RE: 15 von 24 völlig korrekt, die restlichen 9 zumindest in Kleeblatt-Struktur - MFOLD: 14 von 24 völlig korrekt, nur 5 der restlichen 10 in  Verbesserung gegenüber MFOLD durch Integration von Stacking Virale RNAs: - 6 von 7 getesteten Pseudoknoten in t-RNA-ähnlichen Valinrezeptoren der 3´-Region korrekt vorhergesagt - In einem Ribozym des Hepatitis Delta Virus wurde der Pseudoknoten korrekt lokalisiert, es fehlte allerdings ein kleiner 2-Stem-Hairpin Markus Hartenfeller - Vorhersage von RNA-Sekundärstrukturen inklusive Pseudoknoten

32 Übersicht Einleitung Der Algorithmus von Rivas/Eddy
Eine „fast“ kontextfreie Grammatik zur Erzeugung von Sequenzen mit Pseudoknoten 4. Der Algorithmus von Reeder/Giegerich Markus Hartenfeller - Vorhersage von RNA-Sekundärstrukturen inklusive Pseudoknoten

33 Eine Pseudoknoten-Grammatik
Der vorgestellte Algorithmus sagt Pseudoknoten voraus, liefert aber kein komplettes Modell zur vollständigen Beschreibung von Pseudoknoten. Stochastische Grammatiken dagegen sind vollständige Wahrscheinlichkeits-Modelle (ähnlich zu HMMs) Sie erlauben es, Ausgaben mit Wahrscheinlichkeiten zu versehen, und damit auch z.B. verlässlichere suboptimale Ergebnisse zu produzieren. Markus Hartenfeller - Vorhersage von RNA-Sekundärstrukturen inklusive Pseudoknoten

34 Eine Pseudoknoten-Grammatik
Die zuvor beschriebenen „simplen“ RNA-Sekundärstrukturen sind durch kontextfreie Grammatiken (CFG) vollständig beschreibbar, da sie der „nesting convention“ gehorchen. (Interaktionen zwischen Basenpositionen kreuzen nicht.) Pseudoknoten sind nicht durch normale CFGs beschreibbar, da sie kreuzende Korrelationen bedingen. Diese werden erst durch kontextsensitive Grammatiken (CSG) modelliert. Leider ist das generelle Parsen (also das Nachvollziehen der Entstehungsgeschichte eines Wortes durch eine Grammatik) von CSGs NP-vollständig Markus Hartenfeller - Vorhersage von RNA-Sekundärstrukturen inklusive Pseudoknoten

35 Eine Pseudoknoten-Grammatik
Problem: Wir haben ein Problem, das eigentlich eine CSG benötigen würde, um es vollständig zu erfassen. Damit können wir es aber von der Berechnungskomplexität her nicht mehr effizient behandeln. Lösung: Eine erweiterte CFG, die zusätzliche Nichtterminale und Regeln zur Reorganisation beinhaltet Bemerkung: Es handelt sich damit formal weder um eine CFG noch um eine CSG! Markus Hartenfeller - Vorhersage von RNA-Sekundärstrukturen inklusive Pseudoknoten

36 Eine Pseudoknoten-Grammatik
Eine normale CFG formal: G = (V, Σ, P, S) Die erweiterte CFG formal: G = (V, Σ, P, S, I, R) wobei - Σ* neben dem normalen leeren Wort ε noch ein zusätzliches leeres „Lückenwort“ (‚hole‘-string) ^ enthält. ^ wird bei der Reorganisation zur Trennung von Teilstrings benötigt, nach der Reorganisation wird es wie ε ignoriert. - I eine endliche Menge von zusätzlichen Nichtterminalen ist - R eine endliche Menge von Reorganisationsregeln ist. Diese werden erst nach der vollständigen Produktion des Wortes angewendet Markus Hartenfeller - Vorhersage von RNA-Sekundärstrukturen inklusive Pseudoknoten

37 Einfaches Beispiel – die copy-language
Zum besseren Verständnis des Ansatzes zunächst ein einfacheres Beispiel: Die einfache copy-language enthält Wörter über einem Alphabet, die aus zwei identischen Teilwörter bestehen, die direkt miteinander konkateniert sind, z.B.: AA, ABAB, AAABAAAABA, , … Formal: L = {ε, w ^ w | w є Σ*} Diese Sprache kann nicht von einer CFG erzeugt werden und verlangt eigentlich nach einer CSG. Markus Hartenfeller - Vorhersage von RNA-Sekundärstrukturen inklusive Pseudoknoten

38 Einfaches Beispiel – die copy-language
Eine erweiterte CFG, die die copy-language beschreibt: V = {W, WH} Σ = {a, b} P = { W → WW | (WH x WH) | ε, WH → a ^ a | b ^ b | (WH x WH) | ^ } S = W I = { ) , ( , x } R = { (m1^m1´ x m2^m2´)  m1m2^m1´m2´ } Markus Hartenfeller - Vorhersage von RNA-Sekundärstrukturen inklusive Pseudoknoten

39 Einfaches Beispiel – die copy-language
W → (WH x WH) → ((WH x WH) x (WH x WH)) → ((a ^ a x b ^ b) x (b ^ b x a ^ a))  (ab ^ ab x ba ^ ba)  abba ^ abba Produktionen Reorganisation Das erzeugte Wort: abbaabba Mit der vorgestellten Grammatik für die einfache copy-language erzeugt. Markus Hartenfeller - Vorhersage von RNA-Sekundärstrukturen inklusive Pseudoknoten

40 Die Formalismen von generellen erweiterten CFGs
P = { A → α | A є V, α є (V(IV)* U Σ)*} z.B.: WxWxWaWaWxW R = {(σ)  m | σ є (Σ U I)*, m є Σ*} z.B.: (b^b x a^a)  ba^ba Bemerkung: Die Produktionen ähneln sehr der Form einer CFG (es wird nur von einem Nonterminal abgeleitet). Ist I = Ø, dann ist α є (V U Σ)* und wir haben eine CFG. Für uneingeschränkte Ableitungen A → α mit α є (V(IV)* U Σ)* ist das Parsen sehr komplex und wahrscheinlich NP-vollständig (wie bei CSGs, was wir ja gerade mit der Einführung dieser erweiterten CFGs vermeiden wollten). Was haben wir also gewonnen? Markus Hartenfeller - Vorhersage von RNA-Sekundärstrukturen inklusive Pseudoknoten

41 Die Einschränkung der erweiterten CFGs
Man muss (wieder einmal) den generellen Fall einschränken, um ein akzeptables Laufzeitniveau zu erreichen. Der Schlüssel dazu ist folgende Beobachtung: (V(IV)* U Σ)* = Un=0 (V(IV)n U Σ)* Für n = 0 haben wir wieder eine normale CFG. Wenn man n sinnvoll begrenzen, haben wir eine eingeschränkte erweiterte CFG, mit der wir überkreuzende Beziehungen bis zu einem der Beschränkung entsprechenden Grad modellieren können. Markus Hartenfeller - Vorhersage von RNA-Sekundärstrukturen inklusive Pseudoknoten

42 Die Einschränkung der erweiterten CFGs
Genau so ist es bei der vorgestellten copy-language realisiert, welche n bis 1 laufen läst, also: α є (V U Σ)* U (VIV U Σ)* Mit der selben Einschränkung (nur maximal ein Sonder-Nonterminal aus I pro Ableitungsschritt zuzulassen), läst sich eine Großzahl vorstellbarer Pseudoknoten-Interaktionen modellieren (genauer: alle bis dahin bekannten und von Rivas/Eddy vorhersagbaren). Diese Einschränkung der Grammatik ist also die 1:1-Korrespondenz zu der Einschränkung des Algorithmus von Rivas/Eddy, in einer Rekursion nur die Kombination zweier Gap-Matrizen zu erlauben. Markus Hartenfeller - Vorhersage von RNA-Sekundärstrukturen inklusive Pseudoknoten

43 Die Pseudoknoten-Grammatik von Rivas/Eddy
V = { W, WB, Vab, WH, VHabcd, IS1, IS2 } Σ = { a, c, g, u } S = W I = { x, xL, xR, ), (, כ } R = { (m1^m1´ x m2^m2´)  m1m2 ^ m1´m2´ , (m1^m1´ xL m2^m2´)  m2m1m2´ ^ m1´ , (m1^m1´ xR m2^m2´)  m1 ^ m2m1´m2´ , (m1^m1´ כ m2^m2´)  m1m2 ^ m2´m1´ } für mi , mi´ є Σ* Markus Hartenfeller - Vorhersage von RNA-Sekundärstrukturen inklusive Pseudoknoten

44 Die Pseudoknoten-Grammatik von Rivas/Eddy
Markus Hartenfeller - Vorhersage von RNA-Sekundärstrukturen inklusive Pseudoknoten

45 Die Pseudoknoten-Grammatik von Rivas/Eddy
Markus Hartenfeller - Vorhersage von RNA-Sekundärstrukturen inklusive Pseudoknoten

46 Die Pseudoknoten-Grammatik von Rivas/Eddy
IS1 → ε | s1 | s1 s2 | … | s1...smaxloop. , IS2 → ^ | s1...sk ^ | ^ s1...sk | s1...si-1 ^ si...sk } für si є {a, c, g, u}, 1 ≤ i ≤ k, 1 ≤ k ≤ maxloop Markus Hartenfeller - Vorhersage von RNA-Sekundärstrukturen inklusive Pseudoknoten

47 Beispiel W → WH x WH → (g IS2 c כ c^g) x (a IS2 u כ a^u)
→ (g caguu^uacug c כ c^g) x (a uuugg^agaaa u כ a^u) u a a a u  g caguu c^g uacug c x a uuugg a^u agaaa u u a u c g g u a g g  gcaguucauuugga^guacugcuagaaau u u a g c a a u c g u g c Markus Hartenfeller - Vorhersage von RNA-Sekundärstrukturen inklusive Pseudoknoten

48 Die Pseudoknoten-Grammatik von Rivas/Eddy
Die vorgestellte Grammatik ist mehrdeutig, kann also zu einer gegebenen Sequenz mehrer Entstehungsgeschichten beschreiben Dadurch können mehrere alternative Sekundärstrukturen in Betracht gezogen werden. Mit dieser Grammatik ist ein vollständiges probabilistisches Modell (sobald man sie in eine probabilistische Grammatik üüberführt) für die Klasse der durch sie modellierbaren Pseudoknoten und aller „simplen“ Sekundärstrukturen gegeben. Das Parsen durch den zuvor vorgestellten Algorithmus ist in polynomieller Zeit möglich. Durch sie werden vergleichende Analysen, strukturelle Homologie-Erkennung und Datenbankensuchen möglich. Markus Hartenfeller - Vorhersage von RNA-Sekundärstrukturen inklusive Pseudoknoten

49 Übersicht Einleitung Der Algorithmus von Rivas/Eddy
Eine „fast“ kontextfreie Grammatik zur Erzeugung von Sequenzen mit Pseudoknoten Der Algorithmus von Reeder/Giegerich Markus Hartenfeller - Vorhersage von RNA-Sekundärstrukturen inklusive Pseudoknoten

50 Der Algorithmus von Reeder/Giegerich
Der Algorithmus von Reeder/Giegerich (RG) basiert wie der zuvor Vorgestellte von Rivas/Eddy (RE) auf dynamischem Programmieren und thermodynamischen Berechnungen. Verbesserung der Laufzeitkomplexität im Vergleich zu RE: O(n6) O(n4) Verbesserung des Speicherplatzbedarfs: O(n4) O(n2) Markus Hartenfeller - Vorhersage von RNA-Sekundärstrukturen inklusive Pseudoknoten

51 Der Algorithmus von Reeder/Giegerich
RE kann zwar sehr komplexe Pseudoknoten behandeln, allerdings ist der Algorithmus wegen seiner hohen Laufzeitkomplexität auf Sequenzen bis zur Länge von ca. 140 Basen begrenzt. - RNA der Länge 84: 47 min und 9,8 MB - RNA der Länge 105: 235 min und 22,5 MB Die Krux mit der hohen Laufzeitkomplexität: Die sehr komplexen Pseudoknoten, für die RE durchaus ausgelegt wäre, treten fast ausschließlich erst in Sequenzen auf, die zu lang sind, um sie von RE bearbeiten zu lassen! Markus Hartenfeller - Vorhersage von RNA-Sekundärstrukturen inklusive Pseudoknoten

52 Der Algorithmus von Reeder/Giegerich
RG setzt genau an dieser Stelle an: Die Klasse der modellierbaren (vorhersagbaren) Pseudoknoten wird weiter eingeschränkt, um bessere Performance zu erreichen. Dazu wird die Klasse der kanonisierten einfachen rekursiven Pseudoknoten eingeführt, auf welche sich RG in seiner Vorhersage beschränkt. Markus Hartenfeller - Vorhersage von RNA-Sekundärstrukturen inklusive Pseudoknoten

53 Der Algorithmus von Reeder/Giegerich
Die Abbildung zeigt einen einfachen Pseudoknoten. Bei einfachen rekursiven Pseudoknoten (sr-PK) dürfen die ungepaarten Regionen u, v und w selbst Sekundär- Strukturen bilden, einschließlich einfacher rekursiver Pseudoknoten. Sie dürfen allerdings nicht untereinander oder außerhalb des Knotens interagieren. einfacher Pseudoknoten Markus Hartenfeller - Vorhersage von RNA-Sekundärstrukturen inklusive Pseudoknoten

54 Der Algorithmus von Reeder/Giegerich
Die Klasse der kanonisierten einfachen rekursiven Pseudoknoten (csr-PK): Es werden 3 Kanonisierungsregeln eingeführt, die die Klasse der sr-PK auf die der csr-PK beschränken. Aber zunächst eine generelle Laufzeitbetrachtung eines Algorithmus basierend auf dynamischem Programmieren: …..……………………………..…...………………………….. a u b v w 1 n i j k l m s o p 8 unabhängig Variablen i, j, k, l, m, s, o, p laufen (asymptotisch) über n Positionen → Laufzeit in O(n8) Markus Hartenfeller - Vorhersage von RNA-Sekundärstrukturen inklusive Pseudoknoten

55 Die Kanonisierung 1. Regel zur Kanonisierung:
Segmente a und a´ (b und b´) haben die gleiche Länge. Die Segmente die die Helices formen, enthalten also keine Bulges. → die Indizes m und o sind nicht mehr unabhängig von den anderen, da m = s - (j - i) o = p - (l - k) gilt. → von ehemals 8 sind noch 6 Variablen unabhängig → Laufzeit reduziert sich: O(n8)  O(n6) Markus Hartenfeller - Vorhersage von RNA-Sekundärstrukturen inklusive Pseudoknoten

56 Die Kanonisierung 2. Regel zur Kanonisierung:
Helices a, a´ und b, b´ müssen maximale Länge unter den Regeln der Basenpaarung haben. Bereich v hat also minimale Länge. Dazu werden die maximalen Stacklängen vor dem eigentlichen Algorithmus berechnet und in zwei Matrizen stacklength(i,s) bzw. stacklength(k,p) gespeichert. Dadurch sind die beiden Indices j und l nicht mehr unabhängig und durch j = i + stacklength(i,s) l = k + stacklength(k,p) darstellbar. Die Laufzeit reduziert sich: O(n6)  O(n4) Markus Hartenfeller - Vorhersage von RNA-Sekundärstrukturen inklusive Pseudoknoten

57 Die Kanonisierung 3. Regel zur Kanonisierung:
Falls zwei maximale Helices überlappen würden (|v|<0), wird eine beliebige Stelle zwischen ihnen zur Trennung gewählt. v kann natürlich nicht kürzer als 0 sein. Keine Laufzeitverbesserung, sondern Behandlung eines Sonderfalls von Regel 2. Verlängerung der Helices Markus Hartenfeller - Vorhersage von RNA-Sekundärstrukturen inklusive Pseudoknoten

58 Auswirkungen der Einschränkungen
Viele der bekannten Pseudoknoten (Menge PK) scheinen einen Vertreter in csr-PK zu haben, der ihm in Struktur und Energie sehr ähnelt. Test von 212 Strukturen mit Pseudoknoten: durch csr-PK nicht modellierbar von sich aus in csr-PK gut durch eine Struktur in csr-PK approximierbar durch Erlauben von Bulges der Länge 1 in csr-PK Markus Hartenfeller - Vorhersage von RNA-Sekundärstrukturen inklusive Pseudoknoten

59 Auswirkungen der Einschränkungen
Zwei Beispiele für Pseudoknoten, die von RG nicht direkt vorhergesagt werden können (durchaus aber von Rivas/Eddy): „kissing hairpins“ „triple helix interaction“ Markus Hartenfeller - Vorhersage von RNA-Sekundärstrukturen inklusive Pseudoknoten

60 Ergebnisse im Vergleich
BP = # Basenpaare der Referenzstruktur TP = # korrekt positiv vorhergesagter Basenpaare FP = # falsch positiv vorhergesagter Basenpaare sens. = TP/BP (sensitivity) sel. = TP/(FP+TP) (selectivity) K = # korrekt vorhergesagter PK-Helices / # PK-Helices in Referenzstruktur Markus Hartenfeller - Vorhersage von RNA-Sekundärstrukturen inklusive Pseudoknoten

61 Der Algorithmus von Reeder/Giegerich
Bemerkungen: Kann Sequenzen bis max Basen bearbeiten (ca. 12h) Tendiert nicht dazu, zusätzliche Pseudoknoten einzufügen (wie auch RE) Weitere Verbesserung möglich durch genauere Energie-Modelle (gilt natürlich ebenso für RE), besonders für Multiloops und Pseudoknoten Markus Hartenfeller - Vorhersage von RNA-Sekundärstrukturen inklusive Pseudoknoten

62 Quellen „A Dynamic Programming Algorithm for RNA Structure Prediction Including Pseudoknots“, Elena Rivas and Sean R. Eddy, JMB 1999 „The language of RNA: aformal grammar that includes pseudoknots“, Elena Rivas and Sean R. Eddy, Oxford Universtiy Press 2000 „Design, implementation and evaluation of a practical pseudoknot folding algorithm based on thermodynamics“, Jens Reeder, Robert Giegerich, BMC Bioinformatics 2004 zusätzliche Bild-Quellen: Markus Hartenfeller - Vorhersage von RNA-Sekundärstrukturen inklusive Pseudoknoten

63 Markus Hartenfeller - Vorhersage von RNA-Sekundärstrukturen inklusive Pseudoknoten


Herunterladen ppt "Vorhersage von RNA-Sekundärstrukturen inklusive Pseudoknoten"

Ähnliche Präsentationen


Google-Anzeigen