Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

Vorhersage von RNA-Sekundärstrukturen inklusive Pseudoknoten Markus Hartenfeller Vortrag im Rahmen des Seminars „Aktuelle Themen der Bioinformatik“

Ähnliche Präsentationen


Präsentation zum Thema: "Vorhersage von RNA-Sekundärstrukturen inklusive Pseudoknoten Markus Hartenfeller Vortrag im Rahmen des Seminars „Aktuelle Themen der Bioinformatik“"—  Präsentation transkript:

1 Vorhersage von RNA-Sekundärstrukturen inklusive Pseudoknoten Markus Hartenfeller Vortrag im Rahmen des Seminars „Aktuelle Themen der Bioinformatik“

2 Markus Hartenfeller - Vorhersage von RNA-Sekundärstrukturen inklusive Pseudoknoten2 Übersicht 1.Einleitung 2.Der Algorithmus von Rivas/Eddy 3.Eine „fast“ kontextfreie Grammatik zur Erzeugung von Sequenzen mit Pseudoknoten 4.Der Algorithmus von Reeder/Giegerich

3 Markus Hartenfeller - Vorhersage von RNA-Sekundärstrukturen inklusive Pseudoknoten3 Übersicht 1.Einleitung 2.Der Algorithmus von Rivas/Eddy 3.Eine „fast“ kontextfreie Grammatik zur Erzeugung von Sequenzen mit Pseudoknoten 4.Der Algorithmus von Reeder/Giegerich

4 Markus Hartenfeller - Vorhersage von RNA-Sekundärstrukturen inklusive Pseudoknoten4 „simple“ Elemente der RNA-Sekundärstruktur gehorchen allesamt der „nesting convention“: Zwei Basenpaare i, j und k, l (wobei i

5 Markus Hartenfeller - Vorhersage von RNA-Sekundärstrukturen inklusive Pseudoknoten5 Pseudoknoten Pseudoknoten sind all jene Basenpaar-Strukturen, die die nesting convention verletzen, z.B.: einfachster Pseudoknoten Pseudoknoten sind zwar im Vergleich zu anderen Sekundärstrukturen selten, dafür aber entscheidend für die 3-dimensionale Struktur

6 Markus Hartenfeller - Vorhersage von RNA-Sekundärstrukturen inklusive Pseudoknoten6 Wo kommen Pseudoknoten vor? Beispiele des Vorkommens: ribosomale RNA selbstsplicende Gruppe- I -Introns 3´-Ende einiger Pflanzenviren-RNAs (Mimik) RNase P (processing des 5´-Endes von pre-tRNAs)

7 Markus Hartenfeller - Vorhersage von RNA-Sekundärstrukturen inklusive Pseudoknoten7 Pseudoknoten und Berechnungskomplexität Die vorhersagen beliebiger Pseudoknoten-Strukturen ist NP- vollständig, also wahrscheinlich nicht effizient lösbar Aktuelle Ansätze zur Vorhersage von Pseudoknoten machen daher Einschränkungen, um Laufzeit und Platzbedarf in polynomieller Größenordnung zu halten, sind also nicht universell frühere Vorhersage-Algorithmen (Nussinov, Zuker) konnten keinerlei Pseudoknoten vorhersagen und blenden diese völlig aus

8 Markus Hartenfeller - Vorhersage von RNA-Sekundärstrukturen inklusive Pseudoknoten8 Übersicht 1.Einleitung 2.Der Algorithmus von Rivas/Eddy 3.Eine „fast“ kontextfreie Grammatik zur Erzeugung von Sequenzen mit Pseudoknoten 4.Der Algorithmus von Reeder/Giegerich

9 Markus Hartenfeller - Vorhersage von RNA-Sekundärstrukturen inklusive Pseudoknoten9 Der Algorithmus von Rivas/Eddy Basiert auf dynamischem Programmieren und experimentell bestimmten thermodynamischen Daten (Turner), ähnelt daher durchaus dem Zuker-Algorithmus Laufzeit: O(n 6 ) Speicherbedarf: O(n 4 ) Ermittelt die thermodynamisch günstigste Sekundärstruktur (es wird ΔG berechnet wie bei Zuker) Zur didaktischen Vermittlung und vor allem auch als Entwurfshilfe wird auf Feynman-Diagramme zur Visualisierung zurückgegriffen

10 Markus Hartenfeller - Vorhersage von RNA-Sekundärstrukturen inklusive Pseudoknoten10 Feynman-Diagramme Sekundästruktur-Interaktion (H-Brücke) Backbone (Sequenz)

11 Markus Hartenfeller - Vorhersage von RNA-Sekundärstrukturen inklusive Pseudoknoten11 Zuker-Algorithmus in Diagramm-Repräsentation befüllt im wesentlich die beiden NxN-Matrizen wx und vx vx(i,j) enthält den Score der optimalen Struktur zwischen Position i und j, bei der i und j ein Basenpaar bilden (nur ≠ +∞, falls i und j überhaupt Basenpaar bilden können) wx(i,j) enthält den Score der optimalen Struktur zwischen Position i und j; dabei müssen i und j nicht zwangsläufig ein Basenpaar bilden vx wird benötigt, um die Werte für wx zu errechnen

12 Markus Hartenfeller - Vorhersage von RNA-Sekundärstrukturen inklusive Pseudoknoten12 Zuker-Algorithmus in Diagramm-Repräsentation Rekursion für vx: diagrammatische Repräsentation: Erste Einschränkung

13 Markus Hartenfeller - Vorhersage von RNA-Sekundärstrukturen inklusive Pseudoknoten13 Zuker-Algorithmus in Diagramm-Repräsentation Rekursion für wx: diagrammatische Repräsentation:

14 Markus Hartenfeller - Vorhersage von RNA-Sekundärstrukturen inklusive Pseudoknoten14 Erweiterung durch Pseudoknoten Der Algorithmus von Rivas/Eddy erweitert den Zuker-Algorithmus um die Berechnung von Pseudoknoten Dazu werden zusätzlich zu wx und vx die vier Gap-Matrizen whx, vhx, yhx, zhx eingeführt. (Es handelt sich um NxNxNxN-Matrizen, woraus auch der Speicherbedarf von O(n 4 ) des Verfahrens resultiert.) Diagramme:

15 Markus Hartenfeller - Vorhersage von RNA-Sekundärstrukturen inklusive Pseudoknoten15 Der Algorithmus von Rivas und Eddy Die Gap-Matrizen dienen der Berechnung von Pseudoknoten, indem zwei Gapmatrizen mit „komplementären“ Gaps zusammengefügt werden:

16 Markus Hartenfeller - Vorhersage von RNA-Sekundärstrukturen inklusive Pseudoknoten16 Der Algorithmus von Rivas und Eddy zweite Einschränkung

17 Markus Hartenfeller - Vorhersage von RNA-Sekundärstrukturen inklusive Pseudoknoten17 Der Algorithmus von Rivas und Eddy zweite Einschränkung

18 Markus Hartenfeller - Vorhersage von RNA-Sekundärstrukturen inklusive Pseudoknoten18 Erste Einschränkung Die erste Einschränkung hat nichts mit der NP-Vollständigkeit des Pseudoknotenproblems zu tun, sonder begrenzt lediglich die Komplexität des Zuker-Algorithmus auf O(n 3 ): Alle Multiloops werden energetisch gleich bewertet, egal wie viele Stems von ihnen abgehen. Es wird nicht überprüft, ob eine Struktur mit mehr als 3 Stems existiert.

19 Markus Hartenfeller - Vorhersage von RNA-Sekundärstrukturen inklusive Pseudoknoten19 Zweite Einschränkung Die zweite, eben vorgestellte Einschränkung des Algorithmus dient dazu, die Berechnungskomplexität von exponentiellem auf polynomielles Niveau zu begrenzen. Dadurch kann der Algorithmus allerdings nicht jeden beliebigen Pseudoknoten berechnen. (Es können aber alle zur Zeit des Entwurfs bekannten Pseudoknoten vorhergesagt werden!) Es werden niemals mehr als zwei Gap-Matrizen auf einmal miteinander kombiniert. In der Berechnung von wx und vx sind je nur zwei Gap-Matrizen pro Rekursion berücksichtigt.

20 Markus Hartenfeller - Vorhersage von RNA-Sekundärstrukturen inklusive Pseudoknoten20 Zweite Einschränkung Das funktioniert: (2 „parallele β-sheets“, einfache copy-language) Das nicht: (mehr als 2 „parallele β-sheets“) eine Matrix durch 2 aufgelöst eine Matrix durch 4 aufgelöst 

21 Markus Hartenfeller - Vorhersage von RNA-Sekundärstrukturen inklusive Pseudoknoten21 Der Algorithmus von Rivas/Eddy 6 verschachtelte Laufvariable --> O(n 6 ) (gilt auch für anderen 3 Gap-Matrizen) Die Berechnungen von vhx:

22 Markus Hartenfeller - Vorhersage von RNA-Sekundärstrukturen inklusive Pseudoknoten22 Der Algorithmus von Rivas/Eddy Die Berechnungen von yhx:

23 Markus Hartenfeller - Vorhersage von RNA-Sekundärstrukturen inklusive Pseudoknoten23 Der Algorithmus von Rivas/Eddy Die Berechnungen von zhx:

24 Markus Hartenfeller - Vorhersage von RNA-Sekundärstrukturen inklusive Pseudoknoten24 Der Algorithmus von Rivas/Eddy Die Berechnungen von whx:

25 Markus Hartenfeller - Vorhersage von RNA-Sekundärstrukturen inklusive Pseudoknoten25 Der Algorithmus von Rivas/Eddy Die Berechnungen von whx:

26 Markus Hartenfeller - Vorhersage von RNA-Sekundärstrukturen inklusive Pseudoknoten26 Der Algorithmus von Rivas und Eddy grober Aufbau: Was dient zur Berechnung von was innerhalb einer Rekursion? zhx yhx whxvhx Zeit innerhalb einer Rekursion vx wx

27 Markus Hartenfeller - Vorhersage von RNA-Sekundärstrukturen inklusive Pseudoknoten27 Der Algorithmus von Rivas und Eddy Aufbau: Was dient zur Berechnung von was? zhx yhx whxvhx vx wx Wert aus aktueller Rekusion Wert aus älterer Rekusion

28 Markus Hartenfeller - Vorhersage von RNA-Sekundärstrukturen inklusive Pseudoknoten28 Der Algorithmus von Rivas/Eddy Zusätzlich zu der Erweiterung des Zuker-Algorithmus um Pseudoknoten wurde noch thermodynamische Parameter für Dangles und Coaxial-Stacking (Walter et al.) hinzugefügt (keine zusätzliche Verschlechterung in Asymptotiken). Diese werden in die Berechnungen aller 6 Matrizen eingebunden. Coaxiales Stacking: Zwei oder mehr überlagerte Stems Dangles: Ungepaarte Basen in direkter Nachbarschaft zu gepaarten

29 Markus Hartenfeller - Vorhersage von RNA-Sekundärstrukturen inklusive Pseudoknoten29 Erweiterung duch Stacking und Dangles Exemplarisch für wx: StackingDangles

30 Markus Hartenfeller - Vorhersage von RNA-Sekundärstrukturen inklusive Pseudoknoten30 Ergebnisse des Algorithmus von Rivas/Eddy Mit dem Algorithmus können potentiell alle bisher bekannten Pseudoknoten vorhergesagt werden Obwohl der Suchraum entscheidend vergrößert wird, faltet der Algorithmus auch relativ lange Sequenzen und solche ohne Pseudoknoten mit hoher Zuverlässigkeit (er tendiert also nicht zum Einfügen falsch-positiver Pseudoknoten). Ergebnisse bei Strukturen ohne Pseudoknoten sehr ähnlich zu denen von MFOLD (basierend auf Zuker-Algorithmus)  Auf Grund der hohen Berechnungskomplexität können nur Sequenzen bis zu einer Länge von ca. 140 untersucht werden!

31 Markus Hartenfeller - Vorhersage von RNA-Sekundärstrukturen inklusive Pseudoknoten31 Ergebnisse des Algorithmus von Rivas/Eddy tRNA´s: - RE: 15 von 24 völlig korrekt, die restlichen 9 zumindest in Kleeblatt-Struktur - MFOLD:14 von 24 völlig korrekt, nur 5 der restlichen 10 in Kleeblatt-Struktur  Verbesserung gegenüber MFOLD durch Integration von Stacking Virale RNAs: - 6 von 7 getesteten Pseudoknoten in t-RNA-ähnlichen Valinrezeptoren der 3´-Region korrekt vorhergesagt - In einem Ribozym des Hepatitis Delta Virus wurde der Pseudoknoten korrekt lokalisiert, es fehlte allerdings ein kleiner 2-Stem-Hairpin

32 Markus Hartenfeller - Vorhersage von RNA-Sekundärstrukturen inklusive Pseudoknoten32 Übersicht 1.Einleitung 2.Der Algorithmus von Rivas/Eddy 3.Eine „fast“ kontextfreie Grammatik zur Erzeugung von Sequenzen mit Pseudoknoten 4.Der Algorithmus von Reeder/Giegerich

33 Markus Hartenfeller - Vorhersage von RNA-Sekundärstrukturen inklusive Pseudoknoten33 Eine Pseudoknoten-Grammatik Der vorgestellte Algorithmus sagt Pseudoknoten voraus, liefert aber kein komplettes Modell zur vollständigen Beschreibung von Pseudoknoten. Stochastische Grammatiken dagegen sind vollständige Wahrscheinlichkeits-Modelle (ähnlich zu HMMs) Sie erlauben es, Ausgaben mit Wahrscheinlichkeiten zu versehen, und damit auch z.B. verlässlichere suboptimale Ergebnisse zu produzieren.

34 Markus Hartenfeller - Vorhersage von RNA-Sekundärstrukturen inklusive Pseudoknoten34 Eine Pseudoknoten-Grammatik Die zuvor beschriebenen „simplen“ RNA-Sekundärstrukturen sind durch kontextfreie Grammatiken (CFG) vollständig beschreibbar, da sie der „nesting convention“ gehorchen. (Interaktionen zwischen Basenpositionen kreuzen nicht.) Pseudoknoten sind nicht durch normale CFGs beschreibbar, da sie kreuzende Korrelationen bedingen. Diese werden erst durch kontextsensitive Grammatiken (CSG) modelliert. Leider ist das generelle Parsen (also das Nachvollziehen der Entstehungsgeschichte eines Wortes durch eine Grammatik) von CSGs NP-vollständig

35 Markus Hartenfeller - Vorhersage von RNA-Sekundärstrukturen inklusive Pseudoknoten35 Eine Pseudoknoten-Grammatik Problem: Wir haben ein Problem, das eigentlich eine CSG benötigen würde, um es vollständig zu erfassen. Damit können wir es aber von der Berechnungskomplexität her nicht mehr effizient behandeln. Lösung:Eine erweiterte CFG, die zusätzliche Nichtterminale und Regeln zur Reorganisation beinhaltet Bemerkung: Es handelt sich damit formal weder um eine CFG noch um eine CSG!

36 Markus Hartenfeller - Vorhersage von RNA-Sekundärstrukturen inklusive Pseudoknoten36 Eine Pseudoknoten-Grammatik Eine normale CFG formal:G = (V, Σ, P, S) Die erweiterte CFG formal: G = (V, Σ, P, S, I, R) wobei - Σ* neben dem normalen leeren Wort ε noch ein zusätzliches leeres „Lückenwort“ (‚hole‘-string) ^ enthält. ^ wird bei der Reorganisation zur Trennung von Teilstrings benötigt, nach der Reorganisation wird es wie ε ignoriert. - I eine endliche Menge von zusätzlichen Nichtterminalen ist - R eine endliche Menge von Reorganisationsregeln ist. Diese werden erst nach der vollständigen Produktion des Wortes angewendet

37 Markus Hartenfeller - Vorhersage von RNA-Sekundärstrukturen inklusive Pseudoknoten37 Einfaches Beispiel – die copy-language Zum besseren Verständnis des Ansatzes zunächst ein einfacheres Beispiel: Die einfache copy-language enthält Wörter über einem Alphabet, die aus zwei identischen Teilwörter bestehen, die direkt miteinander konkateniert sind, z.B.: AA, ABAB, AAABAAAABA, , … Formal: L = {ε, w ^ w | w є Σ*} Diese Sprache kann nicht von einer CFG erzeugt werden und verlangt eigentlich nach einer CSG.

38 Markus Hartenfeller - Vorhersage von RNA-Sekundärstrukturen inklusive Pseudoknoten38 Einfaches Beispiel – die copy-language Eine erweiterte CFG, die die copy-language beschreibt: V = {W, W H } Σ = {a, b} P = { W → WW | (W H x W H ) | ε, W H → a ^ a | b ^ b | (W H x W H ) | ^ } S = W I = { ), (, x } R = { (m 1 ^m 1 ´ x m 2 ^m 2 ´)  m 1 m 2 ^m 1 ´m 2 ´ }

39 Markus Hartenfeller - Vorhersage von RNA-Sekundärstrukturen inklusive Pseudoknoten39 Einfaches Beispiel – die copy-language W → (W H x W H ) → ((W H x W H ) x (W H x W H )) → ((a ^ a x b ^ b) x (b ^ b x a ^ a))  (ab ^ ab x ba ^ ba)  abba ^ abba Produktionen Reorganisation Das erzeugte Wort: abbaabba Mit der vorgestellten Grammatik für die einfache copy-language erzeugt.

40 Markus Hartenfeller - Vorhersage von RNA-Sekundärstrukturen inklusive Pseudoknoten40 Die Formalismen von generellen erweiterten CFGs P = { A → α | A є V, α є (V(IV)* U Σ)*} z.B.: WxWxWaWaWxW R = {(σ)  m | σ є (Σ U I)*, m є Σ*} z.B.: (b^b x a^a)  ba^ba Bemerkung: Die Produktionen ähneln sehr der Form einer CFG (es wird nur von einem Nonterminal abgeleitet). Ist I = Ø, dann ist α є (V U Σ)* und wir haben eine CFG. Für uneingeschränkte Ableitungen A → α mit α є (V(IV)* U Σ)* ist das Parsen sehr komplex und wahrscheinlich NP-vollständig (wie bei CSGs, was wir ja gerade mit der Einführung dieser erweiterten CFGs vermeiden wollten). Was haben wir also gewonnen?

41 Markus Hartenfeller - Vorhersage von RNA-Sekundärstrukturen inklusive Pseudoknoten41 Die Einschränkung der erweiterten CFGs Man muss (wieder einmal) den generellen Fall einschränken, um ein akzeptables Laufzeitniveau zu erreichen. Der Schlüssel dazu ist folgende Beobachtung: (V(IV)* U Σ)* = U n=0 (V(IV) n U Σ)* ∞ Für n = 0 haben wir wieder eine normale CFG. Wenn man n sinnvoll begrenzen, haben wir eine eingeschränkte erweiterte CFG, mit der wir überkreuzende Beziehungen bis zu einem der Beschränkung entsprechenden Grad modellieren können.

42 Markus Hartenfeller - Vorhersage von RNA-Sekundärstrukturen inklusive Pseudoknoten42 Die Einschränkung der erweiterten CFGs Genau so ist es bei der vorgestellten copy-language realisiert, welche n bis 1 laufen läst, also: α є (V U Σ)* U (VIV U Σ)* Mit der selben Einschränkung (nur maximal ein Sonder-Nonterminal aus I pro Ableitungsschritt zuzulassen), läst sich eine Großzahl vorstellbarer Pseudoknoten-Interaktionen modellieren (genauer: alle bis dahin bekannten und von Rivas/Eddy vorhersagbaren). Diese Einschränkung der Grammatik ist also die 1:1-Korrespondenz zu der Einschränkung des Algorithmus von Rivas/Eddy, in einer Rekursion nur die Kombination zweier Gap-Matrizen zu erlauben.

43 Markus Hartenfeller - Vorhersage von RNA-Sekundärstrukturen inklusive Pseudoknoten43 Die Pseudoknoten-Grammatik von Rivas/Eddy V = { W, W B, V ab, W H, V H abcd, IS1, IS2 } Σ = { a, c, g, u } S = W I = { x, x L, x R, ), (, כ } R = { (m 1 ^m 1 ´ x m 2 ^m 2 ´)  m 1 m 2 ^ m 1 ´m 2 ´, (m 1 ^m 1 ´ x L m 2 ^m 2 ´)  m 2 m 1 m 2 ´ ^ m 1 ´, (m 1 ^m 1 ´ x R m 2 ^m 2 ´)  m 1 ^ m 2 m 1 ´m 2 ´, (m 1 ^m 1 ´ כ m 2 ^m 2 ´)  m 1 m 2 ^ m 2 ´m 1 ´ } für m i, m i ´ є Σ*

44 Markus Hartenfeller - Vorhersage von RNA-Sekundärstrukturen inklusive Pseudoknoten44 Die Pseudoknoten-Grammatik von Rivas/Eddy P = {

45 Markus Hartenfeller - Vorhersage von RNA-Sekundärstrukturen inklusive Pseudoknoten45 Die Pseudoknoten-Grammatik von Rivas/Eddy

46 Markus Hartenfeller - Vorhersage von RNA-Sekundärstrukturen inklusive Pseudoknoten46 Die Pseudoknoten-Grammatik von Rivas/Eddy IS1 → ε | s 1 | s 1 s 2 | … | s 1...s maxloop., IS2→ ^ | s 1...s k ^ | ^ s 1...s k | s 1...s i-1 ^ s i...s k } für s i є {a, c, g, u}, 1 ≤ i ≤ k, 1 ≤ k ≤ maxloop

47 Markus Hartenfeller - Vorhersage von RNA-Sekundärstrukturen inklusive Pseudoknoten47 Beispiel g c a g u u a c u u u g g a g u a c u g c u a g a a a u → (g IS2 c כ c^g) x (a IS2 u כ a^u) → (g caguu^uacug c כ c^g) x (a uuugg^agaaa u כ a^u)  g caguu c^g uacug c x a uuugg a^u agaaa u  gcaguucauuugga^guacugcuagaaau W → W H x W H

48 Markus Hartenfeller - Vorhersage von RNA-Sekundärstrukturen inklusive Pseudoknoten48 Die Pseudoknoten-Grammatik von Rivas/Eddy Die vorgestellte Grammatik ist mehrdeutig, kann also zu einer gegebenen Sequenz mehrer Entstehungsgeschichten beschreiben Dadurch können mehrere alternative Sekundärstrukturen in Betracht gezogen werden. Mit dieser Grammatik ist ein vollständiges probabilistisches Modell (sobald man sie in eine probabilistische Grammatik üüberführt) für die Klasse der durch sie modellierbaren Pseudoknoten und aller „simplen“ Sekundärstrukturen gegeben. Das Parsen durch den zuvor vorgestellten Algorithmus ist in polynomieller Zeit möglich. Durch sie werden vergleichende Analysen, strukturelle Homologie- Erkennung und Datenbankensuchen möglich.

49 Markus Hartenfeller - Vorhersage von RNA-Sekundärstrukturen inklusive Pseudoknoten49 Übersicht 1.Einleitung 2.Der Algorithmus von Rivas/Eddy 3.Eine „fast“ kontextfreie Grammatik zur Erzeugung von Sequenzen mit Pseudoknoten 4.Der Algorithmus von Reeder/Giegerich

50 Markus Hartenfeller - Vorhersage von RNA-Sekundärstrukturen inklusive Pseudoknoten50 Der Algorithmus von Reeder/Giegerich Der Algorithmus von Reeder/Giegerich (RG) basiert wie der zuvor Vorgestellte von Rivas/Eddy (RE) auf dynamischem Programmieren und thermodynamischen Berechnungen. Verbesserung der Laufzeitkomplexität im Vergleich zu RE: O(n 6 ) O(n 4 ) Verbesserung des Speicherplatzbedarfs: O(n 4 ) O(n 2 )

51 Markus Hartenfeller - Vorhersage von RNA-Sekundärstrukturen inklusive Pseudoknoten51 Der Algorithmus von Reeder/Giegerich RE kann zwar sehr komplexe Pseudoknoten behandeln, allerdings ist der Algorithmus wegen seiner hohen Laufzeitkomplexität auf Sequenzen bis zur Länge von ca. 140 Basen begrenzt. - RNA der Länge 84: 47 min und 9,8 MB - RNA der Länge 105:235 min und 22,5 MB Die Krux mit der hohen Laufzeitkomplexität: Die sehr komplexen Pseudoknoten, für die RE durchaus ausgelegt wäre, treten fast ausschließlich erst in Sequenzen auf, die zu lang sind, um sie von RE bearbeiten zu lassen!

52 Markus Hartenfeller - Vorhersage von RNA-Sekundärstrukturen inklusive Pseudoknoten52 Der Algorithmus von Reeder/Giegerich RG setzt genau an dieser Stelle an: Die Klasse der modellierbaren (vorhersagbaren) Pseudoknoten wird weiter eingeschränkt, um bessere Performance zu erreichen. Dazu wird die Klasse der kanonisierten einfachen rekursiven Pseudoknoten eingeführt, auf welche sich RG in seiner Vorhersage beschränkt.

53 Markus Hartenfeller - Vorhersage von RNA-Sekundärstrukturen inklusive Pseudoknoten53 Der Algorithmus von Reeder/Giegerich Die Abbildung zeigt einen einfachen Pseudoknoten. Bei einfachen rekursiven Pseudoknoten (sr-PK) dürfen die ungepaarten Regionen u, v und w selbst Sekundär- Strukturen bilden, einschließlich einfacher rekursiver Pseudoknoten. Sie dürfen allerdings nicht untereinander oder außerhalb des Knotens interagieren. einfacher Pseudoknoten

54 Markus Hartenfeller - Vorhersage von RNA-Sekundärstrukturen inklusive Pseudoknoten54 Der Algorithmus von Reeder/Giegerich Die Klasse der kanonisierten einfachen rekursiven Pseudoknoten (csr-PK): Es werden 3 Kanonisierungsregeln eingeführt, die die Klasse der sr-PK auf die der csr-PK beschränken. Aber zunächst eine generelle Laufzeitbetrachtung eines Algorithmus basierend auf dynamischem Programmieren: …..……………………………..…...………………………….. ijklmsop 8 unabhängig Variablen i, j, k, l, m, s, o, p laufen (asymptotisch) über n Positionen → Laufzeit in O(n 8 ) 1 n aa´bb´wuv

55 Markus Hartenfeller - Vorhersage von RNA-Sekundärstrukturen inklusive Pseudoknoten55 Die Kanonisierung 1. Regel zur Kanonisierung: Segmente a und a´ (b und b´) haben die gleiche Länge. Die Segmente die die Helices formen, enthalten also keine Bulges. → die Indizes m und o sind nicht mehr unabhängig von den anderen, da m = s - (j - i) o = p - (l - k) gilt. → von ehemals 8 sind noch 6 Variablen unabhängig → Laufzeit reduziert sich: O(n 8 )  O(n 6 )

56 Markus Hartenfeller - Vorhersage von RNA-Sekundärstrukturen inklusive Pseudoknoten56 Die Kanonisierung 2. Regel zur Kanonisierung: Helices a, a´ und b, b´ müssen maximale Länge unter den Regeln der Basenpaarung haben. Bereich v hat also minimale Länge. Dazu werden die maximalen Stacklängen vor dem eigentlichen Algorithmus berechnet und in zwei Matrizen stacklength(i,s) bzw. stacklength(k,p) gespeichert. Dadurch sind die beiden Indices j und l nicht mehr unabhängig und durch j = i + stacklength(i,s) l = k + stacklength(k,p) darstellbar. Die Laufzeit reduziert sich: O(n 6 )  O(n 4 )

57 Markus Hartenfeller - Vorhersage von RNA-Sekundärstrukturen inklusive Pseudoknoten57 Die Kanonisierung 3. Regel zur Kanonisierung: Falls zwei maximale Helices überlappen würden (|v|<0), wird eine beliebige Stelle zwischen ihnen zur Trennung gewählt. Verlängerung der Helices v kann natürlich nicht kürzer als 0 sein. Keine Laufzeitverbesserung, sondern Behandlung eines Sonderfalls von Regel 2.

58 Markus Hartenfeller - Vorhersage von RNA-Sekundärstrukturen inklusive Pseudoknoten58 Auswirkungen der Einschränkungen Viele der bekannten Pseudoknoten (Menge PK) scheinen einen Vertreter in csr-PK zu haben, der ihm in Struktur und Energie sehr ähnelt. Test von 212 Strukturen mit Pseudoknoten: von sich aus in csr-PK durch Erlauben von Bulges der Länge 1 in csr-PK durch csr-PK nicht modellierbar gut durch eine Struktur in csr-PK approximierbar

59 Markus Hartenfeller - Vorhersage von RNA-Sekundärstrukturen inklusive Pseudoknoten59 Auswirkungen der Einschränkungen Zwei Beispiele für Pseudoknoten, die von RG nicht direkt vorhergesagt werden können (durchaus aber von Rivas/Eddy): „kissing hairpins“„triple helix interaction“

60 Markus Hartenfeller - Vorhersage von RNA-Sekundärstrukturen inklusive Pseudoknoten60 Ergebnisse im Vergleich BP = # Basenpaare der Referenzstruktur TP = # korrekt positiv vorhergesagter Basenpaare FP = # falsch positiv vorhergesagter Basenpaare sens. = TP/BP (sensitivity) sel.= TP/(FP+TP)(selectivity) K = # korrekt vorhergesagter PK-Helices / # PK-Helices in Referenzstruktur

61 Markus Hartenfeller - Vorhersage von RNA-Sekundärstrukturen inklusive Pseudoknoten61 Der Algorithmus von Reeder/Giegerich Bemerkungen: Kann Sequenzen bis max Basen bearbeiten (ca. 12h) Tendiert nicht dazu, zusätzliche Pseudoknoten einzufügen (wie auch RE) Weitere Verbesserung möglich durch genauere Energie-Modelle (gilt natürlich ebenso für RE), besonders für Multiloops und Pseudoknoten

62 Markus Hartenfeller - Vorhersage von RNA-Sekundärstrukturen inklusive Pseudoknoten62 Quellen „A Dynamic Programming Algorithm for RNA Structure Prediction Including Pseudoknots“, Elena Rivas and Sean R. Eddy, JMB 1999 „The language of RNA: aformal grammar that includes pseudoknots“, Elena Rivas and Sean R. Eddy, Oxford Universtiy Press 2000 „Design, implementation and evaluation of a practical pseudoknot folding algorithm based on thermodynamics“, Jens Reeder, Robert Giegerich, BMC Bioinformatics 2004 zusätzliche Bild-Quellen:

63 Markus Hartenfeller - Vorhersage von RNA-Sekundärstrukturen inklusive Pseudoknoten63


Herunterladen ppt "Vorhersage von RNA-Sekundärstrukturen inklusive Pseudoknoten Markus Hartenfeller Vortrag im Rahmen des Seminars „Aktuelle Themen der Bioinformatik“"

Ähnliche Präsentationen


Google-Anzeigen