Vorhersage von RNA-Sekundärstrukturen inklusive Pseudoknoten

Slides:

Advertisements

Ähnliche Präsentationen

Christian Scheideler SS 2009

Advertisements

Vorlesung Compilertechnik Sommersemester 2008

Rekursion: Rekurrenz: Algorithmen rufen sich selbst (rekursiv) auf.

Falls Algorithmen sich selbst rekursiv aufrufen, so kann ihr Laufzeitverhalten bzw. ihr Speicherplatzbedarf in der Regel durch eine Rekursionsformel (recurrence,

Wissensanalyse von Aufgaben mit TKS Eine Methode zur Problemlösung

Kontextfreie Grammatiken

TECHNISCHE UNIVERSITÄT DARMSTADT Naive Bayes for Ranking

Suche in Texten (Stringsuche )

3. Kapitel: Komplexität und Komplexitätsklassen

Friedhelm Meyer auf der Heide 1 HEINZ NIXDORF INSTITUT Universität Paderborn Algorithmen und Komplexität Grammatiken beschreiben Sprachen L µ *, indem.

Algorithmen und Komplexität

Algorithmentheorie 04 –Hashing

1 Vorlesung Informatik 2 Algorithmen und Datenstrukturen (02 – Funktionenklassen) Prof. Dr. Th. Ottmann.

Bestimmung des Next-Arrays im KMP-Algorithmus

Vorlesung Informatik 2 Algorithmen und Datenstrukturen (02 – Funktionenklassen) Tobias Lauer.

Vorlesung Informatik 2 Algorithmen und Datenstrukturen (27 – Kürzeste Wege) Prof. Th. Ottmann.

PG 520 Intelligence Service – gezielte Informationen aus dem Internet

Secondary Structure Prediction for Aligned RNA Sequences

High Performance = Innovative Computer Systems + Efficient Algorithms Friedhelm Meyer auf der Heide 1 HEINZ NIXDORF INSTITUT Universität Paderborn Algorithmen.

Algorithmen und Komplexität

Christian Schindelhauer

Minimum Spanning Tree: MST

Hauptseminar Automaten und Formale Sprachen

§9 Der affine Raum – Teil 2: Geraden

§9 Der affine Raum – Teil 2: Geraden

§8 Gruppen und Körper (8.1) Definition: Eine Gruppe G ist eine Menge zusammen mit einer Verknüpfung, die jedem Paar (a,b) von Elementen aus G ein weiteres.

Kakuro Regeln und Strategien

Eignung von Grammatik-basiertem Layout für grafische Programmiersprachen Seminar Layout-Algorithmen für Graphen Institut für Informatik Christian-Albrechts.

Beweissysteme Hartmut Klauck Universität Frankfurt WS 06/

Effiziente Algorithmen

Effiziente Algorithmen

Abschlussvortrag zur Studienarbeit

Black Box Algorithmen Hartmut Klauck Universität Frankfurt SS

Effiziente Algorithmen Hartmut Klauck Universität Frankfurt SS

Quantum Computing Hartmut Klauck Universität Frankfurt WS 05/

Effiziente Algorithmen

Effiziente Algorithmen

Black Box Algorithmen Hartmut Klauck Universität Frankfurt SS

Effiziente Algorithmen Hartmut Klauck Universität Frankfurt SS

Effiziente Algorithmen

Effiziente Algorithmen

Black Box Algorithmen Hartmut Klauck Universität Frankfurt SS

Black Box Algorithmen Hartmut Klauck Universität Frankfurt SS

Quantum Computing Hartmut Klauck Universität Frankfurt WS 04/

Quantum Computing Hartmut Klauck Universität Frankfurt WS 05/

Effiziente Algorithmen Hartmut Klauck Universität Frankfurt SS

Black Box Algorithmen Hartmut Klauck Universität Frankfurt SS

Effiziente Algorithmen Hartmut Klauck Universität Frankfurt SS

Effiziente Algorithmen Hartmut Klauck Universität Frankfurt SS

Effiziente Algorithmen

Effiziente Algorithmen Hartmut Klauck Universität Frankfurt SS

Hartmut Klauck Universität Frankfurt SS

Beweissysteme Hartmut Klauck Universität Frankfurt WS 06/

Information und Kommunikation Hartmut Klauck Universität Frankfurt SS

Quantum Computing Hartmut Klauck Universität Frankfurt WS 04/

Hartmut Klauck Universität Frankfurt WS 06/

Folie 1 Kapitel IV. Matrizen Inhalt: Matrizen als eigenständige mathematische Objekte Zusammenhang zwischen Matrizen und linearen Abbildungen Produkt von.

§3 Allgemeine lineare Gleichungssysteme

Formale Sprachen Grammatiken und die Chomsky-Hierarchie

Noam CHOMSKY, Sheila GREIBACH

Automaten, formale Sprachen und Berechenbarkeit II SoSe 2004 Prof. W. Brauer Teil 3: Potenzreihen und kontextfreie Sprachen (Vgl. Buch von A. Salomaa)

Das Traveling Salesman Problem (TSP)

Institut für Softwarewissenschaft – Universität WienP.Brezany 1 Beispiele (Frist: ) Beispiel 1: Sei  = {a, b} ein Alphabet und Q = {q 0, q 1 } eine.

7. Formale Sprachen und Grammatiken

Vergleich von RNA Strukturen A General Edit Distance between RNA Structures von Sebastian Juenemann.

1/67 Johann-Wolfgang-Goethe Universität Frankfurt am Main Aktuelle Themen der Bioinformatik RNA-Sekundärstruktur- vorhersage mit Pseudoknots Johann-Wolfgang-Goethe.

Algorithmen und Datenstrukturen Prof. Dr. Ralf Möller Universität zu Lübeck Institut für Informationssysteme Stefan Werner (Übungen) sowie viele Tutoren.

Programmiersprachen II Fortsetzung Datenstrukturen Balancierte Bäume 3 Prof. Dr. Reiner Güttler Fachbereich GIS HTW.

 Gegenstandsbereich der Testtheorie: Analyse der Charakteristika von Tests:  Güte von Tests.  Struktur von Tests.  Schwierigkeit von Tests.  Gruppenunterschiede.

Präsentation transkript:

Vorhersage von RNA-Sekundärstrukturen inklusive Pseudoknoten Markus Hartenfeller Vortrag im Rahmen des Seminars „Aktuelle Themen der Bioinformatik“

Übersicht Einleitung Der Algorithmus von Rivas/Eddy Eine „fast“ kontextfreie Grammatik zur Erzeugung von Sequenzen mit Pseudoknoten Der Algorithmus von Reeder/Giegerich Markus Hartenfeller - Vorhersage von RNA-Sekundärstrukturen inklusive Pseudoknoten

Übersicht Einleitung Der Algorithmus von Rivas/Eddy Eine „fast“ kontextfreie Grammatik zur Erzeugung von Sequenzen mit Pseudoknoten Der Algorithmus von Reeder/Giegerich Markus Hartenfeller - Vorhersage von RNA-Sekundärstrukturen inklusive Pseudoknoten

„simple“ Elemente der RNA-Sekundärstruktur gehorchen allesamt der „nesting convention“: Zwei Basenpaare i, j und k, l (wobei i<j, k<l, i<k) zeigen eine der folgenden Konstellationen: i<k<l<j i<j<k<l Markus Hartenfeller - Vorhersage von RNA-Sekundärstrukturen inklusive Pseudoknoten

Pseudoknoten Pseudoknoten sind all jene Basenpaar-Strukturen, die die nesting convention verletzen, z.B.: Pseudoknoten sind zwar im Vergleich zu anderen Sekundärstrukturen selten, dafür aber entscheidend für die 3-dimensionale Struktur einfachster Pseudoknoten Markus Hartenfeller - Vorhersage von RNA-Sekundärstrukturen inklusive Pseudoknoten

Wo kommen Pseudoknoten vor? Beispiele des Vorkommens: ribosomale RNA selbstsplicende Gruppe- I -Introns 3´-Ende einiger Pflanzenviren-RNAs (Mimik) RNase P (processing des 5´-Endes von pre-tRNAs) Markus Hartenfeller - Vorhersage von RNA-Sekundärstrukturen inklusive Pseudoknoten

Pseudoknoten und Berechnungskomplexität Die vorhersagen beliebiger Pseudoknoten-Strukturen ist NP-vollständig, also wahrscheinlich nicht effizient lösbar Aktuelle Ansätze zur Vorhersage von Pseudoknoten machen daher Einschränkungen, um Laufzeit und Platzbedarf in polynomieller Größenordnung zu halten, sind also nicht universell frühere Vorhersage-Algorithmen (Nussinov, Zuker) konnten keinerlei Pseudoknoten vorhersagen und blenden diese völlig aus Markus Hartenfeller - Vorhersage von RNA-Sekundärstrukturen inklusive Pseudoknoten

Übersicht Einleitung Der Algorithmus von Rivas/Eddy Eine „fast“ kontextfreie Grammatik zur Erzeugung von Sequenzen mit Pseudoknoten Der Algorithmus von Reeder/Giegerich Markus Hartenfeller - Vorhersage von RNA-Sekundärstrukturen inklusive Pseudoknoten

Der Algorithmus von Rivas/Eddy Basiert auf dynamischem Programmieren und experimentell bestimmten thermodynamischen Daten (Turner), ähnelt daher durchaus dem Zuker-Algorithmus Laufzeit: O(n6) Speicherbedarf: O(n4) Ermittelt die thermodynamisch günstigste Sekundärstruktur (es wird ΔG berechnet wie bei Zuker) Zur didaktischen Vermittlung und vor allem auch als Entwurfshilfe wird auf Feynman-Diagramme zur Visualisierung zurückgegriffen Markus Hartenfeller - Vorhersage von RNA-Sekundärstrukturen inklusive Pseudoknoten

Feynman-Diagramme Sekundästruktur-Interaktion (H-Brücke) Backbone (Sequenz) Markus Hartenfeller - Vorhersage von RNA-Sekundärstrukturen inklusive Pseudoknoten

Zuker-Algorithmus in Diagramm-Repräsentation befüllt im wesentlich die beiden NxN-Matrizen wx und vx vx(i,j) enthält den Score der optimalen Struktur zwischen Position i und j, bei der i und j ein Basenpaar bilden (nur ≠ +∞, falls i und j überhaupt Basenpaar bilden können) wx(i,j) enthält den Score der optimalen Struktur zwischen Position i und j; dabei müssen i und j nicht zwangsläufig ein Basenpaar bilden vx wird benötigt, um die Werte für wx zu errechnen Markus Hartenfeller - Vorhersage von RNA-Sekundärstrukturen inklusive Pseudoknoten

Zuker-Algorithmus in Diagramm-Repräsentation Rekursion für vx: Erste Einschränkung diagrammatische Repräsentation: Markus Hartenfeller - Vorhersage von RNA-Sekundärstrukturen inklusive Pseudoknoten

Zuker-Algorithmus in Diagramm-Repräsentation Rekursion für wx: diagrammatische Repräsentation: Markus Hartenfeller - Vorhersage von RNA-Sekundärstrukturen inklusive Pseudoknoten

Erweiterung durch Pseudoknoten Der Algorithmus von Rivas/Eddy erweitert den Zuker-Algorithmus um die Berechnung von Pseudoknoten Dazu werden zusätzlich zu wx und vx die vier Gap-Matrizen whx, vhx, yhx, zhx eingeführt. (Es handelt sich um NxNxNxN-Matrizen, woraus auch der Speicherbedarf von O(n4) des Verfahrens resultiert.) Diagramme: Markus Hartenfeller - Vorhersage von RNA-Sekundärstrukturen inklusive Pseudoknoten

Der Algorithmus von Rivas und Eddy Die Gap-Matrizen dienen der Berechnung von Pseudoknoten, indem zwei Gapmatrizen mit „komplementären“ Gaps zusammengefügt werden: Markus Hartenfeller - Vorhersage von RNA-Sekundärstrukturen inklusive Pseudoknoten

Der Algorithmus von Rivas und Eddy zweite Einschränkung Markus Hartenfeller - Vorhersage von RNA-Sekundärstrukturen inklusive Pseudoknoten

Der Algorithmus von Rivas und Eddy zweite Einschränkung Markus Hartenfeller - Vorhersage von RNA-Sekundärstrukturen inklusive Pseudoknoten

Erste Einschränkung Die erste Einschränkung hat nichts mit der NP-Vollständigkeit des Pseudoknotenproblems zu tun, sonder begrenzt lediglich die Komplexität des Zuker-Algorithmus auf O(n3): Alle Multiloops werden energetisch gleich bewertet, egal wie viele Stems von ihnen abgehen. Es wird nicht überprüft, ob eine Struktur mit mehr als 3 Stems existiert. Markus Hartenfeller - Vorhersage von RNA-Sekundärstrukturen inklusive Pseudoknoten

Zweite Einschränkung Die zweite, eben vorgestellte Einschränkung des Algorithmus dient dazu, die Berechnungskomplexität von exponentiellem auf polynomielles Niveau zu begrenzen. Dadurch kann der Algorithmus allerdings nicht jeden beliebigen Pseudoknoten berechnen. (Es können aber alle zur Zeit des Entwurfs bekannten Pseudoknoten vorhergesagt werden!) Es werden niemals mehr als zwei Gap-Matrizen auf einmal miteinander kombiniert. In der Berechnung von wx und vx sind je nur zwei Gap-Matrizen pro Rekursion berücksichtigt. Markus Hartenfeller - Vorhersage von RNA-Sekundärstrukturen inklusive Pseudoknoten

Zweite Einschränkung Das funktioniert: Das nicht: (2 „parallele β-sheets“, einfache copy-language) eine Matrix durch 2 aufgelöst  Das nicht: (mehr als 2 „parallele β-sheets“) eine Matrix durch 4 aufgelöst  Markus Hartenfeller - Vorhersage von RNA-Sekundärstrukturen inklusive Pseudoknoten

Der Algorithmus von Rivas/Eddy Die Berechnungen von vhx: 6 verschachtelte Laufvariable --> O(n6) (gilt auch für anderen 3 Gap-Matrizen) Markus Hartenfeller - Vorhersage von RNA-Sekundärstrukturen inklusive Pseudoknoten

Der Algorithmus von Rivas/Eddy Die Berechnungen von yhx: Markus Hartenfeller - Vorhersage von RNA-Sekundärstrukturen inklusive Pseudoknoten

Der Algorithmus von Rivas/Eddy Die Berechnungen von zhx: Markus Hartenfeller - Vorhersage von RNA-Sekundärstrukturen inklusive Pseudoknoten

Der Algorithmus von Rivas/Eddy Die Berechnungen von whx: Markus Hartenfeller - Vorhersage von RNA-Sekundärstrukturen inklusive Pseudoknoten

Der Algorithmus von Rivas/Eddy Die Berechnungen von whx: Markus Hartenfeller - Vorhersage von RNA-Sekundärstrukturen inklusive Pseudoknoten

Der Algorithmus von Rivas und Eddy grober Aufbau: Was dient zur Berechnung von was innerhalb einer Rekursion? zhx vhx whx wx vx yhx Zeit innerhalb einer Rekursion Markus Hartenfeller - Vorhersage von RNA-Sekundärstrukturen inklusive Pseudoknoten

Der Algorithmus von Rivas und Eddy Aufbau: Was dient zur Berechnung von was? Wert aus aktueller Rekusion zhx Wert aus älterer Rekusion vhx whx wx vx yhx Markus Hartenfeller - Vorhersage von RNA-Sekundärstrukturen inklusive Pseudoknoten

Der Algorithmus von Rivas/Eddy Zusätzlich zu der Erweiterung des Zuker-Algorithmus um Pseudoknoten wurde noch thermodynamische Parameter für Dangles und Coaxial-Stacking (Walter et al.) hinzugefügt (keine zusätzliche Verschlechterung in Asymptotiken). Diese werden in die Berechnungen aller 6 Matrizen eingebunden. Dangles: Ungepaarte Basen in direkter Nachbarschaft zu gepaarten Coaxiales Stacking: Zwei oder mehr überlagerte Stems Markus Hartenfeller - Vorhersage von RNA-Sekundärstrukturen inklusive Pseudoknoten

Erweiterung duch Stacking und Dangles Exemplarisch für wx: Dangles Stacking Markus Hartenfeller - Vorhersage von RNA-Sekundärstrukturen inklusive Pseudoknoten

Ergebnisse des Algorithmus von Rivas/Eddy  Mit dem Algorithmus können potentiell alle bisher bekannten Pseudoknoten vorhergesagt werden Obwohl der Suchraum entscheidend vergrößert wird, faltet der Algorithmus auch relativ lange Sequenzen und solche ohne Pseudoknoten mit hoher Zuverlässigkeit (er tendiert also nicht zum Einfügen falsch-positiver Pseudoknoten). Ergebnisse bei Strukturen ohne Pseudoknoten sehr ähnlich zu denen von MFOLD (basierend auf Zuker-Algorithmus)  Auf Grund der hohen Berechnungskomplexität können nur Sequenzen bis zu einer Länge von ca. 140 untersucht werden! Markus Hartenfeller - Vorhersage von RNA-Sekundärstrukturen inklusive Pseudoknoten

Ergebnisse des Algorithmus von Rivas/Eddy tRNA´s: - RE: 15 von 24 völlig korrekt, die restlichen 9 zumindest in Kleeblatt-Struktur - MFOLD: 14 von 24 völlig korrekt, nur 5 der restlichen 10 in  Verbesserung gegenüber MFOLD durch Integration von Stacking Virale RNAs: - 6 von 7 getesteten Pseudoknoten in t-RNA-ähnlichen Valinrezeptoren der 3´-Region korrekt vorhergesagt - In einem Ribozym des Hepatitis Delta Virus wurde der Pseudoknoten korrekt lokalisiert, es fehlte allerdings ein kleiner 2-Stem-Hairpin Markus Hartenfeller - Vorhersage von RNA-Sekundärstrukturen inklusive Pseudoknoten

Übersicht Einleitung Der Algorithmus von Rivas/Eddy Eine „fast“ kontextfreie Grammatik zur Erzeugung von Sequenzen mit Pseudoknoten 4. Der Algorithmus von Reeder/Giegerich Markus Hartenfeller - Vorhersage von RNA-Sekundärstrukturen inklusive Pseudoknoten

Eine Pseudoknoten-Grammatik Der vorgestellte Algorithmus sagt Pseudoknoten voraus, liefert aber kein komplettes Modell zur vollständigen Beschreibung von Pseudoknoten. Stochastische Grammatiken dagegen sind vollständige Wahrscheinlichkeits-Modelle (ähnlich zu HMMs) Sie erlauben es, Ausgaben mit Wahrscheinlichkeiten zu versehen, und damit auch z.B. verlässlichere suboptimale Ergebnisse zu produzieren. Markus Hartenfeller - Vorhersage von RNA-Sekundärstrukturen inklusive Pseudoknoten

Eine Pseudoknoten-Grammatik Die zuvor beschriebenen „simplen“ RNA-Sekundärstrukturen sind durch kontextfreie Grammatiken (CFG) vollständig beschreibbar, da sie der „nesting convention“ gehorchen. (Interaktionen zwischen Basenpositionen kreuzen nicht.) Pseudoknoten sind nicht durch normale CFGs beschreibbar, da sie kreuzende Korrelationen bedingen. Diese werden erst durch kontextsensitive Grammatiken (CSG) modelliert. Leider ist das generelle Parsen (also das Nachvollziehen der Entstehungsgeschichte eines Wortes durch eine Grammatik) von CSGs NP-vollständig Markus Hartenfeller - Vorhersage von RNA-Sekundärstrukturen inklusive Pseudoknoten

Eine Pseudoknoten-Grammatik Problem: Wir haben ein Problem, das eigentlich eine CSG benötigen würde, um es vollständig zu erfassen. Damit können wir es aber von der Berechnungskomplexität her nicht mehr effizient behandeln. Lösung: Eine erweiterte CFG, die zusätzliche Nichtterminale und Regeln zur Reorganisation beinhaltet Bemerkung: Es handelt sich damit formal weder um eine CFG noch um eine CSG! Markus Hartenfeller - Vorhersage von RNA-Sekundärstrukturen inklusive Pseudoknoten

Eine Pseudoknoten-Grammatik Eine normale CFG formal: G = (V, Σ, P, S) Die erweiterte CFG formal: G = (V, Σ, P, S, I, R) wobei - Σ* neben dem normalen leeren Wort ε noch ein zusätzliches leeres „Lückenwort“ (‚hole‘-string) ^ enthält. ^ wird bei der Reorganisation zur Trennung von Teilstrings benötigt, nach der Reorganisation wird es wie ε ignoriert. - I eine endliche Menge von zusätzlichen Nichtterminalen ist - R eine endliche Menge von Reorganisationsregeln ist. Diese werden erst nach der vollständigen Produktion des Wortes angewendet Markus Hartenfeller - Vorhersage von RNA-Sekundärstrukturen inklusive Pseudoknoten

Einfaches Beispiel – die copy-language Zum besseren Verständnis des Ansatzes zunächst ein einfacheres Beispiel: Die einfache copy-language enthält Wörter über einem Alphabet, die aus zwei identischen Teilwörter bestehen, die direkt miteinander konkateniert sind, z.B.: AA, ABAB, AAABAAAABA, 0110201102, … Formal: L = {ε, w ^ w | w є Σ*} Diese Sprache kann nicht von einer CFG erzeugt werden und verlangt eigentlich nach einer CSG. Markus Hartenfeller - Vorhersage von RNA-Sekundärstrukturen inklusive Pseudoknoten

Einfaches Beispiel – die copy-language Eine erweiterte CFG, die die copy-language beschreibt: V = {W, WH} Σ = {a, b} P = { W → WW | (WH x WH) | ε, WH → a ^ a | b ^ b | (WH x WH) | ^ } S = W I = { ) , ( , x } R = { (m1^m1´ x m2^m2´)  m1m2^m1´m2´ } Markus Hartenfeller - Vorhersage von RNA-Sekundärstrukturen inklusive Pseudoknoten

Einfaches Beispiel – die copy-language W → (WH x WH) → ((WH x WH) x (WH x WH)) → ((a ^ a x b ^ b) x (b ^ b x a ^ a))  (ab ^ ab x ba ^ ba)  abba ^ abba Produktionen Reorganisation Das erzeugte Wort: abbaabba Mit der vorgestellten Grammatik für die einfache copy-language erzeugt. Markus Hartenfeller - Vorhersage von RNA-Sekundärstrukturen inklusive Pseudoknoten

Die Formalismen von generellen erweiterten CFGs P = { A → α | A є V, α є (V(IV)* U Σ)*} z.B.: WxWxWaWaWxW R = {(σ)  m | σ є (Σ U I)*, m є Σ*} z.B.: (b^b x a^a)  ba^ba Bemerkung: Die Produktionen ähneln sehr der Form einer CFG (es wird nur von einem Nonterminal abgeleitet). Ist I = Ø, dann ist α є (V U Σ)* und wir haben eine CFG. Für uneingeschränkte Ableitungen A → α mit α є (V(IV)* U Σ)* ist das Parsen sehr komplex und wahrscheinlich NP-vollständig (wie bei CSGs, was wir ja gerade mit der Einführung dieser erweiterten CFGs vermeiden wollten). Was haben wir also gewonnen? Markus Hartenfeller - Vorhersage von RNA-Sekundärstrukturen inklusive Pseudoknoten

Die Einschränkung der erweiterten CFGs Man muss (wieder einmal) den generellen Fall einschränken, um ein akzeptables Laufzeitniveau zu erreichen. Der Schlüssel dazu ist folgende Beobachtung: ∞ (V(IV)* U Σ)* = Un=0 (V(IV)n U Σ)* Für n = 0 haben wir wieder eine normale CFG. Wenn man n sinnvoll begrenzen, haben wir eine eingeschränkte erweiterte CFG, mit der wir überkreuzende Beziehungen bis zu einem der Beschränkung entsprechenden Grad modellieren können. Markus Hartenfeller - Vorhersage von RNA-Sekundärstrukturen inklusive Pseudoknoten

Die Einschränkung der erweiterten CFGs Genau so ist es bei der vorgestellten copy-language realisiert, welche n bis 1 laufen läst, also: α є (V U Σ)* U (VIV U Σ)* Mit der selben Einschränkung (nur maximal ein Sonder-Nonterminal aus I pro Ableitungsschritt zuzulassen), läst sich eine Großzahl vorstellbarer Pseudoknoten-Interaktionen modellieren (genauer: alle bis dahin bekannten und von Rivas/Eddy vorhersagbaren). Diese Einschränkung der Grammatik ist also die 1:1-Korrespondenz zu der Einschränkung des Algorithmus von Rivas/Eddy, in einer Rekursion nur die Kombination zweier Gap-Matrizen zu erlauben. Markus Hartenfeller - Vorhersage von RNA-Sekundärstrukturen inklusive Pseudoknoten

Die Pseudoknoten-Grammatik von Rivas/Eddy V = { W, WB, Vab, WH, VHabcd, IS1, IS2 } Σ = { a, c, g, u } S = W I = { x, xL, xR, ), (, כ } R = { (m1^m1´ x m2^m2´)  m1m2 ^ m1´m2´ , (m1^m1´ xL m2^m2´)  m2m1m2´ ^ m1´ , (m1^m1´ xR m2^m2´)  m1 ^ m2m1´m2´ , (m1^m1´ כ m2^m2´)  m1m2 ^ m2´m1´ } für mi , mi´ є Σ* Markus Hartenfeller - Vorhersage von RNA-Sekundärstrukturen inklusive Pseudoknoten

Die Pseudoknoten-Grammatik von Rivas/Eddy Markus Hartenfeller - Vorhersage von RNA-Sekundärstrukturen inklusive Pseudoknoten

Die Pseudoknoten-Grammatik von Rivas/Eddy Markus Hartenfeller - Vorhersage von RNA-Sekundärstrukturen inklusive Pseudoknoten

Die Pseudoknoten-Grammatik von Rivas/Eddy IS1 → ε | s1 | s1 s2 | … | s1...smaxloop. , IS2 → ^ | s1...sk ^ | ^ s1...sk | s1...si-1 ^ si...sk } für si є {a, c, g, u}, 1 ≤ i ≤ k, 1 ≤ k ≤ maxloop Markus Hartenfeller - Vorhersage von RNA-Sekundärstrukturen inklusive Pseudoknoten

Beispiel W → WH x WH → (g IS2 c כ c^g) x (a IS2 u כ aû) → (g caguuûacug c כ c^g) x (a uuuggâgaaa u כ aû) u a a a u  g caguu c^g uacug c x a uuugg aû agaaa u u a u c g g u a g g  gcaguucauuugga^guacugcuagaaau u u a g c a a u c g u g c Markus Hartenfeller - Vorhersage von RNA-Sekundärstrukturen inklusive Pseudoknoten

Die Pseudoknoten-Grammatik von Rivas/Eddy Die vorgestellte Grammatik ist mehrdeutig, kann also zu einer gegebenen Sequenz mehrer Entstehungsgeschichten beschreiben Dadurch können mehrere alternative Sekundärstrukturen in Betracht gezogen werden. Mit dieser Grammatik ist ein vollständiges probabilistisches Modell (sobald man sie in eine probabilistische Grammatik üüberführt) für die Klasse der durch sie modellierbaren Pseudoknoten und aller „simplen“ Sekundärstrukturen gegeben. Das Parsen durch den zuvor vorgestellten Algorithmus ist in polynomieller Zeit möglich. Durch sie werden vergleichende Analysen, strukturelle Homologie-Erkennung und Datenbankensuchen möglich. Markus Hartenfeller - Vorhersage von RNA-Sekundärstrukturen inklusive Pseudoknoten

Übersicht Einleitung Der Algorithmus von Rivas/Eddy Eine „fast“ kontextfreie Grammatik zur Erzeugung von Sequenzen mit Pseudoknoten Der Algorithmus von Reeder/Giegerich Markus Hartenfeller - Vorhersage von RNA-Sekundärstrukturen inklusive Pseudoknoten

Der Algorithmus von Reeder/Giegerich Der Algorithmus von Reeder/Giegerich (RG) basiert wie der zuvor Vorgestellte von Rivas/Eddy (RE) auf dynamischem Programmieren und thermodynamischen Berechnungen. Verbesserung der Laufzeitkomplexität im Vergleich zu RE: O(n6) O(n4) Verbesserung des Speicherplatzbedarfs: O(n4) O(n2) Markus Hartenfeller - Vorhersage von RNA-Sekundärstrukturen inklusive Pseudoknoten

Der Algorithmus von Reeder/Giegerich RE kann zwar sehr komplexe Pseudoknoten behandeln, allerdings ist der Algorithmus wegen seiner hohen Laufzeitkomplexität auf Sequenzen bis zur Länge von ca. 140 Basen begrenzt. - RNA der Länge 84: 47 min und 9,8 MB - RNA der Länge 105: 235 min und 22,5 MB Die Krux mit der hohen Laufzeitkomplexität: Die sehr komplexen Pseudoknoten, für die RE durchaus ausgelegt wäre, treten fast ausschließlich erst in Sequenzen auf, die zu lang sind, um sie von RE bearbeiten zu lassen! Markus Hartenfeller - Vorhersage von RNA-Sekundärstrukturen inklusive Pseudoknoten

Der Algorithmus von Reeder/Giegerich RG setzt genau an dieser Stelle an: Die Klasse der modellierbaren (vorhersagbaren) Pseudoknoten wird weiter eingeschränkt, um bessere Performance zu erreichen. Dazu wird die Klasse der kanonisierten einfachen rekursiven Pseudoknoten eingeführt, auf welche sich RG in seiner Vorhersage beschränkt. Markus Hartenfeller - Vorhersage von RNA-Sekundärstrukturen inklusive Pseudoknoten

Der Algorithmus von Reeder/Giegerich Die Abbildung zeigt einen einfachen Pseudoknoten. Bei einfachen rekursiven Pseudoknoten (sr-PK) dürfen die ungepaarten Regionen u, v und w selbst Sekundär- Strukturen bilden, einschließlich einfacher rekursiver Pseudoknoten. Sie dürfen allerdings nicht untereinander oder außerhalb des Knotens interagieren. einfacher Pseudoknoten Markus Hartenfeller - Vorhersage von RNA-Sekundärstrukturen inklusive Pseudoknoten

Der Algorithmus von Reeder/Giegerich Die Klasse der kanonisierten einfachen rekursiven Pseudoknoten (csr-PK): Es werden 3 Kanonisierungsregeln eingeführt, die die Klasse der sr-PK auf die der csr-PK beschränken. Aber zunächst eine generelle Laufzeitbetrachtung eines Algorithmus basierend auf dynamischem Programmieren: …..……………………………..…...………………………….. a u b v a´ w b´ 1 n i j k l m s o p 8 unabhängig Variablen i, j, k, l, m, s, o, p laufen (asymptotisch) über n Positionen → Laufzeit in O(n8) Markus Hartenfeller - Vorhersage von RNA-Sekundärstrukturen inklusive Pseudoknoten

Die Kanonisierung 1. Regel zur Kanonisierung: Segmente a und a´ (b und b´) haben die gleiche Länge. Die Segmente die die Helices formen, enthalten also keine Bulges. → die Indizes m und o sind nicht mehr unabhängig von den anderen, da m = s - (j - i) o = p - (l - k) gilt. → von ehemals 8 sind noch 6 Variablen unabhängig → Laufzeit reduziert sich: O(n8)  O(n6) Markus Hartenfeller - Vorhersage von RNA-Sekundärstrukturen inklusive Pseudoknoten

Die Kanonisierung 2. Regel zur Kanonisierung: Helices a, a´ und b, b´ müssen maximale Länge unter den Regeln der Basenpaarung haben. Bereich v hat also minimale Länge. Dazu werden die maximalen Stacklängen vor dem eigentlichen Algorithmus berechnet und in zwei Matrizen stacklength(i,s) bzw. stacklength(k,p) gespeichert. Dadurch sind die beiden Indices j und l nicht mehr unabhängig und durch j = i + stacklength(i,s) l = k + stacklength(k,p) darstellbar. Die Laufzeit reduziert sich: O(n6)  O(n4) Markus Hartenfeller - Vorhersage von RNA-Sekundärstrukturen inklusive Pseudoknoten

Die Kanonisierung 3. Regel zur Kanonisierung: Falls zwei maximale Helices überlappen würden (|v|<0), wird eine beliebige Stelle zwischen ihnen zur Trennung gewählt. v kann natürlich nicht kürzer als 0 sein. Keine Laufzeitverbesserung, sondern Behandlung eines Sonderfalls von Regel 2. Verlängerung der Helices Markus Hartenfeller - Vorhersage von RNA-Sekundärstrukturen inklusive Pseudoknoten

Auswirkungen der Einschränkungen Viele der bekannten Pseudoknoten (Menge PK) scheinen einen Vertreter in csr-PK zu haben, der ihm in Struktur und Energie sehr ähnelt. Test von 212 Strukturen mit Pseudoknoten: durch csr-PK nicht modellierbar von sich aus in csr-PK gut durch eine Struktur in csr-PK approximierbar durch Erlauben von Bulges der Länge 1 in csr-PK Markus Hartenfeller - Vorhersage von RNA-Sekundärstrukturen inklusive Pseudoknoten

Auswirkungen der Einschränkungen Zwei Beispiele für Pseudoknoten, die von RG nicht direkt vorhergesagt werden können (durchaus aber von Rivas/Eddy): „kissing hairpins“ „triple helix interaction“ Markus Hartenfeller - Vorhersage von RNA-Sekundärstrukturen inklusive Pseudoknoten

Ergebnisse im Vergleich BP = # Basenpaare der Referenzstruktur TP = # korrekt positiv vorhergesagter Basenpaare FP = # falsch positiv vorhergesagter Basenpaare sens. = TP/BP (sensitivity) sel. = TP/(FP+TP) (selectivity) K = # korrekt vorhergesagter PK-Helices / # PK-Helices in Referenzstruktur Markus Hartenfeller - Vorhersage von RNA-Sekundärstrukturen inklusive Pseudoknoten

Der Algorithmus von Reeder/Giegerich Bemerkungen: Kann Sequenzen bis max. 1000 Basen bearbeiten (ca. 12h) Tendiert nicht dazu, zusätzliche Pseudoknoten einzufügen (wie auch RE) Weitere Verbesserung möglich durch genauere Energie-Modelle (gilt natürlich ebenso für RE), besonders für Multiloops und Pseudoknoten Markus Hartenfeller - Vorhersage von RNA-Sekundärstrukturen inklusive Pseudoknoten

Quellen „A Dynamic Programming Algorithm for RNA Structure Prediction Including Pseudoknots“, Elena Rivas and Sean R. Eddy, JMB 1999 „The language of RNA: aformal grammar that includes pseudoknots“, Elena Rivas and Sean R. Eddy, Oxford Universtiy Press 2000 „Design, implementation and evaluation of a practical pseudoknot folding algorithm based on thermodynamics“, Jens Reeder, Robert Giegerich, BMC Bioinformatics 2004 zusätzliche Bild-Quellen: http://pps98.man.poznan.pl/assignment/projects/olejniczak/tert.htm http://www.techfak.uni-bielefeld.de/bcd/Siegen/mfold.html http://www.biomedcentral.com/1471-2105/5/104/figure/F1?highres=y Markus Hartenfeller - Vorhersage von RNA-Sekundärstrukturen inklusive Pseudoknoten

Markus Hartenfeller - Vorhersage von RNA-Sekundärstrukturen inklusive Pseudoknoten