Vorhersage von RNA-Sekundärstrukturen

Slides:



Advertisements
Ähnliche Präsentationen
Algorithmen und Datenstrukturen
Advertisements

Graphen Ein Graph ist eine Kollektion von Knoten und Kanten. Knoten sind einfache Objekte. Sie haben Namen und können Träger von Werten, Eigenschaften.
Das LCA – Problem in Suffixbäumen
Kapitel 6: Klassifizierung von Sortiertechniken
Suche in Texten (Stringsuche )
8. Formale Sprachen und Grammatiken
Friedhelm Meyer auf der Heide 1 HEINZ NIXDORF INSTITUT Universität Paderborn Algorithmen und Komplexität Grammatiken beschreiben Sprachen L µ *, indem.
Übersicht DIALIGN = DIagonal ALIGNment
Algorithmentheorie 04 –Hashing
Vorlesung Informatik 2 Algorithmen und Datenstrukturen Halbzeit: Was haben wir bisher gelernt? Prof. Th. Ottmann.
Vorlesung Informatik 2 Algorithmen und Datenstrukturen (27 – Kürzeste Wege) Prof. Th. Ottmann.
1 Vorlesung Informatik 2 Algorithmen und Datenstrukturen (21 – Kürzeste Wege) T. Lauer.
PG 520 Intelligence Service – gezielte Informationen aus dem Internet
Secondary Structure Prediction for Aligned RNA Sequences
High Performance = Innovative Computer Systems + Efficient Algorithms Friedhelm Meyer auf der Heide 1 HEINZ NIXDORF INSTITUT Universität Paderborn Algorithmen.
Algorithmen und Komplexität
Christian Schindelhauer
Einführung in Berechenbarkeit, Formale Sprachen und Komplexitätstheorie Wintersemester 2005/ Vorlesung Dominic Dumrauf.
Minimum Spanning Tree: MST
Hauptseminar Automaten und Formale Sprachen
Beweissysteme Hartmut Klauck Universität Frankfurt WS 06/
Effiziente Algorithmen
Effiziente Algorithmen
Effiziente Algorithmen
Effiziente Algorithmen
Black Box Algorithmen Hartmut Klauck Universität Frankfurt SS
Effiziente Algorithmen Hartmut Klauck Universität Frankfurt SS
Quantum Computing Hartmut Klauck Universität Frankfurt WS 05/
Effiziente Algorithmen
Effiziente Algorithmen
Black Box Algorithmen Hartmut Klauck Universität Frankfurt SS
Effiziente Algorithmen Hartmut Klauck Universität Frankfurt SS
Black Box Algorithmen Hartmut Klauck Universität Frankfurt SS
Effiziente Algorithmen
Effiziente Algorithmen
Quantum Computing Hartmut Klauck Universität Frankfurt WS 05/
Black Box Algorithmen Hartmut Klauck Universität Frankfurt SS
Black Box Algorithmen Hartmut Klauck Universität Frankfurt SS
Quantum Computing Hartmut Klauck Universität Frankfurt WS 04/
Quantum Computing Hartmut Klauck Universität Frankfurt WS 05/ /23.1.
Quantum Computing Hartmut Klauck Universität Frankfurt WS 05/
Effiziente Algorithmen Hartmut Klauck Universität Frankfurt SS
Black Box Algorithmen Hartmut Klauck Universität Frankfurt SS
Effiziente Algorithmen Hartmut Klauck Universität Frankfurt SS
Effiziente Algorithmen Hartmut Klauck Universität Frankfurt SS
Effiziente Algorithmen
Effiziente Algorithmen
Effiziente Algorithmen Hartmut Klauck Universität Frankfurt SS
Hartmut Klauck Universität Frankfurt SS
Information und Kommunikation Hartmut Klauck Universität Frankfurt SS
Beweissysteme Hartmut Klauck Universität Frankfurt WS 06/
Information und Kommunikation Hartmut Klauck Universität Frankfurt SS
Beweissysteme Hartmut Klauck Universität Frankfurt WS 06/
Information und Kommunikation
Information und Kommunikation Hartmut Klauck Universität Frankfurt SS
Information und Kommunikation
Hartmut Klauck Universität Frankfurt WS 06/
Formale Sprachen Grammatiken und die Chomsky-Hierarchie
Translation und Transkription
Automaten, formale Sprachen und Berechenbarkeit II SoSe 2004 Prof. W. Brauer Teil 1: Wiederholung (Vor allem Folien von Priv.-Doz. Dr. Kindler vom WS 2001/02.
Noam CHOMSKY, Sheila GREIBACH
PHP: Operatoren und Kontrollstrukturen
Analyse der Laufzeit von Algorithmen
Institut für Softwarewissenschaft – Universität WienP.Brezany 1 Beispiele (Frist: ) Beispiel 1: Sei  = {a, b} ein Alphabet und Q = {q 0, q 1 } eine.
7. Formale Sprachen und Grammatiken
Inhalt Einordnung und Funktion der lexikalische Analyse Grundlagen
1/67 Johann-Wolfgang-Goethe Universität Frankfurt am Main Aktuelle Themen der Bioinformatik RNA-Sekundärstruktur- vorhersage mit Pseudoknots Johann-Wolfgang-Goethe.
Gene Prediction Marco Block Jonas Heise Nima Keshvari Michael Schreiber.
Gliederung der Vorlesung
 Gegenstandsbereich der Testtheorie: Analyse der Charakteristika von Tests:  Güte von Tests.  Struktur von Tests.  Schwierigkeit von Tests.  Gruppenunterschiede.
 Präsentation transkript:

Vorhersage von RNA-Sekundärstrukturen Aktuelle Themen der Bioinformatik Vorhersage von RNA-Sekundärstrukturen drei verschiedene Methoden zur Vorhersage von Pseudoknoten der RNA Natalie Jäger Johann-Wolfgang-Goethe Universität, Frankfurt am Main

Vorhersage von Pseudoknoten Grundlagen – Aufbau der RNA 3 Methoden für RNA Secondary Structure Prediction: Stochastisches Modellieren durch parallele Grammatiken Graph-theoretischer Ansatz „Iterated Loop Matching“ Algorithmus Johann-Wolfgang-Goethe Universität, Frankfurt am Main

Vorhersage von Pseudoknoten Stochastic modeling of RNA pseudoknotted structures: a grammatical approach; Cai, Russell, Wu; 2003 A graph theoretical approach to predict common RNA secondary sructure motifs including pseudoknots in unaligned sequences;  Yongmei, Stormo, Xing; 2004 An iterated loop matching approach to the prediction of RNA secondary structures with pseudoknots; Ruan, Stormo, Zhang; 2004 Johann-Wolfgang-Goethe Universität, Frankfurt am Main

Biologische Aspekte der RNA -besteht Zuckerphosphat-Rückgrat, sowie einer Abfolge von 4 möglichen Basen (A, U, G, C) Unterschied zur DNA: Zucker ist die Ribose, und eine der vier Basen, nämlich T (Thymin) ist ersetzt durch U (Uracil) Jeweils drei Nukleotide bilden ein Codon, mit dessen Hilfe sich eine spezifische Aminosäure, eindeutig bestimmen lässt Johann-Wolfgang-Goethe Universität, Frankfurt am Main

Johann-Wolfgang-Goethe Universität, Frankfurt am Main Funktion der RNA im Gegensatz zur doppelsträngigen DNA - einsträngige Polynukleotide dieser Unterschied erhöht die katalytische Funktion der RNA und erlaubt ihr chemische Reaktionen, die der DNA nicht möglich sind mRNA, Boten-RNA: kopiert die in einem Gen auf der DNA liegende Information und trägt sie zum Ribosom, wo mit Hilfe dieser Information die Proteinbiosynthese stattfinden kann Johann-Wolfgang-Goethe Universität, Frankfurt am Main

Johann-Wolfgang-Goethe Universität, Frankfurt am Main tRNA, Transfer-RNA: kodiert keine genetische Information, sondern dient als Hilfsmolekül bei der Proteinbiosynthese, indem sie eine einzelne Aminosäure aus dem Cytoplasma aufnimmt und zum Ribosom transportiert Paarungen konjugierender Basen über Wasserstoff-brücken kleeblattartige Struktur Johann-Wolfgang-Goethe Universität, Frankfurt am Main

Johann-Wolfgang-Goethe Universität, Frankfurt am Main rRNA, ribosomale RNA: trägt ähnlich wie die tRNA keine genetische Information, sondern ist am Aufbau des Ribosoms beteiligt und erfüllt dort auch Stoffwechselfunktion snRNA, small nuclear-RNA: im Zellkern von Eukaryoten, verantwortlich für die enzymatische Spaltung der RNA (Splicing) Johann-Wolfgang-Goethe Universität, Frankfurt am Main

RNA-Sekundärstrukturen werden durch Interaktionen zwischen komplementären Nucleotid-Paaren festgelegt (über H-Brücken), die nah oder weit voneinander im Molekül entfernt sind genau diese Interaktionen falten die RNA in solche Formen wie Stem Loops oder die komplizierteren Pseudoknoten Sekundärstruktur hängt mit der Funktion der RNA zusammen  daher versucht man Sekundärstruktur der RNA vorherzusagen Johann-Wolfgang-Goethe Universität, Frankfurt am Main

Stem Loops (Haarnadelstruktur) - Doppelhelixbereich, der durch Basenpaarung zwischen benachbarten, komplementären Sequenzen innerhalb eines RNA-Stranges entsteht Johann-Wolfgang-Goethe Universität, Frankfurt am Main

Johann-Wolfgang-Goethe Universität, Frankfurt am Main Pseudoknoten  Pseudoknoten wegen c und c`, die zusammen eine Base-Paired-Region sind, also eine Doppelhelix bilden Johann-Wolfgang-Goethe Universität, Frankfurt am Main

Definition Pseudoknoten: In der RNA-Sequenz s beinhaltet die Teilsequenz t eine potential region, wenn eine Base-Region zu einer Helix beiträgt in s, aber nicht zu einer Helix in t  c und c´ sind potential regions Die Teilsequenz t ist eine P-Structure, wenn sie eine potential region enthält. t ist nicht-triviale P-Structure, wenn die potential region zwischen zwei base-paired regions liegt Johann-Wolfgang-Goethe Universität, Frankfurt am Main

Johann-Wolfgang-Goethe Universität, Frankfurt am Main 3. s ist eine RNA-Sequenz. s ist eine pseudo-geknotete Struktur, wenn sie zwei nicht-überlappende P-Strukturen enthält, wobei eine davon nicht-trivial ist (hier: t1), und beide potential regions bilden eine Doppelhelix so können alle RNA-Pseudoknoten definiert werden Johann-Wolfgang-Goethe Universität, Frankfurt am Main

Vorhersage von RNA-Sekundärstrukturen Grammatiken nach Chomsky sind ideal um zum Modellieren von Interaktionen zwischen Nucleotiden ( Stems sind palindromartig) Stem Loops kann man mit stochastischen kontextfreien Grammatiken (SCFG) modellieren Pseudoknoten sind aber komplexer als Stem Loops und würden formal eine kontextsensitive Grammatik erfordern, was aber Komplexität stark erhöht Johann-Wolfgang-Goethe Universität, Frankfurt am Main

Parallele Grammatiken zum Vorhersagen von Pseudoknoten werden hier parallel communicating grammar systems (PCGS) benutzt PCGS besteht aus einer Anzahl an Chomsky Grammatiken - den Components Gi eine Component kann Sequenzen anfragen, die von anderen Grammatiken erzeugt wurden mehrere Components können gleichzeitig anfragen Johann-Wolfgang-Goethe Universität, Frankfurt am Main

Parallele Grammatiken so kann eine kontextsensitive Struktur, wie ein Pseudoknoten, durch eine kontextfreie Grammatik synchronisiert mit einer Vielzahl an regulären Grammatiken generiert werden Stochastische Version von PCGS wird dadurch so einfach wie bei SCFG die (eine) CFG beinhaltet spezielle query symbols als Nichtterminale für potentielle base-pairing regions, welche die für Pseudoknoten typische Doppelhelix formen (einziger Unterschied zu SCFG) Johann-Wolfgang-Goethe Universität, Frankfurt am Main

Johann-Wolfgang-Goethe Universität, Frankfurt am Main PCGS ein PCGS G besteht aus mehr als einer Chomsky Grammatik G0, G1,..., Gk – den Components Grammatik G0 wird Master genannt Grammatiken teilen sich Alphabet (Terminale; hier: a, c, g, u) und Variablen (Nonterminale) es gibt zusätzlich spezielle Nonterminale: Query Symbols – diese sorgen für die Kommunikation zwischen den Grammatiken Johann-Wolfgang-Goethe Universität, Frankfurt am Main

Johann-Wolfgang-Goethe Universität, Frankfurt am Main PCGS die Ableitung des Systems ist das Umschreiben jeder Grammatik (Components) Synchronisierung zwischen dem Umschreiben der Components erhält man durch die Query Symbols Qi die Sprache, die durch das PCGS schließlich erzeugt wird, ist eine Menge von Strings, welche die Master-Grammatik G0 erzeugt Johann-Wolfgang-Goethe Universität, Frankfurt am Main

Johann-Wolfgang-Goethe Universität, Frankfurt am Main PCGS Beispiel zeigt die 3 regulären (Hilfs-)Grammatiken G1, G2 , G3 Synchronisierung zwischen G1 und G2 erhält man durch die Produktion S1  Q2 , weil dadurch in G2 zuerst abgeleitet wird Johann-Wolfgang-Goethe Universität, Frankfurt am Main

Johann-Wolfgang-Goethe Universität, Frankfurt am Main PCGS Beispiel Beispiel für das parallele Ableiten von den zwei base-paired Regionen acg und cgu Johann-Wolfgang-Goethe Universität, Frankfurt am Main

Johann-Wolfgang-Goethe Universität, Frankfurt am Main PCGS Beispiel zeigt die kontextfreie Master-Grammatik G0 G0 beschreibt zwei nicht-überlappende P-Structures; eine davon ist nicht-trivial Johann-Wolfgang-Goethe Universität, Frankfurt am Main

Johann-Wolfgang-Goethe Universität, Frankfurt am Main PCGS Beispiel -Ableitungsbaum des PCGS, so dass eine pseudo-geknotete Struktur entsteht Johann-Wolfgang-Goethe Universität, Frankfurt am Main

PCGS: Stochastische Version Wahrscheinlichkeiten mit den Produktionsregeln jeder Component (Grammatik) der PCGS assoziieren am einfachsten durch Definieren einer Wahrscheinlichkeits-Verteilung für jede Component als unabhängige SCFG die Wahrscheinlichkeit für einen parallen Ableitungsschritt muss aber die bedingten Wahrscheinlichkeiten berücksichtigen, die durch die Kommunikation zwischen Grammatiken entstehen Johann-Wolfgang-Goethe Universität, Frankfurt am Main

PCGS: Stochastische Version die Wahrscheinlichkeit für einen Pseudoknoten lässt sich durch die Master-CFG G0 berechnen, wenn die Wahrscheinlichkeiten für Crossing Helices (Q1, Q2), die durch Hilfsgrammatiken generiert werden, bekannt sind: Sei S = {a, u, c, g}, G eine PCGS mit m Components. Dann ist L G die Menge aller pseudogeknoteten Strukturen die G generiert Es gilt: Johann-Wolfgang-Goethe Universität, Frankfurt am Main

PCGS: Stochastische Version die Wahrscheinlichkeit für die Ableitung S0 * s1r1s2r2s3 weil die Generierung von r1 und r2 (potential regions) synchron ist Johann-Wolfgang-Goethe Universität, Frankfurt am Main

PCGS: Stochastische Version der Produktterm ist die Wahrscheinlichkeit für das komplementäre Alignment zwischen r1 und r2 die stochastische Version des PCGS ist somit nur die stochastische Version der kontextfreien Master-Grammatik G0 einziger Unterschied zu sonstigen SCFG: die Query Symbols, die als Nonterminale dazu dienen Pseudoknoten (Crossing Helices) zu spezifizieren Johann-Wolfgang-Goethe Universität, Frankfurt am Main

Automatisierter Algorithmus für Pseudoknoten-Vorhersage Resultat aus PCGS: ein System, das automatisch einen „Pseudoknoten-Vorhersage-Algorithmus“ für jede pseudogeknotete Struktur generiert zum Modellieren von Crossing Helices, repräsentiert durch die Query Symbols, benötigt man eine 5x5 probabilistische Matrix diese Matrix beschreibt die Wahrscheinlichkeits-Verteilung (der 4 Basen + gap für bulges) in den Crossing Helices Johann-Wolfgang-Goethe Universität, Frankfurt am Main

Automatisierter Algorithmus für Pseudoknoten-Vorhersage basiert auf Dynamischem Programmieren, ähnlich dem CYK-Algorithmus für die Eingabe-Sequenz x[1..n] (eine SCFG in CNF) berechnet der Algorithmus für jedes Nonterminal X die maximale Wahrscheinlichkeit für jede Teilsequenz x[i..j] der Algorithmus unterscheidet 3 Kategorien von Teilsequenzen: stem-loops, Pseudoknoten und P-Structures Johann-Wolfgang-Goethe Universität, Frankfurt am Main

Automatisierter Algorithmus für Pseudoknoten-Vorhersage 1.Berechnung für stem-loops folgt dem CYK-Algorithmus 2. Berechnung von Pseudoknoten erfolgt über eine Hilfsfunktion H , welche für jedes Paar an Teilsequenzen die maximale Wahrscheinlichkeit angibt, eine Crossing Helix zu bilden Johann-Wolfgang-Goethe Universität, Frankfurt am Main

Exkurs: CYK-Algorithmus Der Cocke-Younger-Kasami-Algorithmus (CYK-Algorithmus) ist ein Algorithmus, der das Wortproblem für gegebene kontextfreie Sprachen effizient löst. Die Sprache muss dazu in Form einer Grammatik in CNF vorliegen. Laufzeit O(n³) Anstatt sofort zu berechnen, ob sich das Wort w der Länge m aus dem Startsymbol ableiten lässt, wird zuerst ermittelt, aus welchen Variablen sich einstellige Teilworte von w ableiten lassen. Danach wird für alle zweistelligen Teilworte berechnet, aus welchen Variablen sie sich ableiten lassen. Johann-Wolfgang-Goethe Universität, Frankfurt am Main

Automatisierter Algorithmus für Pseudoknoten-Vorhersage für das Nonterminal X wird die maximale Wahrscheinlichkeit, aus X einen Pseudoknoten x[i..j] abzuleiten, so berechnet: - wobei Y und Z Teilsequenzen sind, die potentielle base-pairing regions x[h..l] und x[u..v] enthalten Johann-Wolfgang-Goethe Universität, Frankfurt am Main

Automatisierter Algorithmus für Pseudoknoten-Vorhersage Johann-Wolfgang-Goethe Universität, Frankfurt am Main

Automatisierter Algorithmus für Pseudoknoten-Vorhersage 3. die maximale Wahrscheinlichkeit, für das Nonterminal X eine P-Structure x[k..l] aus der Teilsequenz x[i..j] abzuleiten, ist so definiert: bzw. rekursiv: Johann-Wolfgang-Goethe Universität, Frankfurt am Main

Automatisierter Algorithmus für Pseudoknoten-Vorhersage Johann-Wolfgang-Goethe Universität, Frankfurt am Main

Implementierung und Tests Laufzeit im worst case: O(n6) für CPU-Zeit / O(n4) für Speicher (RAM) die Eingabe besteht aus der SCFG G0(inklusive query symbols), die in CNF vorliegen muss, und einer 5x5 probabilistischen Matrix, welche die Wahrscheinlichkeiten für das Base-Pairing enthält getestet wurden 36 tmRNA Sequenzen (alle Pseudoknoten vorab bekannt): in 34 Sequenzen wurde ein Pseudoknoten vorausgesagt, wenn auch nur in 7 Sequenzen absolut korrekt  (7+18)/36=69% Johann-Wolfgang-Goethe Universität, Frankfurt am Main

Johann-Wolfgang-Goethe Universität, Frankfurt am Main Zusammenfassung stochastisches Modellieren von RNA-Pseudoknoten durch Parallel Communicating Grammar Systems (PCGS) eine kontextfreie Grammatik synchronisiert mit einer Anzahl an regulären Grammatiken – kontextsensitive Regeln vermieden dieses Modell erlaubt die automatische Generierung eines Pseudoknoten-Vorhersage-Algorithmus für jede spezifische pseudogeknotete Struktur Johann-Wolfgang-Goethe Universität, Frankfurt am Main

Johann-Wolfgang-Goethe Universität, Frankfurt am Main Zusammenfassung Algorithmus (ähnlich CYK): Für jedes X der SCFG wird maximale Ws. für stem loop Pseudoknoten P-Structure berechnet SCFG G0 in CNF und 5x5 Matrix via PCGS RNA-Primär- sequenz Ausgabe: RNA-Sekundärstruktur mit maximaler Wahrscheinlichkeit Johann-Wolfgang-Goethe Universität, Frankfurt am Main

Graph-theoretischer Ansatz um RNA-Sekundärstrukturen in einer Menge von funktionell oder evolutionär verwandten Sequenzen vorherzusagen Methode basiert auf dem Vergleich von Stem-Loops zwischen Sequenzen Algorithmus findet Menge von stabilen Stem-Loops, die in mehreren Sequenzen konserviert vorliegen – daraus lässt sich Konsensus-Sekundärstruktur formen Johann-Wolfgang-Goethe Universität, Frankfurt am Main

Graph-theoretischer Ansatz Das generelle Schema dieser Methode: Finden aller möglichen stabilen Stems in jeder Sequenz und diese vergleichen mit denen aller anderen Sequenzen Finden aller potentiell konservierten Stems, die in Teilmengen der Sequenzen gemeinsam vorliegen Zusammenfügen der besten Mengen von konservierten Stems um eine Konsensus-Sekundärstruktur zu konstruieren Johann-Wolfgang-Goethe Universität, Frankfurt am Main

Graph-theoretischer Ansatz Johann-Wolfgang-Goethe Universität, Frankfurt am Main

a) Finden aller stabilen Stems Definition stem: palindromische Helix in einer Sequenz, welche die Basenpaare AU oder GC (oder wobble:GU) umfasst; mit minimaler Länge von L Basenpaaren um Suchraum zu reduzieren werden nur stabile stems betrachtet Evaluieren der Stabilität eines stems durch seine Stacking-Energie (nach Turner)  nur stems mit Stacking-Energie niedriger als cutoff E (Default:-5kcal) gelten als stabil Auflisten aller mögliche stems durch einen branch-and-bound Algorithmus (Programm dotplot) Johann-Wolfgang-Goethe Universität, Frankfurt am Main

b) Vergleichen von Stems über mehrere Sequenzen globales Alignieren von 2 Sequenzen nach Needleman-Wunsch-Algorithmus, um große Sequenzähnlichkeit auszunutzen im Alignment sucht man nun highly conserved regions  Region ist 10 nt oder länger, mit mindestens 80% Sequenzidentität highly conserved regions dienen als Anker für stem-Vergleiche Johann-Wolfgang-Goethe Universität, Frankfurt am Main

Vergleichen von Stems über mehrere Sequenzen zwei stems von 2 Sequenzen können nur verglichen werden, wenn die dazu gehörenden 5‘ oder 3‘ half-stems in der gleichen Anker oder Nicht-Anker Region liegen Johann-Wolfgang-Goethe Universität, Frankfurt am Main

Vergleichen von Stems über mehrere Sequenzen zudem dürfen die 5‘ oder 3‘ half-stems in der Anker Region um maximal 10 nt versetzt sein (in Nicht-Anker Region keine Constraints) wenn nach Alignieren die Ähnlichkeit zwischen 2 Sequenzen nicht groß ist (keine highly conserved regions ), gilt die ganze Sequenz als Nicht-Anker Region und somit wird jeder stem der beiden Sequenzen miteinander verglichen ( erhöht Laufzeit) Johann-Wolfgang-Goethe Universität, Frankfurt am Main

Vergleichen von Stems über mehrere Sequenzen die Funktion S(ix, jy) misst die Ähnlichkeit zwischen zwei stems i und j aus den Sequenzen x und y Ähnlichkeit zwischen zwei Stems anhand von 5 Eigenschaften messbar: 1. Helix-Länge 2. Helix-Sequenz 3. Loop-Sequenz (abgeschlossen durch stem) 4. Stem-Stabilität 5. Relative Positionen des Starts und Ende des stems Johann-Wolfgang-Goethe Universität, Frankfurt am Main

Vergleichen von Stems über mehrere Sequenzen S(ix, jy) ist definiert als die gewichtete Summe dieser 5 Ähnlichkeits-Scores, geteilt durch die Summe des Stabilitäts-Scores der beiden stems (skaliert wurde mit stability adjusting factor f): Johann-Wolfgang-Goethe Universität, Frankfurt am Main

Vergleichen von Stems über mehrere Sequenzen wobei sl(ix, jy) der Ähnlichkeits-Score zwischen den stems ix, jy ist, bezogen auf eine (aus den 5 möglichen) spezielle Eigenschaft l so berechnet man sl(ix, jy) (außer für Helix oder Loop Sequenz): sl(ix, jy) = min{sl(ix), sl(jy)}/max{sl(ix), sl(jy)} wl ist das Gewicht für jede Eigenschaft l und liegt zwischen 0 und 1 (alle 5 Gewichte aufsummiert ergibt 1) Johann-Wolfgang-Goethe Universität, Frankfurt am Main

Vergleichen von Stems über mehrere Sequenzen Werte von r liegen zwischen 0 und 1 – je stabiler ein stem, desto niedriger der r-Wertrx(i)= (ei-e`)/(e``-e`) der Wert von S(ix, jy) liegt zwischen 0 und 1 – je höher der Wert um so wahrscheinlicher, dass 2 stems Instanzen eines konservierten stems sind nur die Paare an stems werden als potentiell eingestuft, für die gilt S(ix, jy) >= S (für einen Schwellwert S) Johann-Wolfgang-Goethe Universität, Frankfurt am Main

Johann-Wolfgang-Goethe Universität, Frankfurt am Main conserved stems Setzen eines Signifikanz-Levels p (0< p <=1), welches der minimale prozentuale Anteil aller n Sequenzen ist, die eine gemeinsame Struktur besitzen es gilt, die konservierten stems zu finden, die in mindestens k Sequenzen vorkommen (k = [p * n] ) das wird erreicht durch n-partite ungerichtete gewichtete Graphen Johann-Wolfgang-Goethe Universität, Frankfurt am Main

Johann-Wolfgang-Goethe Universität, Frankfurt am Main n-partite Graphen jeder Koten des Graphen repräsentiert einen stem der Graph ist unterteilt in n Teile; jeder Teil umfasst die Anzahl an stems einer Sequenz nur Knoten von verschieden Teilen können verbunden werden Johann-Wolfgang-Goethe Universität, Frankfurt am Main

Johann-Wolfgang-Goethe Universität, Frankfurt am Main c) n-partite Graphen potentiell gleiche stems aus verschiedenen Sequenzen, die einen Ähnlichkeits-Score größer S aufweisen, werden verbunden und gewichtet in der Graphen-Theorie repräsentiert eine Clique einen vollständigen Teilgraphen, in dem jeder Knoten mit allen anderen verbunden ist eine Clique ist maximal, wenn sie nicht in einer größeren Clique enthalten ist  ist Maximierungsproblem und ist NP-vollständig Johann-Wolfgang-Goethe Universität, Frankfurt am Main

Johann-Wolfgang-Goethe Universität, Frankfurt am Main n-partite Graphen das Finden aller potentiell konservierten stems in mindestens k Sequenzen, entspricht dem Finden aller maximaler Cliquen der Größe >= k im n-partiten Graphen (ist NP-hartes Problem) Johann-Wolfgang-Goethe Universität, Frankfurt am Main

Johann-Wolfgang-Goethe Universität, Frankfurt am Main n-partite Graphen besser: enumerativer Algorithmus basierend auf Depth-First Suche im Graphen Input ist der n-partite Graph; Output ist eine Array mit maximalen Cliquen größer/gleich k je größer die Clique, desto ähnlicher sind die stems zueinander, also wahrscheinlich Instanzen konservierter stems Johann-Wolfgang-Goethe Universität, Frankfurt am Main

Johann-Wolfgang-Goethe Universität, Frankfurt am Main n-partite Graphen worst-case Laufzeit: O(mn), wobei m die maximale Anzahl an stems in einer Sequenz ist, und n die Anzahl an Sequenzen aber average case in diesem Algorithmus erzielt bessere Laufzeit, weil die Eingabe-Graphen meist geringe Dichte aufweisen (wegen Definition der Anker-Regionen) Cliquen werden nach absteigendem Score angeordnet – haben zwei Cliquen mehr als 70% gleiche stems, wird die Clique mit niedrigerem Score entfernt Johann-Wolfgang-Goethe Universität, Frankfurt am Main

d) Zusammenfügen von konservierten Stems jede erhaltene maximale Clique entspricht einer Menge ähnlicher stems aus verschiedenen Sequenzen; die Größe der Clique liegt zwischen k und n ein stem block repräsentiert die Menge an stems, die der maximalen Clique entspricht Ziel ist, die bestmögliche Zusammenstellung an stem blocks zu finden, welche so die Konsensus-Struktur repräsentieren Johann-Wolfgang-Goethe Universität, Frankfurt am Main

Zusammenfügen von konservierten Stems Johann-Wolfgang-Goethe Universität, Frankfurt am Main

e) Zusammenfügen von konservierten Stems man konstruiert einen gerichteten Graphen, in dem jeder Knoten einem stem block, also einer maximalen Clique entspricht innerhalb einer Sequenz liegt stem s1 vor stem s2 , wenn der Helixanfang von s1 vor dem von s2 liegt stem s1 und stem s2 sind kompatibel wenn sie in ihren Helix-Regionen nicht überlappen Johann-Wolfgang-Goethe Universität, Frankfurt am Main

Zusammenfügen von konservierten Stems - bezogen auf die relative Start- und Endposition, kann die Anordnung beider stems nur in 3 Mustern erfolgen: Johann-Wolfgang-Goethe Universität, Frankfurt am Main

Zusammenfügen von konservierten Stems eine Kante zwischen den stem blocks b1 und b2 im gerichteten Graphen ist nur möglich, wenn b1 vor b2 und kompatibel ist, sowie eines der 3 möglichen Muster formt diese Kriterien müssen in mindestens einer kritischen Anzahl c von Sequenzen erfüllt sein c ist k oder Hälfte der Anzahl an Sequenzen, die stems aus einem der blocks besitzen (je nach dem was größer ist) Johann-Wolfgang-Goethe Universität, Frankfurt am Main

f) Maximale Pfade an stem blocks Johann-Wolfgang-Goethe Universität, Frankfurt am Main

Maximale Pfade an stem blocks Rekursive Depht-First-like-Suche wird auf den gerichteten Graphen angewendet so findet man die maximalen Pfade an stem blocks, die in mindestens k Sequenzen vorliegen (hier k=4) Algorithmus ist ähnlich dem zum Finden maximaler Cliquen – erster stem block wird inkrementell erweitert um neuen stromabwärts liegenden stem block, der mit allen anderen blocks verbunden sein muss Johann-Wolfgang-Goethe Universität, Frankfurt am Main

Maximale Pfade an stem blocks jeder maximale Pfad bekommt eine Score, der die Summer aller Scores der stem blocks im Pfad ist diese potentiellen Konsensus-Strukturen werden entsprechend ihres Scores gelistet und die n-besten (Default 10) gelten als Kandidaten für Konsensus-Struktur jede dieser Strukturen wird noch verfeinert: refolding/ internal loops und bulges nun erlaubt Johann-Wolfgang-Goethe Universität, Frankfurt am Main

Johann-Wolfgang-Goethe Universität, Frankfurt am Main Testergebnisse Johann-Wolfgang-Goethe Universität, Frankfurt am Main

Johann-Wolfgang-Goethe Universität, Frankfurt am Main Testergebnisse Statistische Signifikanz von COMRNA: Vergleichen von Struktur-Score Verteilung zwischen echten und random Strukturen Johann-Wolfgang-Goethe Universität, Frankfurt am Main

Johann-Wolfgang-Goethe Universität, Frankfurt am Main Zusammenfassung Graph-theoretischer Ansatz für Vorhersage häufiger RNA Sekundärstruktur-Muster (Konsensus-Strukturen) in einer Menge von Sequenzen basierend auf Suchen und Zusammenfügen konservierter stems ( stems dienen dem Algorithmus als Vergleichseinheit) gute Ergebnisse für bis zu 20 RNA-Sequenzen mit einer Länge < 300 nt Johann-Wolfgang-Goethe Universität, Frankfurt am Main

Johann-Wolfgang-Goethe Universität, Frankfurt am Main Zusammenfassung der Algorithmus kann große Sequenzähnlichkeit ausnutzen, indem im Alignment Anker-Regionen definiert werden – Suchraum für stems wird dadurch kleiner weiterer Vorteil: diese Methode gibt eine Menge an möglichen Konsensus-Strukturen wieder – weil beste Struktur nicht der realen entsprechen muss, und es ist hilfreich um mögliche alternative Strukturen zu entdecken Nachteil: die worst case Laufzeit für maximale Clique/Path-Algorithmus liegt in NP Johann-Wolfgang-Goethe Universität, Frankfurt am Main

Iterated Loop Matching eine Sekundärstruktur ist eine Liste von Basenpaaren die Basenpaare (i,j) und (k,l) sind kompatibel, wenn sie juxtaposed (i<j<k<l) oder nested (i<k<l<j) sind sonst sind sie inkompatibel, also i<k<j<l eine inkompatible Struktur ist eine Pseudoknoten (C, D) Johann-Wolfgang-Goethe Universität, Frankfurt am Main

Iterated Loop Matching ein dynamic-programming-Algorithmus, der RNA-Sekundärstruktur inklusive Pseudoknoten vorhersagen kann Algorithmus nutzt thermodynamische und vergleichende (Covarianz) Information aus, und kann jeden Typ von Pseudoknoten vorhersagen, in alignierten und einzelnen Sequenzen basiert auf „Loop-Matching-Algorithmus“ nach Nussinov et al. (1978)  ohne Pseudoknoten Johann-Wolfgang-Goethe Universität, Frankfurt am Main

Loop-Matching-Algorithmus der LM-Algorithmus findet die best-score Sekundärstruktur ohne Pseudoknoten gegeben ist Basepair-Score Matrix B, wobei B(i,j) der Score für Basenpaarung zwischen der Base i und Base j ist da Sekundärstruktur hier kompatibel sein muss, kann man sie in kleinere Strukturen unterteilen Johann-Wolfgang-Goethe Universität, Frankfurt am Main

Loop-Matching-Algorithmus für jede Teilsequenz S[i,j] mit i+1<j gibt es nur 3 Möglichkeiten für Struktur: 1) i ist single-stranded 2) i und j gepaart 3) i und k sind gepaart (i<k<j) somit lässt sich der Score einer optimalen Teilsequenz wie folgt rekursiv berechnen in der NxN-Matrix Z: Johann-Wolfgang-Goethe Universität, Frankfurt am Main

Loop-Matching-Algorithmus am Ende des LM-Algorithmus ist Z(1,N) der Score der optimalen Struktur für Sequenz S[1..N]; durch traceback in Z erhalten  diese Berechnung und traceback in O(n³) möglich im einfachsten Fall ist B(i,j)=1 wenn Base i mit Base j ein Watson-Crick oder G-U Basenpaar bildet, sonst 0 LM-Algorithmus findet Sekundärstruktur mit maximaler Anzahl an Basenpaaren (in diesem Fall) Johann-Wolfgang-Goethe Universität, Frankfurt am Main

Iterated-Loop-Matching-Algorithmus Erweiterung des LM-Algorithmus, der auch Pseudoknoten in Vorhersage der Sekundärstruktur einbezieht da Pseudoknoten der Interaktion zwischen 2 Loop-Regionen entspricht, kann mal LM–Algorithmus zweimal darauf anwenden (mehr Iterationen für kompliziertere Pseudoknoten) dieses Vorgehen versagt aber oft in Praxis Johann-Wolfgang-Goethe Universität, Frankfurt am Main

Iterated-Loop-Matching-Algorithmus die Basen, die für Pseudoknoten vorgesehen waren, können im ersten Durchlauf des LM-Algorithmus in falsch-positive Basenpaarungen geraten lässt sich so vermeiden: LM-Algorithmus mehrmals anwenden, und es werden nur Basenpaare mit höchstem Score akzeptiert Johann-Wolfgang-Goethe Universität, Frankfurt am Main

Iterated-Loop-Matching-Algorithmus Erstellen der Basepair Scorematrix B[1..n][1..n] aus einer Sequenz oder Sequenzalignment Aufruf des (basic) LM-Algorithmus; Matrix B wird dazu benutzt um Matrix Z zu erzeugen; Traceback in Z, so dass man Basepair-Liste L erhält Identifiziere alle Helices in L in kombiniere Helices, die durch internal Loops oder Bulges getrennt sind; existieren keine Helices, gehe zu Schritt 7. Johann-Wolfgang-Goethe Universität, Frankfurt am Main

Iterated-Loop-Matching-Algorithmus 4. jede Helix wird mit Score versehen (ergibt sich durch Summieren der Scores von Basenpaaren in Helix); Helix H mit höchstem Score wird in Basenpaar-Liste S gemischt 5. die Positionen von H werden aus Initialsequenz genommen; Update von Scorematrix B 6. Schritte 2-5 wiederholen bis keine Basen mehr übrig sind 7. Ausgabe ist Basenpaar-Liste S; Termination Johann-Wolfgang-Goethe Universität, Frankfurt am Main

Iterated-Loop-Matching-Algorithmus nicht alle Elemente in Matrix Z müssen in jeder Iteration neu berechnet werden folgende 3 Dreiecke der Matrix müssen nicht neu berechnet werden: A,B,C (und obere und untere Dreiecksmatrix symmetrisch hier), nur Teil D neu In A: i< j< p In B: p< i< j< q In C: q< i <j In D: i< p <j oder i< q <j Johann-Wolfgang-Goethe Universität, Frankfurt am Main

Iterated-Loop-Matching-Algorithmus die Rekursion um Z neu zu berechnen: im Array M sind die Indizes der restlichen ungepaarten Basenpaare gespeichert Johann-Wolfgang-Goethe Universität, Frankfurt am Main

Iterated-Loop-Matching-Algorithmus VLOOP_LENGTH beschreibt die minimale virtuelle Distanz, die zwischen Basenpaaren eingehalten werden muss nach der ersten Iteration (Default:3) M[i] ist die i-te übrige ungepaarte Base, und p und q (mit p<q) sind die Endpunkte einer Helix aus vorheriger Iteration in der ersten Iteration gilt M[i] = i und p und q sind noch nicht definiert  Rekursion wie in LM Johann-Wolfgang-Goethe Universität, Frankfurt am Main

Iterated-Loop-Matching-Algorithmus worst case Laufzeit: der LM-Algorithmus nach Nussinov braucht O(n³); dieser wird m (= Anzahl an Helices, die Algorithmus vorhersagt) mal wiederholt da gilt m <= n/2k, wobei k die minimale Helixlänge ist, kann der worst case an Laufzeit im ILM-Algorithmus O(n4) sein m ist aber typischerweise klein und Matrix Z muss nur teilweise neu berechnet werden in jeder Iteration, daher im average case O(n³) Johann-Wolfgang-Goethe Universität, Frankfurt am Main

Base-Pairing Score-Matrix B wird hier als Kombination aus mutual Information und Helix Plot berechnet mutual information ist ähnlich der relativen Entropie (Kullback-Leibler-Distanz) gibt an, wie viel Information eine zufällige Variable (hier Base) über eine andere enthält relative Entropie zwischen der gemeinsamen Verteilung fij(XY) und dem Produkt der einzelnen Verteilungen Johann-Wolfgang-Goethe Universität, Frankfurt am Main

Base-Pairing Score-Matrix B mutual Information: multiples Sequenz-Alignment von n Sequenzen liegt vor - fij(XY) gibt an wie oft man Base X an alignierter Position i findet, und Y an Position j - mutual-Information-Score zwischen Position i und j, also Mij wird so berechnet: Johann-Wolfgang-Goethe Universität, Frankfurt am Main

Base-Pairing Score-Matrix B Helix Plot Score: Helix Plots sind Mittelwerte von Basepair-Scores – sie kombinieren phylogenetische und thermodynamische Information für jede Sequenz im multiplen Alignment wird eine Score-Matrix erstellt indem Watson-Crick- oder Wobble-Basenpaare good-pair Scores bekommen (=1) und andere Basenpaare bad-pair Scores (=2) Penalty Scores für gaps (=3) für lange Helices gibt es Bonus Scores/ für zu kurze auch bad-pair Score alle Score-Matrizen werden addiert zu einer Score-Matrix Johann-Wolfgang-Goethe Universität, Frankfurt am Main

Base-Pairing Score-Matrix B mutual Information und Helix Plot Scores werden addiert um die Score-Matrix B zu generieren, die ILM schließlich nutzt: a und b sind relative Gewichtungen für mutual Information und Helix Plot Scores HPij ist Helix Plot Score eines potentiellen Basenpaares; N ist Anzahl der Sequenzen im Alignment Johann-Wolfgang-Goethe Universität, Frankfurt am Main

Base-Pairing Score-Matrix B Extended Helix Plot Scores: wenn nur eine einzige Sequenz statt eines Alignments vorliegt, und somit keine Covarianz dann kann es natürlich keine mutual Information (also wechselseitige Beziehung zwischen Sequenzen) geben und nur der Helix Plot Score ist nicht ausreichend somit wird hier noch die Faltungs-Thermodynamik der RNA miteinbezogen Johann-Wolfgang-Goethe Universität, Frankfurt am Main

Base-Pairing Score-Matrix B hier hängt der good-pair Score GPij vom Typ des Basenpaares ab (G-C 80, A-U 50, G-U 30) der Helix-Bonus BONUSij ist proportional zur Stacking-Energie der Helix: Johann-Wolfgang-Goethe Universität, Frankfurt am Main

Johann-Wolfgang-Goethe Universität, Frankfurt am Main Ergebnisse und Tests 2 Testreihen wurden durchgeführt: a) ILM und MWM-Algorithmus testen mit alignierten homologen Sequenzen, mit Kombination aus Helix Plot und mutual Information als Score b) die drei Algorithmen ILM, PKNOTS und MWM testen mit Menge von einzelnen Sequenzen; als Score Extended Helix Plot Sensitivität: TP/EP Genauigkeit: TP/(TP+FP) Johann-Wolfgang-Goethe Universität, Frankfurt am Main

Johann-Wolfgang-Goethe Universität, Frankfurt am Main Ergebnisse und Tests in 8 – 12 homologen Sequenzen identifiziert ILM mehr als 90% der Basenpaare in kurzen Sequenzen (<300nt), und in mittleren Sequenzen ca. 80% ILM sagte alle Pseudoknoten in alignierten Sequenzen korrekt voraus (nur ein weitreichender Pseudoknoten in rRNA verfehlt) Johann-Wolfgang-Goethe Universität, Frankfurt am Main

Johann-Wolfgang-Goethe Universität, Frankfurt am Main Ergebnisse und Tests ILM hat in der Menge von einzelnen Sequenzen alle Basenpaare (außer für TMV-3´-end) korrekt vorhergesagt; einen Pseudoknoten des TMV sowohl up- als auch down-stream nicht erkannt Johann-Wolfgang-Goethe Universität, Frankfurt am Main

Johann-Wolfgang-Goethe Universität, Frankfurt am Main Zusammenfassung der Iterated-Loop-Matching Algorithmus ist Erweiterung des LM-Algorithmus nach Nussinov basiert auf folgendem Prinzip: iteratives Vorhersagen einer nicht-pseudogeknoteten Struktur (Initialschritt), daraus Auswählen der wahrscheinlichsten Helix, diese aus Sequenz entfernen LM-Algorithmus wieder auf diese verkürzte Sequenz anwenden bis keine Basen mehr vorhanden sind oder keine Helices mehr gefunden werden Johann-Wolfgang-Goethe Universität, Frankfurt am Main

Vergleich der 3 Methoden Stochastisches Modellieren durch parallele Grammatiken : Vorhersage der Sekundärstruktur nur für eine Sequenz; für alle Typen an Pseudoknoten; Laufzeit O(n6) im worst case Graph-theoretischer Ansatz: Vorhersage der Sekundärstruktur nur für Alignment von Sequenzen; die worst case Laufzeit für maximale Clique/Path-Algorithmus liegt in NP Iterated Loop Matching: Vorhersage der Sekundärstruktur für Alignment von Sequenzen und für einzelne Sequenz; für alle Typen an Pseudoknoten; Laufzeit O(n4) im worst case Johann-Wolfgang-Goethe Universität, Frankfurt am Main