Co-transcriptional folding is encoded within RNA genes

Slides:

Advertisements

Ähnliche Präsentationen

Algorithmen und Datenstrukturen

Advertisements

Matrixmultiplikation

Grundlagen des A*-Algorithmus und Anwendung in der Routenplanung

Schnelle Matrizenoperationen von Christian Büttner

Heute 1.F – Test zur Varianzhomogenität 2.Bartlett-Test zur Varianzhomogenität 3.Chi – Quadrat Tests für Häufigkeiten 4.Chi – Quadrat Tests zur Verteilungsanpassung.

3. Kapitel: Komplexität und Komplexitätsklassen

Forschungsstrategien Johannes Gutenberg Universität Mainz

Forschungsstatistik II Prof. Dr. G. Meinhardt SS 2005 Fachbereich Sozialwissenschaften, Psychologisches Institut Johannes Gutenberg Universität Mainz KLW-24.

Dynamische Programmierung (2) Matrixkettenprodukt

Vorlesung Informatik 2 Algorithmen und Datenstrukturen (19 - Analyse natürlicher Bäume) Prof. Th. Ottmann.

WS Algorithmentheorie 08 – Dynamische Programmierung (2) Matrixkettenprodukt Prof. Dr. Th. Ottmann.

Vorlesung Informatik 2 Algorithmen und Datenstrukturen (27 – Kürzeste Wege) Prof. Th. Ottmann.

1 Vorlesung Informatik 2 Algorithmen und Datenstrukturen (21 – Kürzeste Wege) T. Lauer.

Seminar parallele Programmierung SS 2003

Struktur und Funktion von Biopolymeren Elmar Lang

PG 520 Intelligence Service – gezielte Informationen aus dem Internet

Secondary Structure Prediction for Aligned RNA Sequences

Minimum Spanning Tree: MST

Vortrag: Ingo Gensch, Mathias Reich am:

Statistische Methoden II

Konfidenzintervalle Intervallschätzung

Konfidenzintervalle Intervallschätzung Jeder Beobachtung wird ein Intervall C( ) der reellen Zahlen zugeordnet Niveau Dabei ist die Wahrscheinlichkeit,

Klausurtermin (laut Prüfungsamt) Probeklausur Freitag, 13. Juni 2003 statt Vorlesung.

Statistische Methoden II SS 2003 Vorlesung:Prof. Dr. Michael Schürmann Zeit:Freitag (Pause: ) Ort:Hörsaal Loefflerstraße Übungen.

Maximum-Likelihood-Schätzer ( diskreter Fall) Likelihood-Funktion mit oder M-L-Schätzer.

Wiederholung und Beispiele

Eigenschaften der OLS-Schätzer

Multikollinearität Wann spricht man von Multikollinearität?

Effiziente Algorithmen

Ausgleichungsrechnung I

Ausgleichungsrechnung II

Effiziente Algorithmen

Effiziente Algorithmen

Abschlussvortrag zur Studienarbeit

Black Box Algorithmen Hartmut Klauck Universität Frankfurt SS

Effiziente Algorithmen Hartmut Klauck Universität Frankfurt SS

Effiziente Algorithmen

Effiziente Algorithmen

Black Box Algorithmen Hartmut Klauck Universität Frankfurt SS

Effiziente Algorithmen Hartmut Klauck Universität Frankfurt SS

Effiziente Algorithmen

Quantum Computing Hartmut Klauck Universität Frankfurt WS 05/

Black Box Algorithmen Hartmut Klauck Universität Frankfurt SS

Quantum Computing Hartmut Klauck Universität Frankfurt WS 05/ /23.1.

Effiziente Algorithmen Hartmut Klauck Universität Frankfurt SS

Effiziente Algorithmen

Effiziente Algorithmen Hartmut Klauck Universität Frankfurt SS

Hartmut Klauck Universität Frankfurt SS

Information und Kommunikation Hartmut Klauck Universität Frankfurt SS

Quantum Computing Hartmut Klauck Universität Frankfurt WS 04/

Information und Kommunikation Hartmut Klauck Universität Frankfurt SS

Die Entropie Maßzahl für die Wahrscheinlichkeit der Verteilung mikroskopischer Zustände.

Kapitel 16 Ökonometrische Modelle

Wahrscheinlichkeitsrechnung

Das Traveling Salesman Problem (TSP)

Statistik – Regression - Korrelation

Vom graphischen Differenzieren

Vergleich von RNA Strukturen A General Edit Distance between RNA Structures von Sebastian Juenemann.

Institut für Kartographie und Geoinformation Prof. Dr. Lutz Plümer Diskrete Mathematik II Foliendesign: Jörg Steinrücken & Tobias Kahn Vorlesung

Stochastik ganz kurz Beispiel diskret Würfelwurf Beispiel stetig

Routenplanung querfeldein - Geometric Route Planning

1/67 Johann-Wolfgang-Goethe Universität Frankfurt am Main Aktuelle Themen der Bioinformatik RNA-Sekundärstruktur- vorhersage mit Pseudoknots Johann-Wolfgang-Goethe.

K. Desch - Statistik und Datenanalyse SS05

Thema der Stunde I. Die Form der Stichprobenkennwerteverteilung

K. Desch - Statistik und Datenanalyse SS05

Der Wiener Prozess und seltene Ereignisse

Pointer. Grundsätzliches: Im Arbeitsspeicher werden Daten gespeichert. Um auf die Daten eindeutig zugreifen zu können, werden diesen Daten Adressen zugeordnet.

Programmiersprachen II Fortsetzung Datenstrukturen Balancierte Bäume 3 Prof. Dr. Reiner Güttler Fachbereich GIS HTW.

Independent Component Analysis: Analyse natürlicher Bilder Friedrich Rau.

Präsentation transkript:

Co-transcriptional folding is encoded within RNA genes Moments of the Boltzmann distribution for RNA secondary structures Joanna Wisniewska Seminar “Aktuelle Themen der Bioinformatik” SS 2005 joanna@wisniewski.net Joanna Wisniewska Seminar: „Aktuelle Themen der Bioinformatik“ SS 2005

Co-transcriptional folding is encoded within RNA genes Einleitung Fragestellung: „Ob und wie co-transkriptionelle Faltung in Primär- und Sekundärstruktur von RNA Sequenzen verschlüsselt ist“ „Hilft die RNA-Organisation der Entstehung der funktionalen Struktur während der Transkription“ Durch Menge Statistiken, die verschiedene Konkurrenzfälle innerhalb einer Sequenz zählen, untersuchen. Ergebnis:  unterdrücken von alternativen Helices, die in Konkurrenz mit der funktionalen Struktur stehen  fördern von transienten „guide“-Strukturen, die zur co-transkriptioneller Faltung führen Joanna Wisniewska Seminar: „Aktuelle Themen der Bioinformatik“ SS 2005

Co-transcriptional folding is encoded within RNA genes Background Biologische Grundlagen: Transkription: gerichteter Prozess: 5`-Ende entsteht zuerst kann mit unterschiedlicher Geschwindigkeit ablaufen beeinflusst Faltungsweg und funktionelle Struktur ob entstandene Struktur transient von Stabilität, ihrer Entstehungszeit und Konkurrenzsituation zu alternativen Strukturen abhängig RNA-Faltung: co-transkriptionell  temporäre Sekundärstruktur Elemente RNA kann zur korrekten Faltung anderer RNA beitragen Joanna Wisniewska Seminar: „Aktuelle Themen der Bioinformatik“ SS 2005

Co-transcriptional folding is encoded within RNA genes Struktur: funktionale Struktur muss nicht Struktur mit minimaler freier Energie (mfe) sein, kann also auch eine temporäre sein kinetische Struktur entsteht durch co-transkriptionelle / sequentielle Faltung Vermeiden von Miss-Faltungen: durch RNA-Chaperone sie setzten die kinetische Barriere zwischen korrekt und falsch gefalteten Strukturen herab können Faltungsweg guiden oder korrekte Struktur stabilisieren Wenig bekannt, ob: co-transkriptionelle Faltung durch spezifische oder nicht-spezifische Bindeproteine beherrscht wird Primärstruktur selbst notwenige Eigenschaften übermittelt Joanna Wisniewska Seminar: „Aktuelle Themen der Bioinformatik“ SS 2005

Co-transcriptional folding is encoded within RNA genes allgemeines Beispiel für co-transkriptionelle Faltung: Anfang der Transkription: 2 Helices und Pseudoknoten (a) Sekundärstruktur wird kompaktgehalten (b)-(c) Gegen Ende der Transkription: Endstruktur-ähnlichekeiten (d)-(e) hairpin-Struktur als funktionale Struktur (f) Joanna Wisniewska Seminar: „Aktuelle Themen der Bioinformatik“ SS 2005

Co-transcriptional folding is encoded within RNA genes Konformationen, die den Statistiken entsprechen: RNA-Sequenz mit bekanntem Basenpaar iī in bekannter Sekundärstruktur Konkurrenzbase c, die potentiell eine Wasserstoffbrückenbindung mit Base i ausbilden kann  alternative Helices entstehen Base c kann vor dem bekannten Basenpaar liegen: 5`-Konformation Base c kann nach dem bekannten Basenpaar liegen: 3`-Konformation Cis: Base c ist zu Base i „benachbart“ Trans: Base c ist zu Base ī „benachbart“ 4 Ereignisse: 3´-cis, 5´-cis, 3´-trans und 5´-trans Joanna Wisniewska Seminar: „Aktuelle Themen der Bioinformatik“ SS 2005

Co-transcriptional folding is encoded within RNA genes weist auf co-transkritionelle Faltung hin es entstehen weniger konkurrierende Helices liegt öfter als 5`-trans vor gibt keinen Hinweis auf co-transkritionelle Faltung führt öfter zu falsch gefalteten Helices Joanna Wisniewska Seminar: „Aktuelle Themen der Bioinformatik“ SS 2005

Co-transcriptional folding is encoded within RNA genes führt zu transienten Helices  guiding pathway, der zur funktionellen Sekundärstruktur führt wird gefördert liegt öfter als 3`-cis vor schlechter pathway  wird unterdrückt Joanna Wisniewska Seminar: „Aktuelle Themen der Bioinformatik“ SS 2005

Co-transcriptional folding is encoded within RNA genes Ziel: Hypothese: „Keine co-transkriptionelle Faltung liegt vor“ soll verworfen werden. Weg: Kopplung von Statistiken, die auf bekannter Primär- und Sekundärstruktur der RNA-Sequenzen beruhen  Paare von Statistiken bilden  messen Präsens von alternativen Helices, die mit bekannter Struktur um ein Basenpaar konkurrieren konkurrierende Alternativ-Helices über dynamische Programmierung bestimmen Joanna Wisniewska Seminar: „Aktuelle Themen der Bioinformatik“ SS 2005

Co-transcriptional folding is encoded within RNA genes An Hand von 2 Datenmengen: A: entspricht den original transkripierten Sequenzeinheiten B: unterscheiden sich von den original transkripierten Sequenzeinheiten, Menge sehr kurzer Sequenzen Joanna Wisniewska Seminar: „Aktuelle Themen der Bioinformatik“ SS 2005

Co-transcriptional folding is encoded within RNA genes Statistiken 2 Eigenschaften: Unterdrücken von möglichen Konkurrenz-Helices Fördern von temporären Guide-Helices H0: es liegt keine co-transkriptionelle Faltung vor Koppeln von mehreren Statistiken, mit gleichem unbekannten Erwartungswert im H0-Fall 1. hat gleiches Verhalten, auch wenn H0-Fall nicht vorliegt 2. verändert ihr Verhalten im Fall, dass H0 nicht vorliegt Differenz zweier Statistiken: neue Statistik mit Erwartungswert gleich Null im H0-Fall Joanna Wisniewska Seminar: „Aktuelle Themen der Bioinformatik“ SS 2005

Co-transcriptional folding is encoded within RNA genes 2 Gewichtungen pro Ereignis: plain p: 1 / ( d • log (l) ) free energy g: |G| / ( d • log (l) ) l: Raum aller Möglichkeiten für Konkurrenzbase c Sub-String Länge bei 3`: vom 3´-Ende bis zur mittleren Base bei 5`: vom 5´-Ende bis zur mittleren Base d: Distanz zwischen c und i (cis) bzw. ī (trans) Joanna Wisniewska Seminar: „Aktuelle Themen der Bioinformatik“ SS 2005

Co-transcriptional folding is encoded within RNA genes d: Distanz zwischen ī und c l: Länge des Sequenzstücks vom 3´-Ende bis ī p: g: d: Distanz zwischen ī und c l: Länge des Sequenzstücks vom 5´-Ende bis ī p: g: Joanna Wisniewska Seminar: „Aktuelle Themen der Bioinformatik“ SS 2005

Co-transcriptional folding is encoded within RNA genes d: Distanz zwischen i und c l: Länge des Sequenzstücks vom 5´-Ende bis i p: g: d: Distanz zwischen i und c l: Länge des Sequenzstücks vom 3´-Ende bis i p: g: Joanna Wisniewska Seminar: „Aktuelle Themen der Bioinformatik“ SS 2005

Co-transcriptional folding is encoded within RNA genes 1/d: je weiter c von iī liegt, desto unwahrscheinlicher wird es, dass es zu ic kommt also: geht weniger in Statistik ein 1/log(l): je weiter c von iī liegt, desto unwahrscheinlicher wird es, dass es zu ic kommt, log (l) ist proportional zur erwarteten Summe von 1/d Statistik |G|: stabile Alternativ-Helices gehen mehr ein, wegen größerem Einfluss auf den Faltungsweg  fördern co-transkriptionelle Faltung Joanna Wisniewska Seminar: „Aktuelle Themen der Bioinformatik“ SS 2005

Co-transcriptional folding is encoded within RNA genes pro Sequenz: 8 skalare Werte pro Gewichtung: Cis = 5´-Cis – 3´-Cis Trans = 3´-Trans – 5´-Trans mit: 3`-Cis = 3`-cis 5`-Cis = 5`-cis 3`-Trans = 3`-trans 5`-Trans = 5`-trans Joanna Wisniewska Seminar: „Aktuelle Themen der Bioinformatik“ SS 2005

Co-transcriptional folding is encoded within RNA genes Falls H0 zutrifft: positive Fälle sind binomial verteilt mit p = 0,5 und der Statistik mit Anzahl aller Fälle n Wert > 0  Hypothese H0 verwerfen Joanna Wisniewska Seminar: „Aktuelle Themen der Bioinformatik“ SS 2005

Co-transcriptional folding is encoded within RNA genes Verteilung der Cis- und Trans-Werte: Joanna Wisniewska Seminar: „Aktuelle Themen der Bioinformatik“ SS 2005

Co-transcriptional folding is encoded within RNA genes Ergebnisse approximativ symmetrisch verteilt Daten A: Durchschnitt > 0  co-transkriptionelle Faltung Daten B: Durchschnitt = 0 oder kleiner  Hypothese nicht verworfen Durchschnittswerte der Statistiken: Joanna Wisniewska Seminar: „Aktuelle Themen der Bioinformatik“ SS 2005

Co-transcriptional folding is encoded within RNA genes Erklärung Cis > 0: - 5`-Cis > 3´-Cis 5`-Cis: ciī  transiente Helices, die Weg zur Endstruktur guiden (weniger stabil als diese) 3´-Cis: īic  wird unterdrückt, da īi dann schon gepaart ist, c entsteht erst später  Guiding durch temporäre Strukturen Joanna Wisniewska Seminar: „Aktuelle Themen der Bioinformatik“ SS 2005

Co-transcriptional folding is encoded within RNA genes Trans > 0: - 5´-Trans < 3´-Trans 5´-Trans: cīi  c und ī entstehen vor i, damit Konkurrenz und öfter falsche Helices 3´-Trans: iīc  c entsteht erst nach ī, damit weniger Miss-Faltungen  Unterdrücken von Konkurrenzstrukturen Joanna Wisniewska Seminar: „Aktuelle Themen der Bioinformatik“ SS 2005

Co-transcriptional folding is encoded within RNA genes 3´-Trans > 3´-Cis: - iīc > īic: falls H-Brücken-Bruch zwischen iī / īi kommt es bei 3´-Cis öfter zu falschen Helices  Stabilisierung der funktionalen Sekundärstruktur Joanna Wisniewska Seminar: „Aktuelle Themen der Bioinformatik“ SS 2005

Co-transcriptional folding is encoded within RNA genes t-test: für die Hypothese, dass die Statistik den Erwartungswert gleich Null hat p-Wert: der positiven Fälle der zwei co-transkriptionellen Faltungs-Indikatoren  Stimmt mit den Ergebnissen überein (p-Wert < 0,05: Verwerfen der Hypothese) Joanna Wisniewska Seminar: „Aktuelle Themen der Bioinformatik“ SS 2005

Co-transcriptional folding is encoded within RNA genes Erkenntnisse angemessene Transkriptionszeit hilft der korrekten RNA-Faltung funktionale Struktur muss nicht der mfe Struktur entsprechen Statistiken zeigen generelle Effekte, sind nicht mächtig genug für Aussagen für einzelne Sequenzen co-transkriptionalle Faltung: „guiding principle“ kann Primär- und Sekundärstruktur beeinflussen kann in andere Algorithmen integriert werden erklärt wie RNA faltet (warum Miss-Faltungen, Funktionsausfall usw.) Joanna Wisniewska Seminar: „Aktuelle Themen der Bioinformatik“ SS 2005

Moments of the Boltzmann distribution for RNA secondary structures Joanna Wisniewska Seminar: „Aktuelle Themen der Bioinformatik“ SS 2005

Moments of the Boltzmann distribution for RNA secondary structures Einleitung: RNA-Variance:  dynamisch programmierter Algorithmus  berechnet beliebige Momente der Boltzmann Verteilung (BV)  untersucht Unterschiede zwischen biologischen und random RNA Sequenzen  an hand von minimaler freier Energie Strukturen (mfe), Varianz der freien Energie der Strukturen und den Vergleich zwischen der mfe und der freien Energie der restlichen Strukturen Joanna Wisniewska Seminar: „Aktuelle Themen der Bioinformatik“ SS 2005

Moments of the Boltzmann distribution for RNA secondary structures Ergebnisse: Menge der biologischen Sequenzen von Menge random Sequenzen unterscheidbar bei einzelnen Sequenzen nicht erkennbar ob biologisch oder random biologische Sequenzen: kleinere Varianz der freien Energie mfe Struktur liegt nahe an erwarteter freien Energie der restlichen Strukturen Joanna Wisniewska Seminar: „Aktuelle Themen der Bioinformatik“ SS 2005

Moments of the Boltzmann distribution for RNA secondary structures  Biologisch funktionelle RNA Sequenz benötigt thermodynamisch stabile mfe Struktur und Menge von Strukturen mit einer freien Energie nahe an mfe Joanna Wisniewska Seminar: „Aktuelle Themen der Bioinformatik“ SS 2005

Moments of the Boltzmann distribution for RNA secondary structures Background: Biologische Grundlagen: null loop: „Fuß“ stacking-loop: aus 4 Basen mit 2 H-Brücken multi-loop: > 2 H-Brücken ohne bestimmte Anordnung bulge-loop: 2 H-Brücken mit der Entfernung einer kovalenten Bindung internal-loop: 2 H-Brücken hairpin loop: 1 H-Brücke Joanna Wisniewska Seminar: „Aktuelle Themen der Bioinformatik“ SS 2005

Moments of the Boltzmann distribution for RNA secondary structures Energie-Beiträge nach Sankoff‘s k-loop decomposition:  freie Energie einer Struktur ergibt sich aus der Summe der freien Energien der loops Problem: mfe Struktur finden Zu beachten: Anzahl möglicher Sekundärstrukturen wächst exponentiell mit Länge der RNA-Sequenz RNA Sekundärstrukturen vor allem durch Basenpaarung stabilisiert mfe hängt mehr von Verteilung benachbarter Nukleotidpaare ab, als von Wasserstoffbrücken komplementärer Nukleotide Joanna Wisniewska Seminar: „Aktuelle Themen der Bioinformatik“ SS 2005

Moments of the Boltzmann distribution for RNA secondary structures Daten: ohne Pseudo-Knoten sehr kurz: 100-200 Nukleotide 3 Datenmengen: (1) precursor miRNA: - einzelnes hairpin - nicht posttranskriptionell verändert - reife miRNA hat keine ausgeprägte Sekundärstruktur deutlicher Unterschied zu (2) und (3) (2) tRNA (3) rRNA (2) und (3): - mehrer posttranskriptionelle Veränderungen möglich - Sekundärstrukturveränderungen während biochemischer Reaktionen Joanna Wisniewska Seminar: „Aktuelle Themen der Bioinformatik“ SS 2005

Moments of the Boltzmann distribution for RNA secondary structures random Sequenzen: zu jeder Menge korrespondierende random-Menge (500 RNA-Sequenzen) gleiche Dinukleotid Statistik und Längenverteilung wie korrespondierende Menge über Markov Ketten 1. Ordnung Joanna Wisniewska Seminar: „Aktuelle Themen der Bioinformatik“ SS 2005

Moments of the Boltzmann distribution for RNA secondary structures Bioinformatische Grundlagen: frühere Algorithmen: approximativ Tinoco (1983): Energiemodel für RNA-Faltung molare freie Energie entspricht der Summe unabhängiger Beiträge von Basepaarungen und loop-Destabilisierungstermen Nussinov (1980): findet maximale Anzahl an Basenpaaren in einer Sequenz dynamisch programmiert: polynomiale Zeit und Speicherplatz Joanna Wisniewska Seminar: „Aktuelle Themen der Bioinformatik“ SS 2005

Moments of the Boltzmann distribution for RNA secondary structures Falls i und j gepaart sind Ausgabe: P(1,n)  Struktur über traceback-Algorithmus rekonstruieren Joanna Wisniewska Seminar: „Aktuelle Themen der Bioinformatik“ SS 2005

Moments of the Boltzmann distribution for RNA secondary structures Zuker-Sankoff (1983): Vorhersage von mfe Strukturen dynamisch programmiert: polynomiale Zeit und Speicherplatz ungenaue Energie-Parameter kein Einbeziehen von Tertiärstrukturen in Biochemie liegt nicht nur mfe Struktur, sondern auch suboptimale Strukturen mit funktionellen Eigenschaften vor  kann falsche Vorhersagen liefern Joanna Wisniewska Seminar: „Aktuelle Themen der Bioinformatik“ SS 2005

Moments of the Boltzmann distribution for RNA secondary structures hairpin loop stacking-loop internal-loop multi-loop Joanna Wisniewska Seminar: „Aktuelle Themen der Bioinformatik“ SS 2005

Moments of the Boltzmann distribution for RNA secondary structures Cij,= min {Hij , Ci+1,j+1 + Stackingi,i+1,j-1,j , min{Cp,q + Li,p,q,j}, i+1<p<j-m-2 p+m+1<q<j-1 p=i+1=>q¬=j-1 min{Fmi+1,k-1 + FM1k,j-1 + a}} i+m+3<k<j-m-2 Ci,j: mfe der Sub-Sequenz (i,j) Hij: hairpin Energie Ci+1,j+1 + Stackingi,i+1,j-1,j: stacking-loop Energie min{Cp,q + Li,p,q,j}: internal-loop Energie min{Fmi+1,k-1 + FM1k,j-1 + a}: multi-loop Energie Joanna Wisniewska Seminar: „Aktuelle Themen der Bioinformatik“ SS 2005

Moments of the Boltzmann distribution for RNA secondary structures dynamische Programmierung: es werden immer um ein Nukleotid längere Sub-Sequenzen betrachtet mfe der gesamten Sequenz ergibt sich aus: C1,n Über traceback-Algorithmus durch die Matrizen ist die mfe Struktur bestimmbar Joanna Wisniewska Seminar: „Aktuelle Themen der Bioinformatik“ SS 2005

Moments of the Boltzmann distribution for RNA secondary structures Zuker (1989). Algorithmus, der mfe Struktur einer Sequenz mit vorgeschriebener fester Basenpaarung Wuchty (1999): alle möglichen Strukturen mit fallender freier Energie mit vorgeschriebenem Abstand zu mfe nur kleines Intervall nahe an mfe wird beschrieben, wegen exponentiell wachsender Anzahl an suboptimalen Faltungen bei größerer Distanz zu mfe  Kein Algorithmus kann die Boltzmann Verteilung vollständig vorhersagen Joanna Wisniewska Seminar: „Aktuelle Themen der Bioinformatik“ SS 2005

Moments of the Boltzmann distribution for RNA secondary structures Boltzmann Verteilung (BV): Wahrscheinlichkeitsverteilung aus der statistischen Physik  kinetische Gastheorie statistische Verteilung der freien Energie von suboptimalen RNA-Strukturen exakte Wahrscheinlichkeit, dass einzelne RNA-Struktur eine bestimmte molare freie Energie hat, ist proportional zu Verteilungsfunktion dient als normierende Konstante durch McCaskill-Algorithmus berechenbar (1990) Joanna Wisniewska Seminar: „Aktuelle Themen der Bioinformatik“ SS 2005

Moments of the Boltzmann distribution for RNA secondary structures Ziele: erwartete freie Energie berechnen Varianz der erwarteten freien Energie berechnen Vergleich von erwarteter freier Energie und mfe Wert Menge an biologischen und random Sequenzen unterscheiden Joanna Wisniewska Seminar: „Aktuelle Themen der Bioinformatik“ SS 2005

Moments of the Boltzmann distribution for RNA secondary structures Definitionen erwartete freie Energie Varianz S: Struktur der Sequenz L G(S): molare frei Energie einer Struktur S Z: Verteilungsfunktion der BV Joanna Wisniewska Seminar: „Aktuelle Themen der Bioinformatik“ SS 2005

Moments of the Boltzmann distribution for RNA secondary structures Algorithmus berechnet: folgert: ist Variante des Wuchty-Algorithmus (mfe Berechnung) benutzt McCaskill-Algorithmus um Verteilungsfunktion Z zu berechnen Joanna Wisniewska Seminar: „Aktuelle Themen der Bioinformatik“ SS 2005

Moments of the Boltzmann distribution for RNA secondary structures Wuchty-Algorithmus: Variante des Zuker-Sankoff-Algorithmus 3 verschiedene Funktionen zur Berechnung: initial, merge und choose function initial function: für Sub-Sequenz Li freie Energie Gi für eine elementare Sekundärstruktur berechnen hairpin loop, bulge loop, internal loop, multi-loop, stacking loop oder null-loop Joanna Wisniewska Seminar: „Aktuelle Themen der Bioinformatik“ SS 2005

Moments of the Boltzmann distribution for RNA secondary structures merge function: aus zwei Substrukturen Li und Lj mit deren mfes Mi und Mj, Mij der gemischten Sequenz berechnen (Summe der mfes) - Konkatenation - stacking loop-Erweiterung Joanna Wisniewska Seminar: „Aktuelle Themen der Bioinformatik“ SS 2005

Moments of the Boltzmann distribution for RNA secondary structures choose function: Li mit zwei konkurrierenden Sekundärstrukturen Mi(a) und Mi(b) das Minimum der beiden berechnen  kann zu Beschränkungen der Sekundärstruktur führen erstes und letztes Nukleotid soll gepaart werden  links: optimal, wenn stacking loop entstehen soll  rechts: optimal, wenn multi-loop entstehen soll Joanna Wisniewska Seminar: „Aktuelle Themen der Bioinformatik“ SS 2005

Moments of the Boltzmann distribution for RNA secondary structures um mfe Strukturen in polynomialer Zeit zu berechen: Beschränkungen der Energie-Funktion zulassen lineare Funktionen um multi-loop- / null-loop-Energien durch Hilfsvariablen berechnen (über initial function) Start: kurze Sub-Strukturen, wg. merge function immer längere ohne Beschränkungen der Energie-Funktion ist es nicht möglich die mfe Struktur in polynomialer Zeit zu berechnen mfe bekannt  mit traceback-Algorithmus mfe Struktur bestimmbar Joanna Wisniewska Seminar: „Aktuelle Themen der Bioinformatik“ SS 2005

Moments of the Boltzmann distribution for RNA secondary structures Wuchty-Variante des Zucker-Sankoff-Algorithmus: errechnet die mfe Sekundärstruktur (entspricht „Best structure“) betrachtet jede Struktur exakt ein mal Joanna Wisniewska Seminar: „Aktuelle Themen der Bioinformatik“ SS 2005

Moments of the Boltzmann distribution for RNA secondary structures McCaskill: Variante von Wuchty um Verteilungsfunktion Z zu berechnen statt freie Energien korrespondierende exponentielle Werte verwenden Änderungen: merge function: Multiplikation choose function: Addition Joanna Wisniewska Seminar: „Aktuelle Themen der Bioinformatik“ SS 2005

Moments of the Boltzmann distribution for RNA secondary structures Miklós-Meyer-Nagy: berechnet Variablen X und Y merge function: zwei Sub-Sequenzen Li und Lj mischen  X =  Y = Joanna Wisniewska Seminar: „Aktuelle Themen der Bioinformatik“ SS 2005

Moments of the Boltzmann distribution for RNA secondary structures Mit dem selben dynamisch programmierten Algorithmus mfe M Verteilungsfunktion Z X Y  also EB[G], VB[G] berechnen Joanna Wisniewska Seminar: „Aktuelle Themen der Bioinformatik“ SS 2005

Moments of the Boltzmann distribution for RNA secondary structures Eine Rekursion an hand der verschiedenen Funktionen berechen (Beispiel für mfe) Joanna Wisniewska Seminar: „Aktuelle Themen der Bioinformatik“ SS 2005

Moments of the Boltzmann distribution for RNA secondary structures Zusammenfassend Joanna Wisniewska Seminar: „Aktuelle Themen der Bioinformatik“ SS 2005

Moments of the Boltzmann distribution for RNA secondary structures Implementierung alle vier Variablen einer Sub-Sequenz werden innerhalb einer Traversierung der Schleife des Programms berechnet freie Energie Parameter nach MFOLD internal-loop Berechnung nach Lyngsø Zeit O(l3) für eine Sequenz der Länge l Speicher O(l2) für eine Sequenz der Länge l berücksichtigt keine Pseudo-Knoten Joanna Wisniewska Seminar: „Aktuelle Themen der Bioinformatik“ SS 2005

Moments of the Boltzmann distribution for RNA secondary structures Ergebnisse pro Datenmenge: 4 Statistiken pro Sequenz: M, Z, EB[G], VB[G] mfe M normiert zur Länge li log der mfe-Struktur-Wahrscheinlichkeit Differenz zwischen mfe und erwarteter freien Energie, normiert zur Länge li Der Erwartungswert der freien Energie-Verteilung: Varianz der BV Joanna Wisniewska Seminar: „Aktuelle Themen der Bioinformatik“ SS 2005

Moments of the Boltzmann distribution for RNA secondary structures Ergebnisse der miRNA-Daten Joanna Wisniewska Seminar: „Aktuelle Themen der Bioinformatik“ SS 2005

Moments of the Boltzmann distribution for RNA secondary structures Ergebnisse der tRNA-Daten Joanna Wisniewska Seminar: „Aktuelle Themen der Bioinformatik“ SS 2005

Moments of the Boltzmann distribution for RNA secondary structures Qualitativ gleiches Verhalten, nur quantitative Unterschiede Biologische Sequenzen haben kleinere mfe größere Wahrscheinlichkeit für die mfe Struktur kleiner Varianz der BV kleinere Differenz zwischen mfe und erwarteter freier Energie ...als random Sequenzen Joanna Wisniewska Seminar: „Aktuelle Themen der Bioinformatik“ SS 2005

Moments of the Boltzmann distribution for RNA secondary structures Erkenntnisse nur Menge an biologischen Sequenzen von Menge von random Sequenzen unterscheidbar, nicht einzelnen Sequenzen mfe Struktur wird von Natur aus nicht durch deutlich kleineren Wert als erwartete freie Energie hervorgehoben Sekundärstrukturen mit einer freien Energie nahe an mfe Wert werden gefördert haben eigene funktionelle Rolle z. B. Ensemble-Bildung, dass zur Evolution neuer Strukturen mit biologischer Funktion führt durch co-transkriptionelle Faltung entstehen temporäre Strukturen Joanna Wisniewska Seminar: „Aktuelle Themen der Bioinformatik“ SS 2005

Moments of the Boltzmann distribution for RNA secondary structures Zwei gegensätzliche Beschränkungen: Wahrscheinlichkeit für mfe Struktur soll maximiert werden: gewährleistet energetische Stabilität Differenz zwischen mfe und erwarteter freier Energie soll minimiert werden: sichert Funktionalität Dies steht in Konkurrenz, eventuell sind deshalb einzelne Sequenzen nicht in die Menge biologische oder random Sequenz einzuordnen. Joanna Wisniewska Seminar: „Aktuelle Themen der Bioinformatik“ SS 2005

Moments of the Boltzmann distribution for RNA secondary structures frühere Algorithmen: BV nur approximativ bestimmbar über Aufzählung suboptimaler Faltungen sehr langsam hier: Berechnung exakter Werte nur konstant langsamer, nicht von Anzahl der suboptimalen Faltungen abhängig einfacher Algorithmus leicht erweiterbar: höhere Momente der BV berechnen auch Pseudo-Knoten können integriert werden Joanna Wisniewska Seminar: „Aktuelle Themen der Bioinformatik“ SS 2005

Moments of the Boltzmann distribution for RNA secondary structures Andere Standard Techniken: über stochastische kontextfrei Grammatiken (SCFDs) jeder Ableitungsbaum entspricht einer Sekundärstruktur einer RNA-Sequenz Zuker-Tinoco und dynamisch programmiertem Algorithmus für SCFDs ähnlich, aber noch nicht ineinander überführt Analogon zu diesem Algorithmus berechnet Momente der log-Wahrscheinlichkeiten der Ableitungsbäume einer Sequenz Joanna Wisniewska Seminar: „Aktuelle Themen der Bioinformatik“ SS 2005

Moments of the Boltzmann distribution for RNA secondary structures Offene Fragen: Ist der Faltungsweg konservativ? Können Faltungsinformationen für Struktur- und / oder Evolutions-Vorhersagen genutzt werden? Können Faltungssimulationen entwickelt werden? Joanna Wisniewska Seminar: „Aktuelle Themen der Bioinformatik“ SS 2005