Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

Joanna WisniewskaSeminar: „Aktuelle Themen der Bioinformatik“SS 2005 Co-transcriptional folding is encoded within RNA genes Moments of the Boltzmann distribution.

Ähnliche Präsentationen


Präsentation zum Thema: "Joanna WisniewskaSeminar: „Aktuelle Themen der Bioinformatik“SS 2005 Co-transcriptional folding is encoded within RNA genes Moments of the Boltzmann distribution."—  Präsentation transkript:

1 Joanna WisniewskaSeminar: „Aktuelle Themen der Bioinformatik“SS 2005 Co-transcriptional folding is encoded within RNA genes Moments of the Boltzmann distribution for RNA secondary structures Joanna Wisniewska Seminar “Aktuelle Themen der Bioinformatik” SS 2005

2 Joanna WisniewskaSeminar: „Aktuelle Themen der Bioinformatik“SS 2005 Co-transcriptional folding is encoded within RNA genes Einleitung Fragestellung: „Ob und wie co-transkriptionelle Faltung in Primär- und Sekundärstruktur von RNA Sequenzen verschlüsselt ist“ „Hilft die RNA-Organisation der Entstehung der funktionalen Struktur während der Transkription“ Durch Menge Statistiken, die verschiedene Konkurrenzfälle innerhalb einer Sequenz zählen, untersuchen. Ergebnis:  unterdrücken von alternativen Helices, die in Konkurrenz mit der funktionalen Struktur stehen  fördern von transienten „guide“-Strukturen, die zur co- transkriptioneller Faltung führen

3 Joanna WisniewskaSeminar: „Aktuelle Themen der Bioinformatik“SS 2005 Co-transcriptional folding is encoded within RNA genes Background Biologische Grundlagen: Transkription: -gerichteter Prozess: 5`-Ende entsteht zuerst -kann mit unterschiedlicher Geschwindigkeit ablaufen  beeinflusst Faltungsweg und funktionelle Struktur -ob entstandene Struktur transient von Stabilität, ihrer Entstehungszeit und Konkurrenzsituation zu alternativen Strukturen abhängig RNA-Faltung: -co-transkriptionell  temporäre Sekundärstruktur Elemente -RNA kann zur korrekten Faltung anderer RNA beitragen

4 Joanna WisniewskaSeminar: „Aktuelle Themen der Bioinformatik“SS 2005 Co-transcriptional folding is encoded within RNA genes Struktur: -funktionale Struktur muss nicht Struktur mit minimaler freier Energie (mfe) sein, kann also auch eine temporäre sein -kinetische Struktur entsteht durch co-transkriptionelle / sequentielle Faltung Vermeiden von Miss-Faltungen: -durch RNA-Chaperone -sie setzten die kinetische Barriere zwischen korrekt und falsch gefalteten Strukturen herab -können Faltungsweg guiden oder korrekte Struktur stabilisieren Wenig bekannt, ob:  co-transkriptionelle Faltung durch spezifische oder nicht- spezifische Bindeproteine beherrscht wird  Primärstruktur selbst notwenige Eigenschaften übermittelt

5 Joanna WisniewskaSeminar: „Aktuelle Themen der Bioinformatik“SS 2005 Co-transcriptional folding is encoded within RNA genes allgemeines Beispiel für co-transkriptionelle Faltung: Anfang der Transkription: 2 Helices und Pseudoknoten (a) Sekundärstruktur wird kompaktgehalten (b)-(c) Gegen Ende der Transkription: Endstruktur- ähnlichekeiten (d)-(e) hairpin-Struktur als funktionale Struktur (f)

6 Joanna WisniewskaSeminar: „Aktuelle Themen der Bioinformatik“SS 2005 Co-transcriptional folding is encoded within RNA genes Konformationen, die den Statistiken entsprechen: RNA-Sequenz mit bekanntem Basenpaar iī in bekannter Sekundärstruktur Konkurrenzbase c, die potentiell eine Wasserstoffbrückenbindung mit Base i ausbilden kann  alternative Helices entstehen Base c kann vor dem bekannten Basenpaar liegen: 5`-Konformation Base c kann nach dem bekannten Basenpaar liegen: 3`-Konformation Cis: Base c ist zu Base i „benachbart“ Trans: Base c ist zu Base ī „benachbart“ 4 Ereignisse: 3´-cis, 5´-cis, 3´-trans und 5´-trans

7 Joanna WisniewskaSeminar: „Aktuelle Themen der Bioinformatik“SS 2005 Co-transcriptional folding is encoded within RNA genes gibt keinen Hinweis auf co- transkritionelle Faltung führt öfter zu falsch gefalteten Helices weist auf co-transkritionelle Faltung hin es entstehen weniger konkurrierende Helices liegt öfter als 5`-trans vor

8 Joanna WisniewskaSeminar: „Aktuelle Themen der Bioinformatik“SS 2005 Co-transcriptional folding is encoded within RNA genes führt zu transienten Helices  guiding pathway, der zur funktionellen Sekundärstruktur führt wird gefördert liegt öfter als 3`-cis vor schlechter pathway  wird unterdrückt

9 Joanna WisniewskaSeminar: „Aktuelle Themen der Bioinformatik“SS 2005 Co-transcriptional folding is encoded within RNA genes Ziel: Hypothese: „Keine co-transkriptionelle Faltung liegt vor“ soll verworfen werden. Weg: Kopplung von Statistiken, die auf bekannter Primär- und Sekundärstruktur der RNA-Sequenzen beruhe n  Paare von Statistiken bilden  messen Präsens von alternativen Helices, die mit bekannter Struktur um ein Basenpaar konkurrieren konkurrierende Alternativ-Helices über dynamische Programmierung bestimmen

10 Joanna WisniewskaSeminar: „Aktuelle Themen der Bioinformatik“SS 2005 Co-transcriptional folding is encoded within RNA genes An Hand von 2 Datenmengen: A: entspricht den original transkripierten Sequenzeinheiten B: unterscheiden sich von den original transkripierten Sequenzeinheiten, Menge sehr kurzer Sequenzen

11 Joanna WisniewskaSeminar: „Aktuelle Themen der Bioinformatik“SS 2005 Co-transcriptional folding is encoded within RNA genes Statistiken 2 Eigenschaften: 1)Unterdrücken von möglichen Konkurrenz-Helices 2)Fördern von temporären Guide-Helices H 0 : es liegt keine co-transkriptionelle Faltung vor Koppeln von mehreren Statistiken, mit gleichem unbekannten Erwartungswert im H 0 -Fall 1. hat gleiches Verhalten, auch wenn H 0 -Fall nicht vorliegt 2. verändert ihr Verhalten im Fall, dass H 0 nicht vorliegt Differenz zweier Statistiken: neue Statistik mit Erwartungswert gleich Null im H 0 -Fall

12 Joanna WisniewskaSeminar: „Aktuelle Themen der Bioinformatik“SS 2005 Co-transcriptional folding is encoded within RNA genes 2 Gewichtungen pro Ereignis: –plain p: 1 / ( d log (l) ) –free energy g:|G| / ( d log (l) ) l:Raum aller Möglichkeiten für Konkurrenzbase c Sub-String Länge bei 3`: vom 3´-Ende bis zur mittleren Base bei 5`: vom 5´-Ende bis zur mittleren Base d:Distanz zwischen c und i (cis) bzw. ī (trans)

13 Joanna WisniewskaSeminar: „Aktuelle Themen der Bioinformatik“SS 2005 Co-transcriptional folding is encoded within RNA genes d: Distanz zwischen ī und c l: Länge des Sequenzstücks vom 3´-Ende bis ī p: g: d: Distanz zwischen ī und c l: Länge des Sequenzstücks vom 5´-Ende bis ī p: g:

14 Joanna WisniewskaSeminar: „Aktuelle Themen der Bioinformatik“SS 2005 Co-transcriptional folding is encoded within RNA genes d: Distanz zwischen i und c l: Länge des Sequenzstücks vom 5´-Ende bis i p: g: d: Distanz zwischen i und c l: Länge des Sequenzstücks vom 3´-Ende bis i p: g:

15 Joanna WisniewskaSeminar: „Aktuelle Themen der Bioinformatik“SS 2005 Co-transcriptional folding is encoded within RNA genes 1/d: je weiter c von iī liegt, desto unwahrscheinlicher wird es, dass es zu ic kommt also: geht weniger in Statistik ein 1/log(l): je weiter c von iī liegt, desto unwahrscheinlicher wird es, dass es zu ic kommt, log (l) ist proportional zur erwarteten Summe von 1/d Statistik also: geht weniger in Statistik ein |G|: stabile Alternativ-Helices gehen mehr ein, wegen größerem Einfluss auf den Faltungsweg  fördern co-transkriptionelle Faltung

16 Joanna WisniewskaSeminar: „Aktuelle Themen der Bioinformatik“SS 2005 Co-transcriptional folding is encoded within RNA genes pro Sequenz: 8 skalare Werte pro Gewichtung:Cis = 5´-Cis – 3´-Cis Trans = 3´-Trans – 5´-Trans mit: 3`-Cis = 3`-cis 5`-Cis = 5`-cis 3`-Trans = 3`-trans 5`-Trans = 5`-trans

17 Joanna WisniewskaSeminar: „Aktuelle Themen der Bioinformatik“SS 2005 Co-transcriptional folding is encoded within RNA genes Falls H 0 zutrifft: positive Fälle sind binomial verteilt mit p = 0,5 und der Statistik mit Anzahl aller Fälle n Wert > 0  Hypothese H 0 verwerfen

18 Joanna WisniewskaSeminar: „Aktuelle Themen der Bioinformatik“SS 2005 Co-transcriptional folding is encoded within RNA genes Verteilung der Cis- und Trans-Werte:

19 Joanna WisniewskaSeminar: „Aktuelle Themen der Bioinformatik“SS 2005 Co-transcriptional folding is encoded within RNA genes Ergebnisse approximativ symmetrisch verteilt Daten A: Durchschnitt > 0  co-transkriptionelle Faltung Daten B: Durchschnitt = 0 oder kleiner  Hypothese nicht verworfen Durchschnittswerte der Statistiken:

20 Joanna WisniewskaSeminar: „Aktuelle Themen der Bioinformatik“SS 2005 Co-transcriptional folding is encoded within RNA genes Erklärung Cis > 0: - 5`-Cis > 3´-Cis -5`-Cis: ciī  transiente Helices, die Weg zur Endstruktur guiden (weniger stabil als diese) -3´-Cis: īic  wird unterdrückt, da īi dann schon gepaart ist, c entsteht erst später  Guiding durch temporäre Strukturen

21 Joanna WisniewskaSeminar: „Aktuelle Themen der Bioinformatik“SS 2005 Co-transcriptional folding is encoded within RNA genes Trans > 0: - 5´-Trans < 3´-Trans -5´-Trans: cīi  c und ī entstehen vor i, damit Konkurrenz und öfter falsche Helices -3´-Trans: iīc  c entsteht erst nach ī, damit weniger Miss- Faltungen  Unterdrücken von Konkurrenzstrukturen

22 Joanna WisniewskaSeminar: „Aktuelle Themen der Bioinformatik“SS 2005 Co-transcriptional folding is encoded within RNA genes 3´-Trans > 3´-Cis: - iīc > īic: falls H-Brücken-Bruch zwischen iī / īi kommt es bei 3´-Cis öfter zu falschen Helices  Stabilisierung der funktionalen Sekundärstruktur

23 Joanna WisniewskaSeminar: „Aktuelle Themen der Bioinformatik“SS 2005 Co-transcriptional folding is encoded within RNA genes t-test: für die Hypothese, dass die Statistik den Erwartungswert gleich Null hat p-Wert: der positiven Fälle der zwei co-transkriptionellen Faltungs- Indikatoren  Stimmt mit den Ergebnissen überein (p-Wert < 0,05: Verwerfen der Hypothese)

24 Joanna WisniewskaSeminar: „Aktuelle Themen der Bioinformatik“SS 2005 Co-transcriptional folding is encoded within RNA genes Erkenntnisse angemessene Transkriptionszeit hilft der korrekten RNA- Faltung funktionale Struktur muss nicht der mfe Struktur entsprechen Statistiken zeigen generelle Effekte, sind nicht mächtig genug für Aussagen für einzelne Sequenzen co-transkriptionalle Faltung: -„guiding principle“ -kann Primär- und Sekundärstruktur beeinflussen -kann in andere Algorithmen integriert werden -erklärt wie RNA faltet (warum Miss-Faltungen, Funktionsausfall usw.)

25 Joanna WisniewskaSeminar: „Aktuelle Themen der Bioinformatik“SS 2005 Moments of the Boltzmann distribution for RNA secondary structures

26 Joanna WisniewskaSeminar: „Aktuelle Themen der Bioinformatik“SS 2005 Moments of the Boltzmann distribution for RNA secondary structures Einleitung: RNA-Variance:  dynamisch programmierter Algorithmus  berechnet beliebige Momente der Boltzmann Verteilung (BV)  untersucht Unterschiede zwischen biologischen und random RNA Sequenzen  an hand von minimaler freier Energie Strukturen (mfe), Varianz der freien Energie der Strukturen und den Vergleich zwischen der mfe und der freien Energie der restlichen Strukturen

27 Joanna WisniewskaSeminar: „Aktuelle Themen der Bioinformatik“SS 2005 Moments of the Boltzmann distribution for RNA secondary structures Ergebnisse: Menge der biologischen Sequenzen von Menge random Sequenzen unterscheidbar bei einzelnen Sequenzen nicht erkennbar ob biologisch oder random biologische Sequenzen: kleinere Varianz der freien Energie mfe Struktur liegt nahe an erwarteter freien Energie der restlichen Strukturen

28 Joanna WisniewskaSeminar: „Aktuelle Themen der Bioinformatik“SS 2005 Moments of the Boltzmann distribution for RNA secondary structures  Biologisch funktionelle RNA Sequenz benötigt thermodynamisch stabile mfe Struktur und Menge von Strukturen mit einer freien Energie nahe an mfe

29 Joanna WisniewskaSeminar: „Aktuelle Themen der Bioinformatik“SS 2005 Moments of the Boltzmann distribution for RNA secondary structures Background: Biologische Grundlagen: null loop: „Fuß“ stacking-loop: aus 4 Basen mit 2 H-Brücken multi-loop: > 2 H- Brücken ohne bestimmte Anordnung bulge-loop: 2 H-Brücken mit der Entfernung einer kovalenten Bindung internal-loop: 2 H- Brücken hairpin loop: 1 H-Brücke

30 Joanna WisniewskaSeminar: „Aktuelle Themen der Bioinformatik“SS 2005 Moments of the Boltzmann distribution for RNA secondary structures Energie-Beiträge nach Sankoff‘s k-loop decomposition:  freie Energie einer Struktur ergibt sich aus der Summe der freien Energien der loops Problem: mfe Struktur finden Zu beachten: Anzahl möglicher Sekundärstrukturen wächst exponentiell mit Länge der RNA-Sequenz RNA Sekundärstrukturen vor allem durch Basenpaarung stabilisiert mfe hängt mehr von Verteilung benachbarter Nukleotidpaare ab, als von Wasserstoffbrücken komplementärer Nukleotide

31 Joanna WisniewskaSeminar: „Aktuelle Themen der Bioinformatik“SS 2005 Moments of the Boltzmann distribution for RNA secondary structures Daten: ohne Pseudo-Knoten sehr kurz: Nukleotide 3 Datenmengen: (1) precursor m i RNA: - einzelnes hairpin - nicht posttranskriptionell verändert - reife m i RNA hat keine ausgeprägte Sekundärstruktur  deutlicher Unterschied zu (2) und (3) (2) tRNA (3) rRNA (2) und (3): - mehrer posttranskriptionelle Veränderungen möglich - Sekundärstrukturveränderungen während biochemischer Reaktionen

32 Joanna WisniewskaSeminar: „Aktuelle Themen der Bioinformatik“SS 2005 Moments of the Boltzmann distribution for RNA secondary structures random Sequenzen: -zu jeder Menge korrespondierende random-Menge (500 RNA-Sequenzen) -gleiche Dinukleotid Statistik und Längenverteilung wie korrespondierende Menge -über Markov Ketten 1. Ordnung

33 Joanna WisniewskaSeminar: „Aktuelle Themen der Bioinformatik“SS 2005 Moments of the Boltzmann distribution for RNA secondary structures Bioinformatische Grundlagen: frühere Algorithmen: approximativ  Tinoco (1983):  Energiemodel für RNA-Faltung  molare freie Energie entspricht der Summe unabhängiger Beiträge von Basepaarungen und loop- Destabilisierungstermen  Nussinov (1980):  findet maximale Anzahl an Basenpaaren in einer Sequenz  dynamisch programmiert: polynomiale Zeit und Speicherplatz

34 Joanna WisniewskaSeminar: „Aktuelle Themen der Bioinformatik“SS 2005 Moments of the Boltzmann distribution for RNA secondary structures Falls i und j gepaart sind Ausgabe: P(1,n)  Struktur über traceback-Algorithmus rekonstruieren

35 Joanna WisniewskaSeminar: „Aktuelle Themen der Bioinformatik“SS 2005 Moments of the Boltzmann distribution for RNA secondary structures  Zuker-Sankoff (1983):  Vorhersage von mfe Strukturen  dynamisch programmiert: polynomiale Zeit und Speicherplatz  ungenaue Energie-Parameter  kein Einbeziehen von Tertiärstrukturen  in Biochemie liegt nicht nur mfe Struktur, sondern auch suboptimale Strukturen mit funktionellen Eigenschaften vor  kann falsche Vorhersagen liefern

36 Joanna WisniewskaSeminar: „Aktuelle Themen der Bioinformatik“SS 2005 Moments of the Boltzmann distribution for RNA secondary structures multi-loop hairpin loopstacking-loop internal-loop

37 Joanna WisniewskaSeminar: „Aktuelle Themen der Bioinformatik“SS 2005 Moments of the Boltzmann distribution for RNA secondary structures C ij, = min {H ij, C i+1,j+1 + Stacking i,i+1,j-1,j, min{C p,q + L i,p,q,j }, i+1q¬=j-1 min{F m i+1,k-1 + F M1 k,j-1 + a}} i+m+3

38 Joanna WisniewskaSeminar: „Aktuelle Themen der Bioinformatik“SS 2005 Moments of the Boltzmann distribution for RNA secondary structures dynamische Programmierung: es werden immer um ein Nukleotid längere Sub-Sequenzen betrachtet mfe der gesamten Sequenz ergibt sich aus: C 1,n Über traceback-Algorithmus durch die Matrizen ist die mfe Struktur bestimmbar

39 Joanna WisniewskaSeminar: „Aktuelle Themen der Bioinformatik“SS 2005 Moments of the Boltzmann distribution for RNA secondary structures  Zuker (1989).  Algorithmus, der mfe Struktur einer Sequenz mit vorgeschriebener fester Basenpaarung  Wuchty (1999):  alle möglichen Strukturen mit fallender freier Energie mit vorgeschriebenem Abstand zu mfe  nur kleines Intervall nahe an mfe wird beschrieben, wegen exponentiell wachsender Anzahl an suboptimalen Faltungen bei größerer Distanz zu mfe  Kein Algorithmus kann die Boltzmann Verteilung vollständig vorhersagen

40 Joanna WisniewskaSeminar: „Aktuelle Themen der Bioinformatik“SS 2005 Moments of the Boltzmann distribution for RNA secondary structures Boltzmann Verteilung (BV): Wahrscheinlichkeitsverteilung aus der statistischen Physik  kinetische Gastheorie statistische Verteilung der freien Energie von suboptimalen RNA-Strukturen exakte Wahrscheinlichkeit, dass einzelne RNA-Struktur eine bestimmte molare freie Energie hat, ist proportional zu – Verteilungsfunktion – dient als normierende Konstante – durch McCaskill-Algorithmus berechenbar (1990)

41 Joanna WisniewskaSeminar: „Aktuelle Themen der Bioinformatik“SS 2005 Moments of the Boltzmann distribution for RNA secondary structures Ziele: erwartete freie Energie berechnen Varianz der erwarteten freien Energie berechnen Vergleich von erwarteter freier Energie und mfe Wert Menge an biologischen und random Sequenzen unterscheiden

42 Joanna WisniewskaSeminar: „Aktuelle Themen der Bioinformatik“SS 2005 Moments of the Boltzmann distribution for RNA secondary structures Definitionen erwartete freie Energie Varianz S: Struktur der Sequenz L G(S): molare frei Energie einer Struktur S Z: Verteilungsfunktion der BV

43 Joanna WisniewskaSeminar: „Aktuelle Themen der Bioinformatik“SS 2005 Moments of the Boltzmann distribution for RNA secondary structures Algorithmus berechnet: folgert: -ist Variante des Wuchty-Algorithmus (mfe Berechnung) -benutzt McCaskill-Algorithmus um Verteilungsfunktion Z zu berechnen

44 Joanna WisniewskaSeminar: „Aktuelle Themen der Bioinformatik“SS 2005 Moments of the Boltzmann distribution for RNA secondary structures Wuchty-Algorithmus: Variante des Zuker-Sankoff-Algorithmus 3 verschiedene Funktionen zur Berechnung: initial, merge und choose function initial function: für Sub-Sequenz L i freie Energie G i für eine elementare Sekundärstruktur berechnen hairpin loop, bulge loop, internal loop, multi-loop, stacking loop oder null-loop

45 Joanna WisniewskaSeminar: „Aktuelle Themen der Bioinformatik“SS 2005 Moments of the Boltzmann distribution for RNA secondary structures merge function: aus zwei Substrukturen L i und L j mit deren mfes M i und M j, M ij der gemischten Sequenz berechnen (Summe der mfes) - Konkatenation - stacking loop-Erweiterung

46 Joanna WisniewskaSeminar: „Aktuelle Themen der Bioinformatik“SS 2005 Moments of the Boltzmann distribution for RNA secondary structures choose function: L i mit zwei konkurrierenden Sekundärstrukturen M i (a) und M i (b) das Minimum der beiden berechnen  kann zu Beschränkungen der Sekundärstruktur führen erstes und letztes Nukleotid soll gepaart werden  links: optimal, wenn stacking loop entstehen soll  rechts: optimal, wenn multi-loop entstehen soll

47 Joanna WisniewskaSeminar: „Aktuelle Themen der Bioinformatik“SS 2005 Moments of the Boltzmann distribution for RNA secondary structures um mfe Strukturen in polynomialer Zeit zu berechen: -Beschränkungen der Energie-Funktion zulassen -lineare Funktionen um multi-loop- / null-loop-Energien durch Hilfsvariablen berechnen (über initial function) Start: kurze Sub-Strukturen, wg. merge function immer längere ohne Beschränkungen der Energie-Funktion ist es nicht möglich die mfe Struktur in polynomialer Zeit zu berechnen mfe bekannt  mit traceback-Algorithmus mfe Struktur bestimmbar

48 Joanna WisniewskaSeminar: „Aktuelle Themen der Bioinformatik“SS 2005 Moments of the Boltzmann distribution for RNA secondary structures Wuchty-Variante des Zucker-Sankoff-Algorithmus: errechnet die mfe Sekundärstruktur (entspricht „Best structure“) betrachtet jede Struktur exakt ein mal

49 Joanna WisniewskaSeminar: „Aktuelle Themen der Bioinformatik“SS 2005 Moments of the Boltzmann distribution for RNA secondary structures McCaskill: Variante von Wuchty um Verteilungsfunktion Z zu berechnen statt freie Energien korrespondierende exponentielle Werte verwenden Änderungen: merge function: Multiplikation choose function: Addition

50 Joanna WisniewskaSeminar: „Aktuelle Themen der Bioinformatik“SS 2005 Moments of the Boltzmann distribution for RNA secondary structures Miklós-Meyer-Nagy: berechnet Variablen X und Y merge function: zwei Sub-Sequenzen L i und L j mischen  X =  Y =

51 Joanna WisniewskaSeminar: „Aktuelle Themen der Bioinformatik“SS 2005 Moments of the Boltzmann distribution for RNA secondary structures  Mit dem selben dynamisch programmierten Algorithmus -mfe M -Verteilungsfunktion Z -X -Y  also E B [G], V B [G] berechnen

52 Joanna WisniewskaSeminar: „Aktuelle Themen der Bioinformatik“SS 2005 Moments of the Boltzmann distribution for RNA secondary structures Eine Rekursion an hand der verschiedenen Funktionen berechen (Beispiel für mfe)

53 Joanna WisniewskaSeminar: „Aktuelle Themen der Bioinformatik“SS 2005 Moments of the Boltzmann distribution for RNA secondary structures Zusammenfassend

54 Joanna WisniewskaSeminar: „Aktuelle Themen der Bioinformatik“SS 2005 Moments of the Boltzmann distribution for RNA secondary structures Implementierung alle vier Variablen einer Sub-Sequenz werden innerhalb einer Traversierung der Schleife des Programms berechnet freie Energie Parameter nach MFOLD internal-loop Berechnung nach Lyngsø Zeit O(l 3 ) für eine Sequenz der Länge l Speicher O(l 2 ) für eine Sequenz der Länge l berücksichtigt keine Pseudo-Knoten

55 Joanna WisniewskaSeminar: „Aktuelle Themen der Bioinformatik“SS 2005 Moments of the Boltzmann distribution for RNA secondary structures Ergebnisse –pro Datenmenge: 4 Statistiken –pro Sequenz: M, Z, E B [G], V B [G] mfe M normiert zur Länge l i log der mfe-Struktur-Wahrscheinlichkeit Differenz zwischen mfe und erwarteter freien Energie, normiert zur Länge l i Der Erwartungswert der freien Energie-Verteilung: Varianz der BV

56 Joanna WisniewskaSeminar: „Aktuelle Themen der Bioinformatik“SS 2005 Moments of the Boltzmann distribution for RNA secondary structures Ergebnisse der m i RNA-Daten

57 Joanna WisniewskaSeminar: „Aktuelle Themen der Bioinformatik“SS 2005 Moments of the Boltzmann distribution for RNA secondary structures Ergebnisse der tRNA-Daten

58 Joanna WisniewskaSeminar: „Aktuelle Themen der Bioinformatik“SS 2005 Moments of the Boltzmann distribution for RNA secondary structures Qualitativ gleiches Verhalten, nur quantitative Unterschiede Biologische Sequenzen haben -kleinere mfe -größere Wahrscheinlichkeit für die mfe Struktur -kleiner Varianz der BV -kleinere Differenz zwischen mfe und erwarteter freier Energie...als random Sequenzen

59 Joanna WisniewskaSeminar: „Aktuelle Themen der Bioinformatik“SS 2005 Moments of the Boltzmann distribution for RNA secondary structures Erkenntnisse  nur Menge an biologischen Sequenzen von Menge von random Sequenzen unterscheidbar, nicht einzelnen Sequenzen  mfe Struktur wird von Natur aus nicht durch deutlich kleineren Wert als erwartete freie Energie hervorgehoben  Sekundärstrukturen mit einer freien Energie nahe an mfe Wert werden gefördert haben eigene funktionelle Rolle z. B. Ensemble-Bildung, dass zur Evolution neuer Strukturen mit biologischer Funktion führt  durch co-transkriptionelle Faltung entstehen temporäre Strukturen

60 Joanna WisniewskaSeminar: „Aktuelle Themen der Bioinformatik“SS 2005 Moments of the Boltzmann distribution for RNA secondary structures Zwei gegensätzliche Beschränkungen: Wahrscheinlichkeit für mfe Struktur soll maximiert werden: gewährleistet energetische Stabilität Differenz zwischen mfe und erwarteter freier Energie soll minimiert werden: sichert Funktionalität Dies steht in Konkurrenz, eventuell sind deshalb einzelne Sequenzen nicht in die Menge biologische oder random Sequenz einzuordnen.

61 Joanna WisniewskaSeminar: „Aktuelle Themen der Bioinformatik“SS 2005 Moments of the Boltzmann distribution for RNA secondary structures frühere Algorithmen: –BV nur approximativ bestimmbar –über Aufzählung suboptimaler Faltungen  sehr langsam hier: –Berechnung exakter Werte –nur konstant langsamer, nicht von Anzahl der suboptimalen Faltungen abhängig –einfacher Algorithmus –leicht erweiterbar: höhere Momente der BV berechnen –auch Pseudo-Knoten können integriert werden

62 Joanna WisniewskaSeminar: „Aktuelle Themen der Bioinformatik“SS 2005 Moments of the Boltzmann distribution for RNA secondary structures Andere Standard Techniken: über stochastische kontextfrei Grammatiken (SCFDs) –jeder Ableitungsbaum entspricht einer Sekundärstruktur einer RNA-Sequenz –Zuker-Tinoco und dynamisch programmiertem Algorithmus für SCFDs ähnlich, aber noch nicht ineinander überführt –Analogon zu diesem Algorithmus berechnet Momente der log-Wahrscheinlichkeiten der Ableitungsbäume einer Sequenz

63 Joanna WisniewskaSeminar: „Aktuelle Themen der Bioinformatik“SS 2005 Moments of the Boltzmann distribution for RNA secondary structures Offene Fragen:  Ist der Faltungsweg konservativ?  Können Faltungsinformationen für Struktur- und / oder Evolutions-Vorhersagen genutzt werden?  Können Faltungssimulationen entwickelt werden?


Herunterladen ppt "Joanna WisniewskaSeminar: „Aktuelle Themen der Bioinformatik“SS 2005 Co-transcriptional folding is encoded within RNA genes Moments of the Boltzmann distribution."

Ähnliche Präsentationen


Google-Anzeigen