Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

R N A Falten & Finden. Volker Hähnke: RNA - Falten & Finden2 Übersicht: RNA falten  Sekundärstrukturen und Funktion  Algorithmus zur RNA-Faltung von.

Ähnliche Präsentationen


Präsentation zum Thema: "R N A Falten & Finden. Volker Hähnke: RNA - Falten & Finden2 Übersicht: RNA falten  Sekundärstrukturen und Funktion  Algorithmus zur RNA-Faltung von."—  Präsentation transkript:

1 R N A Falten & Finden

2 Volker Hähnke: RNA - Falten & Finden2 Übersicht: RNA falten  Sekundärstrukturen und Funktion  Algorithmus zur RNA-Faltung von Ding und Lawrence Grundidee Vorgehen Schritt 1 Vorgehen Schritt 2  Beispiele Leptomonas collosoma Bakteriophage Auswertung  Probability Profiling  Accessibility Plots  Samplegröße  Sfold RNA finden

3 Volker Hähnke: RNA - Falten & Finden3 Übersicht: RNA falten  Sekundärstrukturen und Funktion  Algorithmus zur RNA-Faltung von Ding und Lawrence Grundidee Vorgehen Schritt 1 Vorgehen Schritt 2  Beispiele Leptomonas collosoma Bakteriophage Auswertung  Probability Profiling  Accessibility Plots  Samplegröße  Sfold RNA finden

4 Volker Hähnke: RNA - Falten & Finden4 Sekundärstrukturen und deren Funktion Ständig wiederkehrende Motive in RNA-Struktur erkennbar RNA besteht hauptsächlich aus Kombinationen dieser Motive Achtung: keine Pseudoknoten berücksichtigt

5 Volker Hähnke: RNA - Falten & Finden5 Sekundärstrukturen und deren Funktion RNA-Sekundärstrukturen wichtig für:  Katalyse (Ribozyme)  RNA-Splicing  Regulation der Translation  Interaktionen zwischen Nucleinsäuren Sekundärstrukturen bestimmen auch die Tertiärstruktur  korrekte Sekundärstruktur wichtig für korrekte Tertiärstruktur  korrekte Sekundärstruktur wichtig für korrekte Funktion Strukturbestimmung experimentell schwierig  Besonders für langkettige Nucleinsäuren  rechnergestützte Strukturvorhersage extrem wichtig

6 Volker Hähnke: RNA - Falten & Finden6 Übersicht: RNA falten  Sekundärstrukturen und Funktion  Algorithmus zur RNA-Faltung von Ding und Lawrence Grundidee Vorgehen Schritt 1 Vorgehen Schritt 2  Beispiele Leptomonas collosoma Bakteriophage Auswertung  Probability Profiling  Accessibility Plots  Samplegröße  Sfold RNA finden

7 Volker Hähnke: RNA - Falten & Finden7 Algorithmus - Grundidee Annahme: Faltung nur in bestimmte Sekundärstrukturelemente Ansatz verfolgt Minimierung der freien Energie  Energie (U): Nimmt ab, wenn z.B. Bindungen ausgebildet werden  Entropie (S): Maß für die „Unordnung“ eines Systems Nimmt nach 2. Hauptsatz der Thermodynamik zu  Freie Energie (Helmholtz Energie, F): F = U – T*S Setzt Entropie und Energie in Beziehung

8 Volker Hähnke: RNA - Falten & Finden8 Algorithmus - Grundidee Algorithmus arbeitet in 2 Schritten:  Schritt 1: Untersucht bildbare Sekundärstrukturen der Sequenz (und ihre freie Energie) Errechnet „Zustandssummen“ für Teilsequenzen  Schritt 2: Errechnet mit Zustandssummen Gibbs-Boltzmann-Verteilung (Ws) der Strukturen Wählt zufällige Kombination von Sekundärstrukturen aus *********************************--______------_----_--_-_---- „Teilergebnisse“Sammlung von Basenpaaren Sekundärstruktur 1)2)

9 Volker Hähnke: RNA - Falten & Finden9 Algorithmus - Grundidee - Probleme freien Energie für Sekundärstrukturen nur approximiert  durch Änderungen andere Faltungen wahrscheinlicher Tertiärstruktur (und Effekte) unberücksichtigt Struktur mit minimaler freier Energie (MFE) muss nicht die reale sein  Realität suboptimal Aber: Algorithmus sucht nicht unbedingt die wahrscheinlichsten Teilstrukturen aus

10 Volker Hähnke: RNA - Falten & Finden10 Übersicht: RNA falten  Sekundärstrukturen und Funktion  Algorithmus zur RNA-Faltung von Ding und Lawrence Grundidee Vorgehen Schritt 1 Vorgehen Schritt 2  Beispiele Leptomonas collosoma Bakteriophage Auswertung  Probability Profiling  Accessibility Plots  Samplegröße  Sfold RNA finden

11 Volker Hähnke: RNA - Falten & Finden11 Algorithmus – Vorgehen (I) Berechnen der „Boltzmann-Statistik“ („Gibbs-Boltzmann-Verteilung“) einer Sekundärstruktur I für eine gegebene Sequenz S nach E(S, I): freie Energie der Sekundärstruktur für diese Sequenz R: Gaskonstante U: Zustandssumme aller zulässigen Sekundärstrukturen für S Bedeutung: Wahrscheinlichkeit einer bestimmten Sekundärstruktur für eine gegebene Sequenz unter Berücksichtigung aller möglichen Sekundärstrukturen

12 Volker Hähnke: RNA - Falten & Finden12 Algorithmus – Vorgehen (I) – Defs. n: Anzahl an Ribonukleotiden R ij : Teilsequenz von Nukleotid i bis Nukleotid j1 ≤ i,j ≤ n r k : Nukleotid an Position k, r k  {A, C, G, U} i ≤ k ≤ j I ij : Sekundärstruktur für R ij, r i und r j paaren eventuell IP ij : Sekundärstruktur für R ij, r i und r j paaren miteinander 5‘ 3‘ 1… i ….. j… n R ij …..

13 Volker Hähnke: RNA - Falten & Finden13 Algorithmus – Vorgehen (I) Zustandssummen für R ij : mit Sekundärstruktur I ij : mit Sekundärstruktur IP ij : (i und j gepaart) E(R ij, x):freie Energie der Sekundärstruktur x für R ij R: Gaskonstante T: 310,15 K Rekursive Berechnung durch Algo vom McCaskill Teilsequenz Sek.-Strt. Erinnerung: Benötigt in:

14 Volker Hähnke: RNA - Falten & Finden14 Algorithmus – Vorgehen (I) Berechnung der u(i, j) bzw. up(i, j)….. Mit u(1, n) kann Boltzmann-Verteilung (Ws) einer I 1n für R 1n berechnet werden Sek.-Strt.= S (Gesamtsequenz) Genutzt in Schritt 2

15 Volker Hähnke: RNA - Falten & Finden15 Übersicht: RNA falten  Sekundärstrukturen und Funktion  Algorithmus zur RNA-Faltung von Ding und Lawrence Grundidee Vorgehen Schritt 1 Vorgehen Schritt 2  Beispiele Leptomonas collosoma Bakteriophage Auswertung  Probability Profiling  Accessibility Plots  Samplegröße  Sfold RNA finden

16 Volker Hähnke: RNA - Falten & Finden16 Algorithmus – Vorgehen (II) R ij kann 5 verschiedene Zustände annehmen: 5‘ 3‘ 1… i ….. j… n R ij …..

17 Volker Hähnke: RNA - Falten & Finden17 Algorithmus – Vorgehen (II) – nötige Variablen(1) Ws, eine dieser 5 Möglichkeiten zu wählen (unbekannt, ob r i und r j paaren): Strafe für Paarung AC bzw. GU freie Energie für dangling 5‘ freie Energie für dangling 3‘ Array mit zuvor berechneten Variablen Zuerst h variieren, dann zu den Positionen von h l verändern

18 Volker Hähnke: RNA - Falten & Finden18 Algorithmus – Vorgehen (II) – nötige Variablen(2) Bekannt, dass r i und r j paaren  Ws für die 5 möglichen Strukturen: freie Energie eines Hairpin geschlossen von r i und r j freie Energie des Stacking-Bp r i und r j freie Energie eines Bulge bzw. Interior Loop Möglichkeiten, zwischen h und l einen Bulge bzw. Interior Loop zu sampeln

19 Volker Hähnke: RNA - Falten & Finden19 Algorithmus – Vorgehen (II) Sampeln:  berechne die Struktur-Ws für R ij (mit den u(i,j) aus Schritt 1)  wähle über eine Zufallsvariable gemäß den berechneten Wahrscheinlichkeiten eine Möglichkeit Benutzt zwei Stacks  A: verwaltet Tupel (i, j, I) (noch zu faltendes Teilstück) Sequenz von Nukleotid i bis j I = 1: Nukeotid i und j bilden eine Bindung aus; I = 0: unbekannt, ob i und j paaren  B: Wird durch Algorithmus gefüllt sammelt Basenpaare und ungepaarte Basen  enthält nötige Informationen für Sekundärstruktur Startzustand:  A enthält (1, n, 0) 0 1

20 Volker Hähnke: RNA - Falten & Finden20 Algorithmus – Vorgehen (II) 1)Start mit R 1n (also (1, n, 0) auf Stack A), Paarung nicht bekannt  bilde die P 0, P ij, {P hi }, {P il }, {P s1h } für i = 1, j = n; wähle eine Möglichkeit Mögliche Ergebnisse: A: ungefaltete BereicheB: Bindungsbeziehungen Erinnerung: I = 0 Keine Paarung, füge ungepaarte Basen von 1 bis n in Stack B ein (1, n, 1) in Stack A einfügen (h, n, 1) in Stack A einfügen ungepaarte Basen 1 bis (h-1) in Stack B einfügen (1, l, 1) & (l+1, n, 0) in Stack A einfügen (h, l, 1) & (l+1, n, 0) in Stack A einfügen Ungepaarte Basen von 1 bis (h-1) in Stack B einfügen

21 Volker Hähnke: RNA - Falten & Finden21 Algorithmus – Vorgehen (II) Füge die ungepaarten Basen in Stack B ein Füge das schließende Basenpaar in Stack B ein Nimm neues Tupel von Stack A Füge das Basenpaar ij in Stack B ein Füge (i+1, j-1, 1) in Stack A ein Nimm neues Tupel von Stack A Berechne die Q hlBI, i < h,l, < j Füge Basenpaar ij und ungepaarte Basen des Loops in Stack B ein Füge (h, l, 1) in Stack A ein Nimm neues Tupel von Stack A 2)Nimm nächstes Tupel (i, j, I) für R ij von Stack A a) I = 0: verfahre wie im letzten Schritt: berechne die P -- b) I = 1: i und j paaren, betrachte die Q ijH, Q ijS, Q ijBI, Q ijM A: ungefaltete BereicheB: Bindungsbeziehungen Erinnerung:

22 Volker Hähnke: RNA - Falten & Finden22 Algorithmus – Vorgehen (II) ….. 1) Sampel das erste innere Basenpaar (bilde die P --, wähle Möglichkeit, verfahre entsprechend) 2) Sampel das nächste Basenpaar 3) Wiederhole 2, bis alle abgearbeitet Nimm neues Tupel von Stack A

23 Volker Hähnke: RNA - Falten & Finden23 Algorithmus – Vorgehen(II) Sampling im Überblick: Schritt 1 nimm (i, j, I) von A Sampel Basenpaar I = 0 Sampel Loop I = 1 Möglichkeiten der Paarbildung bestimmt Für jedes Basenpaar innerhalb des MB-Loop Struktur bestimmt, zu der Basenpaar zugehörig ist Stack AStack B Stack A leer?

24 Volker Hähnke: RNA - Falten & Finden24 Algorithmus – Vorgehen(II) Samling-Schritt arbeitet, bis Stack A leer ist Stack B enthält Angaben über Paarungen der n Basen in R 1n  1 Sekundärstruktur Wahrscheinlichkeit eines Struktur nimmt exponentiell mit wachsender freier Energie ab (bedingt durch Boltzmann-Verteilung):  Mit hoher Wahrscheinlichkeit: optimale MFE  Mit relativ hoher Wahrscheinlichkeit: gute (suboptimale) MFE  Mit geringer Wahrscheinlichkeit: schlechte MFE Sinnvoll: Sampling-Schritt mehrfach ablaufen lassen  statistisch repräsentatives Ergebnis „Konsensus“-Struktur

25 Volker Hähnke: RNA - Falten & Finden25 Übersicht: RNA falten  Sekundärstrukturen und Funktion  Algorithmus zur RNA-Faltung von Ding und Lawrence Grundidee Vorgehen Schritt 1 Vorgehen Schritt 2  Beispiele Leptomonas collosoma Bakteriophage Auswertung  Probability Profiling  Accessibility Plots  Samplegröße  Sfold RNA finden

26 Volker Hähnke: RNA - Falten & Finden26 Beispiele – Leptomonas collosoma Faltung der „spliced leader“ RNA (SL RNA) von L. collosoma  56 nt lang  2 Sekundärstrukturen identifiziert (Funktion unbekannt) Vorgehen:  Mit Schritt 1 die Ws der Substrukturen berechnet  1000 mal gesampelt  Entstandene Sekundärstrukturen verglichen Ergebnis:  2 generelle Klassen  Klasse 1 mit 3 Unterklassen (A, B, C)  Klasse 2 mit 2 Unterklassen (A, B)

27 Volker Hähnke: RNA - Falten & Finden27 Beispiele – Leptomonas collosoma Klasse 1: Alle Unterklassen mit 2 identischen Helices  1:  2: Quadratgröße = Häufigkeit der Basenpaare in Samples mfold(3.1)-Struktur  MFE-Struktur Weitere 2 Helices gemeinsam Unterschied in Hairpin

28 Volker Hähnke: RNA - Falten & Finden28 Beispiele – Leptomonas collosoma Klasse 2: Unterklassen erneut mit 2 identischen Helices  Unterklasse B mit zusätzlichem Stem am 5‘-Ende Quadratgröße = Häufigkeit der Basenpaare in Samples

29 Volker Hähnke: RNA - Falten & Finden29 Beispiele – Leptomonas collosoma Repräsentanten der Klasse 1: mfold(3.1)-Struktur  MFE-Struktur Bis auf Fehlen der kurzen Helix mit mfold-Struktur identisch identisch Experimentell bestimmte Faltungsart 1

30 Volker Hähnke: RNA - Falten & Finden30 Beispiele – Leptomonas collosoma Repräsentanten der Klasse 2: Experimentell bestimmte Faltungsart 2 identisch

31 Volker Hähnke: RNA - Falten & Finden31 Beispiele – Leptomonas collosoma Gesamtübersicht Häufigkeiten der Klassen und deren Repräsentanten Tatsächliche Faltungsart 1  Tatsächliche Strukturen mit geringer Ws mfold-Struktur (MFE) Leicht veränderte mfold-Struktur (suboptimale MFE) Tatsächliche Faltungsart 2

32 Volker Hähnke: RNA - Falten & Finden32 Übersicht: RNA falten  Sekundärstrukturen und Funktion  Algorithmus zur RNA-Faltung von Ding und Lawrence Grundidee Vorgehen Schritt 1 Vorgehen Schritt 2  Beispiele Leptomonas collosoma Bakteriophage Auswertung  Probability Profiling  Accessibility Plots  Samplegröße  Sfold RNA finden

33 Volker Hähnke: RNA - Falten & Finden33 Beispiele – Bakteriophage Zwischen-Ergebnis aus Tests mit L. collosoma: Algo erzeugt viele alternative Strukturen Weitere Untersuchung mit Vorhersage von mRNA-Strukturen Charakteristische Bereiche der cIII-mRNA des Bakteriophagen :  das Startcodon (AUG)(0 bis 3)  die Shine-Dalgarno-Sequenz (-13 bis -7)nötig zur Translationsinitiierung Kommt in 2 Konformationen vor Vorgehen:  Sampling-Schritt 100 mal wiederholt  Die 100 erzeugten Strukturen von Hand betrachtet und charakterisiert

34 Volker Hähnke: RNA - Falten & Finden34 Beispiele – Bakteriophage Struktur A: Shine-Dalgarno-Sequenz und Startcodon in Sekundärstrukturenkeine Translation Struktur B: Shine-Dalgarno-Sequenz und Startcodon zugänglich Translation möglich rightmost stem leftmost stem middle stem

35 Volker Hähnke: RNA - Falten & Finden35 Beispiele – Bakteriophage Ergebnis des Samplings:  89/100 Strukturen leichte Variationen von Struktur A leftmost-Stem in 67/89 exakt vorhergesagt rightmost-Stem in 72/89 nahezu exakt vorhergesagt (gelegentlich 2 zusätzliche Paare)  3/100 Strukturen Variationen von Struktur B zusätzliche Helix in SD-Sequenz enthalten  8 Strukturen, die weder an A noch an B erinnern rightmost stem leftmost stem middle stem

36 Volker Hähnke: RNA - Falten & Finden36 Übersicht: RNA falten  Sekundärstrukturen und Funktion  Algorithmus zur RNA-Faltung von Ding und Lawrence Grundidee Vorgehen Schritt 1 Vorgehen Schritt 2  Beispiele Leptomonas collosoma Bakteriophage Auswertung  Probability Profiling  Accessibility Plots  Samplegröße  Sfold RNA finden

37 Volker Hähnke: RNA - Falten & Finden37 Beispiele - Auswertung Algorithmus erzeugt leicht suboptimale Faltungen, die nahe der MFE liegen ABER: suboptimale Faltung ist nicht gleich tatsächlicher (suboptimaler) Faltung Erklärung der Autoren: unbekannte Einflüsse der Tertiärstruktur für verantwortlich für Stabilität Besser geeignet zur Faltung von mRNA als für funktionelle RNA (z.B. spliced leader)

38 Volker Hähnke: RNA - Falten & Finden38 Übersicht: RNA falten  Sekundärstrukturen und Funktion  Algorithmus zur RNA-Faltung von Ding und Lawrence Grundidee Vorgehen Schritt 1 Vorgehen Schritt 2  Beispiele Leptomonas collosoma Bakteriophage Auswertung  Probability Profiling  Accessibility Plots  Samplegröße  Sfold RNA finden

39 Volker Hähnke: RNA - Falten & Finden39 Probability Profiling Einzelsträngige (ungepaarte) RNA-Regionen interagieren potentiell mit  DNA  RNA  Proteinen (z.B. in Translation) Vorhersage dieser „accessible sites“ mit dem Sampling-Teil des Algorithmus  Erstellen von „Probability Profiles“ (Diagramme) der Weite W (in Nukleotiden)  An Position i wird die Ws aufgetragen, dass die Nukleotide i bis i+(W-1) ungepaart sind (ergibt sich aus Multiplikation der Einzelwahrscheinlichkeiten (aus Statistik))  Zum Vergleich: ss-count; Statistik, in wieviel Prozent aller erzeugten Faltungen Base i ungepaart war

40 Volker Hähnke: RNA - Falten & Finden40 Probability Profiling - Beispiel mRNA Homo sapiens  -Glutamyl-Hydrolase  Nukleotide 0 – 60

41 Volker Hähnke: RNA - Falten & Finden41 Probability Profiling - Beispiel mRNA Homo sapiens  -Glutamyl-Hydrolase  Nukleotide 1261 – 1322

42 Volker Hähnke: RNA - Falten & Finden42 Probability Profiling - Ergebnis MFE-Struktur gibt für Vorhersage von „accessible sites“ keine Hinweise  Da nur 1 Struktur die MFE-Struktur ist  Binäre Entscheidung: in 1 Struktur ist Base in Basenpaar oder nicht ss-count: betrachtet nur Statistik eines Nukleotids, keine Aussage über nachfolgende Probability Profile: verlässlichste Aussage der 3 Möglichkeiten  da Ws der nachfolgenden Paarungen berücksichtigt

43 Volker Hähnke: RNA - Falten & Finden43 Probability Profiling für Loops Bisher nur berücksichtig ob gepaart oder ungepaart Sampling-Schritt gibt aber mit zurück, in welchem Loop-Typ sie enthalten sind  Probability Profiling für bestimmte Loops möglich

44 Volker Hähnke: RNA - Falten & Finden44 Probability Profiling für Loops Loop-Probability-Profiles für Escherichia coli Alanin-tRNA HairpinBulge InternalMulti Kleeblattstruktur der tRNA Multi External Enthält keine Bulges oder Internal Loops  dort keine Peaks „dangling“-3‘-Ende aus Nukleotiden 16% der gesampelten Strukturen haben einen einzelsträngigen Bereich, der zwei gefaltete Domänen vebrindet

45 Volker Hähnke: RNA - Falten & Finden45 Probability Profiling für Loops Weitere Bedeutung des Hairpin-Loop-Profiles:  Höchster Peak  konserviertester Loop  HPlot-Ws der Basen des Anticodon-Loops: G34:0,968 G35:0,961 C36:0,962  Selbst wenn sich die restliches Struktur nicht zum Kleeblatt faltet, bleibt diese „accessible site“ erhalten Untersuchung weiterer tRNAs interessant, aber schwierig, da modifizierte Basen vorhanden

46 Volker Hähnke: RNA - Falten & Finden46 Übersicht: RNA falten  Sekundärstrukturen und Funktion  Algorithmus zur RNA-Faltung von Ding und Lawrence Grundidee Vorgehen Schritt 1 Vorgehen Schritt 2  Beispiele Leptomonas collosoma Bakteriophage Auswertung  Probability Profiling  Accessibility Plots  Samplegröße  Sfold RNA finden

47 Volker Hähnke: RNA - Falten & Finden47 Probability Profiling für Accessibility Plots Probability Profiles geben Differenzierung zwischen gebunden / einzelsträngig Nucleinsäuren müssen einzelsträngig sein, um zu interagieren Probability Profiles überlagern, um Interaktion vorherzusagen Target: Homo sapiens  - Glutamyl-Hydrolase mRNA Antisense: insgesamt 1233 nt Gute Zugänglichkeit zwischen 730 und 750 (target) Zugängliche Bereiche müssen nicht an gleichen Stellen liegen Sollten aber gleich lang sein

48 Volker Hähnke: RNA - Falten & Finden48 Übersicht: RNA falten  Sekundärstrukturen und Funktion  Algorithmus zur RNA-Faltung von Ding und Lawrence Grundidee Vorgehen Schritt 1 Vorgehen Schritt 2  Beispiele Leptomonas collosoma Bakteriophage Auswertung  Probability Profiling  Accessibility Plots  Samplegröße  Sfold RNA finden

49 Volker Hähnke: RNA - Falten & Finden49 Sampelgröße Standardgröße: 1000 – repräsentativ! Beispiel: Homo sapiens  -Glutamyl-Hydrolase mRNA  1187 nt  ~ Sekundärstrukturen (Vergleich: ~10 80 Atome im Universum)  2 Sammlungen von 1000 Samples erstellt  Für jede Sammlung ein Histogramm erstellt Histogramme sind identisch  Probability Profiles erstellt: nahezu deckungsgleich  Aber: keine einzige Struktur kommt doppelt vor

50 Volker Hähnke: RNA - Falten & Finden50 Samplegröße - Histogramme

51 Volker Hähnke: RNA - Falten & Finden51 Samplegröße - Probability Profiles

52 Volker Hähnke: RNA - Falten & Finden52 Übersicht: RNA falten  Sekundärstrukturen und Funktion  Algorithmus zur RNA-Faltung von Ding und Lawrence Grundidee Vorgehen Schritt 1 Vorgehen Schritt 2  Beispiele Leptomonas collosoma Bakteriophage Auswertung  Probability Profiling  Accessibility Plots  Samplegröße  Sfold RNA finden

53 Volker Hähnke: RNA - Falten & Finden53 Sfold Algorithmus integriert in Paket Sfold Erhältlich z.B. über sfold.wadsworth.org Laufzeit des Algo: O(n³)  Vergleich: Eddy/Rivas:O(n 6 ) Reeder/Giegerich:O(n 4 ) Aber dafür mit Pseudoknoten SequenzLänge (nt)Zeit (sek)Speicher (MB) E. coli tRNA Ala 761,4814,6 H. sapiens BCRP mRNA ,86149,2 H. sapiens ESR mRNA ,25969,1 Vergleich von Rechenzeit und Speicherverbrauch beim Berechnen der Zustandssummen und anschließendem Sampeln von 1000 Strukturen

54 Volker Hähnke: RNA - Falten & Finden54 Übersicht: RNA falten RNA finden  Motivation und Ansätze  Modelle Prinzip Parameterschätzung Piktogramme  Algorithmus  Tests und Ergebnisse  Verbesserungen

55 Volker Hähnke: RNA - Falten & Finden55 Übersicht: RNA falten RNA finden  Motivation und Ansätze  Modelle Prinzip Parameterschätzung Piktogramme  Algorithmus  Tests und Ergebnisse  Verbesserungen

56 Volker Hähnke: RNA - Falten & Finden56 Motivation & Ansätze Gefaltete RNA funktionell bedeutsam  Steuerung der eigenen Translation  Funktion als tRNA  Ribozyme Nicht alle RNA wird wie mRNA translatiert Nicht alle Gene auf DNA codieren für Proteine Einige kodieren auch für funktionelle nicht kodierende RNA (ncRNA) Ziel: Gene auf DNA erkennen, die für ncRNA kodieren Problem: entsprechende Gene bisher nicht einheitlich charakterisierbar

57 Volker Hähnke: RNA - Falten & Finden57 Motivation & Ansätze Maizel 1988:  Sekundärstruktur bestimmt Funktion  Funktionelle RNA muss also stabile Sekundärstruktur haben  Stabil = Minimum der freien Energie  Ergebnis Faltungsvorhersage weniger divers  Ergebnisse enttäuschend Badger & Olsen 1999:  Anderes Gebiet: Identifizierung von codierenden Regionen in Bakterien  Arbeitet mit Alignments von Sequenzen  Nutzen BLASTN um Sequenzidentität zwischen 2 Species zu bestimmen  Programm CRITICA untersucht Mutationsmuster der gaplosen Bereiche Mutationen, die AS nicht verändern (synonym): + Score Mutationen, die AS verändern:- Score

58 Volker Hähnke: RNA - Falten & Finden58 Motivation & Ansätze Rivas & Eddy 2001:  Aufbauend auf Idee von Badger & Olsen  Erweiterungen:Probabilistisches Modell (Aussage mit Ws) dritter zusätzlicher Zustand (funktionelle RNA) Alignments mit Gaps zugelassen Alignment nur teilweise relevant (irrelevante Flanken möglich)  Ziel: gegebene Sequenz klassifizieren in Kodierend für Proteine kodierend für ncRNA Andere Bereiche  Ansatz findet ncRNA mit konservierter Struktur – Probleme: Manche bekannte ncRNA-Gene nicht konserviert Manche konservierte Bereiche nicht ncRNA-Gene „ncRNA-Gen“ beschreibt Bereich mit konservierter Struktur, Funktionalität muss untersucht werden

59 Volker Hähnke: RNA - Falten & Finden59 Motivation & Ansätze Eingabe eines Alignments zweier verwandter Genome (DNA-Sequenzen) Analyse der beobachteten Mutationen  Kodierend: Synonyme Mutationen (gleiche AS kodiert)  Funktionell: kompensierend, Struktur erhalten  Keins: zufällige Mutation Analyse:  Jeder Fall 1 Modell, das entsprechende Sequenzen baut  „Nachbau“ des Alignments mit den 3 Modellen  Ausgabe der Ws, dass Alignment einem Modell enstpringt  Modell mit höchster Ws gewinnt AGTGCTAGCT GATGCTAGCT ncRNA?

60 Volker Hähnke: RNA - Falten & Finden60 Übersicht: RNA falten RNA finden  Motivation und Ansätze  Modelle Prinzip Parameterschätzung Piktogramme  Algorithmus  Tests und Ergebnisse  Verbesserungen

61 Volker Hähnke: RNA - Falten & Finden61 Modelle - Prinzip OTH (weder kodierend noch funktionell)  pair-HMM  16 verschiedene Parameter:p OTH (a,b) = Ws(a in Seq X, b in Seq Y)  Wahrscheinlichkeit des Alignments:Produkt der Ws der alignierten Positionen GTTAACTGAGTAACG GCAAGCTGAGTTACG | x x | x | | | | | | x | | | GTTAACTGAGTAACG HMMpair-HMM

62 Volker Hähnke: RNA - Falten & Finden62 Modelle - Prinzip COD (Gen kodierend für Proteine)  pair-HMM  Alignierte Sequenzen sollten für gleiches Protein kodieren  Synonyme Mutationen, AS-Sequenz unverändert  64 * 64 Parameter:p COD (a 1 a 2 a 3, b 1 b 2 b 3 ) Emission erfolgt Codon für Codon Gleichzeitig:a 1 a 2 a 3 in Sequenz X b 1 b 2 b 3 in Sequenz Y  Ws des Alignments für einen Reading-Frame: Produkt der Doppel-Codon-Ws  Richtiger Reading-Frame nicht bekannt  Ws des Alignments: f = Frame; P(f|COD) = 1/6 GGT…… GGA…… Sequenz X Sequenz Y 1 Ereignis G

63 Volker Hähnke: RNA - Falten & Finden63 Modelle - Prinzip RNA (Gen kodierend für ncRNA)  pair Stochastic Context Free Grammar (pSCFG)  Mutation ändert Sekundärstruktur nicht  Von gleichen Positionen zu gleichen Positionen Watson-Crick-Paarung möglich  Abschnitte in Sek-Struktur:16 * 16 Parameterp RNA (a L a R, b L b R ) Ws (Emission eines Basenpaars in X, homologes Basenpaar in Y)  Ungepaarte Abschnitte:4 * 4 Parameterp RNA (a, b) Analog zu OTH-Modell  Ws für ein Alignment mit Struktur s: Produkt aus p RNA (x i x j, y i y j )für gepaarten Positionen i,j p RNA (x k, y k )für einzelsträngige Positionen k  Richtige Struktur nicht bekannt  Ws des Alignments: TTGTTCGAAAGAACG TTGACCGAAAGGTCG s = Sekundärstruktur uv p

64 Volker Hähnke: RNA - Falten & Finden64 Modelle - Prinzip Problem bei RNA-Modell  In COD-Modell alle Frames gleich wahrscheinlich  Gilt nicht für Sek-Strukturen in RNA-Modell  P(s|RNA) muss für jedes s berechnet werden  Gelöst durch früheren Algorithmus von Rivas und Eddy Viertes Modell (IID) :  Erzeugt unabhängige Sequenzen  8 Parameter:p X (a)p Y (b) Klassifikation durch Likelihoods:  Wahrscheinlichkeit des Modells gegeben die Daten  Bayes‘sche-Posteriori-Ws berechnet: a priori alle 3 Modelle gleich wahrscheinlich  Hohe RNA-posteriori-Ws: Alignment Kandidat für ncRNA-Gene Beurteilung der Güte der Aussage durch log-odds-Score

65 Volker Hähnke: RNA - Falten & Finden65 Übersicht: RNA falten RNA finden  Motivation und Ansätze  Modelle Prinzip Parameterschätzung Piktogramme  Algorithmus  Tests und Ergebnisse  Verbesserungen

66 Volker Hähnke: RNA - Falten & Finden66 Modelle - Parameterschätzung 4392 Emission-Ws zu bestimmen  Ideal: Trainings-Sets aus Alignments von Real existierenden RNAs Kodierende Genomregionen Konservierte nicht kodierende Regionen  Keine genügend großen Trainings-Sets verfügbar  Mit zufällig erzeugten Sequenzen: Sequenzen erzeugen Mit Werten aus AS-Substitutionsmatrizen (BLOSUM62) Codon-Ws errechnen (p COD ) Daraus Nucleotid-Substitutions-Ws des OTH-Modells errechnen OTH-Ws mit Basenpaarhäufigkeiten kombinieren  RNA-Ws 48 Transitions-Ws  „von Hand“ erzeugt: Modelle generieren Sequenzen, mit realen verglichen  Suboptimale Methode, bisher aber keine Alternative

67 Volker Hähnke: RNA - Falten & Finden67 Übersicht: RNA falten RNA finden  Motivation und Ansätze  Modelle Prinzip Parameterschätzung Piktogramme  Algorithmus  Tests und Ergebnisse  Verbesserungen

68 Volker Hähnke: RNA - Falten & Finden68 Modelle - Piktogramme IID-Modell: erzeugt 2 unabhängige Sequenzen SKT X Y F Emittiert in Seq. X Emittiert in Seq. Y

69 Volker Hähnke: RNA - Falten & Finden69 Modelle - Piktogramme OTH-Modell: erlaubt lokale Alignments zwischen 2 Sequenzen FLFL B XY FJFJ FRFR E X Y X: emittiert in X, Gap in Y XY: emittiert in X und Y Y: emittiert in Y, Gap in X F: „Flanking States“ O

70 Volker Hähnke: RNA - Falten & Finden70 Modelle - Piktogramme COD-Modell: Alignment kodierender Bereiche eingebettet in unabhängige Bereiche Neuer Typ von Zuständen: COD  Ermöglichen „indels“ (Insertionen oder Deletionen)  Kompensieren Verlust durch Shotgun-Sequenzierung & BLASTN (positions-unabhängig)  Emission von ungleichen (und überzähligen) AS-Anzahlen  Exemplarische Angabe der entsprechenden Ws: C(3,3) C(3,2) 3 verschiedene Zustände C(3,4) 4 verschiedene Zustände C(3,0) Alle Möglichkeiten:p ,  (a 1 …a ,b 1 …b  ) ,   {0,2,3,4}; a,b  {A,C,G,U}

71 Volker Hähnke: RNA - Falten & Finden71 Modelle - Piktogramme OBOB BEOEOE COD-Modell: Alignment kodierender Bereiche eingebettet in unabhängige Bereiche C(3,0) C(0,3) OJOJ

72 Volker Hähnke: RNA - Falten & Finden72 Modelle - Piktogramme RNA-Modell: erzeugt ncRNA-Gene eingebettet in unabhängige Bereiche Grammatik hat 3 verschiedene Zustände (nicht-Terminale):  V:Sequenzfragment, dessen Enden sicher gepaart sind  W:Sequenzfragment, dessen Enden eventuell gepaart sind  W B :wie W, wird nur benutzt, um Multi-Loops zu starten W B : identisch 2 Arten von Emissionswahrscheinlichkeiten: a L ………………….a R b L ………………….b R Emission von gepaarten Nukleotiden in beide Sequenzen Emission von ungepaarten Nukleotiden Nukleotid-Vektor Emission ja/nein Erzeugen Gaps im Alignment

73 Volker Hähnke: RNA - Falten & Finden73 Modelle - Piktogramme RNA-Modell: erzeugt ncRNA-Gene eingebettet in unabhängige Bereiche OBOB OJOJ OEOE RNA

74 Volker Hähnke: RNA - Falten & Finden74 Übersicht: RNA falten RNA finden  Motivation und Ansätze  Modelle Prinzip Parameterschätzung Piktogramme  Algorithmus  Tests und Ergebnisse  Verbesserungen

75 Volker Hähnke: RNA - Falten & Finden75 Algorithmus - Vorgehen Eingabe: paarweises Sequenz-Alignment von L alignierten Paaren Scoring des Alignments:  OTH, COD (HMM): Viterbi/ForwardSpeicher: O(L)Zeit: O(L)  RNA (SCFG): CYK/InsideSpeicher: O(L²)Zeit O(L³)  Für jedes Modell: Ws, dass Alignment von Modell generiert wurde Alignment Klassifizieren (Bayes‘sche-Posteriori-Ws):  Annahme: P(Model i ) sind gleich Ws der Klasse bei gegebenem Alignment Ws des Alignments bei verwendetem Modell Ws des Modells Ws des Alignments

76 Volker Hähnke: RNA - Falten & Finden76 Algorithmus - Ergebnis Bilden von log-odds-Score zur Gütebeurteilung:  ld ( beobachtet / erwartet )  Aussage darüber, wie nahe Erwartung an beobachtetem Ereignis ist  Annahme: weder für Proteine noch ncRNA kodierend  Log-odds-Score von COD und RNA zu OTH bilden  2 Werte, als Koordinaten in Diagramm  Diagramm-Repräsentation der Information („Phase Diagram“)  3 verschiedene Fälle: y > xy > 0  RNA x > yx > 0  COD x < 0y < 0  OTH

77 Volker Hähnke: RNA - Falten & Finden77 Übersicht: RNA falten RNA finden  Motivation und Ansätze  Modelle Prinzip Parameterschätzung Piktogramme  Algorithmus  Tests und Ergebnisse  Verbesserungen

78 Volker Hähnke: RNA - Falten & Finden78 Tests und Ergebnisse Tests mit simulierten Daten:  Sinn: Daten im Voraus eindeutig klassifiziert, Leistungsfähigkeit beurteilbar  Jedes der 3 Modelle (OTH, RNA, COD) generiert nt lange Alignments  Alle 300 Alignments durch Algorithmus bewertet und klassifiziert  Klassifizierung soll auf Mutationsmuster beruhen, nicht auf Sequenzidentität oder Gap- Häufigkeit Spalten der Alignments zufällig neu zusammengesetzt  Sequenzidentität und Anzahl der Gaps beibehalten Mutationsmuster, das Veränderung erklärt hat, zerstört  Darstellung in „Phase-Diagrams“

79 Volker Hähnke: RNA - Falten & Finden79 Tests und Ergebnisse Phase-Diagram der durch COD-erzeugten Alignments: blau= Klassifizierung der original Alignments rot = Klassifizierung nach Shuffling RNA OTHCOD

80 Volker Hähnke: RNA - Falten & Finden80 Tests und Ergebnisse Phase-Diagramm der durch RNA erzeugten Alignments blau= Klassifizierung der original Alignments rot = Klassifizierung nach Shuffling RNA OTHCOD

81 Volker Hähnke: RNA - Falten & Finden81 Tests und Ergebnisse Phase-Diagramm der durch OTH erzeugten Alignments: blau= Klassifizierung der original Alignments rot = Klassifizierung nach Shuffling RNA OTHCOD

82 Volker Hähnke: RNA - Falten & Finden82 Tests und Ergebnisse Tests an simulierten Genomen:  Sinn: Untersuchen der Tendenz zu „false Positives“, wenn COD und OTH dominieren  Erzeugen von 2 Pseudobakteriengenomen ohne funktionelle RNA: Länge:2 Megabasen Länge kodierender Regionen:normalverteilt um 900nt Länge nichtkodierender Regionen:normalverteilt um 100nt  ~ 90% kodierend GC-Gehalt:1) 38,90% 2) 47,25% 3) 57,70%  Anzahl der false Positives: 1) 8 2) 14 3) 21  Erneute Analyse von Genomsatz 3 mit neuem Parametersatz: 1 false Positive  Sensitivität sinkt mit steigendem GC-Gehalt, kann angepasst werden

83 Volker Hähnke: RNA - Falten & Finden83 Tests und Ergebnisse Tests an realen Genomen  Sinn: Test unter realistischen Bedingungen  Analyse der Genome von Escherichia coli und Salmonella typhi (eng verwandt)  Bekannt:115 RNA-Gene (22 rRNAs, 86 tRNAs, 7 andere) 4290 kodierende Gene  Genom aufgeteilt in 3 Bereiche:115 RNA-Features (1% des Genoms) 4290 ORF-Features (88% des Genoms) 2367 intergene Sequenzen (11% des Genoms)  Jede der 3 „Sammlungen“ gegen Salmonella typhi aligniert, bewertet

84 Volker Hähnke: RNA - Falten & Finden84 Tests und Ergebnisse ncRNAsORFs vorhanden In Alignments (>50nt, E < 0,01) erkannt als RNA3320 erkannt als COD-2876 erkannt von alignierten100%90,4% erkannt von gesamt28,6%67% Problem: Blast lieferte nicht ausreichend viele signifikante Alignments Von alignierten Sequenzen Großteil erkannt

85 Volker Hähnke: RNA - Falten & Finden85 Übersicht: RNA falten RNA finden  Motivation und Ansätze  Modelle Prinzip Parameterschätzung Piktogramme  Algorithmus  Tests und Ergebnisse  Einsatz und Verbesserung

86 Volker Hähnke: RNA - Falten & Finden86 Einsatz & Verbesserung Anwendungsgebiete:  Erkennen von Kandidaten für ncRNA; positiv identifizierte Regionen weiter untersuchen  Erkennen von für Proteine kodierende Regionen Fehlerquellen und Verbesserungen:  Modelle für fixe evolutionäre Distanz (BLOSUM 62) passt nicht auf alle eingegebenen Daten  BLASTN zum Alignieren von positionsunabhängig evolvierten Sequenzen Alignment mit Sankoff-Algorithmus sehr teuer: Zeit O(L 6 ), Speicher O(L 4 )  Training mit zufällig erzeugten Daten nicht optimal trainiertes System scheint RNA-Modell zu favorisieren  Verfahren sucht nach konservierter Sekundärstruktur kann keine ncRNA erkennen, die nur sehr wenige Sekundärstrukturen ausbildet  Fehlklassifizierung von mRNA mit stark ausgebildeter Sekundärstruktur z.B. zur Translationskontrolle

87 Volker Hähnke: RNA - Falten & Finden87 Übersicht: RNA falten RNA finden Quellen

88 Volker Hähnke: RNA - Falten & Finden88 Quellen A statistical sampling algorithm for RNA secondary structure prediction; Nucleic Acids Research 31(24) S ; Ding, Ye,Lawrence, Charles E.; 2003 Noncoding RNA gene detection using comparative sequence analysis; BMC Bioinformatics 2(8) Eddy, Sean R.,Rivas, Elena; 2001

89 Volker Hähnke: RNA - Falten & Finden89 ?


Herunterladen ppt "R N A Falten & Finden. Volker Hähnke: RNA - Falten & Finden2 Übersicht: RNA falten  Sekundärstrukturen und Funktion  Algorithmus zur RNA-Faltung von."

Ähnliche Präsentationen


Google-Anzeigen