Präsentation herunterladen
Die Präsentation wird geladen. Bitte warten
1
R N A Falten & Finden
2
Volker Hähnke: RNA - Falten & Finden
Übersicht: RNA falten Sekundärstrukturen und Funktion Algorithmus zur RNA-Faltung von Ding und Lawrence Grundidee Vorgehen Schritt 1 Vorgehen Schritt 2 Beispiele Leptomonas collosoma Bakteriophage Auswertung Probability Profiling Accessibility Plots Samplegröße Sfold RNA finden Volker Hähnke: RNA - Falten & Finden
3
Volker Hähnke: RNA - Falten & Finden
Übersicht: RNA falten Sekundärstrukturen und Funktion Algorithmus zur RNA-Faltung von Ding und Lawrence Grundidee Vorgehen Schritt 1 Vorgehen Schritt 2 Beispiele Leptomonas collosoma Bakteriophage Auswertung Probability Profiling Accessibility Plots Samplegröße Sfold RNA finden Volker Hähnke: RNA - Falten & Finden
4
Sekundärstrukturen und deren Funktion
Ständig wiederkehrende Motive in RNA-Struktur erkennbar RNA besteht hauptsächlich aus Kombinationen dieser Motive Achtung: keine Pseudoknoten berücksichtigt Volker Hähnke: RNA - Falten & Finden
5
Sekundärstrukturen und deren Funktion
RNA-Sekundärstrukturen wichtig für: Katalyse (Ribozyme) RNA-Splicing Regulation der Translation Interaktionen zwischen Nucleinsäuren Sekundärstrukturen bestimmen auch die Tertiärstruktur korrekte Sekundärstruktur wichtig für korrekte Tertiärstruktur korrekte Sekundärstruktur wichtig für korrekte Funktion Strukturbestimmung experimentell schwierig Besonders für langkettige Nucleinsäuren rechnergestützte Strukturvorhersage extrem wichtig Volker Hähnke: RNA - Falten & Finden
6
Volker Hähnke: RNA - Falten & Finden
Übersicht: RNA falten Sekundärstrukturen und Funktion Algorithmus zur RNA-Faltung von Ding und Lawrence Grundidee Vorgehen Schritt 1 Vorgehen Schritt 2 Beispiele Leptomonas collosoma Bakteriophage Auswertung Probability Profiling Accessibility Plots Samplegröße Sfold RNA finden Volker Hähnke: RNA - Falten & Finden
7
Algorithmus - Grundidee
Annahme: Faltung nur in bestimmte Sekundärstrukturelemente Ansatz verfolgt Minimierung der freien Energie Energie (U): Nimmt ab, wenn z.B. Bindungen ausgebildet werden Entropie (S): Maß für die „Unordnung“ eines Systems Nimmt nach 2. Hauptsatz der Thermodynamik zu Freie Energie (Helmholtz Energie, F): F = U – T*S Setzt Entropie und Energie in Beziehung Volker Hähnke: RNA - Falten & Finden
8
Algorithmus - Grundidee
Algorithmus arbeitet in 2 Schritten: Schritt 1: Untersucht bildbare Sekundärstrukturen der Sequenz (und ihre freie Energie) Errechnet „Zustandssummen“ für Teilsequenzen Schritt 2: Errechnet mit Zustandssummen Gibbs-Boltzmann-Verteilung (Ws) der Strukturen Wählt zufällige Kombination von Sekundärstrukturen aus 1) 2) ********************************* --______------_----_--_-_---- „Teilergebnisse“ Sammlung von Basenpaaren Sekundärstruktur Volker Hähnke: RNA - Falten & Finden
9
Algorithmus - Grundidee - Probleme
freien Energie für Sekundärstrukturen nur approximiert durch Änderungen andere Faltungen wahrscheinlicher Tertiärstruktur (und Effekte) unberücksichtigt Struktur mit minimaler freier Energie (MFE) muss nicht die reale sein Realität suboptimal Aber: Algorithmus sucht nicht unbedingt die wahrscheinlichsten Teilstrukturen aus Volker Hähnke: RNA - Falten & Finden
10
Volker Hähnke: RNA - Falten & Finden
Übersicht: RNA falten Sekundärstrukturen und Funktion Algorithmus zur RNA-Faltung von Ding und Lawrence Grundidee Vorgehen Schritt 1 Vorgehen Schritt 2 Beispiele Leptomonas collosoma Bakteriophage Auswertung Probability Profiling Accessibility Plots Samplegröße Sfold RNA finden Volker Hähnke: RNA - Falten & Finden
11
Algorithmus – Vorgehen (I)
Berechnen der „Boltzmann-Statistik“ („Gibbs-Boltzmann-Verteilung“) einer Sekundärstruktur I für eine gegebene Sequenz S nach E(S, I): freie Energie der Sekundärstruktur für diese Sequenz R: Gaskonstante U: Zustandssumme aller zulässigen Sekundärstrukturen für S Bedeutung: Wahrscheinlichkeit einer bestimmten Sekundärstruktur für eine gegebene Sequenz unter Berücksichtigung aller möglichen Sekundärstrukturen Volker Hähnke: RNA - Falten & Finden
12
Algorithmus – Vorgehen (I) – Defs.
Rij 3‘ 5‘ ….. 1… i … j… n n: Anzahl an Ribonukleotiden Rij: Teilsequenz von Nukleotid i bis Nukleotid j 1 ≤ i,j ≤ n rk: Nukleotid an Position k, rk {A, C, G, U} i ≤ k ≤ j Iij: Sekundärstruktur für Rij, ri und rj paaren eventuell IPij: Sekundärstruktur für Rij, ri und rj paaren miteinander Volker Hähnke: RNA - Falten & Finden
13
Algorithmus – Vorgehen (I)
Erinnerung: Benötigt in: Teilsequenz Zustandssummen für Rij: mit Sekundärstruktur Iij: mit Sekundärstruktur IPij: (i und j gepaart) E(Rij, x): freie Energie der Sekundärstruktur x für Rij R: Gaskonstante T: 310,15 K Rekursive Berechnung durch Algo vom McCaskill Sek.-Strt. Sek.-Strt. Volker Hähnke: RNA - Falten & Finden
14
Algorithmus – Vorgehen (I)
Berechnung der u(i, j) bzw. up(i, j)….. Mit u(1, n) kann Boltzmann-Verteilung (Ws) einer I1n für R1n berechnet werden Sek.-Strt. = S (Gesamtsequenz) Genutzt in Schritt 2 Volker Hähnke: RNA - Falten & Finden
15
Volker Hähnke: RNA - Falten & Finden
Übersicht: RNA falten Sekundärstrukturen und Funktion Algorithmus zur RNA-Faltung von Ding und Lawrence Grundidee Vorgehen Schritt 1 Vorgehen Schritt 2 Beispiele Leptomonas collosoma Bakteriophage Auswertung Probability Profiling Accessibility Plots Samplegröße Sfold RNA finden Volker Hähnke: RNA - Falten & Finden
16
Algorithmus – Vorgehen (II)
Rij 3‘ 5‘ ….. 1… i … j… n Rij kann 5 verschiedene Zustände annehmen: Volker Hähnke: RNA - Falten & Finden
17
Algorithmus – Vorgehen (II) – nötige Variablen(1)
Ws, eine dieser 5 Möglichkeiten zu wählen (unbekannt, ob ri und rj paaren): Strafe für Paarung AC bzw. GU freie Energie für dangling 5‘ freie Energie für dangling 3‘ Array mit zuvor berechneten Variablen Zuerst h variieren, dann zu den Positionen von h l verändern Volker Hähnke: RNA - Falten & Finden
18
Algorithmus – Vorgehen (II) – nötige Variablen(2)
Bekannt, dass ri und rj paaren Ws für die 5 möglichen Strukturen: freie Energie eines Hairpin geschlossen von ri und rj freie Energie des Stacking-Bp ri und rj freie Energie eines Bulge bzw. Interior Loop Möglichkeiten, zwischen h und l einen Bulge bzw. Interior Loop zu sampeln Volker Hähnke: RNA - Falten & Finden
19
Algorithmus – Vorgehen (II)
Sampeln: berechne die Struktur-Ws für Rij (mit den u(i,j) aus Schritt 1) wähle über eine Zufallsvariable gemäß den berechneten Wahrscheinlichkeiten eine Möglichkeit Benutzt zwei Stacks A: verwaltet Tupel (i, j, I) (noch zu faltendes Teilstück) Sequenz von Nukleotid i bis j I = 1: Nukeotid i und j bilden eine Bindung aus; I = 0: unbekannt, ob i und j paaren B: Wird durch Algorithmus gefüllt sammelt Basenpaare und ungepaarte Basen enthält nötige Informationen für Sekundärstruktur Startzustand: A enthält (1, n, 0) 1 Volker Hähnke: RNA - Falten & Finden
20
Algorithmus – Vorgehen (II)
Erinnerung: A: ungefaltete Bereiche B: Bindungsbeziehungen I = 0 1) Start mit R1n (also (1, n, 0) auf Stack A), Paarung nicht bekannt bilde die P0, Pij, {Phi}, {Pil}, {Ps1h} für i = 1, j = n; wähle eine Möglichkeit Mögliche Ergebnisse: Keine Paarung, füge ungepaarte Basen von 1 bis n in Stack B ein (1, n, 1) in Stack A einfügen (h, n, 1) in Stack A einfügen ungepaarte Basen 1 bis (h-1) in Stack B einfügen (1, l, 1) & (l+1, n, 0) in Stack A einfügen (h, l, 1) & (l+1, n, 0) in Stack A einfügen Ungepaarte Basen von 1 bis (h-1) in Stack B einfügen Volker Hähnke: RNA - Falten & Finden
21
Algorithmus – Vorgehen (II)
Erinnerung: A: ungefaltete Bereiche B: Bindungsbeziehungen 2) Nimm nächstes Tupel (i, j, I) für Rij von Stack A a) I = 0: verfahre wie im letzten Schritt: berechne die P-- b) I = 1: i und j paaren, betrachte die QijH, QijS, QijBI, QijM Füge die ungepaarten Basen in Stack B ein Füge das schließende Basenpaar in Stack B ein Nimm neues Tupel von Stack A Füge das Basenpaar ij in Stack B ein Füge (i+1, j-1, 1) in Stack A ein Berechne die QhlBI, i < h,l, < j Füge Basenpaar ij und ungepaarte Basen des Loops in Stack B ein Füge (h, l, 1) in Stack A ein Volker Hähnke: RNA - Falten & Finden
22
Algorithmus – Vorgehen (II)
1) Sampel das erste innere Basenpaar (bilde die P--, wähle Möglichkeit, verfahre entsprechend) ….. 2) Sampel das nächste Basenpaar ….. 3) Wiederhole 2, bis alle abgearbeitet Nimm neues Tupel von Stack A Volker Hähnke: RNA - Falten & Finden
23
Algorithmus – Vorgehen(II)
Stack A Stack B Für jedes Basenpaar innerhalb des MB-Loop Sampling im Überblick: Schritt 1 nimm (i, j, I) von A Stack A leer? I = 0 Sampel Basenpaar Möglichkeiten der Paarbildung bestimmt I = 1 Sampel Loop Struktur bestimmt, zu der Basenpaar zugehörig ist Volker Hähnke: RNA - Falten & Finden
24
Algorithmus – Vorgehen(II)
Samling-Schritt arbeitet, bis Stack A leer ist Stack B enthält Angaben über Paarungen der n Basen in R1n 1 Sekundärstruktur Wahrscheinlichkeit eines Struktur nimmt exponentiell mit wachsender freier Energie ab (bedingt durch Boltzmann-Verteilung): Mit hoher Wahrscheinlichkeit: optimale MFE Mit relativ hoher Wahrscheinlichkeit: gute (suboptimale) MFE Mit geringer Wahrscheinlichkeit: schlechte MFE Sinnvoll: Sampling-Schritt mehrfach ablaufen lassen statistisch repräsentatives Ergebnis „Konsensus“-Struktur Volker Hähnke: RNA - Falten & Finden
25
Volker Hähnke: RNA - Falten & Finden
Übersicht: RNA falten Sekundärstrukturen und Funktion Algorithmus zur RNA-Faltung von Ding und Lawrence Grundidee Vorgehen Schritt 1 Vorgehen Schritt 2 Beispiele Leptomonas collosoma Bakteriophage Auswertung Probability Profiling Accessibility Plots Samplegröße Sfold RNA finden Volker Hähnke: RNA - Falten & Finden
26
Beispiele – Leptomonas collosoma
Faltung der „spliced leader“ RNA (SL RNA) von L. collosoma 56 nt lang 2 Sekundärstrukturen identifiziert (Funktion unbekannt) Vorgehen: Mit Schritt 1 die Ws der Substrukturen berechnet 1000 mal gesampelt Entstandene Sekundärstrukturen verglichen Ergebnis: 2 generelle Klassen Klasse 1 mit 3 Unterklassen (A, B, C) Klasse 2 mit 2 Unterklassen (A, B) Volker Hähnke: RNA - Falten & Finden
27
Beispiele – Leptomonas collosoma
Klasse 1: Alle Unterklassen mit 2 identischen Helices 1: 2: Weitere 2 Helices gemeinsam Unterschied in Hairpin Quadratgröße = Häufigkeit der Basenpaare in Samples mfold(3.1)-Struktur MFE-Struktur Volker Hähnke: RNA - Falten & Finden
28
Beispiele – Leptomonas collosoma
Klasse 2: Unterklassen erneut mit 2 identischen Helices Unterklasse B mit zusätzlichem Stem am 5‘-Ende Quadratgröße = Häufigkeit der Basenpaare in Samples Volker Hähnke: RNA - Falten & Finden
29
Beispiele – Leptomonas collosoma
Repräsentanten der Klasse 1: identisch mfold(3.1)-Struktur MFE-Struktur Bis auf Fehlen der kurzen Helix mit mfold-Struktur identisch Experimentell bestimmte Faltungsart 1 Volker Hähnke: RNA - Falten & Finden
30
Beispiele – Leptomonas collosoma
Repräsentanten der Klasse 2: identisch Experimentell bestimmte Faltungsart 2 Volker Hähnke: RNA - Falten & Finden
31
Beispiele – Leptomonas collosoma
Gesamtübersicht Häufigkeiten der Klassen und deren Repräsentanten Tatsächliche Faltungsart 1 mfold-Struktur (MFE) Leicht veränderte mfold-Struktur (suboptimale MFE) Tatsächliche Faltungsart 2 Tatsächliche Strukturen mit geringer Ws Volker Hähnke: RNA - Falten & Finden
32
Volker Hähnke: RNA - Falten & Finden
Übersicht: RNA falten Sekundärstrukturen und Funktion Algorithmus zur RNA-Faltung von Ding und Lawrence Grundidee Vorgehen Schritt 1 Vorgehen Schritt 2 Beispiele Leptomonas collosoma Bakteriophage Auswertung Probability Profiling Accessibility Plots Samplegröße Sfold RNA finden Volker Hähnke: RNA - Falten & Finden
33
Beispiele – Bakteriophage
Zwischen-Ergebnis aus Tests mit L. collosoma: Algo erzeugt viele alternative Strukturen Weitere Untersuchung mit Vorhersage von mRNA-Strukturen Charakteristische Bereiche der cIII-mRNA des Bakteriophagen : das Startcodon (AUG) (0 bis 3) die Shine-Dalgarno-Sequenz (-13 bis -7) nötig zur Translationsinitiierung Kommt in 2 Konformationen vor Vorgehen: Sampling-Schritt 100 mal wiederholt Die 100 erzeugten Strukturen von Hand betrachtet und charakterisiert Volker Hähnke: RNA - Falten & Finden
34
Beispiele – Bakteriophage
Struktur A: Shine-Dalgarno-Sequenz und Startcodon in Sekundärstrukturen keine Translation Struktur B: Shine-Dalgarno-Sequenz und Startcodon zugänglich Translation möglich leftmost stem middle stem rightmost stem Volker Hähnke: RNA - Falten & Finden
35
Beispiele – Bakteriophage
Ergebnis des Samplings: 89/100 Strukturen leichte Variationen von Struktur A leftmost-Stem in 67/89 exakt vorhergesagt rightmost-Stem in 72/89 nahezu exakt vorhergesagt (gelegentlich 2 zusätzliche Paare) 3/100 Strukturen Variationen von Struktur B zusätzliche Helix in SD-Sequenz enthalten 8 Strukturen, die weder an A noch an B erinnern leftmost stem middle stem rightmost stem Volker Hähnke: RNA - Falten & Finden
36
Volker Hähnke: RNA - Falten & Finden
Übersicht: RNA falten Sekundärstrukturen und Funktion Algorithmus zur RNA-Faltung von Ding und Lawrence Grundidee Vorgehen Schritt 1 Vorgehen Schritt 2 Beispiele Leptomonas collosoma Bakteriophage Auswertung Probability Profiling Accessibility Plots Samplegröße Sfold RNA finden Volker Hähnke: RNA - Falten & Finden
37
Beispiele - Auswertung
Algorithmus erzeugt leicht suboptimale Faltungen, die nahe der MFE liegen ABER: suboptimale Faltung ist nicht gleich tatsächlicher (suboptimaler) Faltung Erklärung der Autoren: unbekannte Einflüsse der Tertiärstruktur für verantwortlich für Stabilität Besser geeignet zur Faltung von mRNA als für funktionelle RNA (z.B. spliced leader) Volker Hähnke: RNA - Falten & Finden
38
Volker Hähnke: RNA - Falten & Finden
Übersicht: RNA falten Sekundärstrukturen und Funktion Algorithmus zur RNA-Faltung von Ding und Lawrence Grundidee Vorgehen Schritt 1 Vorgehen Schritt 2 Beispiele Leptomonas collosoma Bakteriophage Auswertung Probability Profiling Accessibility Plots Samplegröße Sfold RNA finden Volker Hähnke: RNA - Falten & Finden
39
Probability Profiling
Einzelsträngige (ungepaarte) RNA-Regionen interagieren potentiell mit DNA RNA Proteinen (z.B. in Translation) Vorhersage dieser „accessible sites“ mit dem Sampling-Teil des Algorithmus Erstellen von „Probability Profiles“ (Diagramme) der Weite W (in Nukleotiden) An Position i wird die Ws aufgetragen, dass die Nukleotide i bis i+(W-1) ungepaart sind (ergibt sich aus Multiplikation der Einzelwahrscheinlichkeiten (aus Statistik)) Zum Vergleich: ss-count; Statistik, in wieviel Prozent aller erzeugten Faltungen Base i ungepaart war Volker Hähnke: RNA - Falten & Finden
40
Probability Profiling - Beispiel
mRNA Homo sapiens -Glutamyl-Hydrolase Nukleotide 0 – 60 Volker Hähnke: RNA - Falten & Finden
41
Probability Profiling - Beispiel
mRNA Homo sapiens -Glutamyl-Hydrolase Nukleotide 1261 – 1322 Volker Hähnke: RNA - Falten & Finden
42
Probability Profiling - Ergebnis
MFE-Struktur gibt für Vorhersage von „accessible sites“ keine Hinweise Da nur 1 Struktur die MFE-Struktur ist Binäre Entscheidung: in 1 Struktur ist Base in Basenpaar oder nicht ss-count: betrachtet nur Statistik eines Nukleotids, keine Aussage über nachfolgende Probability Profile: verlässlichste Aussage der 3 Möglichkeiten da Ws der nachfolgenden Paarungen berücksichtigt Volker Hähnke: RNA - Falten & Finden
43
Probability Profiling für Loops
Bisher nur berücksichtig ob gepaart oder ungepaart Sampling-Schritt gibt aber mit zurück, in welchem Loop-Typ sie enthalten sind Probability Profiling für bestimmte Loops möglich Volker Hähnke: RNA - Falten & Finden
44
Probability Profiling für Loops
Loop-Probability-Profiles für Escherichia coli Alanin-tRNA External Hairpin Bulge Multi Internal Multi „dangling“-3‘-Ende aus Nukleotiden Kleeblattstruktur der tRNA Enthält keine Bulges oder Internal Loops dort keine Peaks 16% der gesampelten Strukturen haben einen einzelsträngigen Bereich, der zwei gefaltete Domänen vebrindet Volker Hähnke: RNA - Falten & Finden
45
Probability Profiling für Loops
Weitere Bedeutung des Hairpin-Loop-Profiles: Höchster Peak konserviertester Loop HPlot-Ws der Basen des Anticodon-Loops: G34: 0,968 G35: 0,961 C36: 0,962 Selbst wenn sich die restliches Struktur nicht zum Kleeblatt faltet, bleibt diese „accessible site“ erhalten Untersuchung weiterer tRNAs interessant, aber schwierig, da modifizierte Basen vorhanden Volker Hähnke: RNA - Falten & Finden
46
Volker Hähnke: RNA - Falten & Finden
Übersicht: RNA falten Sekundärstrukturen und Funktion Algorithmus zur RNA-Faltung von Ding und Lawrence Grundidee Vorgehen Schritt 1 Vorgehen Schritt 2 Beispiele Leptomonas collosoma Bakteriophage Auswertung Probability Profiling Accessibility Plots Samplegröße Sfold RNA finden Volker Hähnke: RNA - Falten & Finden
47
Probability Profiling für Accessibility Plots
Probability Profiles geben Differenzierung zwischen gebunden / einzelsträngig Nucleinsäuren müssen einzelsträngig sein, um zu interagieren Probability Profiles überlagern, um Interaktion vorherzusagen Target: Homo sapiens -Glutamyl-Hydrolase mRNA Antisense: insgesamt 1233 nt Gute Zugänglichkeit zwischen 730 und 750 (target) Zugängliche Bereiche müssen nicht an gleichen Stellen liegen Sollten aber gleich lang sein Volker Hähnke: RNA - Falten & Finden
48
Volker Hähnke: RNA - Falten & Finden
Übersicht: RNA falten Sekundärstrukturen und Funktion Algorithmus zur RNA-Faltung von Ding und Lawrence Grundidee Vorgehen Schritt 1 Vorgehen Schritt 2 Beispiele Leptomonas collosoma Bakteriophage Auswertung Probability Profiling Accessibility Plots Samplegröße Sfold RNA finden Volker Hähnke: RNA - Falten & Finden
49
Volker Hähnke: RNA - Falten & Finden
Sampelgröße Standardgröße: 1000 – repräsentativ! Beispiel: Homo sapiens -Glutamyl-Hydrolase mRNA 1187 nt ~10303 Sekundärstrukturen (Vergleich: ~1080 Atome im Universum) 2 Sammlungen von 1000 Samples erstellt Für jede Sammlung ein Histogramm erstellt Histogramme sind identisch Probability Profiles erstellt: nahezu deckungsgleich Aber: keine einzige Struktur kommt doppelt vor Volker Hähnke: RNA - Falten & Finden
50
Samplegröße - Histogramme
Volker Hähnke: RNA - Falten & Finden
51
Samplegröße - Probability Profiles
Volker Hähnke: RNA - Falten & Finden
52
Volker Hähnke: RNA - Falten & Finden
Übersicht: RNA falten Sekundärstrukturen und Funktion Algorithmus zur RNA-Faltung von Ding und Lawrence Grundidee Vorgehen Schritt 1 Vorgehen Schritt 2 Beispiele Leptomonas collosoma Bakteriophage Auswertung Probability Profiling Accessibility Plots Samplegröße Sfold RNA finden Volker Hähnke: RNA - Falten & Finden
53
Volker Hähnke: RNA - Falten & Finden
Sfold Algorithmus integriert in Paket Sfold Erhältlich z.B. über sfold.wadsworth.org Laufzeit des Algo: O(n³) Vergleich: Eddy/Rivas: O(n6) Reeder/Giegerich: O(n4) Aber dafür mit Pseudoknoten Sequenz Länge (nt) Zeit (sek) Speicher (MB) E. coli tRNAAla 76 1,48 14,6 H. sapiens BCRP mRNA 2418 3.505,86 149,2 H. sapiens ESR mRNA 6450 92.995,25 969,1 Vergleich von Rechenzeit und Speicherverbrauch beim Berechnen der Zustandssummen und anschließendem Sampeln von 1000 Strukturen Volker Hähnke: RNA - Falten & Finden
54
Volker Hähnke: RNA - Falten & Finden
Übersicht: RNA falten RNA finden Motivation und Ansätze Modelle Prinzip Parameterschätzung Piktogramme Algorithmus Tests und Ergebnisse Verbesserungen Volker Hähnke: RNA - Falten & Finden
55
Volker Hähnke: RNA - Falten & Finden
Übersicht: RNA falten RNA finden Motivation und Ansätze Modelle Prinzip Parameterschätzung Piktogramme Algorithmus Tests und Ergebnisse Verbesserungen Volker Hähnke: RNA - Falten & Finden
56
Volker Hähnke: RNA - Falten & Finden
Motivation & Ansätze Gefaltete RNA funktionell bedeutsam Steuerung der eigenen Translation Funktion als tRNA Ribozyme Nicht alle RNA wird wie mRNA translatiert Nicht alle Gene auf DNA codieren für Proteine Einige kodieren auch für funktionelle nicht kodierende RNA (ncRNA) Ziel: Gene auf DNA erkennen, die für ncRNA kodieren Problem: entsprechende Gene bisher nicht einheitlich charakterisierbar Volker Hähnke: RNA - Falten & Finden
57
Volker Hähnke: RNA - Falten & Finden
Motivation & Ansätze Maizel 1988: Sekundärstruktur bestimmt Funktion Funktionelle RNA muss also stabile Sekundärstruktur haben Stabil = Minimum der freien Energie Ergebnis Faltungsvorhersage weniger divers Ergebnisse enttäuschend Badger & Olsen 1999: Anderes Gebiet: Identifizierung von codierenden Regionen in Bakterien Arbeitet mit Alignments von Sequenzen Nutzen BLASTN um Sequenzidentität zwischen 2 Species zu bestimmen Programm CRITICA untersucht Mutationsmuster der gaplosen Bereiche Mutationen, die AS nicht verändern (synonym): + Score Mutationen, die AS verändern: - Score Volker Hähnke: RNA - Falten & Finden
58
Volker Hähnke: RNA - Falten & Finden
Motivation & Ansätze Rivas & Eddy 2001: Aufbauend auf Idee von Badger & Olsen Erweiterungen: Probabilistisches Modell (Aussage mit Ws) dritter zusätzlicher Zustand (funktionelle RNA) Alignments mit Gaps zugelassen Alignment nur teilweise relevant (irrelevante Flanken möglich) Ziel: gegebene Sequenz klassifizieren in Kodierend für Proteine kodierend für ncRNA Andere Bereiche Ansatz findet ncRNA mit konservierter Struktur – Probleme: Manche bekannte ncRNA-Gene nicht konserviert Manche konservierte Bereiche nicht ncRNA-Gene „ncRNA-Gen“ beschreibt Bereich mit konservierter Struktur, Funktionalität muss untersucht werden Volker Hähnke: RNA - Falten & Finden
59
Volker Hähnke: RNA - Falten & Finden
Motivation & Ansätze Eingabe eines Alignments zweier verwandter Genome (DNA-Sequenzen) Analyse der beobachteten Mutationen Kodierend: Synonyme Mutationen (gleiche AS kodiert) Funktionell: kompensierend, Struktur erhalten Keins: zufällige Mutation Analyse: Jeder Fall 1 Modell, das entsprechende Sequenzen baut „Nachbau“ des Alignments mit den 3 Modellen Ausgabe der Ws, dass Alignment einem Modell enstpringt Modell mit höchster Ws gewinnt AGTGCTAGCT GATGCTAGCT ncRNA? Volker Hähnke: RNA - Falten & Finden
60
Volker Hähnke: RNA - Falten & Finden
Übersicht: RNA falten RNA finden Motivation und Ansätze Modelle Prinzip Parameterschätzung Piktogramme Algorithmus Tests und Ergebnisse Verbesserungen Volker Hähnke: RNA - Falten & Finden
61
Volker Hähnke: RNA - Falten & Finden
Modelle - Prinzip OTH (weder kodierend noch funktionell) pair-HMM 16 verschiedene Parameter: pOTH(a,b) = Ws(a in Seq X, b in Seq Y) Wahrscheinlichkeit des Alignments: Produkt der Ws der alignierten Positionen HMM pair-HMM GTTAACTGAGTAACG GTTAACTGAGTAACG | x x | x | | | | | | x | | | GCAAGCTGAGTTACG Volker Hähnke: RNA - Falten & Finden
62
Volker Hähnke: RNA - Falten & Finden
Modelle - Prinzip COD (Gen kodierend für Proteine) pair-HMM Alignierte Sequenzen sollten für gleiches Protein kodieren Synonyme Mutationen, AS-Sequenz unverändert 64 * 64 Parameter: pCOD(a1a2a3, b1b2b3) Emission erfolgt Codon für Codon Gleichzeitig: a1a2a3 in Sequenz X b1b2b3 in Sequenz Y Ws des Alignments für einen Reading-Frame: Produkt der Doppel-Codon-Ws Richtiger Reading-Frame nicht bekannt Ws des Alignments: 1 Ereignis Sequenz X GGT…… GGA…… Sequenz Y G f = Frame; P(f|COD) = 1/6 Volker Hähnke: RNA - Falten & Finden
63
Volker Hähnke: RNA - Falten & Finden
Modelle - Prinzip RNA (Gen kodierend für ncRNA) pair Stochastic Context Free Grammar (pSCFG) Mutation ändert Sekundärstruktur nicht Von gleichen Positionen zu gleichen Positionen Watson-Crick-Paarung möglich Abschnitte in Sek-Struktur: 16 * 16 Parameter pRNA(aLaR, bLbR) Ws (Emission eines Basenpaars in X, homologes Basenpaar in Y) Ungepaarte Abschnitte: 4 * 4 Parameter pRNA(a, b) Analog zu OTH-Modell Ws für ein Alignment mit Struktur s: Produkt aus pRNA(xixj, yiyj) für gepaarten Positionen i,j pRNA(xk, yk) für einzelsträngige Positionen k Richtige Struktur nicht bekannt Ws des Alignments: p u v TTGTTCGAAAGAACG TTGACCGAAAGGTCG Volker Hähnke: RNA - Falten & Finden s = Sekundärstruktur
64
Volker Hähnke: RNA - Falten & Finden
Modelle - Prinzip Problem bei RNA-Modell In COD-Modell alle Frames gleich wahrscheinlich Gilt nicht für Sek-Strukturen in RNA-Modell P(s|RNA) muss für jedes s berechnet werden Gelöst durch früheren Algorithmus von Rivas und Eddy Viertes Modell (IID) : Erzeugt unabhängige Sequenzen 8 Parameter: pX(a) pY(b) Klassifikation durch Likelihoods: Wahrscheinlichkeit des Modells gegeben die Daten Bayes‘sche-Posteriori-Ws berechnet: a priori alle 3 Modelle gleich wahrscheinlich Hohe RNA-posteriori-Ws: Alignment Kandidat für ncRNA-Gene Beurteilung der Güte der Aussage durch log-odds-Score Volker Hähnke: RNA - Falten & Finden
65
Volker Hähnke: RNA - Falten & Finden
Übersicht: RNA falten RNA finden Motivation und Ansätze Modelle Prinzip Parameterschätzung Piktogramme Algorithmus Tests und Ergebnisse Verbesserungen Volker Hähnke: RNA - Falten & Finden
66
Modelle - Parameterschätzung
4392 Emission-Ws zu bestimmen Ideal: Trainings-Sets aus Alignments von Real existierenden RNAs Kodierende Genomregionen Konservierte nicht kodierende Regionen Keine genügend großen Trainings-Sets verfügbar Mit zufällig erzeugten Sequenzen: Sequenzen erzeugen Mit Werten aus AS-Substitutionsmatrizen (BLOSUM62) Codon-Ws errechnen (pCOD) Daraus Nucleotid-Substitutions-Ws des OTH-Modells errechnen OTH-Ws mit Basenpaarhäufigkeiten kombinieren RNA-Ws 48 Transitions-Ws „von Hand“ erzeugt: Modelle generieren Sequenzen, mit realen verglichen Suboptimale Methode, bisher aber keine Alternative Volker Hähnke: RNA - Falten & Finden
67
Volker Hähnke: RNA - Falten & Finden
Übersicht: RNA falten RNA finden Motivation und Ansätze Modelle Prinzip Parameterschätzung Piktogramme Algorithmus Tests und Ergebnisse Verbesserungen Volker Hähnke: RNA - Falten & Finden
68
Volker Hähnke: RNA - Falten & Finden
Modelle - Piktogramme IID-Modell: erzeugt 2 unabhängige Sequenzen X Emittiert in Seq. X F S K T Y Emittiert in Seq. Y Volker Hähnke: RNA - Falten & Finden
69
Volker Hähnke: RNA - Falten & Finden
Modelle - Piktogramme OTH-Modell: erlaubt lokale Alignments zwischen 2 Sequenzen X X: emittiert in X, Gap in Y XY: emittiert in X und Y Y: emittiert in Y, Gap in X FL FR B XY E Y F: „Flanking States“ FJ O Volker Hähnke: RNA - Falten & Finden
70
Volker Hähnke: RNA - Falten & Finden
Modelle - Piktogramme COD-Modell: Alignment kodierender Bereiche eingebettet in unabhängige Bereiche Neuer Typ von Zuständen: COD Ermöglichen „indels“ (Insertionen oder Deletionen) Kompensieren Verlust durch Shotgun-Sequenzierung & BLASTN (positions-unabhängig) Emission von ungleichen (und überzähligen) AS-Anzahlen Exemplarische Angabe der entsprechenden Ws: C(3,3) C(3,2) 3 verschiedene Zustände C(3,4) 4 verschiedene Zustände C(3,0) Alle Möglichkeiten: p,(a1…a,b1…b) , {0,2,3,4}; a,b {A,C,G,U} Volker Hähnke: RNA - Falten & Finden
71
Volker Hähnke: RNA - Falten & Finden
Modelle - Piktogramme COD-Modell: Alignment kodierender Bereiche eingebettet in unabhängige Bereiche C(3,0) OB B E OE C(0,3) OJ Volker Hähnke: RNA - Falten & Finden
72
Volker Hähnke: RNA - Falten & Finden
Modelle - Piktogramme RNA-Modell: erzeugt ncRNA-Gene eingebettet in unabhängige Bereiche Grammatik hat 3 verschiedene Zustände (nicht-Terminale): V: Sequenzfragment, dessen Enden sicher gepaart sind W : Sequenzfragment, dessen Enden eventuell gepaart sind WB: wie W, wird nur benutzt, um Multi-Loops zu starten 2 Arten von Emissionswahrscheinlichkeiten: aL………………….aR bL………………….bR WB: identisch Emission ja/nein Nukleotid-Vektor Emission von gepaarten Nukleotiden in beide Sequenzen Emission von ungepaarten Nukleotiden Erzeugen Gaps im Alignment Volker Hähnke: RNA - Falten & Finden
73
Volker Hähnke: RNA - Falten & Finden
Modelle - Piktogramme RNA-Modell: erzeugt ncRNA-Gene eingebettet in unabhängige Bereiche RNA OB OE OJ Volker Hähnke: RNA - Falten & Finden
74
Volker Hähnke: RNA - Falten & Finden
Übersicht: RNA falten RNA finden Motivation und Ansätze Modelle Prinzip Parameterschätzung Piktogramme Algorithmus Tests und Ergebnisse Verbesserungen Volker Hähnke: RNA - Falten & Finden
75
Algorithmus - Vorgehen
Eingabe: paarweises Sequenz-Alignment von L alignierten Paaren Scoring des Alignments: OTH, COD (HMM): Viterbi/Forward Speicher: O(L) Zeit: O(L) RNA (SCFG): CYK/Inside Speicher: O(L²) Zeit O(L³) Für jedes Modell: Ws, dass Alignment von Modell generiert wurde Alignment Klassifizieren (Bayes‘sche-Posteriori-Ws): Annahme: P(Modeli) sind gleich Ws der Klasse bei gegebenem Alignment Ws des Alignments bei verwendetem Modell Ws des Modells Ws des Alignments Volker Hähnke: RNA - Falten & Finden
76
Algorithmus - Ergebnis
Bilden von log-odds-Score zur Gütebeurteilung: ld ( beobachtet / erwartet ) Aussage darüber, wie nahe Erwartung an beobachtetem Ereignis ist Annahme: weder für Proteine noch ncRNA kodierend Log-odds-Score von COD und RNA zu OTH bilden 2 Werte, als Koordinaten in Diagramm Diagramm-Repräsentation der Information („Phase Diagram“) 3 verschiedene Fälle: y > x y > 0 RNA x > y x > 0 COD x < 0 y < 0 OTH Volker Hähnke: RNA - Falten & Finden
77
Volker Hähnke: RNA - Falten & Finden
Übersicht: RNA falten RNA finden Motivation und Ansätze Modelle Prinzip Parameterschätzung Piktogramme Algorithmus Tests und Ergebnisse Verbesserungen Volker Hähnke: RNA - Falten & Finden
78
Volker Hähnke: RNA - Falten & Finden
Tests und Ergebnisse Tests mit simulierten Daten: Sinn: Daten im Voraus eindeutig klassifiziert, Leistungsfähigkeit beurteilbar Jedes der 3 Modelle (OTH, RNA, COD) generiert nt lange Alignments Alle 300 Alignments durch Algorithmus bewertet und klassifiziert Klassifizierung soll auf Mutationsmuster beruhen, nicht auf Sequenzidentität oder Gap-Häufigkeit Spalten der Alignments zufällig neu zusammengesetzt Sequenzidentität und Anzahl der Gaps beibehalten Mutationsmuster, das Veränderung erklärt hat, zerstört Darstellung in „Phase-Diagrams“ Volker Hähnke: RNA - Falten & Finden
79
Volker Hähnke: RNA - Falten & Finden
Tests und Ergebnisse Phase-Diagram der durch COD-erzeugten Alignments: RNA OTH COD blau = Klassifizierung der original Alignments rot = Klassifizierung nach Shuffling Volker Hähnke: RNA - Falten & Finden
80
Volker Hähnke: RNA - Falten & Finden
Tests und Ergebnisse Phase-Diagramm der durch RNA erzeugten Alignments RNA OTH COD blau = Klassifizierung der original Alignments rot = Klassifizierung nach Shuffling Volker Hähnke: RNA - Falten & Finden
81
Volker Hähnke: RNA - Falten & Finden
Tests und Ergebnisse Phase-Diagramm der durch OTH erzeugten Alignments: RNA OTH COD blau = Klassifizierung der original Alignments rot = Klassifizierung nach Shuffling Volker Hähnke: RNA - Falten & Finden
82
Volker Hähnke: RNA - Falten & Finden
Tests und Ergebnisse Tests an simulierten Genomen: Sinn: Untersuchen der Tendenz zu „false Positives“, wenn COD und OTH dominieren Erzeugen von 2 Pseudobakteriengenomen ohne funktionelle RNA: Länge: 2 Megabasen Länge kodierender Regionen: normalverteilt um 900nt Länge nichtkodierender Regionen: normalverteilt um 100nt ~ 90% kodierend GC-Gehalt: 1) 38,90% 2) 47,25% 3) 57,70% Anzahl der false Positives: 1) 8 2) 14 3) 21 Erneute Analyse von Genomsatz 3 mit neuem Parametersatz: 1 false Positive Sensitivität sinkt mit steigendem GC-Gehalt, kann angepasst werden Volker Hähnke: RNA - Falten & Finden
83
Volker Hähnke: RNA - Falten & Finden
Tests und Ergebnisse Tests an realen Genomen Sinn: Test unter realistischen Bedingungen Analyse der Genome von Escherichia coli und Salmonella typhi (eng verwandt) Bekannt: 115 RNA-Gene (22 rRNAs, 86 tRNAs, 7 andere) kodierende Gene Genom aufgeteilt in 3 Bereiche: 115 RNA-Features (1% des Genoms) ORF-Features (88% des Genoms) intergene Sequenzen (11% des Genoms) Jede der 3 „Sammlungen“ gegen Salmonella typhi aligniert, bewertet Volker Hähnke: RNA - Falten & Finden
84
Volker Hähnke: RNA - Falten & Finden
Tests und Ergebnisse ncRNAs ORFs vorhanden 115 4290 In Alignments (>50nt, E < 0,01) 33 3181 erkannt als RNA 20 erkannt als COD - 2876 erkannt von alignierten 100% 90,4% erkannt von gesamt 28,6% 67% Problem: Blast lieferte nicht ausreichend viele signifikante Alignments Von alignierten Sequenzen Großteil erkannt Volker Hähnke: RNA - Falten & Finden
85
Volker Hähnke: RNA - Falten & Finden
Übersicht: RNA falten RNA finden Motivation und Ansätze Modelle Prinzip Parameterschätzung Piktogramme Algorithmus Tests und Ergebnisse Einsatz und Verbesserung Volker Hähnke: RNA - Falten & Finden
86
Einsatz & Verbesserung
Anwendungsgebiete: Erkennen von Kandidaten für ncRNA; positiv identifizierte Regionen weiter untersuchen Erkennen von für Proteine kodierende Regionen Fehlerquellen und Verbesserungen: Modelle für fixe evolutionäre Distanz (BLOSUM 62) passt nicht auf alle eingegebenen Daten BLASTN zum Alignieren von positionsunabhängig evolvierten Sequenzen Alignment mit Sankoff-Algorithmus sehr teuer: Zeit O(L6), Speicher O(L4) Training mit zufällig erzeugten Daten nicht optimal trainiertes System scheint RNA-Modell zu favorisieren Verfahren sucht nach konservierter Sekundärstruktur kann keine ncRNA erkennen, die nur sehr wenige Sekundärstrukturen ausbildet Fehlklassifizierung von mRNA mit stark ausgebildeter Sekundärstruktur z.B. zur Translationskontrolle Volker Hähnke: RNA - Falten & Finden
87
Volker Hähnke: RNA - Falten & Finden
Übersicht: RNA falten RNA finden Quellen Volker Hähnke: RNA - Falten & Finden
88
Volker Hähnke: RNA - Falten & Finden
Quellen A statistical sampling algorithm for RNA secondary structure prediction; Nucleic Acids Research 31(24) S ; Ding, Ye,Lawrence, Charles E.; 2003 Noncoding RNA gene detection using comparative sequence analysis; BMC Bioinformatics 2(8) Eddy, Sean R.,Rivas, Elena; 2001 Volker Hähnke: RNA - Falten & Finden
89
Volker Hähnke: RNA - Falten & Finden
? Volker Hähnke: RNA - Falten & Finden
Ähnliche Präsentationen
© 2024 SlidePlayer.org Inc.
All rights reserved.