Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

Aktuelle Themen der Bioinformatik Juniorprof. Dr. Dirk Metzler Johann Wolfgang Goethe-Universität Fachbereich Biologie und Informatik Institut für Informatik.

Ähnliche Präsentationen


Präsentation zum Thema: "Aktuelle Themen der Bioinformatik Juniorprof. Dr. Dirk Metzler Johann Wolfgang Goethe-Universität Fachbereich Biologie und Informatik Institut für Informatik."—  Präsentation transkript:

1 Aktuelle Themen der Bioinformatik Juniorprof. Dr. Dirk Metzler Johann Wolfgang Goethe-Universität Fachbereich Biologie und Informatik Institut für Informatik - Matthias Wirth - 01.06.20051 1.A probabilistic model for the evolution of RNA structure – Holmes 2.RNA secondary structure prediction with simple pseudoknots – Deogun, Donis, Komina, Ma

2 Aktuelle Themen der Bioinformatik Juniorprof. Dr. Dirk Metzler Johann Wolfgang Goethe-Universität Fachbereich Biologie und Informatik Institut für Informatik - Matthias Wirth - 01.06.20052 Gliederung Einführung Das TKF91 Modell Der TKF91 Structure Tree Vorstellung der durchgeführten Tests Interpretation der Ergebnisse

3 Aktuelle Themen der Bioinformatik Juniorprof. Dr. Dirk Metzler Johann Wolfgang Goethe-Universität Fachbereich Biologie und Informatik Institut für Informatik - Matthias Wirth - 01.06.20053 Ergebnis des Humangenomprojekts: Gut DREI Prozent brauchbares Material und jede Menge Schrott.

4 Aktuelle Themen der Bioinformatik Juniorprof. Dr. Dirk Metzler Johann Wolfgang Goethe-Universität Fachbereich Biologie und Informatik Institut für Informatik - Matthias Wirth - 01.06.20054 snRNASplicing von pre-mRNA guideRNARNA-Editing in Mitchondrien RibonukleasenRegulation der Biosynthese von tRNA tRNAProteinbiosynthese rRNAProteinbiosynthese Telomerase RNADNA Synthese an chromsomalen Enden snoRNAMethylierung von rRNA

5 Aktuelle Themen der Bioinformatik Juniorprof. Dr. Dirk Metzler Johann Wolfgang Goethe-Universität Fachbereich Biologie und Informatik Institut für Informatik - Matthias Wirth - 01.06.20055 Ziel: Identifikation funktioneller Signale in einer Gensequenz. Idee: Funktionelle Signale sind evolutionär konserviert. Vorgehensweise: Fitten der Daten an probabilistische Modelle, die den evolutionären Prozess darstellen.

6 Aktuelle Themen der Bioinformatik Juniorprof. Dr. Dirk Metzler Johann Wolfgang Goethe-Universität Fachbereich Biologie und Informatik Institut für Informatik - Matthias Wirth - 01.06.20056 Es existieren verschiedene Arten von konservierten Elementen x, y, z… Für jedes Szenario kann man ein probabilistisches Modell M x, M y, M z erstellen. Die Likelihood der beobachteten Daten unter jedem dieser Modelle werden verglichen. Modell mit der besten Anpassung zeigt den Typ des funktionellen Elements.

7 Aktuelle Themen der Bioinformatik Juniorprof. Dr. Dirk Metzler Johann Wolfgang Goethe-Universität Fachbereich Biologie und Informatik Institut für Informatik - Matthias Wirth - 01.06.20057 Es existieren zwei Vorgehensweisen zur Verwendung von evolutionärer Distanz: 1.Trainingsalignments werden eingeteilt nach ihrer prozentualen Sequenz- identität. Alignments, die gleich eingeteilt wurden, repräsentieren dann Sequenzen mit äquivalenten Distanzen.(siehe BLOSUM) 2.Evolutionäre Distanz wird als Zeitmessung betrachet. Man legt einen stochastischen Prozess zugrunde, mit konstanten Mutationsparametern. (siehe PAM)

8 Aktuelle Themen der Bioinformatik Juniorprof. Dr. Dirk Metzler Johann Wolfgang Goethe-Universität Fachbereich Biologie und Informatik Institut für Informatik - Matthias Wirth - 01.06.20058 Bisherige Ansätze zur Identifikation von funktioneller non-coding RNA betrachten Sekundärstruktur nicht. Aber: Funktion und Struktur sind eng miteinander verknüpft In der Biologie ist Funktion immer bedingt durch Struktur Daher: Neues Modell betrachtet evolutionäre Entwicklung von Sekundärstruktur

9 Aktuelle Themen der Bioinformatik Juniorprof. Dr. Dirk Metzler Johann Wolfgang Goethe-Universität Fachbereich Biologie und Informatik Institut für Informatik - Matthias Wirth - 01.06.20059 Gliederung Einführung Das TKF91 Modell Der TKF91 Structure Tree Vorstellung der durchgeführten Tests Interpretation der Ergebnisse

10 Aktuelle Themen der Bioinformatik Juniorprof. Dr. Dirk Metzler Johann Wolfgang Goethe-Universität Fachbereich Biologie und Informatik Institut für Informatik - Matthias Wirth - 01.06.200510 TKF91-Modell beschreibt die Evolution einer einzelnen Sequenz unter dem Einfluss von 2 Arten von Mutations-Ereignissen: 1. Punkt-Substitutionen 2. InDel-Ereignisse Die Raten der Mutations-Ereignisse sind unabhängig von benachbarten Ereignissen.

11 Aktuelle Themen der Bioinformatik Juniorprof. Dr. Dirk Metzler Johann Wolfgang Goethe-Universität Fachbereich Biologie und Informatik Institut für Informatik - Matthias Wirth - 01.06.200511 Das Modell ist zeit-reversibel Es kann oBdA davon ausgegangen werden, dass eine der beiden Sequenzen die Ursequenz der anderen ist.

12 Aktuelle Themen der Bioinformatik Juniorprof. Dr. Dirk Metzler Johann Wolfgang Goethe-Universität Fachbereich Biologie und Informatik Institut für Informatik - Matthias Wirth - 01.06.200512 Punkt - Substitutionen Positionen evolvieren unabhängig voneinander Zugrunde liegendes Substitionsmodell

13 Aktuelle Themen der Bioinformatik Juniorprof. Dr. Dirk Metzler Johann Wolfgang Goethe-Universität Fachbereich Biologie und Informatik Institut für Informatik - Matthias Wirth - 01.06.200513 A G C U U A C C G A immortal linkmortal links Insertionen - Deletionen N+1 Positionen, an denen eingefügt werden kann - mit Rate N Positionen, an denen gelöscht werden kann - mit Rate < vorrausgesetzt kein Ungleichgewicht

14 Aktuelle Themen der Bioinformatik Juniorprof. Dr. Dirk Metzler Johann Wolfgang Goethe-Universität Fachbereich Biologie und Informatik Institut für Informatik - Matthias Wirth - 01.06.200514 Folgende Wahrscheinlichkeiten ergeben sich aus Raten n und n : n = Wahrscheinlichkeit einer Nicht-Deletion n = Wahrscheinlichkeit einer Insertion n = Wahrscheinlichkeit einer Insertion nach einer Deletion n = Wahrscheinlichkeit die Sequenz fortzuführen Außerdem ist M n (i,j) die Substitutionswahrscheinlichkeit von Base i durch j

15 Aktuelle Themen der Bioinformatik Juniorprof. Dr. Dirk Metzler Johann Wolfgang Goethe-Universität Fachbereich Biologie und Informatik Institut für Informatik - Matthias Wirth - 01.06.200515 Die Sequenzlänge im Gleichgewicht ist geometrisch verteilt, mit Parameter.

16 Aktuelle Themen der Bioinformatik Juniorprof. Dr. Dirk Metzler Johann Wolfgang Goethe-Universität Fachbereich Biologie und Informatik Institut für Informatik - Matthias Wirth - 01.06.200516

17 Aktuelle Themen der Bioinformatik Juniorprof. Dr. Dirk Metzler Johann Wolfgang Goethe-Universität Fachbereich Biologie und Informatik Institut für Informatik - Matthias Wirth - 01.06.200517 Gliederung Einführung Das TKF91 Modell Der TKF91 Structure Tree Vorstellung der durchgeführten Tests Interpretation der Ergebnisse

18 Aktuelle Themen der Bioinformatik Juniorprof. Dr. Dirk Metzler Johann Wolfgang Goethe-Universität Fachbereich Biologie und Informatik Institut für Informatik - Matthias Wirth - 01.06.200518 Gewurzelter Baum, indem jeder Knoten einen Grad 3 besitzt. Beschreibt die Sekundärstruktur einer RNA-Sequenz 4 Arten von Knoten: 1. singlet: 2. paired: 3. loop: 4. stem: Struktur wird vom Auftreten von Loop- und Stem-Knoten bestimmt unabhängig evolvierende Nukleotide kovariante Basenpaare Anfang einer Loopsequenz Anfang einer Stemsequenz

19 Aktuelle Themen der Bioinformatik Juniorprof. Dr. Dirk Metzler Johann Wolfgang Goethe-Universität Fachbereich Biologie und Informatik Institut für Informatik - Matthias Wirth - 01.06.200519 Knotenbeschriftungen: = { L, S } = { A, C, G, U } ² = { AA, AC, AG, AU, CA, CC, CG, CU, GA, GC, GG, GU, UA, UG, UC, UU }

20 Aktuelle Themen der Bioinformatik Juniorprof. Dr. Dirk Metzler Johann Wolfgang Goethe-Universität Fachbereich Biologie und Informatik Institut für Informatik - Matthias Wirth - 01.06.200520

21 Aktuelle Themen der Bioinformatik Juniorprof. Dr. Dirk Metzler Johann Wolfgang Goethe-Universität Fachbereich Biologie und Informatik Institut für Informatik - Matthias Wirth - 01.06.200521

22 Aktuelle Themen der Bioinformatik Juniorprof. Dr. Dirk Metzler Johann Wolfgang Goethe-Universität Fachbereich Biologie und Informatik Institut für Informatik - Matthias Wirth - 01.06.200522

23 Aktuelle Themen der Bioinformatik Juniorprof. Dr. Dirk Metzler Johann Wolfgang Goethe-Universität Fachbereich Biologie und Informatik Institut für Informatik - Matthias Wirth - 01.06.200523

24 Aktuelle Themen der Bioinformatik Juniorprof. Dr. Dirk Metzler Johann Wolfgang Goethe-Universität Fachbereich Biologie und Informatik Institut für Informatik - Matthias Wirth - 01.06.200524 Implementierung der Grammatik-Parser setzt eine Umgestaltung der Grammatik voraus. Problemstellen: Null-Zykel- können durch Loop-/Stemlängen = 0 entstehen Silent Bulges- S S Loop Bifurcation- L LL

25 Aktuelle Themen der Bioinformatik Juniorprof. Dr. Dirk Metzler Johann Wolfgang Goethe-Universität Fachbereich Biologie und Informatik Institut für Informatik - Matthias Wirth - 01.06.200525 Null-Zykel (4, 7, 11) Silent Bulge (32, 29, 30) Loop Bifurcation (24, 27)

26 Aktuelle Themen der Bioinformatik Juniorprof. Dr. Dirk Metzler Johann Wolfgang Goethe-Universität Fachbereich Biologie und Informatik Institut für Informatik - Matthias Wirth - 01.06.200526

27 Aktuelle Themen der Bioinformatik Juniorprof. Dr. Dirk Metzler Johann Wolfgang Goethe-Universität Fachbereich Biologie und Informatik Institut für Informatik - Matthias Wirth - 01.06.200527 Komplexität der Algorithmen: single sequence SCFG: Zeit: (L³)Platz: (L²) pairwise SCFG: Zeit: (L³M³)Platz: (L²M²) => Finden des wahrscheinlichsten Parse-Baums mit Hilfe des CYK-Algorithmus

28 Aktuelle Themen der Bioinformatik Juniorprof. Dr. Dirk Metzler Johann Wolfgang Goethe-Universität Fachbereich Biologie und Informatik Institut für Informatik - Matthias Wirth - 01.06.200528 Gliederung Einführung Das TKF91 Modell Der TKF91 Structure Tree Vorstellung der durchgeführten Tests Interpretation der Ergebnisse

29 Aktuelle Themen der Bioinformatik Juniorprof. Dr. Dirk Metzler Johann Wolfgang Goethe-Universität Fachbereich Biologie und Informatik Institut für Informatik - Matthias Wirth - 01.06.200529 Implementierung eines Alignment-Tool auf Basis der SCFGs Basierend auf dynamischen Programmieren mit beschleunigenden Heuristiken Als Test der Leistungsfähigkeit des Modells werden Paare von RNA-Sequenzen miteinander aligniert und deren Struktur vorhergesagt. 4 verschiedene Familien mit variierender Homologie im Bereich der Sekundärstruktur wurden ausgewählt.

30 Aktuelle Themen der Bioinformatik Juniorprof. Dr. Dirk Metzler Johann Wolfgang Goethe-Universität Fachbereich Biologie und Informatik Institut für Informatik - Matthias Wirth - 01.06.200530 Strukturvorhersage für einzelne Sequenz Alignment mit dem TKF91-Modell Strukturvorhersage summiert über alle Alignments mit der anderen Sequenz Alignment mit dem TKF91-Structure Tree

31 Aktuelle Themen der Bioinformatik Juniorprof. Dr. Dirk Metzler Johann Wolfgang Goethe-Universität Fachbereich Biologie und Informatik Institut für Informatik - Matthias Wirth - 01.06.200531 Identische Sekundärstruktur Primärsequenz weicht voneinander ab Purine Riboswitch

32 Aktuelle Themen der Bioinformatik Juniorprof. Dr. Dirk Metzler Johann Wolfgang Goethe-Universität Fachbereich Biologie und Informatik Institut für Informatik - Matthias Wirth - 01.06.200532

33 Aktuelle Themen der Bioinformatik Juniorprof. Dr. Dirk Metzler Johann Wolfgang Goethe-Universität Fachbereich Biologie und Informatik Institut für Informatik - Matthias Wirth - 01.06.200533 Deletion des äußeren Stems Nano translational control element

34 Aktuelle Themen der Bioinformatik Juniorprof. Dr. Dirk Metzler Johann Wolfgang Goethe-Universität Fachbereich Biologie und Informatik Institut für Informatik - Matthias Wirth - 01.06.200534

35 Aktuelle Themen der Bioinformatik Juniorprof. Dr. Dirk Metzler Johann Wolfgang Goethe-Universität Fachbereich Biologie und Informatik Institut für Informatik - Matthias Wirth - 01.06.200535 Deletion von Stem 4, 5 und 6 sehr ähnliche Primärsequenz U2 splicing factors

36 Aktuelle Themen der Bioinformatik Juniorprof. Dr. Dirk Metzler Johann Wolfgang Goethe-Universität Fachbereich Biologie und Informatik Institut für Informatik - Matthias Wirth - 01.06.200536

37 Aktuelle Themen der Bioinformatik Juniorprof. Dr. Dirk Metzler Johann Wolfgang Goethe-Universität Fachbereich Biologie und Informatik Institut für Informatik - Matthias Wirth - 01.06.200537 Starker Unterschied in der Sekundärstruktur variabelste Familie in RFAM RNase P Genes

38 Aktuelle Themen der Bioinformatik Juniorprof. Dr. Dirk Metzler Johann Wolfgang Goethe-Universität Fachbereich Biologie und Informatik Institut für Informatik - Matthias Wirth - 01.06.200538

39 Aktuelle Themen der Bioinformatik Juniorprof. Dr. Dirk Metzler Johann Wolfgang Goethe-Universität Fachbereich Biologie und Informatik Institut für Informatik - Matthias Wirth - 01.06.200539 RNA Sequenzen Strukturvorhersage StructureTree singlet Strukturvorhersage StructureTree paired pairHMM Alignment pairSCFG Alignment Purine Riboswitches schlechtkorrekt Nano translational control element schlechtgut Probleme in den Rand- bereichen wesentlich besser U2 splicing factors schlechtkorrektschlechtkorrekt RNase Pschlecht

40 Aktuelle Themen der Bioinformatik Juniorprof. Dr. Dirk Metzler Johann Wolfgang Goethe-Universität Fachbereich Biologie und Informatik Institut für Informatik - Matthias Wirth - 01.06.200540 Gliederung Einführung Das TKF91 Modell Der TKF91 Structure Tree Vorstellung der durchgeführten Tests Interpretation der Ergebnisse

41 Aktuelle Themen der Bioinformatik Juniorprof. Dr. Dirk Metzler Johann Wolfgang Goethe-Universität Fachbereich Biologie und Informatik Institut für Informatik - Matthias Wirth - 01.06.200541 Stärken des Modells: streng konservierte Struktur und wenige InDels führen zu guter Struktur-Vorhersage und Alignment Bei vielen InDels in Loops und Stems oder bei geringfügigen Änderungen der Sekundärstruktur arbeitet der StructureTree auch gut Schwächen des Modells: Ab einem bestimmten Grad der strukturellen Unterschiede zwischen Sequenzen versagt das Modell (RNase P)

42 Aktuelle Themen der Bioinformatik Juniorprof. Dr. Dirk Metzler Johann Wolfgang Goethe-Universität Fachbereich Biologie und Informatik Institut für Informatik - Matthias Wirth - 01.06.200542 Mögliche Verbesserungen: Hinzunahme von long indels und affiner Gap-Penalty zusätzliche Modellierung von Thermodynamik-Effekten (Basepair Stacking, Nearst Neighbour Interaktion) Verbessertes Einfügen von Bulges (Zulassen von L-Knoten in Stems) Annahme das Stems und Loops alle mit der gleichen Rate evolvieren ist empirisch nicht belegt Triloops, Tetraloops, U-Turns u.ä. werden nicht speziell behandelt, obwohl oft evolutionär konserviert Einführung spezieller InDel-Raten für Stems/MultiStems (bislang gleiche Raten) Verbesserung der Stem-Deletion, äußer Stems sollten nicht zwangsläufig zu Löschung von inneren führen. Belegt durch empirische Studien in RFAM.

43 Aktuelle Themen der Bioinformatik Juniorprof. Dr. Dirk Metzler Johann Wolfgang Goethe-Universität Fachbereich Biologie und Informatik Institut für Informatik - Matthias Wirth - 01.06.200543 1.A probabilistic model for the evolution of RNA structure – Holmes 2.RNA secondary structure prediction with simple pseudoknots – Deogun, Donis, Komina, Ma

44 Aktuelle Themen der Bioinformatik Juniorprof. Dr. Dirk Metzler Johann Wolfgang Goethe-Universität Fachbereich Biologie und Informatik Institut für Informatik - Matthias Wirth - 01.06.200544 Gliederung Einleitung Algorithmus von Akutsu Nearest Neighbour Thermodynamik Regeln Berechnung minimaler Energien von RNA-Substrukturen Optimale Energie eines Pseudoknots Analyse des Algorithmus

45 Aktuelle Themen der Bioinformatik Juniorprof. Dr. Dirk Metzler Johann Wolfgang Goethe-Universität Fachbereich Biologie und Informatik Institut für Informatik - Matthias Wirth - 01.06.200545 Wie bereits gesehen, ist die Pseudoknoten-Vorhersage kein triviales Problem. Die Möglichkeit zur Vorhersage ist aber wichtig, da Pseudoknoten verbreitete Strukturen sind, die eine wichtige Rolle in funktionell wichtiger RNA spielen. In diesem Algorithmus werden nur einfache Pseudoknoten betrachtet. Algorithmus wurde entwickelt, um Sequenzen mit Länge >100 betrachten zu können. Laufzeitverbesserung im Gegensatz zu Eddy/Rivas: ER = (n 6 ) Zeit, (n 4 ) Platz DK = (n 4 ) Zeit, (n 3 ) Platz

46 Aktuelle Themen der Bioinformatik Juniorprof. Dr. Dirk Metzler Johann Wolfgang Goethe-Universität Fachbereich Biologie und Informatik Institut für Informatik - Matthias Wirth - 01.06.200546 Neuer Algorithmus zur Vorhersage von Pseudoknots Nearest Neighbour Thermodynamik Regeln Akutsu-Algorithmus zur Vorhersage von Pseudoknots unter Maximierung von Basenpaaren mfold-Algorithmus

47 Aktuelle Themen der Bioinformatik Juniorprof. Dr. Dirk Metzler Johann Wolfgang Goethe-Universität Fachbereich Biologie und Informatik Institut für Informatik - Matthias Wirth - 01.06.200547 Definition: Eine Sekundärstruktur S einer RNA-Sequenz A = a 1 a 2 …a n ist eine Menge von Basenpaaren. Ein Basenpaar zwischen a i und a j ( i < j ) wird notiert als ( i – j ) M = { (i j) | 1 i < j n, (a i a j ) ist Basenpaar und jedes i und j taucht max 1 mal auf }

48 Aktuelle Themen der Bioinformatik Juniorprof. Dr. Dirk Metzler Johann Wolfgang Goethe-Universität Fachbereich Biologie und Informatik Institut für Informatik - Matthias Wirth - 01.06.200548 Eine Menge von Basenpaaren wird RNA-Sekundärstruktur ohne Pseudoknoten genannt, wenn folgende Bedingung erfüllt ist: Es existieren keine Basenpaare (a i a j ), (a h a k ) M, die i h j k erfüllen.

49 Aktuelle Themen der Bioinformatik Juniorprof. Dr. Dirk Metzler Johann Wolfgang Goethe-Universität Fachbereich Biologie und Informatik Institut für Informatik - Matthias Wirth - 01.06.200549 Eine Menge von Basenpaaren wird RNA-Sekundärstruktur mit Pseudoknoten genannt, wenn folgende Bedingung erfüllt ist: Es existieren Positionen j und j für I < j < j < K, so dass für jedes Paar (i j) M I,K gilt: I i < j < j < j oder j < i < j j K

50 Aktuelle Themen der Bioinformatik Juniorprof. Dr. Dirk Metzler Johann Wolfgang Goethe-Universität Fachbereich Biologie und Informatik Institut für Informatik - Matthias Wirth - 01.06.200550 Gliederung Einleitung Algorithmus von Akutsu Nearest Neighbour Thermodynamik Regeln Berechnung minimaler Energien von RNA-Substrukturen Optimale Energie eines Pseudoknots Analyse des Algorithmus

51 Aktuelle Themen der Bioinformatik Juniorprof. Dr. Dirk Metzler Johann Wolfgang Goethe-Universität Fachbereich Biologie und Informatik Institut für Informatik - Matthias Wirth - 01.06.200551 Der Algorithmus von Akutsu bewertet RNA-Strukturen anhand der Anzahl ihrer Basenpaare. Idee: Basenpaarungen tragen zu einer erhöhten Ordnung im Molekül bei und erniedrigen dadurch die freie Energie der Struktur. Strukturen mit hoher Anzahl Basenpaaren werden daher in der Natur bevorzugt und durch den Algorithmus besser bewertet.

52 Aktuelle Themen der Bioinformatik Juniorprof. Dr. Dirk Metzler Johann Wolfgang Goethe-Universität Fachbereich Biologie und Informatik Institut für Informatik - Matthias Wirth - 01.06.200552 Zur Berechnung des optimalen Pseudoknots werden 4 Matrizen benötigt: 1.SL(i, j, k)enthält Score des besten Foldings zwischen I und i, und j und k. Unter der Bedingung das i mit j paart. 2.SR(i, j,k)enthält Score des besten Foldings zwischen I und i, und j und k. Unter der Bedingung das j mit k paart. 3.SM(i, j, k)enthält Score des besten Foldings zwischen I und i, und j und k. Unter der Bedingung das weder i mit j, noch j mit k paart. 4.PS(i, j)enthält Score des besten Pseudoknot mit Anfangspunkt i und Endpunkt j

53 Aktuelle Themen der Bioinformatik Juniorprof. Dr. Dirk Metzler Johann Wolfgang Goethe-Universität Fachbereich Biologie und Informatik Institut für Informatik - Matthias Wirth - 01.06.200553 Um einen Pseudoknot mit Anfangspunkt I und Endpunkt K zu finden, muss der Algorithmus drei Typen von Triplets berechnen: SL(i, j, k), SR(i, j, k) und SM(i, j, k) für jedes i, j, k für das gilt (I i < j < k K) Berechnung von SL(i, j, k):

54 Aktuelle Themen der Bioinformatik Juniorprof. Dr. Dirk Metzler Johann Wolfgang Goethe-Universität Fachbereich Biologie und Informatik Institut für Informatik - Matthias Wirth - 01.06.200554 Berechnung von SR(i, j, k): Berechnung von SM(i, j, k):

55 Aktuelle Themen der Bioinformatik Juniorprof. Dr. Dirk Metzler Johann Wolfgang Goethe-Universität Fachbereich Biologie und Informatik Institut für Informatik - Matthias Wirth - 01.06.200555 Für jedes Paar (I, K), wobei I < K, werden die SL, SM und SR Matrizen berechnet. Optimaler Score für jedes Paar (i, j) kann durch folgende Rekursion berechnet werden:

56 Aktuelle Themen der Bioinformatik Juniorprof. Dr. Dirk Metzler Johann Wolfgang Goethe-Universität Fachbereich Biologie und Informatik Institut für Informatik - Matthias Wirth - 01.06.200556 Gliederung Einleitung Algorithmus von Akutsu Nearest Neighbour Thermodynamik Regeln Berechnung minimaler Energien von RNA-Substrukturen Optimale Energie eines Pseudoknots Analyse des Algorithmus

57 Aktuelle Themen der Bioinformatik Juniorprof. Dr. Dirk Metzler Johann Wolfgang Goethe-Universität Fachbereich Biologie und Informatik Institut für Informatik - Matthias Wirth - 01.06.200557 Die Nearest Neighbour Energy Rules sind weit verbreitet in der RNA Sekundärstrukturvorhersage. Problem ist so definiert: Berechnung von RNA-Strukturen mit minimaler freier Energie ( - G)

58 Aktuelle Themen der Bioinformatik Juniorprof. Dr. Dirk Metzler Johann Wolfgang Goethe-Universität Fachbereich Biologie und Informatik Institut für Informatik - Matthias Wirth - 01.06.200558 Problem: Es existiert keine systematische Studie über die Thermodynamik von Pseudoknots. In den Nearest Neighbour Energy Rules sind Pseudoknots verboten. Annahme: Freie Energie eines Pseudoknots ist die Summe der stabilisierenden Werte beider Stämme und die der destabilisierenden Loops.

59 Aktuelle Themen der Bioinformatik Juniorprof. Dr. Dirk Metzler Johann Wolfgang Goethe-Universität Fachbereich Biologie und Informatik Institut für Informatik - Matthias Wirth - 01.06.200559 Gliederung Einleitung Algorithmus von Akutsu Nearest Neighbour Thermodynamik Regeln Berechnung minimaler Energien von RNA-Substrukturen Optimale Energie eines Pseudoknots Analyse des Algorithmus

60 Aktuelle Themen der Bioinformatik Juniorprof. Dr. Dirk Metzler Johann Wolfgang Goethe-Universität Fachbereich Biologie und Informatik Institut für Informatik - Matthias Wirth - 01.06.200560 Zur Berechnung der minimalen Energie von RNA-Substrukturen werden 3 N x N Matrizen benötigt: 1. V(i,j)enthält Score des besten Foldings zwischen i und j, unter der Bedingung das i und j paart. 2. W(i,j)enthält Score des besten Foldings zwischen i und j, egal ob i und j paaren oder nicht. 3. PS(i,j)enthält Score der besten Pseudoknot-Konfiguration zwischen den Positionen i und j.

61 Aktuelle Themen der Bioinformatik Juniorprof. Dr. Dirk Metzler Johann Wolfgang Goethe-Universität Fachbereich Biologie und Informatik Institut für Informatik - Matthias Wirth - 01.06.200561 V(i, j) =, wenn i und j nicht paaren können

62 Aktuelle Themen der Bioinformatik Juniorprof. Dr. Dirk Metzler Johann Wolfgang Goethe-Universität Fachbereich Biologie und Informatik Institut für Informatik - Matthias Wirth - 01.06.200562 Algorithmus nimmt immer ein Nukleotid dazu und beobachtet, was die beste Struktur in jedem Schritt ist. Im letzten Schritt wird W(1, n) berechnet und enthält die minimale Energie der gesamten Sequenz. Über ein Traceback durch die Matrizen werden die Strukturen der Sequenz bestimmt.

63 Aktuelle Themen der Bioinformatik Juniorprof. Dr. Dirk Metzler Johann Wolfgang Goethe-Universität Fachbereich Biologie und Informatik Institut für Informatik - Matthias Wirth - 01.06.200563

64 Aktuelle Themen der Bioinformatik Juniorprof. Dr. Dirk Metzler Johann Wolfgang Goethe-Universität Fachbereich Biologie und Informatik Institut für Informatik - Matthias Wirth - 01.06.200564 Gliederung Einleitung Algorithmus von Akutsu Nearest Neighbour Thermodynamik Regeln Berechnung minimaler Energien von RNA-Substrukturen Optimale Energie eines Pseudoknots Analyse des Algorithmus

65 Aktuelle Themen der Bioinformatik Juniorprof. Dr. Dirk Metzler Johann Wolfgang Goethe-Universität Fachbereich Biologie und Informatik Institut für Informatik - Matthias Wirth - 01.06.200565 Optimale Energie eines Pseudoknots Folgende Matrizen werden zur Berechnung benötigt: 1. SL(i, j, k)Enthält Score des besten Folding zwischen Positionen I und i, und j und k. Enthält Energie des Loops der von i und j geschlossen wird. Setzt Paarung von i und j vorraus. 2. SR(i, j, k)Enthält Score des besten Folding zwischen Positionen I und i, und j und k. Enthält Energie des Loops der von i und j+1 geschlossen wird. Setzt Paarung von j und k vorraus. 3. SM(i, j, k)Enthält Score des besten Folding zwischen Positionen I und i, und j und k. Enthält Energie des Loops der von i und j+1 geschlossen wird. Setzt vorraus, dass weder i mit j paart, noch j mit k.

66 Aktuelle Themen der Bioinformatik Juniorprof. Dr. Dirk Metzler Johann Wolfgang Goethe-Universität Fachbereich Biologie und Informatik Institut für Informatik - Matthias Wirth - 01.06.200566 4. stem1(i, j)Enthält Energie von S1, die in SL(i, j, k) gespeichert ist, falls i mit j paart und in SM(i, j, k) falls i nicht mit j paart. 5. stem2(j, k)Enthält Energie von S2, die in SR(i, j, k) gespeichert ist, falls j mit k paart und in SM(i, j, k) falls j nicht mit k paart. stem1 und stem2 werden zur Berechnung von SL, SR und SM benötigt. stem1 und stem2 erhalten die Werte, die als minimale Energien für SL, SR oder SM gewählt wurden. stem1 und stem2 enthalten zusammen die Energie einer Struktur (i, j, k).

67 Aktuelle Themen der Bioinformatik Juniorprof. Dr. Dirk Metzler Johann Wolfgang Goethe-Universität Fachbereich Biologie und Informatik Institut für Informatik - Matthias Wirth - 01.06.200567

68 Aktuelle Themen der Bioinformatik Juniorprof. Dr. Dirk Metzler Johann Wolfgang Goethe-Universität Fachbereich Biologie und Informatik Institut für Informatik - Matthias Wirth - 01.06.200568 Initialisierung SL(i, j, k) = SR(i, j, k) = SM(i, j, k) = für alle i, j, k außer: SL(i, k-1, k) = hairpin(i, k-1) + penaltywenn i und k-1 paaren können stem1(i, j) = hairpin(i, j)falls i und j paaren können stem1(i, j) = sonst stem2(i, j) = für alle i, j

69 Aktuelle Themen der Bioinformatik Juniorprof. Dr. Dirk Metzler Johann Wolfgang Goethe-Universität Fachbereich Biologie und Informatik Institut für Informatik - Matthias Wirth - 01.06.200569 Berechnung der SL Matrix Wenn i und j paaren, kann der Wert in SL(i, j, k) auf drei Arten zustandekommen: 1.Das Paar (i – j) schließt einen Hairpin Loop 2.Das Paar (i – j) stackt auf einem Paar (i-1 – j+1) 3.Das Paar (i – j) schließt zusammen mit einem Paar (ip – jp) einen Bulge oder einen Internal Loop

70 Aktuelle Themen der Bioinformatik Juniorprof. Dr. Dirk Metzler Johann Wolfgang Goethe-Universität Fachbereich Biologie und Informatik Institut für Informatik - Matthias Wirth - 01.06.200570 SL(i, j, k) = min { E1, E2 } E 1 = hairpin(i, j) + stem2(j+1, k) E 2 = min I i, i+4 j { "@context": "http://schema.org", "@type": "ImageObject", "contentUrl": "http://images.slideplayer.org/1/653180/slides/slide_70.jpg", "name": "Aktuelle Themen der Bioinformatik Juniorprof.Dr.", "description": "Dirk Metzler Johann Wolfgang Goethe-Universität Fachbereich Biologie und Informatik Institut für Informatik - Matthias Wirth - 01.06.200570 SL(i, j, k) = min { E1, E2 } E 1 = hairpin(i, j) + stem2(j+1, k) E 2 = min I i, i+4 j

71 Aktuelle Themen der Bioinformatik Juniorprof. Dr. Dirk Metzler Johann Wolfgang Goethe-Universität Fachbereich Biologie und Informatik Institut für Informatik - Matthias Wirth - 01.06.200571

72 Aktuelle Themen der Bioinformatik Juniorprof. Dr. Dirk Metzler Johann Wolfgang Goethe-Universität Fachbereich Biologie und Informatik Institut für Informatik - Matthias Wirth - 01.06.200572 Spezialfall: Ist stem2(j+1, k) = ( Substruktur enthält nur einen Hairpin-Loop), dann folgt: E 1 = hairpin(i,j) + penalty Paaren i und j nicht, werden SL(i, j, k) und stem1(i, j) wie folgt berechnet:

73 Aktuelle Themen der Bioinformatik Juniorprof. Dr. Dirk Metzler Johann Wolfgang Goethe-Universität Fachbereich Biologie und Informatik Institut für Informatik - Matthias Wirth - 01.06.200573 Berechnung der SR Matrix Wenn j und k paaren, kann der Wert in SL(i, j, k) auf drei Arten zustandekommen: 1.Das Paar (j – k) schließt einen Hairpin Loop 2.Das Paar (j – k) stackt auf einem Paar (j+1 – k-1) 3.Das Paar (j – k) schließt zusammen mit einem Paar (jp – kp) einen Bulge oder einen Internal Loop

74 Aktuelle Themen der Bioinformatik Juniorprof. Dr. Dirk Metzler Johann Wolfgang Goethe-Universität Fachbereich Biologie und Informatik Institut für Informatik - Matthias Wirth - 01.06.200574 SR(i, j, k) = min { E3, E4 } E 3 = hairpin(j, k) + stem1(i, j+1) E 4 = min j { "@context": "http://schema.org", "@type": "ImageObject", "contentUrl": "http://images.slideplayer.org/1/653180/slides/slide_74.jpg", "name": "Aktuelle Themen der Bioinformatik Juniorprof.Dr.", "description": "Dirk Metzler Johann Wolfgang Goethe-Universität Fachbereich Biologie und Informatik Institut für Informatik - Matthias Wirth - 01.06.200574 SR(i, j, k) = min { E3, E4 } E 3 = hairpin(j, k) + stem1(i, j+1) E 4 = min j

75 Aktuelle Themen der Bioinformatik Juniorprof. Dr. Dirk Metzler Johann Wolfgang Goethe-Universität Fachbereich Biologie und Informatik Institut für Informatik - Matthias Wirth - 01.06.200575

76 Aktuelle Themen der Bioinformatik Juniorprof. Dr. Dirk Metzler Johann Wolfgang Goethe-Universität Fachbereich Biologie und Informatik Institut für Informatik - Matthias Wirth - 01.06.200576 Spezialfall: Ist stem1(i, j+1) = ( Substruktur enthält nur einen Hairpin-Loop), dann folgt: E 3 = hairpin(j, k) + penalty Paaren j und k nicht, werden SR(i, j, k) und stem2(j, k) wie folgt berechnet:

77 Aktuelle Themen der Bioinformatik Juniorprof. Dr. Dirk Metzler Johann Wolfgang Goethe-Universität Fachbereich Biologie und Informatik Institut für Informatik - Matthias Wirth - 01.06.200577 Berechnung der SM Matrix In der SM Matrix geht man davon aus, dass weder i mit j, noch j mit k paaren, auch wenn sie dazu in der Lage wären. Bei Fall 1.)stem1(i, j) = stem1(i-1, j) Bei Fall 2.)stem1(i, j) = stem1(i, j+1), stem2(j, k) = stem2(j+1, k) Bei Fall 3.)stem2(j, k)= stem2(j, k-1)

78 Aktuelle Themen der Bioinformatik Juniorprof. Dr. Dirk Metzler Johann Wolfgang Goethe-Universität Fachbereich Biologie und Informatik Institut für Informatik - Matthias Wirth - 01.06.200578 Komplexität: Für jedes Paar (I, K) müssen Scores für (n³) Triplets berechnet werden. Der Score eines Triplets hängt nur von I ab nicht von K. Es müssen (n³) Scores für jedes I berechnet werden Zeit: (n 4 ) Der Speicherplatzbedarf resultiert aus den NxNxN-Matrizen Speicherplatz: (n³)

79 Aktuelle Themen der Bioinformatik Juniorprof. Dr. Dirk Metzler Johann Wolfgang Goethe-Universität Fachbereich Biologie und Informatik Institut für Informatik - Matthias Wirth - 01.06.200579 Gliederung Einleitung Algorithmus von Akutsu Nearest Neighbour Thermodynamik Regeln Berechnung minimaler Energien von RNA-Substrukturen Optimale Energie eines Pseudoknots Analyse des Algorithmus

80 Aktuelle Themen der Bioinformatik Juniorprof. Dr. Dirk Metzler Johann Wolfgang Goethe-Universität Fachbereich Biologie und Informatik Institut für Informatik - Matthias Wirth - 01.06.200580 Ergebnisse: Test mit einer Menge von simplen Pseudoknots aus PseudoBase 169 Sequenzen, mit einer Länge zwischen 19 und 114 Nukleotiden Algorithmus faltet 163 Pseudoknots und 6 einfache Strukturen 131/163 sind korrekt oder fast korrekt gefaltet worden Für 3 der 6 einfachen Strukturen kann die Vorhersage, durch Erhöhen der penalty verbessert werden Bei einer der simplen Strukturen ist im Pseudoknot der Datenbank ein A-G bp enthalten

81 Aktuelle Themen der Bioinformatik Juniorprof. Dr. Dirk Metzler Johann Wolfgang Goethe-Universität Fachbereich Biologie und Informatik Institut für Informatik - Matthias Wirth - 01.06.200581 Vergleich mit dem Eddy/Rivas Programm: Eddy/RivasDeogun/Komina 50 % der Pseudoknots erkannt95 % der Pseudoknots erkannt Davon 78 % mit korrekter oder fast-korrekter Struktur Berechnungszeiten: 75 Nukleotide 55 Sekunden 114 Nukleotide 8 Minuten

82 Aktuelle Themen der Bioinformatik Juniorprof. Dr. Dirk Metzler Johann Wolfgang Goethe-Universität Fachbereich Biologie und Informatik Institut für Informatik - Matthias Wirth - 01.06.200582 Quellen: Akutsu (2000): Dynamic programming algorithm for RNA secondary structure prediction with pseudoknots, Discrete Apllied Mathematics Deogun, Komina et al. (2004): RNA Secondary Structure Prediction with Simple Pseudoknots, APBC2004 Holmes (2004): A probabilistic model for the evolution of RNA structure, BMC Bioinformatics Mattick (2005): Das verkannte Genom-Programm, Spektrum der Wissenschaft (März 05) Thorne, Kishino, Felsenstein (1991): An evolutionary model for maximum likelihood alignment of DNA sequences, J Mol Evol Zuker et al.: Algorithms and thermodynamics for RNA secondary structure prediction: A practical guide, NATO ASI Series


Herunterladen ppt "Aktuelle Themen der Bioinformatik Juniorprof. Dr. Dirk Metzler Johann Wolfgang Goethe-Universität Fachbereich Biologie und Informatik Institut für Informatik."

Ähnliche Präsentationen


Google-Anzeigen