Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

1/67 Johann-Wolfgang-Goethe Universität Frankfurt am Main Aktuelle Themen der Bioinformatik RNA-Sekundärstruktur- vorhersage mit Pseudoknots Johann-Wolfgang-Goethe.

Ähnliche Präsentationen


Präsentation zum Thema: "1/67 Johann-Wolfgang-Goethe Universität Frankfurt am Main Aktuelle Themen der Bioinformatik RNA-Sekundärstruktur- vorhersage mit Pseudoknots Johann-Wolfgang-Goethe."—  Präsentation transkript:

1 1/67 Johann-Wolfgang-Goethe Universität Frankfurt am Main Aktuelle Themen der Bioinformatik RNA-Sekundärstruktur- vorhersage mit Pseudoknots Johann-Wolfgang-Goethe Universität Frankfurt am Main Vortragender: Timo Drick Thema:

2 2/67 Johann-Wolfgang-Goethe Universität Frankfurt am Main 1.Einleitung 1.1. Biologische Aspekte 1.2. Überblick 2. Algorithmen 2.1. Ohne Pseudoknots 2.2. Mit Pseudoknots 2.3. Vorstellung anderer Ansätze 3. Komplexität 4. Zusammenfassung

3 3/67 Johann-Wolfgang-Goethe Universität Frankfurt am Main Einführung - Biologische Aspekte RNA, was ist das?

4 4/67 Johann-Wolfgang-Goethe Universität Frankfurt am Main Einführung - Biologische Aspekte

5 5/67 Johann-Wolfgang-Goethe Universität Frankfurt am Main Einführung - Biologische Aspekte Warum RNA? RNA ist eine universell einsetzbare Struktur in der Biologie. Sie erfüllt sehr viele verschiedenen Aufgaben: –mRNA (Vorlage der Proteinsynthese) –tRNA (Bereitstellung von Aminosäuren für Proteinsynthese) –rRNA (Synthese von Proteinen) –snRNA (Splicing es gibt auch Selbstsplicende RNA) –Allgemein wird angenommen das Ursprünglich das Leben mit RNA-Strukturen begonnen hat und daraus alles weitere Entstanden ist.

6 6/67 Johann-Wolfgang-Goethe Universität Frankfurt am Main Einführung - Überblick Warum Sekundärstrukturvorhersage? Struktur ist wichtig um auf Funktionen zu schließen. 3D-Struktur ist zu komplex um Basenpaarungen vorherzusagen. Die Sekundärstuktur ist im Prinzip eine Menge von Basenpaarungen in der 3D- Struktur. Die Sekundärstruktur kann als Grundlage für die 3D Vorhersage benutzt werden.

7 7/67 Johann-Wolfgang-Goethe Universität Frankfurt am Main Einführung - Überblick

8 8/67 Johann-Wolfgang-Goethe Universität Frankfurt am Main Einführung - Überblick

9 9/67 Johann-Wolfgang-Goethe Universität Frankfurt am Main Einführung - Überblick

10 10/67 Johann-Wolfgang-Goethe Universität Frankfurt am Main 1. Einleitung 2. Algorithmen 2.1. Ohne Pseudoknots 2.2. Mit Pseudoknots 2.3. Vorstellung anderer Ansätze 3. Komplexität 4. Zusammenfassung

11 11/67 Johann-Wolfgang-Goethe Universität Frankfurt am Main Algorithmen Prozess der Rechnergestützten Sekundärstrukturvorhersage ist sehr Komplex. Es müssen Kompromisse eingegangen werden. Um Methoden zu entwickeln müssen Modelle der Realität herangezogen werden. –Üblicherweise werden Gesetze aus der Thermodynamik verwendet. Es wird die Energie für eine Struktur berechnet. –Wenn Energie niedrig bzw. minimal dann ist die Struktur stabil.

12 12/67 Johann-Wolfgang-Goethe Universität Frankfurt am Main Algorithmen - ohne Pseudoknots Energiefunktion: Maximierung der Anzahl von „stacking pairs“ minimiert Energie. Stacking Pair:

13 13/67 Johann-Wolfgang-Goethe Universität Frankfurt am Main Algorithmen - ohne Pseudoknots P ist eine Sekundärstruktur der RNA- Sequenz P ist als Menge von Basenpaaren definiert. Stacking Pairs werden so abgekürzt:

14 14/67 Johann-Wolfgang-Goethe Universität Frankfurt am Main Algorithmen - ohne Pseudoknots Erstellen eines Graphen: Der ungerichtete Graph G(P) besteht aus n Knoten die den Basen in S entsprechen. Basen (i,j) bilden Kanten in G(P) falls: j=i+1 oder (i·j) є P Eine Sekundärstruktur ist planar wenn ihr Graph planar ist.

15 15/67 Johann-Wolfgang-Goethe Universität Frankfurt am Main Algorithmen - ohne Pseudoknots Pseudoknot: Wenn P zwei Basenpaare (i·j) und (i‘·j’) enthält, verursachen sie einen Pseudoknot falls gilt: i

16 16/67 Johann-Wolfgang-Goethe Universität Frankfurt am Main Algorithmen - ohne Pseudoknots P enthält einen „Interleaving Block“ wenn P drei SPs (i,i+1;j-1,j),(i',i'+1;j'-1,j'),(i'',i''+1;j''-1,j'') enthält für die gilt: i

17 17/67 Johann-Wolfgang-Goethe Universität Frankfurt am Main Algorithmen - ohne Pseudoknots Stacking Pair Embedding (SPE) SPE von S auf ein Gitter: –Die Basen S werden als n aufeinander folgende Gitterpunkte auf einer horizontalen Gitterlinie L gezeichnet. –i und i+1 sind verbunden. –Wenn (i,i+1;j-1,j) ein SP ist dann sind i und i+1 mit j-1 und j verbunden. Beide Kanten müssen über oder unter L liegen.

18 18/67 Johann-Wolfgang-Goethe Universität Frankfurt am Main Algorithmen - ohne Pseudoknots Eine SPE ist planar wenn sie ohne Kantenüberschneidungen gezeichnet werden kann. Annahme: P ist eine Sekundärstruktur von S. E ist eine SPE von P. Wenn P planar ist dann muss auch E planar sein.

19 19/67 Johann-Wolfgang-Goethe Universität Frankfurt am Main Algorithmen - ohne Pseudoknots Beweis: Wenn P keine planare SPE hat nehmen wir an das P einen „Interleaving Block“ enthält und das E SPs hat die sich über L kreuzen. Wenn sich kein weiteres SP unter L befindet können wir eins der SPs nach unten klappen.

20 20/67 Johann-Wolfgang-Goethe Universität Frankfurt am Main Algorithmen - ohne Pseudoknots Folgerung: Es muss sich mindestens noch ein SP unter L befinden. Probieren aller möglichen Anordnungen zeigt das E nur dann nicht ohne Überschneidungen gezeichnet werden kann wenn es sich um einen „Interleaving Block“ handelt.

21 21/67 Johann-Wolfgang-Goethe Universität Frankfurt am Main Algorithmen - ohne Pseudoknots

22 22/67 Johann-Wolfgang-Goethe Universität Frankfurt am Main Algorithmen - ohne Pseudoknots MaxSP MaxSP berechnet max # von SPs ohne Pseudoknots. Zwei Arrays V und W: –V(i,j):(j>=i) enthält die max # SPs ohne Pseudoknots die mit i,...,j gebildet werden können, wenn gilt i und j bilden Watson-Crick paar. –W(i,j):(j>=i) enthält die max # SPs ohne Pseudoknots die mit i,...,j gebildet werden können. –W(1,n) ist die max # SP die S bilden kann.

23 23/67 Johann-Wolfgang-Goethe Universität Frankfurt am Main Algorithmen - ohne Pseudoknots MaxSP Basis: Wenn j=i, j=i+1, j=i+2, j=i+3 für die gilt (j<=n) –V(i,j)=0|i und j sind ein WC paar. –W(i,j)=0 Rekursion: Wenn j>i+3

24 24/67 Johann-Wolfgang-Goethe Universität Frankfurt am Main Algorithmen - ohne Pseudoknots Der Algorithmus zählt SPs nur dann: –Wenn nach einem Basenpaar ein weiteres folgt. –D.h. viele SPs hintereinander zählen mehr als einzelne SPs. Beispiel an Tafel:

25 25/67 Johann-Wolfgang-Goethe Universität Frankfurt am Main Algorithmen - ohne Pseudoknots Annahme: Gegeben ist eine RNA-Sequenz S. N* ist die max # SPs die mit einer planaren Sekondärstruktur von S gebildet werden kann. W ist die max # an SPs die mit S ohne Pseudoknots gebildet werden können. Dann gilt W>=N* / 2

26 26/67 Johann-Wolfgang-Goethe Universität Frankfurt am Main Algorithmen - ohne Pseudoknots Beweis: P* ist eine planare Sekundärstruktur von S mit N* SPs. Solange P* planar ist sind alle SPEs von P* auch planar Lemma 3.1. E ist ein SPE von P* so dass keine Linien im Gitter sich überschneidet. n 1 und n 2 sind die # SPs über und unter L.

27 27/67 Johann-Wolfgang-Goethe Universität Frankfurt am Main Algorithmen - ohne Pseudoknots Der Algorithmus MaxSP findet mindestens ½ der möglichen SPs einer Sekondärstruktur für eine RNA-Sequenz S. Resourcen: –Laufzeit O(n 3 ) –PlatzO(n 2 ) Es gibt O(n 2 ) Einträge in V(i,j) und W(i,j) zu füllen. Pro Eintrag brauchen wir bei W(i,j) O(n) zeit und bei V(i,j) O(1) zeit.

28 28/67 Johann-Wolfgang-Goethe Universität Frankfurt am Main Algorithmen - ohne Pseudoknots MaxSP Basis: Wenn j=i, j=i+1, j=i+2, j=i+3 für die gilt (j<=n) –V(i,j)=0|i und j sind ein WC paar. –W(i,j)=0 Rekursion: Wenn j>i+3

29 29/67 Johann-Wolfgang-Goethe Universität Frankfurt am Main Algorithmen - ohne Pseudoknots mfold Berechnet minimale Energie ohne Pseudoknots. Drei Arrays V, WM und W: –V(i,j) enthält die minimale Energie eine Sekundärsturktur die mit i,...,j gebildet werden kann, wenn gilt i und j bilden Watson-Crick paar. –WM(i,j) enthält die minimale Energie eine Sekundärsturktur die mit i,...,j gebildet werden kann, wenn sie Teil eines multibranched loop ist. –W(i,j) enthält die minimale Energie der Struktur i...j

30 30/67 Johann-Wolfgang-Goethe Universität Frankfurt am Main Algorithmen - ohne Pseudoknots Hairpin loop Stacking Basepairs Internal loops bulges

31 31/67 Johann-Wolfgang-Goethe Universität Frankfurt am Main Algorithmen - ohne Pseudoknots mfold Resourcen: –LaufzeitO(n 3 ) evtl. O(cn 3 ) –PlatzO(n 2 )

32 32/67 Johann-Wolfgang-Goethe Universität Frankfurt am Main 1. Einleitung 2. Algorithmen 2.1. Ohne Pseudoknots 2.2. Mit Pseudoknots 2.3. Vorstellung anderer Ansätze 3. Komplexität 4. Zusammenfassung

33 33/67 Johann-Wolfgang-Goethe Universität Frankfurt am Main Algorithmen - mit Pseudoknots GreedySP(S,i) : i>=3 1.Finde die linkesten SPs mit i aufeinander folgenden Basenpaaren die nicht markiert sind. Füge die Bassenpaare zu E hinzu und markiere sie. Wiederhole 1. bis keine mehr gefunden werden. 2.Für k=i-1 bis 2, Finde alle SPs mit k aufeinander folgenden Basenpaaren. Füge sie E hinzu und markiere sie. 3.Finde das linkeste SP. Füge es E hinzu und markiere es. Wiederhole bis keine weiteren vorhanden.

34 34/67 Johann-Wolfgang-Goethe Universität Frankfurt am Main Algorithmen - mit Pseudoknots Algorithmus erzeugt eine Sekundärstruktur die mindestens 1/3 der maximal möglichen SPs enthält. Es werden Strukturen mit vielen aufeinander folgenden Basenpaaren bevorzugt. Ressourcen: –LaufzeitO(ni) –PlatzO(n)

35 35/67 Johann-Wolfgang-Goethe Universität Frankfurt am Main 1. Einleitung 2. Algorithmen 2.1. Ohne Pseudoknots 2.2. Mit Pseudoknots 2.3. Vorstellung anderer Ansätze 3. Komplexität 4. Zusammenfassung

36 36/67 Johann-Wolfgang-Goethe Universität Frankfurt am Main Algorithmen - mit Pseudoknots Andere Herangehensweisen für Sekundärstruktur Vorhersage: Verwendung von Stochastischen Kontextfreien Grammatiken. Genetische Algorithmen Anregung: Ansätze mit anderen Bioinformatischen methoden (Neuronale Netze, Schwarmalgorithmen,...)

37 37/67 Johann-Wolfgang-Goethe Universität Frankfurt am Main Kurze PAUSE

38 38/67 Johann-Wolfgang-Goethe Universität Frankfurt am Main 1. Einleitung 2. Algorithmen 3. Komplexität 3.1. Energiefunktion 3.2. Idee 3.3. Alphabet 3.4. RNA-Konstuktion 3.5. Beweis 4. Zusammenfassung

39 39/67 Johann-Wolfgang-Goethe Universität Frankfurt am Main Komplexität Problem: Berechnung einer RNA-Sekondärstruktur mit minimaler Energie. NP-Vollständigkeit ist bewiesen. Einfache Energiefunktion als grundlage.

40 40/67 Johann-Wolfgang-Goethe Universität Frankfurt am Main Komplexität - Energiefunktion Nearest Neighbour Pseudoknot Model S ist eine Sekundärstruktur der Sequenz s. S ist eine Menge von Basenpaaren. Es gilt:

41 41/67 Johann-Wolfgang-Goethe Universität Frankfurt am Main Komplexität - Energiefunktion Folgerungen: –Die Energie hängt ab von der Basenpaarung selbst und von den beiden Nachbarbasen bzw. dessen Paarungen. –Dieses Modell erlaubt alle Arten von Pseudoknots. (Es gibt keinerlei Restriktionen im bezug auf die Sekondärstruktur).

42 42/67 Johann-Wolfgang-Goethe Universität Frankfurt am Main 1. Einleitung 2. Algorithmen 3. Komplexität 3.1. Energiefunktion 3.2. Idee 3.3. Alphabet 3.4. RNA-Konstuktion 3.5. Beweis 4. Zusammenfassung

43 43/67 Johann-Wolfgang-Goethe Universität Frankfurt am Main Komplexität – Idee NP-Vollständig Klasse P: –Efizient entscheidbare Sprachen. (Entscheidbar in Polynomialzeit) Klasse NP: –Sprachen die in polynomieller Laufzeit von einer Nichtdeterministischen Turingmaschine entschieden werden können. –Sprachen die in polynomieller Laufzeit verifiziert werden können

44 44/67 Johann-Wolfgang-Goethe Universität Frankfurt am Main Komplexität – Idee Klasse NP-hart –Eine Sprache L ist NP-hart wenn alle Sprachen in NP auf sie Reduziert werden können. –Reduktion muss in polynomieller Laufzeit möglich sein. Gilt P=NP ?

45 45/67 Johann-Wolfgang-Goethe Universität Frankfurt am Main Komplexität – Idee Annahme 1 Entscheidung ob eine optimale Sekundärstruktur in dem NNPM eine geringere Energie als E hat, ist NP- Vollständig. Beweis: NP: Trivial – Verifizierer kann in p-Zeit Energie berechnen. NP-hart : Folgt.

46 46/67 Johann-Wolfgang-Goethe Universität Frankfurt am Main Komplexität – Idee Wie wird NP-hart Komplexität bewiesen? Reduktion auf 3SAT 3SAT: Literal: Variable x oder x negiert. Klausel: Disjunktion von Literalen. Variante: Jedes Literal darf maximal 2x auftauchen.

47 47/67 Johann-Wolfgang-Goethe Universität Frankfurt am Main Komplexität – Idee Für den Beweis sind nur Watson-Crick Basenpaarungen erlaubt. (Technische Einschränkung um die Komplexität des Beweises zu reduzieren.) Es wird ein Unendliches Alphabet aus Basen konstruiert. Dieses Konstrukt wird dann als Symbol betrachtet.

48 48/67 Johann-Wolfgang-Goethe Universität Frankfurt am Main 1. Einleitung 2. Algorithmen 3. Komplexität 3.1. Energiefunktion 3.2. Idee 3.3. Alphabet 3.4. RNA-Konstruktion 3.5. Beweis 4. Zusammenfassung

49 49/67 Johann-Wolfgang-Goethe Universität Frankfurt am Main Komplexität – Alphabet Konstruktion eines unendlichen Alphabets mit Basen: Ein Symbol entspricht der d stelligen binären Darstellung von k wobei gilt: 0<=k<=2d-1 über das Alphabet {A,U} ist. Der String b {A,U} (k,d) der Länge d wird als binär Zahl interpretiert. A = 0 und U = 1. Das gleiche für C,G

50 50/67 Johann-Wolfgang-Goethe Universität Frankfurt am Main Komplexität – Alphabet Das k'te eindeutige {A,U} Muster das d Binärstellen benutzt ist der String: A...AUb {A,U} (k,d)AUAb {A,U} (k,d)UA...A. wobei A...A=d+2 stellen. Gleiche gilt für GC Muster. BSP: k=2; d=2 A(UA)AU AUA UA(UA)A

51 51/67 Johann-Wolfgang-Goethe Universität Frankfurt am Main Komplexität – Alphabet Spezielle Konstruktion nötig damit keine unbeabsichtigten Symbole zwischen zwei Symbolen entstehen können. Symbole können negiert werden und bilden dann ihr Komplement. Ein Symbol wird negiert indem alle As mit Us, und alle Gs mit Cs und umgekehrt vertauscht werden. Nur Paarungen mit komplementären Symbolen werden energetisch bevorzugt.

52 52/67 Johann-Wolfgang-Goethe Universität Frankfurt am Main Komplexität – Alphabet Symbolische-Energiefunktion: Basenpaare zwischen Komplementären Symbolen werden energetisch bevorzugt wenn sie keine Pseudoknots mit ihren direkten Nachbarn bilden.

53 53/67 Johann-Wolfgang-Goethe Universität Frankfurt am Main 1. Einleitung 2. Algorithmen 3. Komplexität 3.1. Energiefunktion 3.2. Idee 3.3. Alphabet 3.4. RNA-Konstuktion 3.5. Beweis 4. Zusammenfassung

54 54/67 Johann-Wolfgang-Goethe Universität Frankfurt am Main Komplexität – RNA-Konstuktion Übeführung einer Formel Ф in eine Sequenz s Ф wobei gilt: –Ф liegt in der Speziellen 3SAT form vor. –s Ф wird so konstruiert das die Sekundärstruktur genau dann energetisch Minimal ist, wenn Ф erfüllbar ist. => Wenn wir das entscheiden können, dann können wir auch 3SAT entscheiden.

55 55/67 Johann-Wolfgang-Goethe Universität Frankfurt am Main Komplexität – RNA-Konstuktion Alphabet: Für jedes Literal in Ф werden ein oder zwei Komplementäre Symbole erzeugt. Für die i’te Klausel in Ф existieren zwei paare von Komplementären Symbolen Für die i’te Variable existiert ein Paar von komplementären Symbolen

56 56/67 Johann-Wolfgang-Goethe Universität Frankfurt am Main Komplexität – RNA-Konstuktion Herstellen von substrings aus Klauseln. Der Klausel Substring SC i passend zu C i ist der String: Wenn das literal i j zum ersten Mal in C i auftaucht dann ist i j =1 ansonsten i j =2 Benachbarte Literale können keine Basenpaarung bilden ohne einen Pseudoknot zu verursachen.

57 57/67 Johann-Wolfgang-Goethe Universität Frankfurt am Main Komplexität – RNA-Konstuktion Herstellen von substrings aus Variablen X i ist eine Variable die 2x positiv und 2x negativ in Ф auftaucht. Der Substring sieht dann so aus: v i sind Kontrollsymbole die, die Komplementären Variablen voneinander abschirmen. Bei fehlen eines + bzw. - Vorkommens von X i wird die Variable einfach weggelassen.

58 58/67 Johann-Wolfgang-Goethe Universität Frankfurt am Main Komplexität – RNA-Konstuktion Ф ist eine Boolesche Formel in CNF. Alle Klauseln enthalten max 3 Literale. Jedes Literal taucht max 2x auf. Angenommen Ф besteht aus c Klauseln und benutzt v Variablen, dann ist: Wobei gilt das C i ist die i’te Klausel des Substrings der zu der i’ten Klausel in Ф gehört.

59 59/67 Johann-Wolfgang-Goethe Universität Frankfurt am Main Komplexität – RNA-Konstuktion Beispiel:

60 60/67 Johann-Wolfgang-Goethe Universität Frankfurt am Main 1. Einleitung 2. Algorithmen 3. Komplexität 3.1. Energiefunktion 3.2. Idee 3.3. Alphabet 3.4. RNA-Konstuktion 3.5. Beweis 4. Zusammenfassung

61 61/67 Johann-Wolfgang-Goethe Universität Frankfurt am Main Komplexität – Beweis Behauptung: Eine optimale Sekundärstruktur für s Ф mit der speziellen Energiefunktion hat genau die Energie -(3c+v) wenn und nur wenn Ф erfüllbar ist.

62 62/67 Johann-Wolfgang-Goethe Universität Frankfurt am Main Komplexität – Beweis Wann ist eine 3SAT-Formel erfüllbar? In jeder Klausel muss mindestens ein Literal wahr sein. Nur möglich wenn ein Literal in dieser Klausel existiert das nicht in einer anderen Klausel in negierter Form gebraucht wird. Hier problem vereinfacht da jedes Literal maximal 2x auftaucht.

63 63/67 Johann-Wolfgang-Goethe Universität Frankfurt am Main Komplexität – Beweis Paarungen zwischen Literalen zeigen das das Litral wahr sein kann. Paarungen zwischen kontroll Symbolen in Variablesubstrings verhindern das eine Variable und ihre negation wahr sind.

64 64/67 Johann-Wolfgang-Goethe Universität Frankfurt am Main Komplexität – Beweis 3c+v v – In jedem Variablen Block kann eine Paarung der Kontrollsymbole stattfinden. 2c – In jedem Klauseln Block können zwei Paarungen zwischen Kontrollsymbolen stattfinden. c – ein Literal aus dem Klauseln Block kann eine Paarung mit einem Literal im Variablen Block eingehen.

65 65/67 Johann-Wolfgang-Goethe Universität Frankfurt am Main Komplexität – Zusammenfassung Zusammenfassung des Beweises: Energiefunktion: einfache Funktion gewählt –D.h. Komplexere Energiefunktionen können meistens darauf reduziert werden. Idee: Reduktion auf 3SAT –Wobei jedes Literal maximal 2x vorkommt. Alphabet: Binäre Kodierung von Symbolen in RNA-Basen. –Erzeugung eines Unendlichen Alphabets. RNA-Konstuktion: Aus 3SAT-Formel RNA- Sequenz erstellen die genau dann minimale Energie besitzt wenn die 3SAT-Formel erfüllbar ist.

66 66/67 Johann-Wolfgang-Goethe Universität Frankfurt am Main 1. Einleitung 1.1. Biologische Aspekte 1.2. Überblick 2. Algorithmen 2.1. Ohne Pseudoknots 2.2. Mit Pseudoknots 2.3. Vorstellung anderer Ansätze 3. Komplexität 4. Zusammenfassung

67 67/67 Johann-Wolfgang-Goethe Universität Frankfurt am Main Vielen dank für eure Aufmerksamkeit. Schönen Feierabend


Herunterladen ppt "1/67 Johann-Wolfgang-Goethe Universität Frankfurt am Main Aktuelle Themen der Bioinformatik RNA-Sekundärstruktur- vorhersage mit Pseudoknots Johann-Wolfgang-Goethe."

Ähnliche Präsentationen


Google-Anzeigen