Secondary Structure Prediction for Aligned RNA Sequences

Slides:



Advertisements
Ähnliche Präsentationen
Simulationsansätze in der BWL: Erstellung eines eigenen Projekts
Advertisements

Inhalt Saarbrücken,.
SST - Sequence Search Tree
Wilhelm-Raabe-Schule Fachbereich: Mathematik Thema: Lineare Funktionen
Aminosäuren bilden: Peptidbindungen
Suche in Texten (Stringsuche )
Genetische Algorithmen für die Variogrammanpassung
Theorie psychometrischer Tests, III
Forschungsstatistik I Prof. Dr. G. Meinhardt WS 2006/2007 Fachbereich Sozialwissenschaften, Psychologisches Institut Johannes Gutenberg Universität Mainz.
Übersicht DIALIGN = DIagonal ALIGNment
Heuristiken und Kontexteinflüsse
1 Proseminar Bioinformatik: Theoretical Analysis of Protein-Protein-Interactions Scoring Functions Silke Ruzek 22.Juni.2004.
Protein-Protein Bindungsstellen
Forschungsstatistik I Prof. Dr. G. Meinhardt WS 2004/2005 Fachbereich Sozialwissenschaften, Psychologisches Institut Johannes Gutenberg Universität Mainz.
Heuristiken Automatic Problem Solving Institut für Informatik
Vorlesung Informatik 2 Algorithmen und Datenstrukturen (27 – Kürzeste Wege) Prof. Th. Ottmann.
Erzeugung und Validierung wahrscheinlichkeitsbasierter Niederschlagsvorhersagen mit dem GME unter Verwendung von Breeding- und Ensemble-Kalman-Methoden.
Numerische Klassifikation TWINSPAN
A probabilistic model for the evolution of RNA structure – Holmes
Anwendungen der PCR und von Hybridisierungstechniken
Analyse von DNA-Sequenzen
Strukturgleichungsmodelle
Hauptseminar Automaten und Formale Sprachen
Seminarvortrag von Florian Senger
Analyse eines Handballspielzuges
Tutorium
Konzeption und Realisierung von DSS
On the Power of Profiles for Transcription Factor Binding Site Detection Sven Rahmann* Tobias Müller Martin Vingron * Computational Molecular Biology,
Phylogenetic Footprinting
Prof. Dr. Gerhard Schmidt pres. by H.-J. Steffens Software Engineering WS 2006 / 2007Folie 1 Agile Vorgehensweisen Hintergrund –in den letzten Jahren hat.
Christian Schulz, Marc Thielbeer, Sebastian Boldt
Genmutation.
Ausgleichungsrechnung I
Abschlussvortrag zur Studienarbeit
Computational Thinking Online Algorithmen [Was ist es wert, die Zukunft zu kennen?] Kurt Mehlhorn Konstantinos Panagiotou.
Theorien, Methoden, Modelle und Praxis
Aufgabenzettel V Statistik I
Black Box Algorithmen Hartmut Klauck Universität Frankfurt SS
Black Box Algorithmen Hartmut Klauck Universität Frankfurt SS
Black Box Algorithmen Hartmut Klauck Universität Frankfurt SS
Effiziente Algorithmen Hartmut Klauck Universität Frankfurt SS
Effiziente Algorithmen Hartmut Klauck Universität Frankfurt SS
Effiziente Algorithmen
Einführung in SPSS/PASW. Inhaltsübersicht 1. Intro ( ) 2. Deskriptive Statistik ( ) 3. Ausgaben ( ) Wiederholung Tabellen,
Einführung in SPSS/PASW. Inhaltsübersicht 1. Intro ( ) 2. Deskriptive Statistik ( ) (In Buch 1 Seite 85ff.) Kennwerte (Erwartungswert,
Kapitel 16 Ökonometrische Modelle
Wie bewältigt man Stationaritätsannahmen in der Geostatistik? Brenning & van den Boogaart A.Brenning, Humboldt-Universität zu Berlin
Wahrscheinlichkeitsrechnung
Wahrscheinlichkeitsrechnung
VL Algorithmische BioInformatik (19710)
Die Querschnittstudie
Using latent semantic analysis to find different names for the same entity in free text Präsentation und Diskussion des Papers Im Rahmen des PS Web-Information.
Rekonstruktion phylogenetischer Bäume.
Paarweises Sequenz-Alignment
Parallelisierung für Multiprozessor-Maschinen
Vergleich von RNA Strukturen A General Edit Distance between RNA Structures von Sebastian Juenemann.
Vorhersage von RNA-Sekundärstrukturen
Gene Prediction Marco Block Jonas Heise Nima Keshvari Michael Schreiber.
Vortrag Relative Orientierung
2.5.2 Multivariate Monte Carlo-Simulation
HEURISTIKEN.
Testtheorie (Vorlesung 13: ) Wiederholung: Richtigstellung
Geoinformationssysteme
Kosten- und Finanzmittelplanung
Programmiersprachen II Fortsetzung Datenstrukturen Balancierte Bäume 1 Prof. Dr. Reiner Güttler Fachbereich GIS HTW.
- Seite 1 TIME INTELLIGENCE ® by Zeichenrand – Löschen! Titel.
PCA Principal Component Analysis. Gliederung PCA – Warum eigentlich? PCA – Was ist zu tun? Was passiert eigentlich? Anwendungen Zusammenfassung.
C3: Strategische Interaktion und Anreize für nachhaltiges ökonomisches Handeln Page 1  Ziel: Untersuchung von Anreizproblemen, die nachhaltige Wertschöpfungsnetze.
 Gegenstandsbereich der Testtheorie: Analyse der Charakteristika von Tests:  Güte von Tests.  Struktur von Tests.  Schwierigkeit von Tests.  Gruppenunterschiede.
- Seite 1 TIME INTELLIGENCE ® by Titel.
 Präsentation transkript:

Secondary Structure Prediction for Aligned RNA Sequences Computational RNomics Von Dominik Mertens 01.07.2004 Dominik Mertens

Inhaltsübersicht Eine kurze Einführung Der Algorithmus zum RNAalifold: a) MCMP-Bezug b) Mutual Information Score c) Covarianz-Score d) Bezug zu Loop-basierten Energiemodell III. Quellenangabe Dominik Mertens

I. ...Eine kurze Einführung Sekundärstrukturen von essentieller Bedeutung Funktionell wichtige Strukturelemente bleiben im Laufe der Evolution konserviert wenige zufällige Mutationen reichen aus, Strukturelemente zu zerstören Moleküle mit ähnlichen Sekundärstrukturen kann man zu Gruppen zusammenfassen Gruppen beziehen sich nicht auf Sequenz; sondern auf SS!! Dominik Mertens

Bezug zu RNA die meisten funktionellen RNA´s haben oft charakteristische Sekundärstrukturen => hohe Konservierung während der Evolution geringe erkennbare Sequenzähnlichkeit Struktur ist viel stärker konserviert als Sequenz Ziel: Effektive Berechnung der Konsens-Struktur eines RNA-Datensatzes Dominik Mertens

Bezug zu RNA Kombination aus phylogenetische Information (Sequenz-Covarianz) & thermodynamische Stabilität der Moleküle 2 Gruppen: 1. Start durch Multiple Sequence Alignment 2. Alignment- und Folding-Problembehandlung gleichzeitig ( => zeitintensiv!) Nicht geeignet für lange Sequenzen (16S oder 23S RNA) Dominik Mertens

Ermittlung der Sekundärstruktur Strukturvorhersage über „maximum circular matching problem“ oder Energie-Modell basierend auf thermodynamische Werte ... Sollte ja bekannt sein!!! Zuerst Bezug zum ersten Ansatz (MCMP): Dominik Mertens

II. Der Algorithmus RNAalifold integriert sowohl thermodynamische als auch phylogenetische Informationen in ein modifiziertes Energiemodell Dominik Mertens

a) MCMP-Bezug β hängt nur vom Basenpaartyp ab Idee: alle Informationen über das Basenpaar in Kostenfunktion einfließen lassen (Sequenz-Covariation!) Simplest case: Β = -1, wenn Basenpaar m=3: Basenpaar muss mindestens 3 ungepaarte Basen dazwischen haben BETA stellt die Stabilität des Basenpaares dar Unterste unter der MIN = Paarungsmatrix!! Dominik Mertens

Verschiedene Basenpaartypen in multiple alignments Sekundärstruktur ist konserviert trotz Sequenzmutationen konsistente Mutation eines Basenpaares multiple Alignment A bestehend aus N homologen RNA-Sequenzen, Länge n Voraussetzung: gutes Alignment Sequenz ist kompatibel zum Basenpaar (i,j), wenn die Nukleotide an Position i und j ein Basenpaar formen je mehr Sequenzen nicht-kompatibel sind zu (i,j) desto weniger wahrscheinlich ist das Basenpaar Gutes alignment kriegt man zB dadurch, dass man Gruppe von tRNA´s gleicher Länge nimmt Man braucht gutes A. um sich der Positionen sicher zu sein. Dominik Mertens

Multiple Sequence Alignments wenn verschiedene Basenpaare an Stelle i,j vorkommen: Konsistente Mutation BEISPIELE DAFÜR!!! Kompensatorische konsistente Mutation Nicht-kompensatorische Konsistente Mutation Dominik Mertens

Mutationen & Konservierung Vorkommen von konsistenten, insbesondere kompensatorischen Mutationen bekräftigen Vorhersage des Basenpaares Konservierung des Basenpaares (Nicht der Sequenz selber!!) Dominik Mertens

b) Mutual information score multiple Alignment A bestehend aus N Sequenzen, Länge n relative Häufigkeit, wie oft Base X an der Stelle i im Alignment auftritt Quantifizierung der Sequenz-Covarianz zur Ermittlung der Sekundärstrukturen über „mutual information score“ : Mutual information score ist übliche Methode um Sequenz-Covarianz zu quantifizieren!! Stelle i bedeutet in diesem Sinne Spalte. F i,j : Base x an i UND Base y an j relative Häufigkeit : In Abhängigkeit der Alignmentgröße, also x/N je höher der Wert; desto besser für covarianz!!! Dominik Mertens

Mutual information score Regeln der Basenpaarung werden nicht berücksichtigt konsistente nicht-kompensatorische Mutationen haben keine Bedeutung Beispiel: Nur GC und GU Paare an bestimmter Position Mutual information score = 0 Folgerung: nur kompensatorische Basenpaare werden als konservierte Struktur bezeichnet Folgerung bei großem datensatz ok, da es genug infos über sequenzunterschiede und solche compensatorische mutationen gibt. Aber bei kleinen Datensätzen ist jede Mutation wichtig!!! Konservierte Basenpaarsequenzen sind zur Berechnung der konservierten Struktur ungeeignet!!! ( M = 0) Dominik Mertens

c) Covarianz-score mutual information score nicht immer sinnvoll => Unterscheidung der Basenpaare in 1.) konservierte Basenpaare 2.) Paare mit konsistenten Mutationen 3.) Paare mit konsistent kompensatorischen Mutationen Dominik Mertens

Covarianz-Score  (a´,a´´) = 1 falls a´´= a´´ , sonst 0 d ist die Hamming distance der beiden Sequenzen a und b an den Positionen i und j => D = 0 wenn sequenzen alpha und beta an beiden aligned positions i und j übereinstimmen Dominik Mertens

Covarianz Maß für Covarianz: ∏ ist BP-Matrix einer Sequenz Nur wenn es Basenpaar ist, wird d in Summe mit aufgenommen!!!! Wegen ∏ = 0 für nicht-Basenpaar Alle Sequenzen werden miteinander verglichen... „N über 2“ als Faktor davor um Durchschnitt pro Vergleich zu bekommen (=> relativer Abstand) Untere Funktion: statt der Sequenzen geht man mögliche Basenpaare durch! : D(XY,X´,Y´) = d(XY,X´,Y´) falls XY und X´Y´ BP´s sind ∏ ist BP-Matrix einer Sequenz ( ∏ = 1 falls i und j paaren können, sonst 0) Dominik Mertens

Inkonstistenz Beide Ansätze bewerten kompensatorische Mutationen stärker keiner handelt von inkonsistenten Sequenzen (kein BP bei i,j) q berücksichtigt inkonsistente Sequenzen: Relative Häufigkeit q = 0 wenn nur BP´s vorhanden q = 1 wenn es keine BP´s gibt Dominik Mertens

Inkonsistenz In multiple Alignments vieler Sequenzen können Sequenzierfehler auftreten Nicht-Standard-Basenpaare können auftreten (Gutell, 1992) inkonsistente Sequenz => i,j kein Basenpaar Ansatz: Grenzwert B* für kombinierten Score Berechnung der BP-Matrix des Alignments: Wenn die anderen Sequenzen konsistent, eine aber nicht, kann diese aufgrund von Seq.Fehler nicht konsistent sein!!!! B = combined covariation score!! Dominik Mertens

„MCMP“-Energiemodell Daraus ergibt sich ein Energiemodell für das „maximum circular matching problem“: Lineare Kombination aus average base pairing energy and the combined covariation score B (je größer B, desto negativer der Term => freiwerdende Energie! Dominik Mertens

d) „Loop“-basiertes Energiemodell „Loop“-basierte Energiemodelle viel besser als MCMP jedem Loop wird Energie in Abhängigkeit von Looptyp, Länge und Sequenz zugeordnet => Gesamtenergie eines Alignment-Folding ergibt sich aus dem Durchschnitt der Loop-basierten Energiewerte aller Sequenzen plus der Kovarianz Sekundärstruktur ist in Loops unterteilt, die alle eine spez. Energie zugeordnet werden Dominik Mertens

Vorteile von RNAalifold einmaliger Durchlauf des Faltungsalgorithmus ausreichend (Zeitersparnis, insbesondere für große Datensätze) Zuverlässigkeit der Vorhersage kann durch die Berechnung der Matrix für BP-Wahrscheinlichkeiten abgeschätzt werden Falls Sequenzen keine gemeinsame Faltung erlauben sagt die Methode keine BP´s voraus Dominik Mertens

...abschließende Anmerkungen Rein phylogenetische Methoden zur Bestimmung von konservierten Strukturen können nur benutzt werden wenn es einen großen Datensatz gibt. Rein thermodynamische Strukturvorhersage ist meist nicht zufriedenstellend Vorgestellte Vorgehensweise sagt über 80% der Basenpaare auf einem Datensatz von nur 5 Sequenzen korrekt vorher Dominik Mertens

Quellenangabe „Secondary Structure Prediction for Aligned RNA Sequences“ by Hofacker, Fekete and Stadler „RNA Folding by Comparative Sequence Analysis“ by M. Zuker Dominik Mertens