On the Power of Profiles for Transcription Factor Binding Site Detection Sven Rahmann* Tobias Müller Martin Vingron * Computational Molecular Biology,

Slides:



Advertisements
Ähnliche Präsentationen
Zur Schätzung der Wiederkehrzeiten von Starkniederschlägen
Advertisements

Algorithmen und Komplexität Teil 1: Grundlegende Algorithmen
SST - Sequence Search Tree
Julia Antoniuk Jessica Gottschalk Susana de Miguel
Frozen Development in Graph Coloring
TECHNISCHE UNIVERSITÄT DARMSTADT Naive Bayes for Ranking
1 low:=low-Q 2 high:=high-Q 2 low:=low-Q 1 high:=high-Q 1.
Maschinelles Lernen   Präsenzübung.
Institut für Informatik Abteilung Datenbanken Problemseminar Datacleaning Überblick Datacleaning.
Freie Universität Berlin Institut für Informatik
HEINZ NIXDORF INSTITUT Universität Paderborn Fachbereich Mathematik/Informatik Algorithmische Probleme in Funknetzwerken X Christian Schindelhauer
Übersicht DIALIGN = DIagonal ALIGNment
Harmonische Schwingung
EFQM European Foundation for Quality Management Claudius Ullrich
Diese Fragen sollten Sie beantworten können
FH-Hof Verwaltung von Zeichenketten Richard Göbel.
1 KA-Top-Meeting 10/30/07 IEKP Universität Karlsruhe (TH)
Bonn, 10./11. April 2008 Matthias Zimmer, Heini Wernli – Institut für Physik der Atmosphäre, Universität Mainz Martin Hagen – Institut für Physik der Atmosphäre,
Computerkurs: Quantitative Auswertung biochemischer Experimente Guten Morgen.
Konfidenzintervalle für Parameter
Algorithmen und Komplexität Teil 1: Grundlegende Algorithmen
Reinforcement Learning
Rigi und Web2Rsf vorgestellt von Tobias Weigand. Inhalt Ziel von Web2Rsf und Rigi Vorstellung des Parsers Web2Rsf Vorstellung des Werkzeugs Rigi Analyse.
Secondary Structure Prediction for Aligned RNA Sequences
Nachrichtentechnik Prof. Martin Haardt
Ab nächster Woche wird die Übungsgruppe Gruppe 2: Henrike Berg Di SR 222 wegen Personalmangel eingestellt.
Klausur am :00 bis 13:00 Hörsaal Loefflerstraße und Hörsaal Makarenkostraße.
Christian Steinle, Joachim Gläß, Reinhard Männer
Vorlesung: Einführung in der Bioinformatik
Tutorium
Machine Learning KNN und andere (Kap. 8).
Machine Learning Decision Trees (2).
Phylogenetic Footprinting
12a Produktkonfigurator
Guelph-Infiltration , Schunterau
Kick-off PubMan Piloten Präsentation der grundlegenden Konzepte
Die t-Verteilung und die Prüfstatistik
Abschlussvortrag zur Studienarbeit
Institut für Kartographie und Geoinformation Prof. Dr. Lutz Plümer Diskrete Mathematik II Vorlesung 5 SS 2001 Segmentschnitt II (n Segmente)
Black Box Algorithmen Hartmut Klauck Universität Frankfurt SS
Quantum Computing Hartmut Klauck Universität Frankfurt WS 04/
Die Gaußverteilung.
Heute ist Freitag, der 7. Oktober 2005.
VL Algorithmische BioInformatik (19710)
Multivariate Statistische Verfahren
Roboter im Labyrinth “Schweizer Jugend forscht”
1 Helmut Schauer Educational Engineering Lab Department for Information Technology University of Zurich Dynamische Programmierung.
Linking and Brushing on ODBC Basis
Agenda für heute, 7. April, 2005 Bedingte ProgrammausführungBedingte Programmausführung Algorithmische Grundlagen Vergleichsoperatoren, Wahrheitswerte.
Multivariate Statistische Verfahren
Institut für Schallforschung der Österreichischen Akademie der Wissenschaften: A-1010 Wien; Reichsratsrasse 17. Tel / ; Fax +43 1/ ;
Technische Informatik II Übung 7: Automaten Implementierungsaspekte
Wissensbewegungen – Bewegliches Wissen
Paarweises Sequenz-Alignment
Algorithmen und Datenstrukturen 1 SS 2002
Anschlussmöglichkeiten beim Samsung S3
GAUSS – Promotionsprogramm für Umweltinformatik Georg-August-Universität Göttingen Titel Bitte hier Namen im Master angeben Eröffnungskolloquium „Environmental.
Statistik – Regression - Korrelation
Gottfried Vossen 5. Auflage 2008 Datenmodelle, Datenbanksprachen und Datenbankmanagementsysteme Kapitel 23: Verteilte Transaktionsverarbeitung.
11. Juli 2014 | Fachbereich 03 | Institut für Sportwissenschaft | Tobias Beringer M. A.| 1.
Vergleich von RNA Strukturen A General Edit Distance between RNA Structures von Sebastian Juenemann.
Institut für Kartographie und Geoinformation Prof. Dr. Lutz Plümer Diskrete Mathematik II Foliendesign: Jörg Steinrücken & Tobias Kahn Vorlesung
Institut für Informationssysteme Technische Universität Braunschweig Institut für Informationssysteme Technische Universität Braunschweig Verdrängung von.
Die klassischen Methoden der historisch-vergleichenden Forschung Universität Zürich Soziologisches Institut Seminar: Methoden des internationalen Vergleichs.
TU Darmstadt FB 20 Informatik Bayes Decision Theory von Martin Tschirsich, Shuo Yang & Zijad Maxuti Hausübung 5: Erläuterung Anwendung.
Gt177 / / Messung und Berechnung Sequenz 1 Ablauf der Fluglärmsimulation im Computer Distanz, welche das Flugzeug in 1 Sekundezurücklegt!
Cryo-Test LESER Test Bench
Is the formal quality of multiple choice questions used for continuing medical education influenced by guidelines for authors provided by the publishing.
Klinische Bedeutung der SNPs Signifikante Assoziation von SNPs, deren Pathophysiologie noch nicht bekannt ist – allgemeine Prävention. Signifikante.
Making connections: Data integration, web services, phylogenies and high-throughput data interpretation. Heiko Schoof Crop Bioinformatics, Bonn University.
 Präsentation transkript:

On the Power of Profiles for Transcription Factor Binding Site Detection Sven Rahmann* Tobias Müller Martin Vingron * Computational Molecular Biology, Max Planck Institute for Molecular Genetics and Department of Mathematics and Computer Science, Freie Universität Berlin University of Würzburg Computational Molecular Biology, Max Planck Institute for Molecular Genetics Chris Bielow

Gliederung Profile Regularisierung des Profils Profil Score Matrix Verteilung der Scores Fehlerabschätzungen Qualität eines Profils Profil-Qualität TRANSFAC

Profile Profil P u Countmatrix C Regularisiertes Profil P ?? s1 ACTGA s2 AGTGA s3 CGTGC Multiples Alignment N Anzahl d. Sequenzen L Länge d. Sequenzen

Regularisierung des Profils Große Datenmenge Kaum Veränderung Kleine Datenmenge Generalisierung (!Overfitting) Zero-Counts vermeiden (nothing is impossible) Datenmenge

Regularisierung des Profils Positionsabhängig Regularisierende Verteilung Berechung der neuen Zeile: Beispiel s1 ACTGA s2 AGTGA s3 CGTGC Beispiel:

Profil Score Matrix bisher: nur Signaldaten (Profil) jetzt zusätzlich: Hintergrundmodell ACGTTGCATGGTCAATGC gleitendes Fenster Signal(TFBS)? Ja Nein Hintergrundmodell: Score für ein Fenster W: Score-Matrix S mit Beispiel

Verteilung der Scores high quality Profil low quality Profil

Fehlertypen

Fehlerabschätzungen Wkeit für Fensterfehler (Window Error) (Typ I) Wkeit für Sequenzfehler (Sequence Error) (Typ I) Wkeit für Fensterfehler (Typ II) Wkeit für m-Instanz-Fehler (m-instance Error) (Typ II) Wkeit, dass mind. ein echtes Signal (von m insgesamt) Score < t hat [FN]

Qualität eines Profils Wie gut unterscheidet sich das Profil vom Hintergrund? Qualitätsmaß (hohe Werte gute Trennung) Q H - Maß für Informationsgehalt Q sens - Sensitivität (TP Erkennung) Q sel - Selektivität (FP Unterdrückung) Q bal - Balance zwischen FP & FN Typischerweise: n = 500 m = 1 Profil P Hintergrundverteilung π Sequenzlänge n #Signale m Sequenzfehlerwkeit αn(t) Typ I (FP) Sequenzlänge n # Signale m Wkeit βm(t) (FN) Sequenzlänge n #Signale m Gewicht c (αn zu βm)

Q bal

Profil-Qualität TRANSFAC 623 Countmatrizen Regularisiertes Profil Annahme von drei verschiedenen Hintergrundmodellen AT-reich uniform GC-reich Scorematrizen (3x623) aus Profilen & Hintergrundverteilung erstellen Scoreverteilung berechnen Qualitätsmaße bestimmen

Profil-Qualität TRANSFAC Verteilung von Q sens (0.05;500;1) der TRANSFAC-Profile Maximal 5% FN Wie gut werden echte Signale erkannt? uniform AT-reich GC-reich

Profil-Qualität TRANSFAC Verteilung von Q sel (0.05;500;1) der TRANSFAC-Profile Power of Profiles Detection power: 95% Wie gut werden FP unterdrückt? uniform AT-reich GC-reich

Profil-Qualität TRANSFAC Erkennung von Signalen bei Typ I-Sequenzfehler < 0.05 über 80% sind zu schwach (viele FN)

Verbesserungen Suche in langen Sequenzen Lsg: verwandte Genome (Suchraum reduzieren) Profile Clustern Abhängigkeit vom Hintergrundmodell Lsg: Modell an Sequenz anpassen Verbesserung (?) durch höhere Ordnung

ENDE Danke für die Aufmerksamkeit