On the Power of Profiles for Transcription Factor Binding Site Detection Sven Rahmann* Tobias Müller Martin Vingron * Computational Molecular Biology,

Slides:

Advertisements

Ähnliche Präsentationen

Zur Schätzung der Wiederkehrzeiten von Starkniederschlägen

Advertisements

Algorithmen und Komplexität Teil 1: Grundlegende Algorithmen

SST - Sequence Search Tree

Julia Antoniuk Jessica Gottschalk Susana de Miguel

Frozen Development in Graph Coloring

TECHNISCHE UNIVERSITÄT DARMSTADT Naive Bayes for Ranking

1 low:=low-Q 2 high:=high-Q 2 low:=low-Q 1 high:=high-Q 1.

Maschinelles Lernen Präsenzübung.

Institut für Informatik Abteilung Datenbanken Problemseminar Datacleaning Überblick Datacleaning.

Freie Universität Berlin Institut für Informatik

HEINZ NIXDORF INSTITUT Universität Paderborn Fachbereich Mathematik/Informatik Algorithmische Probleme in Funknetzwerken X Christian Schindelhauer

Übersicht DIALIGN = DIagonal ALIGNment

Harmonische Schwingung

EFQM European Foundation for Quality Management Claudius Ullrich

Diese Fragen sollten Sie beantworten können

FH-Hof Verwaltung von Zeichenketten Richard Göbel.

1 KA-Top-Meeting 10/30/07 IEKP Universität Karlsruhe (TH)

Bonn, 10./11. April 2008 Matthias Zimmer, Heini Wernli – Institut für Physik der Atmosphäre, Universität Mainz Martin Hagen – Institut für Physik der Atmosphäre,

Computerkurs: Quantitative Auswertung biochemischer Experimente Guten Morgen.

Konfidenzintervalle für Parameter

Algorithmen und Komplexität Teil 1: Grundlegende Algorithmen

Reinforcement Learning

Rigi und Web2Rsf vorgestellt von Tobias Weigand. Inhalt Ziel von Web2Rsf und Rigi Vorstellung des Parsers Web2Rsf Vorstellung des Werkzeugs Rigi Analyse.

Secondary Structure Prediction for Aligned RNA Sequences

Nachrichtentechnik Prof. Martin Haardt

Ab nächster Woche wird die Übungsgruppe Gruppe 2: Henrike Berg Di SR 222 wegen Personalmangel eingestellt.

Klausur am :00 bis 13:00 Hörsaal Loefflerstraße und Hörsaal Makarenkostraße.

Christian Steinle, Joachim Gläß, Reinhard Männer

Vorlesung: Einführung in der Bioinformatik

Machine Learning KNN und andere (Kap. 8).

Machine Learning Decision Trees (2).

Phylogenetic Footprinting

12a Produktkonfigurator

Guelph-Infiltration , Schunterau

Kick-off PubMan Piloten Präsentation der grundlegenden Konzepte

Die t-Verteilung und die Prüfstatistik

Abschlussvortrag zur Studienarbeit

Institut für Kartographie und Geoinformation Prof. Dr. Lutz Plümer Diskrete Mathematik II Vorlesung 5 SS 2001 Segmentschnitt II (n Segmente)

Black Box Algorithmen Hartmut Klauck Universität Frankfurt SS

Quantum Computing Hartmut Klauck Universität Frankfurt WS 04/

Die Gaußverteilung.

Heute ist Freitag, der 7. Oktober 2005.

VL Algorithmische BioInformatik (19710)

Multivariate Statistische Verfahren

Roboter im Labyrinth “Schweizer Jugend forscht”

1 Helmut Schauer Educational Engineering Lab Department for Information Technology University of Zurich Dynamische Programmierung.

Linking and Brushing on ODBC Basis

Agenda für heute, 7. April, 2005 Bedingte ProgrammausführungBedingte Programmausführung Algorithmische Grundlagen Vergleichsoperatoren, Wahrheitswerte.

Multivariate Statistische Verfahren

Institut für Schallforschung der Österreichischen Akademie der Wissenschaften: A-1010 Wien; Reichsratsrasse 17. Tel / ; Fax +43 1/ ;

Technische Informatik II Übung 7: Automaten Implementierungsaspekte

Wissensbewegungen – Bewegliches Wissen

Paarweises Sequenz-Alignment

Algorithmen und Datenstrukturen 1 SS 2002

Anschlussmöglichkeiten beim Samsung S3

GAUSS – Promotionsprogramm für Umweltinformatik Georg-August-Universität Göttingen Titel Bitte hier Namen im Master angeben Eröffnungskolloquium „Environmental.

Statistik – Regression - Korrelation

Gottfried Vossen 5. Auflage 2008 Datenmodelle, Datenbanksprachen und Datenbankmanagementsysteme Kapitel 23: Verteilte Transaktionsverarbeitung.

11. Juli 2014 | Fachbereich 03 | Institut für Sportwissenschaft | Tobias Beringer M. A.| 1.

Vergleich von RNA Strukturen A General Edit Distance between RNA Structures von Sebastian Juenemann.

Institut für Kartographie und Geoinformation Prof. Dr. Lutz Plümer Diskrete Mathematik II Foliendesign: Jörg Steinrücken & Tobias Kahn Vorlesung

Institut für Informationssysteme Technische Universität Braunschweig Institut für Informationssysteme Technische Universität Braunschweig Verdrängung von.

Die klassischen Methoden der historisch-vergleichenden Forschung Universität Zürich Soziologisches Institut Seminar: Methoden des internationalen Vergleichs.

TU Darmstadt FB 20 Informatik Bayes Decision Theory von Martin Tschirsich, Shuo Yang & Zijad Maxuti Hausübung 5: Erläuterung Anwendung.

Gt177 / / Messung und Berechnung Sequenz 1 Ablauf der Fluglärmsimulation im Computer Distanz, welche das Flugzeug in 1 Sekundezurücklegt!

Cryo-Test LESER Test Bench

Is the formal quality of multiple choice questions used for continuing medical education influenced by guidelines for authors provided by the publishing.

Klinische Bedeutung der SNPs Signifikante Assoziation von SNPs, deren Pathophysiologie noch nicht bekannt ist – allgemeine Prävention. Signifikante.

Making connections: Data integration, web services, phylogenies and high-throughput data interpretation. Heiko Schoof Crop Bioinformatics, Bonn University.

Präsentation transkript:

On the Power of Profiles for Transcription Factor Binding Site Detection Sven Rahmann* Tobias Müller Martin Vingron * Computational Molecular Biology, Max Planck Institute for Molecular Genetics and Department of Mathematics and Computer Science, Freie Universität Berlin University of Würzburg Computational Molecular Biology, Max Planck Institute for Molecular Genetics Chris Bielow

Gliederung Profile Regularisierung des Profils Profil Score Matrix Verteilung der Scores Fehlerabschätzungen Qualität eines Profils Profil-Qualität TRANSFAC

Profile Profil P u Countmatrix C Regularisiertes Profil P ?? s1 ACTGA s2 AGTGA s3 CGTGC Multiples Alignment N Anzahl d. Sequenzen L Länge d. Sequenzen

Regularisierung des Profils Große Datenmenge Kaum Veränderung Kleine Datenmenge Generalisierung (!Overfitting) Zero-Counts vermeiden (nothing is impossible) Datenmenge

Regularisierung des Profils Positionsabhängig Regularisierende Verteilung Berechung der neuen Zeile: Beispiel s1 ACTGA s2 AGTGA s3 CGTGC Beispiel:

Profil Score Matrix bisher: nur Signaldaten (Profil) jetzt zusätzlich: Hintergrundmodell ACGTTGCATGGTCAATGC gleitendes Fenster Signal(TFBS)? Ja Nein Hintergrundmodell: Score für ein Fenster W: Score-Matrix S mit Beispiel

Verteilung der Scores high quality Profil low quality Profil

Fehlertypen

Fehlerabschätzungen Wkeit für Fensterfehler (Window Error) (Typ I) Wkeit für Sequenzfehler (Sequence Error) (Typ I) Wkeit für Fensterfehler (Typ II) Wkeit für m-Instanz-Fehler (m-instance Error) (Typ II) Wkeit, dass mind. ein echtes Signal (von m insgesamt) Score < t hat [FN]

Qualität eines Profils Wie gut unterscheidet sich das Profil vom Hintergrund? Qualitätsmaß (hohe Werte gute Trennung) Q H - Maß für Informationsgehalt Q sens - Sensitivität (TP Erkennung) Q sel - Selektivität (FP Unterdrückung) Q bal - Balance zwischen FP & FN Typischerweise: n = 500 m = 1 Profil P Hintergrundverteilung π Sequenzlänge n #Signale m Sequenzfehlerwkeit αn(t) Typ I (FP) Sequenzlänge n # Signale m Wkeit βm(t) (FN) Sequenzlänge n #Signale m Gewicht c (αn zu βm)

Q bal

Profil-Qualität TRANSFAC 623 Countmatrizen Regularisiertes Profil Annahme von drei verschiedenen Hintergrundmodellen AT-reich uniform GC-reich Scorematrizen (3x623) aus Profilen & Hintergrundverteilung erstellen Scoreverteilung berechnen Qualitätsmaße bestimmen

Profil-Qualität TRANSFAC Verteilung von Q sens (0.05;500;1) der TRANSFAC-Profile Maximal 5% FN Wie gut werden echte Signale erkannt? uniform AT-reich GC-reich

Profil-Qualität TRANSFAC Verteilung von Q sel (0.05;500;1) der TRANSFAC-Profile Power of Profiles Detection power: 95% Wie gut werden FP unterdrückt? uniform AT-reich GC-reich

Profil-Qualität TRANSFAC Erkennung von Signalen bei Typ I-Sequenzfehler < 0.05 über 80% sind zu schwach (viele FN)

Verbesserungen Suche in langen Sequenzen Lsg: verwandte Genome (Suchraum reduzieren) Profile Clustern Abhängigkeit vom Hintergrundmodell Lsg: Modell an Sequenz anpassen Verbesserung (?) durch höhere Ordnung

ENDE Danke für die Aufmerksamkeit