On the Power of Profiles for Transcription Factor Binding Site Detection Sven Rahmann* Tobias Müller Martin Vingron * Computational Molecular Biology,

On the Power of Profiles for Transcription Factor Binding Site Detection Sven Rahmann* Tobias Müller Martin Vingron * Computational Molecular Biology, Max Planck Institute for Molecular Genetics and Department of Mathematics and Computer Science, Freie Universität Berlin University of Würzburg Computational Molecular Biology, Max Planck Institute for Molecular Genetics Chris Bielow bielow@inf.fu-berlin.de

Gliederung Profile Regularisierung des Profils Profil Score Matrix Verteilung der Scores Fehlerabschätzungen Qualität eines Profils Profil-Qualität TRANSFAC

Profile Profil P u Countmatrix C Regularisiertes Profil P ?? s1 ACTGA s2 AGTGA s3 CGTGC Multiples Alignment N Anzahl d. Sequenzen L Länge d. Sequenzen

Regularisierung des Profils Große Datenmenge Kaum Veränderung Kleine Datenmenge Generalisierung (!Overfitting) Zero-Counts vermeiden (nothing is impossible) Datenmenge

Regularisierung des Profils Positionsabhängig Regularisierende Verteilung Berechung der neuen Zeile: Beispiel s1 ACTGA s2 AGTGA s3 CGTGC Beispiel:

Profil Score Matrix bisher: nur Signaldaten (Profil) jetzt zusätzlich: Hintergrundmodell ACGTTGCATGGTCAATGC gleitendes Fenster Signal(TFBS)? Ja Nein Hintergrundmodell: Score für ein Fenster W: Score-Matrix S mit Beispiel

Verteilung der Scores high quality Profil low quality Profil

Fehlertypen

Fehlerabschätzungen Wkeit für Fensterfehler (Window Error) (Typ I) Wkeit für Sequenzfehler (Sequence Error) (Typ I) Wkeit für Fensterfehler (Typ II) Wkeit für m-Instanz-Fehler (m-instance Error) (Typ II) Wkeit, dass mind. ein echtes Signal (von m insgesamt) Score < t hat [FN]

Qualität eines Profils Wie gut unterscheidet sich das Profil vom Hintergrund? Qualitätsmaß (hohe Werte gute Trennung) Q H - Maß für Informationsgehalt Q sens - Sensitivität (TP Erkennung) Q sel - Selektivität (FP Unterdrückung) Q bal - Balance zwischen FP & FN Typischerweise: n = 500 m = 1 Profil P Hintergrundverteilung π Sequenzlänge n #Signale m Sequenzfehlerwkeit αn(t) Typ I (FP) Sequenzlänge n # Signale m Wkeit βm(t) (FN) Sequenzlänge n #Signale m Gewicht c (αn zu βm)

Profil-Qualität TRANSFAC 623 Countmatrizen Regularisiertes Profil Annahme von drei verschiedenen Hintergrundmodellen AT-reich uniform GC-reich Scorematrizen (3x623) aus Profilen & Hintergrundverteilung erstellen Scoreverteilung berechnen Qualitätsmaße bestimmen

Profil-Qualität TRANSFAC Verteilung von Q sens (0.05;500;1) der TRANSFAC-Profile Maximal 5% FN Wie gut werden echte Signale erkannt? uniform AT-reich GC-reich

Profil-Qualität TRANSFAC Verteilung von Q sel (0.05;500;1) der TRANSFAC-Profile Power of Profiles Detection power: 95% Wie gut werden FP unterdrückt? uniform AT-reich GC-reich

Profil-Qualität TRANSFAC Erkennung von Signalen bei Typ I-Sequenzfehler < 0.05 über 80% sind zu schwach (viele FN)

Verbesserungen Suche in langen Sequenzen Lsg: verwandte Genome (Suchraum reduzieren) Profile Clustern Abhängigkeit vom Hintergrundmodell Lsg: Modell an Sequenz anpassen Verbesserung (?) durch höhere Ordnung

ENDE Danke für die Aufmerksamkeit

On the Power of Profiles for Transcription Factor Binding Site Detection Sven Rahmann* Tobias Müller Martin Vingron * Computational Molecular Biology,

Ähnliche Präsentationen

Präsentation zum Thema: "On the Power of Profiles for Transcription Factor Binding Site Detection Sven Rahmann* Tobias Müller Martin Vingron * Computational Molecular Biology,"— Präsentation transkript:

Ähnliche Präsentationen

Über Projekt

Feedback

Anmelden

Anmeldung über soziales Netzwerk:

On the Power of Profiles for Transcription Factor Binding Site Detection Sven Rahmann* Tobias Müller Martin Vingron * Computational Molecular Biology,

Ähnliche Präsentationen

Präsentation zum Thema: "On the Power of Profiles for Transcription Factor Binding Site Detection Sven Rahmann* Tobias Müller Martin Vingron * Computational Molecular Biology,"— Präsentation transkript:

Ähnliche Präsentationen

Über Projekt

Feedback