On the Power of Profiles for Transcription Factor Binding Site Detection Sven Rahmann* Tobias Müller Martin Vingron * Computational Molecular Biology, Max Planck Institute for Molecular Genetics and Department of Mathematics and Computer Science, Freie Universität Berlin University of Würzburg Computational Molecular Biology, Max Planck Institute for Molecular Genetics Chris Bielow
Gliederung Profile Regularisierung des Profils Profil Score Matrix Verteilung der Scores Fehlerabschätzungen Qualität eines Profils Profil-Qualität TRANSFAC
Profile Profil P u Countmatrix C Regularisiertes Profil P ?? s1 ACTGA s2 AGTGA s3 CGTGC Multiples Alignment N Anzahl d. Sequenzen L Länge d. Sequenzen
Regularisierung des Profils Große Datenmenge Kaum Veränderung Kleine Datenmenge Generalisierung (!Overfitting) Zero-Counts vermeiden (nothing is impossible) Datenmenge
Regularisierung des Profils Positionsabhängig Regularisierende Verteilung Berechung der neuen Zeile: Beispiel s1 ACTGA s2 AGTGA s3 CGTGC Beispiel:
Profil Score Matrix bisher: nur Signaldaten (Profil) jetzt zusätzlich: Hintergrundmodell ACGTTGCATGGTCAATGC gleitendes Fenster Signal(TFBS)? Ja Nein Hintergrundmodell: Score für ein Fenster W: Score-Matrix S mit Beispiel
Verteilung der Scores high quality Profil low quality Profil
Fehlertypen
Fehlerabschätzungen Wkeit für Fensterfehler (Window Error) (Typ I) Wkeit für Sequenzfehler (Sequence Error) (Typ I) Wkeit für Fensterfehler (Typ II) Wkeit für m-Instanz-Fehler (m-instance Error) (Typ II) Wkeit, dass mind. ein echtes Signal (von m insgesamt) Score < t hat [FN]
Qualität eines Profils Wie gut unterscheidet sich das Profil vom Hintergrund? Qualitätsmaß (hohe Werte gute Trennung) Q H - Maß für Informationsgehalt Q sens - Sensitivität (TP Erkennung) Q sel - Selektivität (FP Unterdrückung) Q bal - Balance zwischen FP & FN Typischerweise: n = 500 m = 1 Profil P Hintergrundverteilung π Sequenzlänge n #Signale m Sequenzfehlerwkeit αn(t) Typ I (FP) Sequenzlänge n # Signale m Wkeit βm(t) (FN) Sequenzlänge n #Signale m Gewicht c (αn zu βm)
Q bal
Profil-Qualität TRANSFAC 623 Countmatrizen Regularisiertes Profil Annahme von drei verschiedenen Hintergrundmodellen AT-reich uniform GC-reich Scorematrizen (3x623) aus Profilen & Hintergrundverteilung erstellen Scoreverteilung berechnen Qualitätsmaße bestimmen
Profil-Qualität TRANSFAC Verteilung von Q sens (0.05;500;1) der TRANSFAC-Profile Maximal 5% FN Wie gut werden echte Signale erkannt? uniform AT-reich GC-reich
Profil-Qualität TRANSFAC Verteilung von Q sel (0.05;500;1) der TRANSFAC-Profile Power of Profiles Detection power: 95% Wie gut werden FP unterdrückt? uniform AT-reich GC-reich
Profil-Qualität TRANSFAC Erkennung von Signalen bei Typ I-Sequenzfehler < 0.05 über 80% sind zu schwach (viele FN)
Verbesserungen Suche in langen Sequenzen Lsg: verwandte Genome (Suchraum reduzieren) Profile Clustern Abhängigkeit vom Hintergrundmodell Lsg: Modell an Sequenz anpassen Verbesserung (?) durch höhere Ordnung
ENDE Danke für die Aufmerksamkeit