Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

On the Power of Profiles for Transcription Factor Binding Site Detection Sven Rahmann* Tobias Müller Martin Vingron * Computational Molecular Biology,

Ähnliche Präsentationen


Präsentation zum Thema: "On the Power of Profiles for Transcription Factor Binding Site Detection Sven Rahmann* Tobias Müller Martin Vingron * Computational Molecular Biology,"—  Präsentation transkript:

1 On the Power of Profiles for Transcription Factor Binding Site Detection Sven Rahmann* Tobias Müller Martin Vingron * Computational Molecular Biology, Max Planck Institute for Molecular Genetics and Department of Mathematics and Computer Science, Freie Universität Berlin University of Würzburg Computational Molecular Biology, Max Planck Institute for Molecular Genetics Chris Bielow bielow@inf.fu-berlin.de

2 Gliederung Profile Regularisierung des Profils Profil Score Matrix Verteilung der Scores Fehlerabschätzungen Qualität eines Profils Profil-Qualität TRANSFAC

3 Profile Profil P u Countmatrix C Regularisiertes Profil P ?? s1 ACTGA s2 AGTGA s3 CGTGC Multiples Alignment N Anzahl d. Sequenzen L Länge d. Sequenzen

4 Regularisierung des Profils Große Datenmenge Kaum Veränderung Kleine Datenmenge Generalisierung (!Overfitting) Zero-Counts vermeiden (nothing is impossible) Datenmenge

5 Regularisierung des Profils Positionsabhängig Regularisierende Verteilung Berechung der neuen Zeile: Beispiel s1 ACTGA s2 AGTGA s3 CGTGC Beispiel:

6 Profil Score Matrix bisher: nur Signaldaten (Profil) jetzt zusätzlich: Hintergrundmodell ACGTTGCATGGTCAATGC gleitendes Fenster Signal(TFBS)? Ja Nein Hintergrundmodell: Score für ein Fenster W: Score-Matrix S mit Beispiel

7 Verteilung der Scores high quality Profil low quality Profil

8 Fehlertypen

9 Fehlerabschätzungen Wkeit für Fensterfehler (Window Error) (Typ I) Wkeit für Sequenzfehler (Sequence Error) (Typ I) Wkeit für Fensterfehler (Typ II) Wkeit für m-Instanz-Fehler (m-instance Error) (Typ II) Wkeit, dass mind. ein echtes Signal (von m insgesamt) Score < t hat [FN]

10 Qualität eines Profils Wie gut unterscheidet sich das Profil vom Hintergrund? Qualitätsmaß (hohe Werte gute Trennung) Q H - Maß für Informationsgehalt Q sens - Sensitivität (TP Erkennung) Q sel - Selektivität (FP Unterdrückung) Q bal - Balance zwischen FP & FN Typischerweise: n = 500 m = 1 Profil P Hintergrundverteilung π Sequenzlänge n #Signale m Sequenzfehlerwkeit αn(t) Typ I (FP) Sequenzlänge n # Signale m Wkeit βm(t) (FN) Sequenzlänge n #Signale m Gewicht c (αn zu βm)

11 Q bal

12 Profil-Qualität TRANSFAC 623 Countmatrizen Regularisiertes Profil Annahme von drei verschiedenen Hintergrundmodellen AT-reich uniform GC-reich Scorematrizen (3x623) aus Profilen & Hintergrundverteilung erstellen Scoreverteilung berechnen Qualitätsmaße bestimmen

13 Profil-Qualität TRANSFAC Verteilung von Q sens (0.05;500;1) der TRANSFAC-Profile Maximal 5% FN Wie gut werden echte Signale erkannt? uniform AT-reich GC-reich

14 Profil-Qualität TRANSFAC Verteilung von Q sel (0.05;500;1) der TRANSFAC-Profile Power of Profiles Detection power: 95% Wie gut werden FP unterdrückt? uniform AT-reich GC-reich

15 Profil-Qualität TRANSFAC Erkennung von Signalen bei Typ I-Sequenzfehler < 0.05 über 80% sind zu schwach (viele FN)

16 Verbesserungen Suche in langen Sequenzen Lsg: verwandte Genome (Suchraum reduzieren) Profile Clustern Abhängigkeit vom Hintergrundmodell Lsg: Modell an Sequenz anpassen Verbesserung (?) durch höhere Ordnung

17 ENDE Danke für die Aufmerksamkeit


Herunterladen ppt "On the Power of Profiles for Transcription Factor Binding Site Detection Sven Rahmann* Tobias Müller Martin Vingron * Computational Molecular Biology,"

Ähnliche Präsentationen


Google-Anzeigen