Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

1 Promotor Prediction Programms (PPP) Christian Ehrlich & Falko Krause Evolution eukaryontischer Promotorsequenzen.

Ähnliche Präsentationen


Präsentation zum Thema: "1 Promotor Prediction Programms (PPP) Christian Ehrlich & Falko Krause Evolution eukaryontischer Promotorsequenzen."—  Präsentation transkript:

1 1 Promotor Prediction Programms (PPP) Christian Ehrlich & Falko Krause Evolution eukaryontischer Promotorsequenzen

2 2 Übersicht Einführung –Bilogischer Hintergrund –Maschinenlernen Eponine –Relevance Vector Machine FirstEF –Quadratische Diskriminanzanalyse Vergleich von PPPs

3 3 Der Promotor Ort: –vor und nach der Transkriptionsstart- stelle (TSS) Merkmale: –Transkriptionsfaktor- bindungsstellen (TFBS) z.B. TATA-Box –CpG-Inseln –TSS –Initiator Sequenz Einführung Eponine FirstEF Vergleich von PPPs

4 4 Maschienenlernen Hidden Markov Modelle (HMM) Neuronale Netze (NN) Einführung Eponine FirstEF Vergleich von PPPs

5 5 Maschienenlernen Sampling Relevance Vector Machine (RVM) Quadratische Diskriminanz- analyse (QDA) Einführung Eponine FirstEF Vergleich von PPPs

6 6 Eponine What can we learn from noncoding regions of similarity between regions T.Down, T.J.P. Hubbard 2004, BMC Bioinformatics Einführung Eponine FirstEF Vergleich von PPPs

7 7 Maschinenlernen Überwachtes Maschinenlernen –annotierte Daten (Promoter Regionen, TSS, proteincodierende Bereiche) –Modellerstellung aus diesen Daten –automatische Daten Annotierung überwachtunüberwacht Einführung Eponine FirstEF Vergleich von PPPs

8 8 Trainingset H Chromosome 6 H uman M aus BLAST-ZF i l t e r ab initio Gen-Suche codierend (annotiert) RepeatMasker M Genome + Trainingsset konserviert funktionell nicht proteincodierend - Trainingsset nicht proteincodierend Einführung Eponine FirstEF Vergleich von PPPs

9 9 Relevance Vector Machine Bayessche automatische Relevanz Determination (ARD) für Modelle mit linearen Parametern (RVM 2000 M.E.Tipping M$ ) wenige Basis-Funktionen können von einem Generalisierten Linearem Modell (GLM) gelernt werden Basis-Funktionen können selbst gewählt werden (SVM nur Kernel Funktionen) Anzahl der Basis-Funktionen wird reduziert Einführung Eponine FirstEF Vergleich von PPPs

10 10 Relevance Vector Maschine + Trainingsset- Trainingsset RVM Trainings Modell PWM Einführung Eponine FirstEF Vergleich von PPPs

11 11 Sampling Sequenzen in der Nähe der TATA-Box sind auch für Promotoren spezifisch generiere eine neue PWM aus einer vorhanden durch Veränderung der Gewichte (Dirichlet verteilt) generiere eine neue PWM durch weglassen der ersten oder letzten Spalte Einführung Eponine FirstEF Vergleich von PPPs

12 12 EAS, EWS, cEWS Eponine Anchored Sequence ( EAS) –Anker Eponine Windowed Sequence (EWS) –zufallige PWMs Convolved Eponine Windowed Sequence(C-EWS) –PWM Gerüste Einführung Eponine FirstEF Vergleich von PPPs

13 13 EWS – Ergebnisse TSS Datenbank H Chromosome 22 [-2k, TSS, +2k] Testset Seedwort Länge Hits dist. TSS ohne CpG Receiver Operating Characteristic curve Einführung Eponine FirstEF Vergleich von PPPs

14 14 First Exon Finder (FirstEF) Computational identification of promoters and first exon in the human genome Ramana V. Davuluri. Ivo Gross & Michael Q. Zhang Nature genetics, Volume 29, December 2001 Einführung Eponine FirstEF Vergleich von PPPs

15 15 Motivation Gen Vorhersage erreicht ~90% Sensitivität –Genscan –FGENES –MZEF Promoter Vorhersage erreicht ~50% Sensitivität –PromoterInspector –Eponine –DragonPF \\|// (o o) oOOo~(_)~oOOo ||X|||\ /|||X|||\ /|||X|||\ /|||X|||\ /|||X |/ \|||X|||/ \|||X|||/ \|||X|||/ \|||X|||/ ' `-' `-' `-' `-' `-' `-' `-' `-' Genscan Einführung Eponine FirstEF Vergleich von PPPs DragonPF

16 16 Methoden Diskriminanzanalyse Idee: Klassifizierung eines Objektes anhand mind. einer Zufallsvariablen Voraussetzung: Günstig: Benötigt: Einführung Eponine FirstEF Vergleich von PPPs

17 17 Methoden Quadratische Diskriminanzanalyse (QDA) Idee: Klassifizierung eines Objektes anhand mind. einer Zufallsvariablen Voraussetzung: Günstig: Benötigt: Einführung Eponine FirstEF Vergleich von PPPs

18 18 Algorithmen Design Suche nach Splice Donor Site (GT) Suche 1500bp/500bp up-/downstream nach GT Fenster = Promotor Region first-Exon gefunden P(donor site | GT) > 0.4 nicht CpGCpG P(promotor | Fenster) > 0.4 P(exon | alle) > 0.5 Einführung Eponine FirstEF Vergleich von PPPs Fenster = Promotor Region

19 19 Training QDF Training Probleme: Nicht viele GenBank Einträge beinhalten first-Exon Annotationen Idee: Sammele first-Exons und Promotoren durch Mapping von vollständige 5 UTRs auf Gensequenzen first-Exons welche durch eine 500bp 5 Region (Promotor) und 500bp 3 Region (Intron) flankiert sind 61% teilweise codierend und 39% nicht cod. Einführung Eponine FirstEF Vergleich von PPPs

20 20 Training QDF Training Evaluation (sensitivity) (specificity) Einführung Eponine FirstEF Vergleich von PPPs Vorhersage von CpG first-Exons ist sehr gut Vorhersage von nicht CpG first-Exons ist ok

21 21 FirstEF : 106/121~87% vorhergesagt (33/42~78% nicht-codierent) UCSC Evaluation Evaluation procedure GenBank Genes + Promoters (Chrom. 21/22) Chromosom 21/22 mit repeats & ohne repeats BLAT aliniere G. + P. mit Chromosom Sequenz 121annotierte first-Exons (42 nicht-codierent) Einführung Eponine FirstEF Vergleich von PPPs

22 22 PPPs Promoter prediction analysis on the whole human genome V.B.Bajic, S.L.Tan, Y.Suzuki, S.Sugano Nature biotechnology, Volume 22, Number 11, November 2004 Einführung Eponine FirstEF Vergleich von PPPs

23 23 Testset basiert auf experimental Daten (full-length oligo-capped cDNA) nicht bei allen PPPs möglich einige false negatives werden in kauf genommen Humanes Genom [-2000bp, TSS, +2000bp] Einführung Eponine FirstEF Vergleich von PPPs

24 24 Funktion X X only CpG Insel X HMM X X X TATA -Box QDA First EF XPromoter 2.0 INR + Abstand XNNPP pysikalische Eigenschaften XMC Promoter RVM Eponine XXDragon GSF/PF stat. regelbasiertes System CpgProD Weitere KonzepteC+G Gehalt ANNName Einführung Eponine FirstEF Vergleich von PPPs

25 25

26 26 PPPs im Vergleich – Gewinner? PPPs haben oft schlechtere Ergebnisse geliefert als angegeben –Eponine p.p.v.72,73% angegenen 66,97% erreicht –FirstEF p.p.v 86 % angegeben 67,1% erreicht nicht CpG-Insel Promotoren werden schlecht erkannt höchste p.p.v. < 65% ( 2 Richtige 1 Falsche ) RepeatMasker verbessert oft das Ergebniss Traue keiner Statistik die du nicht selbst gemacht hast Einführung Eponine FirstEF Vergleich von PPPs

27 27 PPPs in Kombiation Kombination von PPPs verbessert Ergebnisse Vorgehen: –Scannen mit Fensterbreite von 2000bp –Wahlverfahren: Regel 1: Fester k bekommt +Vorhersagen von s PPPs Regel 2: Fester k bekommt +Vorhersagen von s PPPs von einer festgelegten Untergruppe Einführung Eponine FirstEF Vergleich von PPPs

28 28 Zusammenfassung Lerverfahren ? –Relevance Vector Machine –Quadratische Diskriminierungs Analyse Wie bekomme ich Promotor-Regionen ? Evaluierung von PPPs ? –Verfahren –Vergleichbarkeit Probleme der Promotor Vorhersage ?

29 29 ENDE Noch Fragen?

30 30 Literatur What can we learn from noncoding regions of similarity between regions, T.Down, T.J.P. Hubbard, 2105/5/131 Relevance Vector Machines for classifying points and regions in biological sequences, T.Down, T.J.P. Hubbard A Machine Learning Strategy to Identity Exonic Splice Enhancers in Human Protein-coding Sequence, T.Down, B.Leong, T.J.P. Hubbard Chapter 4. Learning from comparative genomics, P-REST The Relevance Vector Machine, M.Tipping Crouching Introns,Hidden Exons, B.Leong Promoter prediction analysis on the whole human genome, V.B.Bajic, S.L.Tan, Y.Suzuki, S.Sugano Computational identification of promoters and first exon in the human genome, R.V.Davuluri, I.Gross, M.Q.Zhang


Herunterladen ppt "1 Promotor Prediction Programms (PPP) Christian Ehrlich & Falko Krause Evolution eukaryontischer Promotorsequenzen."

Ähnliche Präsentationen


Google-Anzeigen