Promotor Prediction Programms (PPP)

Slides:



Advertisements
Ähnliche Präsentationen
Anzahl der ausgefüllten und eingesandten Fragebögen: 211
Advertisements

Vorlesung: 1 Betriebliche Informationssysteme 2003 Prof. Dr. G. Hellberg Studiengang Informatik FHDW Vorlesung: Betriebliche Informationssysteme Teil3.
SST - Sequence Search Tree
What do you get marks for?
Telefonnummer.
Trimino zum Kopf- oder halbschriftlichen Rechnen
Modelle und Methoden der Linearen und Nichtlinearen Optimierung (Ausgewählte Methoden und Fallstudien) U N I V E R S I T Ä T H A M B U R G November 2011.
= = = = 47 = 47 = 48 = =
Übersicht DIALIGN = DIagonal ALIGNment
Sortierverfahren Richard Göbel.
Sortierverfahren Richard Göbel.
Theoretical Analysis of Protein-Protein Interactions Proseminar SS 2004.
WS Algorithmentheorie 05 - Treaps Prof. Dr. Th. Ottmann.
Rechneraufbau & Rechnerstrukturen, Folie 2.1 © W. Oberschelp, G. Vossen W. Oberschelp G. Vossen Kapitel 2.
© 2006 W. Oberschelp, G. Vossen Rechneraufbau & Rechnerstrukturen, Folie 2.1.
Internet facts 2008-II Graphiken zu dem Berichtsband AGOF e.V. September 2008.
Internet facts 2006-II Graphiken zu dem Berichtsband AGOF e.V. November 2006.
Vorlesung: 1 Betriebliche Informationssysteme 2003 Prof. Dr. G. Hellberg Studiengang Informatik FHDW Vorlesung: Betriebliche Informationssysteme Teil2.
PG 520 Intelligence Service – gezielte Informationen aus dem Internet
Analyse von DNA-Sequenzen
PG 487 Methoden der Computational Intelligence in der Bioinformatik
Wir suchen ‘ mit m = m    ‘ c  ‘ mod 26
Prof. Dr. Bernhard Wasmayr
Inhalte und Maßnahmen eingegeben haben,
Classification of Credit Applicants Using Data Mining. Thema.
Kennlinie Lichtregelung in JavaNNS Version 1.1
Prof. Dr. Bernhard Wasmayr VWL 2. Semester
Ralf KüstersDagstuhl 2008/11/30 2 Ralf KüstersDagstuhl 2008/11/30 3.
AWA 2007 Natur und Umwelt Natürlich Leben
Machine Learning Was wir alles nicht behandelt haben.
Phylogenetic Footprinting
Extended multistep outflow method for the accurate determination of soil hydraulic properties close to water saturation W. Durner und S.C. Iden, SS2012.
Zusatzfolien zu B-Bäumen
Universität Münster, Institut für industriewirtschaftliche Forschung Stefan Kooths Eric Ringhut KI-gestützte Konjunkturprognosen mit GENEFER Adaptive Fuzzy.
1 Fachtagung am Seniorenorientiertes Design und Marketing ThyssenKrupp Immobilien Design for all - Anpassungen im Wohnungsbestand 1.Demographie.
LS 2 / Informatik Datenstrukturen, Algorithmen und Programmierung 2 (DAP2)
Eine Einführung in die CD-ROM
Dokumentation der Umfrage
...ich seh´es kommen !.
Wir üben die Malsätzchen
Syntaxanalyse Bottom-Up und LR(0)
Polynome und schnelle Fourier-Transformation
Präsentation läuft auch vollautomatisch ab … wie du möchtest
Auslegung eines Vorschubantriebes
STATISIK LV Nr.: 1375 SS März 2005.
Statistik: Mehr zur Regression.
Analyse von Ablaufdiagrammen
CEF 2001, New Haven Genetic Neural Fuzzy Explorer GENEFER Konzeption, Technologien und Einsatzmöglichkeiten Eric Ringhut Muenster Institute for Computational.
VL Algorithmische BioInformatik (19710)
Ertragsteuern, 5. Auflage Christiana Djanani, Gernot Brähler, Christian Lösel, Andreas Krenzin © UVK Verlagsgesellschaft mbH, Konstanz und München 2012.
Zahlentheorie und Zahlenspiele Hartmut Menzer, Ingo Althöfer ISBN: © 2014 Oldenbourg Wissenschaftsverlag GmbH Abbildungsübersicht / List.
MINDREADER Ein magisch - interaktives Erlebnis mit ENZO PAOLO
Musterlösung Hintergrundinformationen © Zentrale Planungsgruppe Netze am Kultusministerium Baden-Württemberg (ZPN) Importierte Workstation Teil 4: Was.
Analyseprodukte numerischer Modelle
2014 Januar 2014 So Mo Di Mi Do Fr Sa So
Folie Beispiel für eine Einzelauswertung der Gemeindedaten (fiktive Daten)
Klassifikation und Regression mittels neuronaler Netze
1 Mathematical Programming Nichtlineare Programmierung.
Ertragsteuern, 5. Auflage Christiana Djanani, Gernot Brähler, Christian Lösel, Andreas Krenzin © UVK Verlagsgesellschaft mbH, Konstanz und München 2012.
Der Erotik Kalender 2005.
Folie Einzelauswertung der Gemeindedaten
Datum:17. Dezember 2014 Thema:IFRS Update zum Jahresende – die Neuerungen im Überblick Referent:Eberhard Grötzner, EMA ® Anlass:12. Arbeitskreis Internationale.
Tutorial Schritt 1: Über den Link im VP gelangen Sie auf die Seite
Exploiting Web Applications
1 Medienpädagogischer Forschungsverbund Südwest KIM-Studie 2014 Landesanstalt für Kommunikation Baden-Württemberg (LFK) Landeszentrale für Medien und Kommunikation.
Monatsbericht Ausgleichsenergiemarkt Gas – November
The PicSOM Retrieval System 1 Christian Steinberg.
SS 2009Maschinelles Lernen und Neural Computation 133 Kapitel 7: Ensemble Methoden.
 Präsentation transkript:

Promotor Prediction Programms (PPP) Evolution eukaryontischer Promotorsequenzen Promotor Prediction Programms (PPP) Christian Ehrlich & Falko Krause

Einführung Eponine FirstEF Vergleich von PPPs Übersicht Bilogischer Hintergrund Maschinenlernen Eponine Relevance Vector Machine FirstEF Quadratische Diskriminanzanalyse Vergleich von PPPs

Einführung Eponine FirstEF Vergleich von PPPs Der Promotor Ort: vor und nach der Transkriptionsstart- stelle (TSS) Merkmale: Transkriptionsfaktor-bindungsstellen (TFBS) z.B. TATA-Box CpG-Inseln TSS Initiator Sequenz

Einführung Eponine FirstEF Vergleich von PPPs Maschienenlernen Neuronale Netze (NN) Hidden Markov Modelle (HMM)

Einführung Eponine FirstEF Vergleich von PPPs Maschienenlernen Sampling Relevance Vector Machine (RVM) Quadratische Diskriminanz- analyse (QDA)

What can we learn from noncoding regions of similarity between regions Einführung Eponine FirstEF Vergleich von PPPs Eponine What can we learn from noncoding regions of similarity between regions T.Down, T.J.P. Hubbard 2004 , BMC Bioinformatics

Einführung Eponine FirstEF Vergleich von PPPs Maschinenlernen Überwachtes Maschinenlernen annotierte Daten (Promoter Regionen, TSS, proteincodierende Bereiche) Modellerstellung aus diesen Daten automatische Daten Annotierung überwacht unüberwacht

Trainingset - Trainingsset nicht proteincodierend Human Maus BLAST-Z Einführung Eponine FirstEF Vergleich von PPPs Trainingset H Chromosome 6 - Trainingsset nicht proteincodierend Human Maus BLAST-Z F i l t e r ab initio Gen-Suche codierend (annotiert) RepeatMasker + Trainingsset konserviert funktionell nicht proteincodierend M Genome

Relevance Vector Machine Einführung Eponine FirstEF Vergleich von PPPs Relevance Vector Machine Bayes’sche automatische Relevanz Determination (ARD) für Modelle mit linearen Parametern (RVM 2000 M.E.Tipping M$) wenige Basis-Funktionen können von einem Generalisierten Linearem Modell (GLM) gelernt werden Basis-Funktionen können selbst gewählt werden (SVM nur Kernel Funktionen) Anzahl der Basis-Funktionen wird reduziert

Relevance Vector Maschine Einführung Eponine FirstEF Vergleich von PPPs Relevance Vector Maschine + Trainingsset - Trainingsset PWM RVM Trainings Modell

Einführung Eponine FirstEF Vergleich von PPPs Sampling „Sequenzen in der Nähe der TATA-Box sind auch für Promotoren spezifisch“ generiere eine neue PWM aus einer vorhanden durch Veränderung der Gewichte (Dirichlet verteilt) generiere eine neue PWM durch weglassen der ersten oder letzten Spalte

Einführung Eponine FirstEF Vergleich von PPPs EAS, EWS, cEWS Eponine Anchored Sequence (EAS) Anker Eponine Windowed Sequence (EWS) zufallige PWMs Convolved Eponine Windowed Sequence(C-EWS) PWM Gerüste

Einführung Eponine FirstEF Vergleich von PPPs EWS – Ergebnisse TSS Datenbank H Chromosome 22 [-2k, TSS, +2k] Testset Seedwort Länge Hits dist. TSS ohne CpG Receiver Operating Characteristic curve

First Exon Finder (FirstEF) Einführung Eponine FirstEF Vergleich von PPPs First Exon Finder (FirstEF) Computational identification of promoters and first exon in the human genome Ramana V. Davuluri. Ivo Gross & Michael Q. Zhang Nature genetics, Volume 29, December 2001

Einführung Eponine FirstEF Vergleich von PPPs Motivation Gen Vorhersage erreicht ~90% Sensitivität Genscan FGENES MZEF Promoter Vorhersage erreicht ~50% Sensitivität PromoterInspector Eponine DragonPF \\|// (o o) -. .-. .-oOOo~(_)~oOOo-. .-. .-. .-. ||X|||\ /|||X|||\ /|||X|||\ /|||X|||\ /|||X |/ \|||X|||/ \|||X|||/ \|||X|||/ \|||X|||/ ' `-' `-' `-' `-' `-' `-' `-' `-' Genscan DragonPF

Einführung Eponine FirstEF Vergleich von PPPs Methoden Diskriminanzanalyse Idee: Klassifizierung eines Objektes anhand mind. einer Zufallsvariablen Voraussetzung: Günstig: Benötigt:

Einführung Eponine FirstEF Vergleich von PPPs Methoden Quadratische Diskriminanzanalyse (QDA) Idee: Klassifizierung eines Objektes anhand mind. einer Zufallsvariablen Voraussetzung: Günstig: Benötigt:

Algorithmen Design Suche nach Splice Donor Site (GT) Einführung Eponine FirstEF Vergleich von PPPs Algorithmen Design Suche nach Splice Donor Site (GT) P(donor site | GT) > 0.4 Suche 1500bp/500bp up-/downstream nach GT nicht CpG CpG Fenster = Promotor Region Fenster = Promotor Region P(promotor | Fenster) > 0.4 P(promotor | Fenster) > 0.4 P(exon | alle) > 0.5 first-Exon gefunden

Einführung Eponine FirstEF Vergleich von PPPs Training QDF Training Probleme: Nicht viele GenBank Einträge beinhalten first-Exon Annotationen Idee: Sammele first-Exons und Promotoren durch Mapping von vollständige 5’ UTR’s auf Gensequenzen 2.139 first-Exons welche durch eine 500bp 5’ Region (Promotor) und 500bp 3’ Region (Intron) flankiert sind 61% teilweise codierend und 39% nicht cod.

Einführung Eponine FirstEF Vergleich von PPPs Training QDF Training Evaluation (sensitivity) (specificity) Vorhersage von CpG first-Exons ist sehr gut Vorhersage von nicht CpG first-Exons ist ok

FirstEF: 106/121~87% vorhergesagt (33/42~78% nicht-codierent) Einführung Eponine FirstEF Vergleich von PPPs Evaluation Evaluation procedure GenBank UCSC Genes + Promoters (Chrom. 21/22) Chromosom 21/22 mit repeats & ohne repeats BLAT aliniere G. + P. mit Chromosom Sequenz 121annotierte first-Exons (42 nicht-codierent) FirstEF: 106/121~87% vorhergesagt (33/42~78% nicht-codierent)

Promoter prediction analysis on Einführung Eponine FirstEF Vergleich von PPPs PPPs Promoter prediction analysis on the whole human genome V.B.Bajic, S.L.Tan, Y.Suzuki, S.Sugano Nature biotechnology, Volume 22, Number 11, November 2004

Einführung Eponine FirstEF Vergleich von PPPs Testset basiert auf experimental Daten (full-length oligo-capped’ cDNA) nicht bei allen PPPs möglich einige false negatives werden in kauf genommen Humanes Genom [-2000bp , TSS , +2000bp]

Funktion Name ANN CpG Insel C+G Gehalt TATA-Box Weitere Konzepte Einführung Eponine FirstEF Vergleich von PPPs Funktion Name ANN HMM CpG Insel C+G Gehalt TATA-Box Weitere Konzepte CpgProD only stat. regelbasiertes System Dragon GSF/PF X X X Eponine X RVM First EF X QDA MC Promoter X X pysikalische Eigenschaften NNPP X X INR + Abstand Promoter 2.0 X X

PPPs im Vergleich – Gewinner? Einführung Eponine FirstEF Vergleich von PPPs PPPs im Vergleich – Gewinner? PPPs haben oft schlechtere Ergebnisse geliefert als angegeben Eponine p.p.v.72,73% angegenen 66,97% erreicht FirstEF p.p.v 86 % angegeben 67,1% erreicht nicht CpG-Insel Promotoren werden schlecht erkannt höchste p.p.v. < 65% ( 2 Richtige 1 Falsche ) RepeatMasker verbessert oft das Ergebniss „Traue keiner Statistik die du nicht selbst gemacht hast“

Einführung Eponine FirstEF Vergleich von PPPs PPPs in Kombiation Kombination von PPPs verbessert Ergebnisse Vorgehen: Scannen mit Fensterbreite von 2000bp Wahlverfahren: Regel 1: Fester k bekommt +Vorhersagen von s PPPs Regel 2: Fester k bekommt +Vorhersagen von s PPPs von einer festgelegten Untergruppe

Wie bekomme ich Promotor-Regionen ? Evaluierung von PPPs ? Zusammenfassung Lerverfahren ? Relevance Vector Machine Quadratische Diskriminierungs Analyse Wie bekomme ich Promotor-Regionen ? Evaluierung von PPPs ? Verfahren Vergleichbarkeit Probleme der Promotor Vorhersage ?

ENDE Noch Fragen?

Literatur What can we learn from noncoding regions of similarity between regions, T.Down, T.J.P. Hubbard, http://www.biomedcentral.com/1471-2105/5/131 Relevance Vector Machines for classifying points and regions in biological sequences, T.Down, T.J.P. Hubbard A Machine Learning Strategy to Identity Exonic Splice Enhancers in Human Protein-coding Sequence, T.Down, B.Leong, T.J.P. Hubbard Chapter 4. Learning from comparative genomics, http://library.sanger.ac.uk/uhtbin/cgisirsi/0/0/520/a12334d?user_id=HYP-REST The Relevance Vector Machine, M.Tipping Crouching Introns,Hidden Exons, B.Leong Promoter prediction analysis on the whole human genome, V.B.Bajic, S.L.Tan, Y.Suzuki, S.Sugano Computational identification of promoters and first exon in the human genome, R.V.Davuluri, I.Gross, M.Q.Zhang