Präsentation herunterladen
Die Präsentation wird geladen. Bitte warten
Veröffentlicht von:Marko Wettlaufer Geändert vor über 10 Jahren
1
1 Whole Genome Alignment mit Suffixbäumen Fortgeschrittene Algorithmische Bioinformatik SoSe 2005 Emre Kutbay
2
2 Agenda Einleitung - Was ist MUMer? MUMer Core-Algorithmus NUCmer - PROmer weitere Tools Fortgeschrittene Algorithmische Bioinformatik, SS05
3
3 Einleitung – was ist MUMer Chromosome von Säugetieren alignieren Inversionen & Duplikationen finden alignieren der DNA-Sequenzen auf Proteinebene Fortgeschrittene Algorithmische Bioinformatik, SS05
4
4 Einleitung – was ist MUMer Fortgeschrittene Algorithmische Bioinformatik, SS05 Quelle: Multi-BUS: An algorithm for resolving multi-species gene correspondence and gene family relationships.
5
5 Einleitung – was ist MUMer Output von verschiedenen Assemblern bewerten Assemblierung in verschiedenen Stadien eines WGSS-Projektes bewerten Modularer Aufbau Open Source - http://mummer.sourceforge.net Fortgeschrittene Algorithmische Bioinformatik, SS05
6
6 Agenda Einleitung MUMer Core-Algorithmus NUCmer - PROmer weitere Tools Fortgeschrittene Algorithmische Bioinformatik, SS05
7
7 Algorithmen 1.Suffix-Tree mit 12.5-15.4 bytes/bp Krutz 2.Streaming der query-Sequenz Nur eine Sequenz wird gespeichert 3.Cluster bilden und konsistente Pfade innerhalb von Clustern finden Rearrangements in Chromosomen finden Fortgeschrittene Algorithmische Bioinformatik, SS05
8
8 Algorithmus: streaming Querysequenz: …atgtcc… Fortgeschrittene Algorithmische Bioinformatik, SS05 Refernzsequenz :
9
9 Algorithmus: streaming Vorteil: Nur einer der beiden Sequenzen wird im Suffixtree gespeichert Viele Sequenzen können gegen diesen gestreamt werden Nachteil: Erhöht Aufwand um uniqueness in der Querysequenz sicherzustellen … braucht man nicht immer Fortgeschrittene Algorithmische Bioinformatik, SS05
10
10 Agenda Einleitung Algorithmen von MUMer NUCmer – PROmer weitere Tools Fortgeschrittene Algorithmische Bioinformatik, SS05
11
11 NUCmer: clustering 1.mit MUMer: MUMs der Länge mindestens l finden 2.2 MUMs maximal g Nukleotide voneinander entfernt: cluster bilden 3.Pfad mit den meisten kolinearen Matches in jedem Cluster ermitteln 4.Wenn die Anzahl der Matches > c: SW-Alignment in Zwischenräumen der Matches und Grenzen des Clusters Fortgeschrittene Algorithmische Bioinformatik, SS05
12
12 PROmer: entfernte Verwandte 1.Übersetzen aller 6 reading Frames der Referenz- und der Querysequenz in Proteine 2.MUMs finden mittels MUMer 3.Cluster bilden und erweitern mittels BLOSSUM62 4.Alle Alignments zurück auf DNA- Koordinaten abbilden Fortgeschrittene Algorithmische Bioinformatik, SS05
13
13 NUCmer – PROmer: output Output:Serie von unabhängigen Alignment Regionen Fortgeschrittene Algorithmische Bioinformatik, SS05
14
14 NUCmer – PROmer: Kritik Clustering: Problem: MUMs in einem Cluster überlappen sich NUCmer/PROmer sucht kolineares Alignment, mit den meißten MUMs am besten alle im Cluster entfernen überlappender Teile der MUMs -> inkonsistentes Alignment Fortgeschrittene Algorithmische Bioinformatik, SS05
15
15 Optimal MUMer NUCmer – PROmer: Kritik Fortgeschrittene Algorithmische Bioinformatik, SS05 MUMs
16
16 PROmer: Kritik Sensitivität: MUMer sucht nach allen l-guten Teilwörtern – auch bei Proteinen Blast: 1.erzeuge Keyword-Tree aller Permutationen der Amino-Suchsequenz, 2.bewerte diese mit BLOSUM62 3.nimmt die Sequenzen mit einem größeren Score als l mit in die Suchquery auf Bsp.: MASGTLVWG undMTSDTSVRG Fortgeschrittene Algorithmische Bioinformatik, SS05
17
17 Agenda Einleitung Algorithmen von MUMer NUCmer - PROmer weitere Tools Fortgeschrittene Algorithmische Bioinformatik, SS05
18
18 shotgung-sequencing 1.Genom wird in Stücke zerlegt Viele Millionen: 2 bis 150 kb 2.Ca. 650 bp werden sequenziert Das sind die reads Genom ist zu >99% sequenziert, wenn man genug reads hat um es 8x abzudecken Stück (2 – 150kbp)read (650bp) Fortgeschrittene Algorithmische Bioinformatik, SS05
19
19 shotgung-sequencing Bei 2Mb bakterielles Genom braucht man ca. 25.000 reads, da: 25.000 x 650bp > 2.000.000bp x8 4.Reads werden assembliert output: viele Tausend contigs 5.Finishing: Reihenfolge und Orientierung der Contigs ermitteln und Gaps füllen Fortgeschrittene Algorithmische Bioinformatik, SS05
20
20 Weitere Tools – DisplayMUMs Fortgeschrittene Algorithmische Bioinformatik, SS05 zoomend in nucleotide alignment alignment summary Alignment tiles
21
21 DisplayMUMs Vergleich des Outputs zweier Assembler –Bewertung der Güte von Assemblern aus: Weizman Institute of Science Vergleich von Sequenzen zweier nah verwandter Spezies Fortgeschrittene Algorithmische Bioinformatik, SS05
22
22 Weitere Tools – MapView Fortgeschrittene Algorithmische Bioinformatik, SS05 Referenzsequenz Match Vergrößerung Alternative Splicevarianten 100% 75% 50%
23
23 Referenzen Referenzen: Fast algorithms for large-scale genome alignment and comparison Delcher, A. L., Phillippy, A., Carlton, J. and Salzberg, S. L. Versatile and open software for comparing large genomes Stefan Kurtz, Adam Phillippy, Arthur L Delcher, Michael Smoot, Martin Shumway, Corina Antonescu and Steven L. Salzberg An applications-focused review of comparative genomics tools: capabilities, limitations and future challenges. Chain, P., Kurtz, S., Ohlebusch, E. and Slezak, T. Skript Bioinformatik WS 2004/2005 Leser U. Fortgeschrittene Algorithmische Bioinformatik, SS05
24
24 Referenzen Bildmaterial: Multi-BUS: An algorithm for resolving multi-species gene correspondence and gene family relationships Matthew Rasmussen, Manolis Kellis Weizman Institute of Science http://www.weizmann.ac.il/biological_services/dna_seq/dna_seq.html Fortgeschrittene Algorithmische Bioinformatik, SS05
25
25 Ende Fragen? Fortgeschrittene Algorithmische Bioinformatik, SS05
Ähnliche Präsentationen
© 2024 SlidePlayer.org Inc.
All rights reserved.