Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

1 Whole Genome Alignment mit Suffixbäumen Fortgeschrittene Algorithmische Bioinformatik SoSe 2005 Emre Kutbay.

Ähnliche Präsentationen


Präsentation zum Thema: "1 Whole Genome Alignment mit Suffixbäumen Fortgeschrittene Algorithmische Bioinformatik SoSe 2005 Emre Kutbay."—  Präsentation transkript:

1 1 Whole Genome Alignment mit Suffixbäumen Fortgeschrittene Algorithmische Bioinformatik SoSe 2005 Emre Kutbay

2 2 Agenda Einleitung - Was ist MUMer? MUMer Core-Algorithmus NUCmer - PROmer weitere Tools Fortgeschrittene Algorithmische Bioinformatik, SS05

3 3 Einleitung – was ist MUMer Chromosome von Säugetieren alignieren Inversionen & Duplikationen finden alignieren der DNA-Sequenzen auf Proteinebene Fortgeschrittene Algorithmische Bioinformatik, SS05

4 4 Einleitung – was ist MUMer Fortgeschrittene Algorithmische Bioinformatik, SS05 Quelle: Multi-BUS: An algorithm for resolving multi-species gene correspondence and gene family relationships.

5 5 Einleitung – was ist MUMer Output von verschiedenen Assemblern bewerten Assemblierung in verschiedenen Stadien eines WGSS-Projektes bewerten Modularer Aufbau Open Source - Fortgeschrittene Algorithmische Bioinformatik, SS05

6 6 Agenda Einleitung MUMer Core-Algorithmus NUCmer - PROmer weitere Tools Fortgeschrittene Algorithmische Bioinformatik, SS05

7 7 Algorithmen 1.Suffix-Tree mit bytes/bp Krutz 2.Streaming der query-Sequenz Nur eine Sequenz wird gespeichert 3.Cluster bilden und konsistente Pfade innerhalb von Clustern finden Rearrangements in Chromosomen finden Fortgeschrittene Algorithmische Bioinformatik, SS05

8 8 Algorithmus: streaming Querysequenz: …atgtcc… Fortgeschrittene Algorithmische Bioinformatik, SS05 Refernzsequenz :

9 9 Algorithmus: streaming Vorteil: Nur einer der beiden Sequenzen wird im Suffixtree gespeichert Viele Sequenzen können gegen diesen gestreamt werden Nachteil: Erhöht Aufwand um uniqueness in der Querysequenz sicherzustellen … braucht man nicht immer Fortgeschrittene Algorithmische Bioinformatik, SS05

10 10 Agenda Einleitung Algorithmen von MUMer NUCmer – PROmer weitere Tools Fortgeschrittene Algorithmische Bioinformatik, SS05

11 11 NUCmer: clustering 1.mit MUMer: MUMs der Länge mindestens l finden 2.2 MUMs maximal g Nukleotide voneinander entfernt: cluster bilden 3.Pfad mit den meisten kolinearen Matches in jedem Cluster ermitteln 4.Wenn die Anzahl der Matches > c: SW-Alignment in Zwischenräumen der Matches und Grenzen des Clusters Fortgeschrittene Algorithmische Bioinformatik, SS05

12 12 PROmer: entfernte Verwandte 1.Übersetzen aller 6 reading Frames der Referenz- und der Querysequenz in Proteine 2.MUMs finden mittels MUMer 3.Cluster bilden und erweitern mittels BLOSSUM62 4.Alle Alignments zurück auf DNA- Koordinaten abbilden Fortgeschrittene Algorithmische Bioinformatik, SS05

13 13 NUCmer – PROmer: output Output:Serie von unabhängigen Alignment Regionen Fortgeschrittene Algorithmische Bioinformatik, SS05

14 14 NUCmer – PROmer: Kritik Clustering: Problem: MUMs in einem Cluster überlappen sich NUCmer/PROmer sucht kolineares Alignment, mit den meißten MUMs am besten alle im Cluster entfernen überlappender Teile der MUMs -> inkonsistentes Alignment Fortgeschrittene Algorithmische Bioinformatik, SS05

15 15 Optimal MUMer NUCmer – PROmer: Kritik Fortgeschrittene Algorithmische Bioinformatik, SS05 MUMs

16 16 PROmer: Kritik Sensitivität: MUMer sucht nach allen l-guten Teilwörtern – auch bei Proteinen Blast: 1.erzeuge Keyword-Tree aller Permutationen der Amino-Suchsequenz, 2.bewerte diese mit BLOSUM62 3.nimmt die Sequenzen mit einem größeren Score als l mit in die Suchquery auf Bsp.: MASGTLVWG undMTSDTSVRG Fortgeschrittene Algorithmische Bioinformatik, SS05

17 17 Agenda Einleitung Algorithmen von MUMer NUCmer - PROmer weitere Tools Fortgeschrittene Algorithmische Bioinformatik, SS05

18 18 shotgung-sequencing 1.Genom wird in Stücke zerlegt Viele Millionen: 2 bis 150 kb 2.Ca. 650 bp werden sequenziert Das sind die reads Genom ist zu >99% sequenziert, wenn man genug reads hat um es 8x abzudecken Stück (2 – 150kbp)read (650bp) Fortgeschrittene Algorithmische Bioinformatik, SS05

19 19 shotgung-sequencing Bei 2Mb bakterielles Genom braucht man ca reads, da: x 650bp > bp x8 4.Reads werden assembliert output: viele Tausend contigs 5.Finishing: Reihenfolge und Orientierung der Contigs ermitteln und Gaps füllen Fortgeschrittene Algorithmische Bioinformatik, SS05

20 20 Weitere Tools – DisplayMUMs Fortgeschrittene Algorithmische Bioinformatik, SS05 zoomend in nucleotide alignment alignment summary Alignment tiles

21 21 DisplayMUMs Vergleich des Outputs zweier Assembler –Bewertung der Güte von Assemblern aus: Weizman Institute of Science Vergleich von Sequenzen zweier nah verwandter Spezies Fortgeschrittene Algorithmische Bioinformatik, SS05

22 22 Weitere Tools – MapView Fortgeschrittene Algorithmische Bioinformatik, SS05 Referenzsequenz Match Vergrößerung Alternative Splicevarianten 100% 75% 50%

23 23 Referenzen Referenzen: Fast algorithms for large-scale genome alignment and comparison Delcher, A. L., Phillippy, A., Carlton, J. and Salzberg, S. L. Versatile and open software for comparing large genomes Stefan Kurtz, Adam Phillippy, Arthur L Delcher, Michael Smoot, Martin Shumway, Corina Antonescu and Steven L. Salzberg An applications-focused review of comparative genomics tools: capabilities, limitations and future challenges. Chain, P., Kurtz, S., Ohlebusch, E. and Slezak, T. Skript Bioinformatik WS 2004/2005 Leser U. Fortgeschrittene Algorithmische Bioinformatik, SS05

24 24 Referenzen Bildmaterial: Multi-BUS: An algorithm for resolving multi-species gene correspondence and gene family relationships Matthew Rasmussen, Manolis Kellis Weizman Institute of Science Fortgeschrittene Algorithmische Bioinformatik, SS05

25 25 Ende Fragen? Fortgeschrittene Algorithmische Bioinformatik, SS05


Herunterladen ppt "1 Whole Genome Alignment mit Suffixbäumen Fortgeschrittene Algorithmische Bioinformatik SoSe 2005 Emre Kutbay."

Ähnliche Präsentationen


Google-Anzeigen