1 Whole Genome Alignment mit Suffixbäumen Fortgeschrittene Algorithmische Bioinformatik SoSe 2005 Emre Kutbay.

1 Whole Genome Alignment mit Suffixbäumen Fortgeschrittene Algorithmische Bioinformatik SoSe 2005 Emre Kutbay

2 Agenda Einleitung - Was ist MUMer? MUMer Core-Algorithmus NUCmer - PROmer weitere Tools Fortgeschrittene Algorithmische Bioinformatik, SS05

3 Einleitung – was ist MUMer Chromosome von Säugetieren alignieren Inversionen & Duplikationen finden alignieren der DNA-Sequenzen auf Proteinebene Fortgeschrittene Algorithmische Bioinformatik, SS05

4 Einleitung – was ist MUMer Fortgeschrittene Algorithmische Bioinformatik, SS05 Quelle: Multi-BUS: An algorithm for resolving multi-species gene correspondence and gene family relationships.

5 Einleitung – was ist MUMer Output von verschiedenen Assemblern bewerten Assemblierung in verschiedenen Stadien eines WGSS-Projektes bewerten Modularer Aufbau Open Source - http://mummer.sourceforge.net Fortgeschrittene Algorithmische Bioinformatik, SS05

6 Agenda Einleitung MUMer Core-Algorithmus NUCmer - PROmer weitere Tools Fortgeschrittene Algorithmische Bioinformatik, SS05

7 Algorithmen 1.Suffix-Tree mit 12.5-15.4 bytes/bp Krutz 2.Streaming der query-Sequenz Nur eine Sequenz wird gespeichert 3.Cluster bilden und konsistente Pfade innerhalb von Clustern finden Rearrangements in Chromosomen finden Fortgeschrittene Algorithmische Bioinformatik, SS05

8 Algorithmus: streaming Querysequenz: …atgtcc… Fortgeschrittene Algorithmische Bioinformatik, SS05 Refernzsequenz :

9 Algorithmus: streaming Vorteil: Nur einer der beiden Sequenzen wird im Suffixtree gespeichert Viele Sequenzen können gegen diesen gestreamt werden Nachteil: Erhöht Aufwand um uniqueness in der Querysequenz sicherzustellen … braucht man nicht immer Fortgeschrittene Algorithmische Bioinformatik, SS05

10 Agenda Einleitung Algorithmen von MUMer NUCmer – PROmer weitere Tools Fortgeschrittene Algorithmische Bioinformatik, SS05

11 NUCmer: clustering 1.mit MUMer: MUMs der Länge mindestens l finden 2.2 MUMs maximal g Nukleotide voneinander entfernt: cluster bilden 3.Pfad mit den meisten kolinearen Matches in jedem Cluster ermitteln 4.Wenn die Anzahl der Matches > c: SW-Alignment in Zwischenräumen der Matches und Grenzen des Clusters Fortgeschrittene Algorithmische Bioinformatik, SS05

12 PROmer: entfernte Verwandte 1.Übersetzen aller 6 reading Frames der Referenz- und der Querysequenz in Proteine 2.MUMs finden mittels MUMer 3.Cluster bilden und erweitern mittels BLOSSUM62 4.Alle Alignments zurück auf DNA- Koordinaten abbilden Fortgeschrittene Algorithmische Bioinformatik, SS05

13 NUCmer – PROmer: output Output:Serie von unabhängigen Alignment Regionen Fortgeschrittene Algorithmische Bioinformatik, SS05

14 NUCmer – PROmer: Kritik Clustering: Problem: MUMs in einem Cluster überlappen sich NUCmer/PROmer sucht kolineares Alignment, mit den meißten MUMs am besten alle im Cluster entfernen überlappender Teile der MUMs -> inkonsistentes Alignment Fortgeschrittene Algorithmische Bioinformatik, SS05

15 Optimal MUMer NUCmer – PROmer: Kritik Fortgeschrittene Algorithmische Bioinformatik, SS05 MUMs

16 PROmer: Kritik Sensitivität: MUMer sucht nach allen l-guten Teilwörtern – auch bei Proteinen Blast: 1.erzeuge Keyword-Tree aller Permutationen der Amino-Suchsequenz, 2.bewerte diese mit BLOSUM62 3.nimmt die Sequenzen mit einem größeren Score als l mit in die Suchquery auf Bsp.: MASGTLVWG undMTSDTSVRG Fortgeschrittene Algorithmische Bioinformatik, SS05

17 Agenda Einleitung Algorithmen von MUMer NUCmer - PROmer weitere Tools Fortgeschrittene Algorithmische Bioinformatik, SS05

18 shotgung-sequencing 1.Genom wird in Stücke zerlegt Viele Millionen: 2 bis 150 kb 2.Ca. 650 bp werden sequenziert Das sind die reads Genom ist zu >99% sequenziert, wenn man genug reads hat um es 8x abzudecken Stück (2 – 150kbp)read (650bp) Fortgeschrittene Algorithmische Bioinformatik, SS05

19 shotgung-sequencing Bei 2Mb bakterielles Genom braucht man ca. 25.000 reads, da: 25.000 x 650bp > 2.000.000bp x8 4.Reads werden assembliert output: viele Tausend contigs 5.Finishing: Reihenfolge und Orientierung der Contigs ermitteln und Gaps füllen Fortgeschrittene Algorithmische Bioinformatik, SS05

20 Weitere Tools – DisplayMUMs Fortgeschrittene Algorithmische Bioinformatik, SS05 zoomend in nucleotide alignment alignment summary Alignment tiles

21 DisplayMUMs Vergleich des Outputs zweier Assembler –Bewertung der Güte von Assemblern aus: Weizman Institute of Science Vergleich von Sequenzen zweier nah verwandter Spezies Fortgeschrittene Algorithmische Bioinformatik, SS05

22 Weitere Tools – MapView Fortgeschrittene Algorithmische Bioinformatik, SS05 Referenzsequenz Match Vergrößerung Alternative Splicevarianten 100% 75% 50%

23 Referenzen Referenzen: Fast algorithms for large-scale genome alignment and comparison Delcher, A. L., Phillippy, A., Carlton, J. and Salzberg, S. L. Versatile and open software for comparing large genomes Stefan Kurtz, Adam Phillippy, Arthur L Delcher, Michael Smoot, Martin Shumway, Corina Antonescu and Steven L. Salzberg An applications-focused review of comparative genomics tools: capabilities, limitations and future challenges. Chain, P., Kurtz, S., Ohlebusch, E. and Slezak, T. Skript Bioinformatik WS 2004/2005 Leser U. Fortgeschrittene Algorithmische Bioinformatik, SS05

24 Referenzen Bildmaterial: Multi-BUS: An algorithm for resolving multi-species gene correspondence and gene family relationships Matthew Rasmussen, Manolis Kellis Weizman Institute of Science http://www.weizmann.ac.il/biological_services/dna_seq/dna_seq.html Fortgeschrittene Algorithmische Bioinformatik, SS05

25 Ende Fragen? Fortgeschrittene Algorithmische Bioinformatik, SS05

1 Whole Genome Alignment mit Suffixbäumen Fortgeschrittene Algorithmische Bioinformatik SoSe 2005 Emre Kutbay.

Ähnliche Präsentationen

Präsentation zum Thema: "1 Whole Genome Alignment mit Suffixbäumen Fortgeschrittene Algorithmische Bioinformatik SoSe 2005 Emre Kutbay."— Präsentation transkript:

Ähnliche Präsentationen

Über Projekt

Feedback

Anmelden

Anmeldung über soziales Netzwerk:

1 Whole Genome Alignment mit Suffixbäumen Fortgeschrittene Algorithmische Bioinformatik SoSe 2005 Emre Kutbay.

Ähnliche Präsentationen

Präsentation zum Thema: "1 Whole Genome Alignment mit Suffixbäumen Fortgeschrittene Algorithmische Bioinformatik SoSe 2005 Emre Kutbay."— Präsentation transkript:

Ähnliche Präsentationen

Über Projekt

Feedback