1 Whole Genome Alignment mit Suffixbäumen Fortgeschrittene Algorithmische Bioinformatik SoSe 2005 Emre Kutbay.

Slides:



Advertisements
Ähnliche Präsentationen
Algorithmen und Datenstrukturen
Advertisements

Software Assurance Erweiterte Software Assurance Services
Kap. 7 Sortierverfahren Kap. 7.0 Darstellung, Vorüberlegungen
Routing – Routing Protokolle
Inhalt Saarbrücken,.
Paarweises Sequenz Alignment
Christian Schindelhauer
Einführung in die Informatik: Programmierung und Software-Entwicklung
SST - Sequence Search Tree
Konstruktion sehr großer Suffixbäume
On the Criteria to Be Used in Decomposing Systems into Modules
FH-Hof Der B-Baum Richard Göbel. FH-Hof Wahl des Verzweigungsgrad Verzweigungsgrad kann größer als 2 sein v Nachfolger für einen Knoten v-1 Werte in einem.
Einfache Kombinationen aus Fixgeschäften und Optionen / Spreads
Statistische Suche nach melodischen Prototypen
5. Sortier-Algorithmen Vorbemerkungen:
Genetische Algorithmen für die Variogrammanpassung
Standortfaktoren INTERN - Ausdrucksstark präsentieren.
Seminar Fortgeschrittene Algorithmische Bioinformatik
Übersicht DIALIGN = DIagonal ALIGNment
Stefanie Selzer - Pascal Busch - Michael Kropiwoda
V5 – Analyse von Genomsequenzen
Suche in Texten: Suffix-Bäume
WS Algorithmentheorie 05 - Treaps Prof. Dr. Th. Ottmann.
Dynamische Programmierung (2) Matrixkettenprodukt
WS Algorithmentheorie 08 – Dynamische Programmierung (2) Matrixkettenprodukt Prof. Dr. Th. Ottmann.
WS Prof. Dr. Th. Ottmann Algorithmentheorie 09 - Suche in Texten Suffix - Bäume.
Geometrisches Divide and Conquer
Seminar: Aktuelle Themen der Bioinformatik Thema: Genome Rearrangement Ceyhun Tamer
Institut für Kartographie und Geoinformation Diskrete Mathematik I Vorlesung Bäume-
DNA - Sequenzierstrategien
Analyse von DNA-Sequenzen
Modelchecker – RED Tool: Region-Encoding Diagram Stefan Neumann.
Wir suchen ‘ mit m = m    ‘ c  ‘ mod 26
Ralf KüstersDagstuhl 2008/11/30 2 Ralf KüstersDagstuhl 2008/11/30 3.
Phylogenetic Footprinting
T A T A C G A A T C T A A A PosACGT Wie oft matcht das Profil ?
BSP Binary Space Partitioning
EDC Entwicklerforum Geoprocessing im Web 18. Juli 2013 Benjamin Proß Ein erweiterbarer WPS Client für ArcMap.
7.1 Externes Suchen Bisherige Algorithmen: geeignet, wenn alle Daten im Hauptspeicher. Große Datenmengen: oft auf externen Speichermedien, z.B. Festplatte.
Performance-Steigerung durch schnelle Festplatten Ulrich Dinger.
Zur Veranstaltung Business Intelligence
Wer ist am schnellsten? Manfred Jeitler Institut für Hochenergiephysik
Beispiel mit vier Personen und vier Sitzplätzen
LS 2 / Informatik Datenstrukturen, Algorithmen und Programmierung 2 (DAP2)
Merge-Sort und Binäres Suchen /10D. Haehn Populäres algorithmisches Lösungsverfahren Populäres algorithmisches Lösungsverfahren Divide: Problem.
Mit 3 Schichte zum Erfolg
SNP: Single Nucleotide Polymorphism
DIE DARSTELLUNG VON AUßEN- UND SICHERHEITSPOLITIK IN PRESSEKOMMENTAREN SPANISCHER TAGESZEITUNGEN Julia Belke, Vera Freitag, Lena Jung, Sarah Wendle Hauptseminar:
Quantum Computing Hartmut Klauck Universität Frankfurt WS 05/ /23.1.
Dynamische Programmierung mit Anwendung auf Sequence Alignment Problem
HPI Bachelorprojekt Scalable EMF Vorstellung der Designdokumente Strukturen und Abläufe 1. März 2010.
Auslegung eines Vorschubantriebes
Archival and Discovery
VL Algorithmische BioInformatik (19710)
Vorlesung Datenbanksysteme vom Physische Datenorganisation
Analyseprodukte numerischer Modelle
Möglichkeiten der molekularen Rinderzucht
Rekonstruktion phylogenetischer Bäume.
1 Zukunftsfaktor Wissen Perspektiven für wissensintensive Unternehmen und hoch qualifizierte Fachkräfte in der Region Osnabrück-Emsland Pressegespräch.
Pflanzenlernkartei 3 Autor: Rudolf Arnold. Pflanze 1 Gattung Merkmale Schädigung Bekämpfung.
Pflanzenlernkartei 2 Autor: Rudolf Arnold. Pflanze 1 Gattung Merkmale Schädigung Bekämpfung.
Fingerprint Matching On Card
Paarweises Sequenz-Alignment
Parallelisierung für Multiprozessor-Maschinen
Der Erotik Kalender 2005.
Computer Algebra für Brüche --- angepasst an Ausbildungszwecke
Gene Prediction Marco Block Jonas Heise Nima Keshvari Michael Schreiber.
K-SAT: Ein heuristischer Algorithmen- Vergleich Kann man den ‚Brute Force Search‘ Algorithmus schlagen?

CRISPR/Cas9 Gentechnik
 Präsentation transkript:

1 Whole Genome Alignment mit Suffixbäumen Fortgeschrittene Algorithmische Bioinformatik SoSe 2005 Emre Kutbay

2 Agenda Einleitung - Was ist MUMer? MUMer Core-Algorithmus NUCmer - PROmer weitere Tools Fortgeschrittene Algorithmische Bioinformatik, SS05

3 Einleitung – was ist MUMer Chromosome von Säugetieren alignieren Inversionen & Duplikationen finden alignieren der DNA-Sequenzen auf Proteinebene Fortgeschrittene Algorithmische Bioinformatik, SS05

4 Einleitung – was ist MUMer Fortgeschrittene Algorithmische Bioinformatik, SS05 Quelle: Multi-BUS: An algorithm for resolving multi-species gene correspondence and gene family relationships.

5 Einleitung – was ist MUMer Output von verschiedenen Assemblern bewerten Assemblierung in verschiedenen Stadien eines WGSS-Projektes bewerten Modularer Aufbau Open Source - Fortgeschrittene Algorithmische Bioinformatik, SS05

6 Agenda Einleitung MUMer Core-Algorithmus NUCmer - PROmer weitere Tools Fortgeschrittene Algorithmische Bioinformatik, SS05

7 Algorithmen 1.Suffix-Tree mit bytes/bp Krutz 2.Streaming der query-Sequenz Nur eine Sequenz wird gespeichert 3.Cluster bilden und konsistente Pfade innerhalb von Clustern finden Rearrangements in Chromosomen finden Fortgeschrittene Algorithmische Bioinformatik, SS05

8 Algorithmus: streaming Querysequenz: …atgtcc… Fortgeschrittene Algorithmische Bioinformatik, SS05 Refernzsequenz :

9 Algorithmus: streaming Vorteil: Nur einer der beiden Sequenzen wird im Suffixtree gespeichert Viele Sequenzen können gegen diesen gestreamt werden Nachteil: Erhöht Aufwand um uniqueness in der Querysequenz sicherzustellen … braucht man nicht immer Fortgeschrittene Algorithmische Bioinformatik, SS05

10 Agenda Einleitung Algorithmen von MUMer NUCmer – PROmer weitere Tools Fortgeschrittene Algorithmische Bioinformatik, SS05

11 NUCmer: clustering 1.mit MUMer: MUMs der Länge mindestens l finden 2.2 MUMs maximal g Nukleotide voneinander entfernt: cluster bilden 3.Pfad mit den meisten kolinearen Matches in jedem Cluster ermitteln 4.Wenn die Anzahl der Matches > c: SW-Alignment in Zwischenräumen der Matches und Grenzen des Clusters Fortgeschrittene Algorithmische Bioinformatik, SS05

12 PROmer: entfernte Verwandte 1.Übersetzen aller 6 reading Frames der Referenz- und der Querysequenz in Proteine 2.MUMs finden mittels MUMer 3.Cluster bilden und erweitern mittels BLOSSUM62 4.Alle Alignments zurück auf DNA- Koordinaten abbilden Fortgeschrittene Algorithmische Bioinformatik, SS05

13 NUCmer – PROmer: output Output:Serie von unabhängigen Alignment Regionen Fortgeschrittene Algorithmische Bioinformatik, SS05

14 NUCmer – PROmer: Kritik Clustering: Problem: MUMs in einem Cluster überlappen sich NUCmer/PROmer sucht kolineares Alignment, mit den meißten MUMs am besten alle im Cluster entfernen überlappender Teile der MUMs -> inkonsistentes Alignment Fortgeschrittene Algorithmische Bioinformatik, SS05

15 Optimal MUMer NUCmer – PROmer: Kritik Fortgeschrittene Algorithmische Bioinformatik, SS05 MUMs

16 PROmer: Kritik Sensitivität: MUMer sucht nach allen l-guten Teilwörtern – auch bei Proteinen Blast: 1.erzeuge Keyword-Tree aller Permutationen der Amino-Suchsequenz, 2.bewerte diese mit BLOSUM62 3.nimmt die Sequenzen mit einem größeren Score als l mit in die Suchquery auf Bsp.: MASGTLVWG undMTSDTSVRG Fortgeschrittene Algorithmische Bioinformatik, SS05

17 Agenda Einleitung Algorithmen von MUMer NUCmer - PROmer weitere Tools Fortgeschrittene Algorithmische Bioinformatik, SS05

18 shotgung-sequencing 1.Genom wird in Stücke zerlegt Viele Millionen: 2 bis 150 kb 2.Ca. 650 bp werden sequenziert Das sind die reads Genom ist zu >99% sequenziert, wenn man genug reads hat um es 8x abzudecken Stück (2 – 150kbp)read (650bp) Fortgeschrittene Algorithmische Bioinformatik, SS05

19 shotgung-sequencing Bei 2Mb bakterielles Genom braucht man ca reads, da: x 650bp > bp x8 4.Reads werden assembliert output: viele Tausend contigs 5.Finishing: Reihenfolge und Orientierung der Contigs ermitteln und Gaps füllen Fortgeschrittene Algorithmische Bioinformatik, SS05

20 Weitere Tools – DisplayMUMs Fortgeschrittene Algorithmische Bioinformatik, SS05 zoomend in nucleotide alignment alignment summary Alignment tiles

21 DisplayMUMs Vergleich des Outputs zweier Assembler –Bewertung der Güte von Assemblern aus: Weizman Institute of Science Vergleich von Sequenzen zweier nah verwandter Spezies Fortgeschrittene Algorithmische Bioinformatik, SS05

22 Weitere Tools – MapView Fortgeschrittene Algorithmische Bioinformatik, SS05 Referenzsequenz Match Vergrößerung Alternative Splicevarianten 100% 75% 50%

23 Referenzen Referenzen: Fast algorithms for large-scale genome alignment and comparison Delcher, A. L., Phillippy, A., Carlton, J. and Salzberg, S. L. Versatile and open software for comparing large genomes Stefan Kurtz, Adam Phillippy, Arthur L Delcher, Michael Smoot, Martin Shumway, Corina Antonescu and Steven L. Salzberg An applications-focused review of comparative genomics tools: capabilities, limitations and future challenges. Chain, P., Kurtz, S., Ohlebusch, E. and Slezak, T. Skript Bioinformatik WS 2004/2005 Leser U. Fortgeschrittene Algorithmische Bioinformatik, SS05

24 Referenzen Bildmaterial: Multi-BUS: An algorithm for resolving multi-species gene correspondence and gene family relationships Matthew Rasmussen, Manolis Kellis Weizman Institute of Science Fortgeschrittene Algorithmische Bioinformatik, SS05

25 Ende Fragen? Fortgeschrittene Algorithmische Bioinformatik, SS05