Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

5. Vorlesung WS 2005/06Softwarewerkzeuge1 V5 – Analyse von Genomsequenzen - Genom-Assemblierung finde identische k-Tupel - Genom-Alignment Suche nach MUMs.

Ähnliche Präsentationen


Präsentation zum Thema: "5. Vorlesung WS 2005/06Softwarewerkzeuge1 V5 – Analyse von Genomsequenzen - Genom-Assemblierung finde identische k-Tupel - Genom-Alignment Suche nach MUMs."—  Präsentation transkript:

1 5. Vorlesung WS 2005/06Softwarewerkzeuge1 V5 – Analyse von Genomsequenzen - Genom-Assemblierung finde identische k-Tupel - Genom-Alignment Suche nach MUMs (maximal unique matches) andere wichtige Bereiche, für die wir heute keine Zeit haben - Gene identifizieren Hidden Markov Modelle - Transkriptionsfaktorbindestellen Position Specific Scoring Matrices (PSSM) - finde Repeat-Sequenzen Suche nach bekannten Repeat-Motiven Suche auf Suffix-Baum

2 5. Vorlesung WS 2005/06Softwarewerkzeuge2 Whole Genome Shotgun Assemblierung Es gibt 2 Strategien für die Sequenzierung von Genomen: clone-by-clone Methode whole-genome shotgun Methode (Celera, Gene Myers). Die Shotgun Sequenzierung wurde bereits 1977 von F. Sanger et al. eingeführt und ist seither eine Standardmethode für die Sequenzierung von Genen. Umstritten war jedoch, ob man sie auch für komplette Genome verwenden kann. ED Green, Nat Rev Genet 2, 573 (2001)

3 5. Vorlesung WS 2005/06Softwarewerkzeuge3 Arachne Programm von Serafin Batzoglou (MIT, Doktorarbeit 2000) (i)konstruiere Graph G für Überlappungen zwischen Paaren von reads aus Shotgun-Daten (i)prozessiere G um Supercontigs von gemappten reads zu erhalten. Batzoglou et al. Genome Res 12, 177 (2002) Wichtige Variation der whole-genome shotgun Sequenzierung: sequenziere reads jeweils von beiden Enden eines Klons. Da die Inserts nach ihrer Größe ausgewählt werden, ist damit der ungefähre Abstand zwischen dem Paar von reads bekannt. Man nennt diese earmuff (Ohrenwärmer) Verbindungen.

4 5. Vorlesung WS 2005/06Softwarewerkzeuge4 Arachne: erzeuge Überlappungsgraphen Liste von reads R = (r 1,..., r N ), N ist die Anzahl der reads. Jeder read r i besitzt eine Länge l i < Wenn beide reads von den Endpunkten desselben Klons stammen (earmuff link), besitzt r i eine Verknüpfung zu einem anderen read r j in einer festen Distanz d ij. Erstes Ziel: erzeuge Graphen G der Überlappungen (Kanten) zwischen Paaren an reads (Knoten) dies ergibt die Paare an reads in R, die aligniert werden müssen. Da R sehr lang sein kann, sind N 2 alignments nicht praktikabel. erstelle Tabelle für das Vorkommen von k-Tupel (Strings der Länge k) in den reads, zähle die Anzahl von k-Tupel Treffern für jedes Paar an reads. Führe dann paarweise Alignments zwischen den Paaren an reads durch, die mehr als cutoff gemeinsame k-mere besitzen. Batzoglou PhD thesis (2002)

5 5. Vorlesung WS 2005/06Softwarewerkzeuge5 Arachne: Tabelle für Vorkommen von k-meren Ermittle die Anzahl an k-Tupel Treffern in der Vorwärts- und Rückwärts-Richtung zwischen jedem Paar von reads in R. (1) Ermittle alle Triplets (r,t,v) r = Nummer des reads in R t = Index eines k-mers, das in r vorkommt v = Richtung des Auftretens (vorwärts oder rückwärts) (2) sortiere die Menge der Paare nach den k-mer Indices t (3) verwende eine sortierte Liste um eine Tabelle T von Quadrubletts (r i, r j, f, v) zu erstellen, wobei r i und r i die reads sind, die mindestens einen gemeinsamen k-mer enthalten, v die Richtung angiebt, und f die Anzahl an gemeinsamen k-mers zwischen r i und r j in Richtung v. Batzoglou PhD thesis (2002)

6 5. Vorlesung WS 2005/06Softwarewerkzeuge6 Arachne: Tabelle für Vorkommen von k-mers Batzoglou PhD thesis (2002) Hier: k = 3

7 5. Vorlesung WS 2005/06Softwarewerkzeuge7 Arachne: Tabelle für Vorkommen von k-mers Wenn ein k-Tupel zu oft auftritt gehört er wahrscheinlich zu einer Repeat-Sequenz. Man sollte diese nicht für die Detektion von Überlappungen verwenden. Implementierung (1)finde k-Tupel (r,t,v) und sortieren sie in 64 Dateien entsprechen den ersten drei Nukleotiden jedes k-mers. (2)Für i=1,64 lade Datei in den Speicher, sortiere nach t, speichere sortierte Datei ab. end (3)lade 64 sortierte Dateien nacheinander in den Speicher, fülle Tabelle T nacheinander auf. In der Praxis ist k = 8 bis 24. Batzoglou PhD thesis (2002)

8 5. Vorlesung WS 2005/06Softwarewerkzeuge8 Arachne: paarweise read-Alignments Führe paarweise Alignments zwischen den Reads durch, die mehr als Cutoff gemeinsame k-mers besitzen. Sobald man zu häufige k-mers ausschließt (mehr als ein zweiter Cutoff), ist sichergestellt, daß nur O(N) viele paarweise Sequenzalignments durchgeführt werden müssen. Nur eine kleine Anzahl an Basen-Austauschen und Indels ist in einer überlappenden Region zweier alignierter reads erlaubt. Output des Alignment-Algorithmus: für die reads r i, r j gibt es Quadrubletts (b 1, b 2, e 1, e 2 ) für jede detektierte Überlappungsregion mit den Anfangspositionen b 1, b 2 und Endpositionen e 1,e 2. Falls eine signifikante Überlappungsregion vorliegt, wird (r i, r j, b 1, b 2, e 1, e 2 ) eine Kante im Überlappungsgraphen G. Batzoglou PhD thesis (2002)

9 5. Vorlesung WS 2005/06Softwarewerkzeuge9 Kombination teilweiser Alignments 3 teilweise Alignments der Länge k=6 zwischen einem Paar von reads werden zu einem einzigen vollen Alignment der Länge k=19 kombiniert. Die vertikalen Linien verbinden übereinstimmenden Basen, wogegen x Mismatche sind. Dies ist eine oft auftretende Situation, in der ein ausgedehnter k-mer Treffer ein volles Alignment von zwei reads ist. Batzoglou et al. Genome Res 12, 177 (2002)

10 5. Vorlesung WS 2005/06Softwarewerkzeuge10 Repeats erzeugen Mehrdeutigkeit Ohne das Auftreten von Sequen- zierungsfehlern und Repeats wäre es einfach, alle entdeckbaren paarweise Abstände von reads zu finden und den Graph G zu konstruieren. Da es Repeats jedoch sehr häufig auftreten, bedeutet eine Verbindung zwischen zwei reads in G nicht ohne weiteres eine wahre Überlappung. Eine Repeat-Verbindung ist eine Verbindung in G zwischen zwei reads, die aus verschiedenen Regionen des Genoms stammen und in der repetitiven Sequenz überein- stimmen. Batzoglou PhD thesis (2002)

11 5. Vorlesung WS 2005/06Softwarewerkzeuge11 Sequence contigs Batzoglou PhD thesis (2002) unerläßlich für die Assemblierung ist die ausreichende Überdeckung (mehrfache Sequenzierung = coverage) derselben Genomregionen

12 5. Vorlesung WS 2005/06Softwarewerkzeuge12 Verbinden von Contigs Batzoglou PhD thesis (2002) Sequenz-Contigs werden gebildet indem Paare von reads verbunden werden, die eindeutig verbunden werden können. Tatsächlich ist die Situation viel schwieriger als hier gezeigt, da Repeats häufig nicht zu 100% zwischen Kopien konserviert sind. Durch die Löschung von k-mers hoher Frequenz wird einiges an Repetition im Genom vor der Erzeugung von G effizient maskiert. Zur Erkennung von repetitiven Verbindung dienen weitere heuristische Algorithmen, die hier nicht diskutiert werden sollen.

13 5. Vorlesung WS 2005/06Softwarewerkzeuge13 Benutze Überlapp-Paarungen um die reads zu verbinden Arachne sucht nach 2 Plasmiden mit gleicher Insert-Länge, deren Sequenzen an beiden Enden überlappen paired pairs. Batzoglou et al. Genome Res 12, 177 (2002) (A) A paired pair of overlaps. The top two reads are end sequences from one insert, and the bottom two reads are end sequences from another. The two overlaps must not imply too large a discrepancy between the insert lengths. (B) Initially, the top two pairs of reads are merged. Then the third pair of reads is merged in, based on having an overlap with one of the top two left reads, an overlap with one of the top two right reads, and consistent insert lengths. The bottom pair is similarly merged. Unten: eine Menge von paired pairs werden zu contigs zusammengefasst und eine Konsensussequenz erzeugt.

14 5. Vorlesung WS 2005/06Softwarewerkzeuge14 Detection of repeat contigs Contig R is linked to contigs A and B to the right. The distances estimated between R and A and R and B are such A and B cannot be positioned without substantial overlap between them. If there is no corresponding detected overlap between A and B then R is probably a repeat linking to two unique regions to the right. Batzoglou et al. Genome Res 12, 177 (2002) Some of the identified contigs are repeat contigs in which nearly identical sequence from distinct regions are collapsed together. Detection by (a) repeat contigs usually have an unusually high depth of coverage. (b) they will typically have conflicting links to other contigs. After marking repeat contigs, the remaining contigs should represent the correctly assembled sequence.

15 5. Vorlesung WS 2005/06Softwarewerkzeuge15 Contig assembly If (a,b) and (a,c) overlap, then (b,c) are expected to overlap. Moreover, one can calculate that shift(b,c)=shift(a,c)-shift(a,b). A repeat boundary is detected toward the right of read a, if there is no overlap (b,c), nor any path of reads x 1,..., x k such that (b,x 1 ), (x 1,x 2 )..., (x k,c) are all overlaps, and shift(b,x 1 ) shift(x k,c) shift(a,c) – shift(a,b). Batzoglou et al. Genome Res 12, 177 (2002)

16 5. Vorlesung WS 2005/06Softwarewerkzeuge16 Consistency of forward-reverse links (A)The distance d(A,B) (length of gap or negated length of overlap) between two linked contigs A and B can be estimated using the forward- reverse linked reads between them. (B)The distance d(B,C) between two contigs B,C that are linked to the same contig A can be estimated from their respective distances to the linked contig. Batzoglou et al. Genome Res 12, 177 (2002)

17 5. Vorlesung WS 2005/06Softwarewerkzeuge17 Filling gaps in supercontigs (A)Contigs A and B are connected by a path p of contigs X 1,..., X k. The distance d p (A,B) between A and B (along the path p) is the length of the sequence in the path that does not overlap A and B. (B)Contigs Y 1 and Y 2 share forward- reverse links with the supercontig S. These links position them in the vicinity of the gap between A and B. Therefore, Y 1 and Y 2 will be used as possible stepping points in the path closing the gap from A to B. Batzoglou et al. Genome Res 12, 177 (2002)

18 5. Vorlesung WS 2005/06Softwarewerkzeuge18 Contig Coverage and Read Usage Batzoglou et al. Genome Res 12, 177 (2002)

19 5. Vorlesung WS 2005/06Softwarewerkzeuge19 Characterization of Contigs and Supercontigs Batzoglou et al. Genome Res 12, 177 (2002)

20 5. Vorlesung WS 2005/06Softwarewerkzeuge20 Base Pair Accuracy Batzoglou et al. Genome Res 12, 177 (2002) base quality x*10 means that (on average) one sequencing error occurs in 10 -x bases.

21 5. Vorlesung WS 2005/06Softwarewerkzeuge21 Misassemblies Batzoglou et al. Genome Res 12, 177 (2002)

22 5. Vorlesung WS 2005/06Softwarewerkzeuge22 Computational Performance Batzoglou et al. Genome Res 12, 177 (2002)

23 5. Vorlesung WS 2005/06Softwarewerkzeuge23 Contig Coverage and Read Usage Batzoglou et al. Genome Res 12, 177 (2002)

24 5. Vorlesung WS 2005/06Softwarewerkzeuge24 Comparison of different assemblers Pevzner, Tang, Waterman PNAS 98, 9748 (2001) you should look out for: - smallest number of contigs + misassembled contigs - highest possible coverage by contigs - lowest possible coverage by misassembled contigs

25 5. Vorlesung WS 2005/06Softwarewerkzeuge25 There is no error-free assembler to date Pevzner, Tang, Waterman PNAS 98, 9748 (2001) Comparative analysis of EULER, PHRAP, CAP, and TIGR assemblers (NM sequencing project). Every box corresponds to a contig in NM assembly produced by these programs with colored boxes corresponding to assembly errors. Boxes in the IDEAL assembly correspond to islands in the read coverage. Boxes of the same color show misassembled contigs. Repeats with similarity higher than 95% are indicated by numbered boxes at the solid line showing the genome. To check the accuracy of the assembled contigs, we fit each assembled contig into the genomic sequence. Inability to fit a contig into the genomic sequence indicates that the contig is misassembled. For example, PHRAP misassembles 17 contigs in the NM sequencing project, each contig containing from two to four fragments from different parts of the genome. Biologists "pay" for these errors at the time-consuming finishing step.

26 5. Vorlesung WS 2005/06Softwarewerkzeuge26 What comes next? Finishing the genome Usually, the assembly of shotgun data is finished with a number of contigs with some remaining gaps. Also, within each contig there are some regions of high error rate. The goal of the finishing phase is then to get a single continuous contig with low error rate. Finishers apply ad hoc rules to decide where additional data is necessary. This experimental data may then be generated in experiments using different chemistry or higher coverage. Autofinish (phrap group) is a program to help humans with deciding which new reads to get.

27 5. Vorlesung WS 2005/06Softwarewerkzeuge27 Whole Genome Alignment (WGA) Nachdem die genomische DNA-Sequenz eng verwandter Organismen verfügbar wird, ist die erste Frage, wie das Alignment beider Genome aussieht. Globale Genom-Alignments machen nur für eng verwandte Organismen Sinn. Im anderen Fall muß man erst die genomischen Rearrangements betrachten. Dann kann man die systenischen Regionen (Regionen, in denen Gen- Reihenfolge des nächsten gemeinsamen Vorfahrens in beiden Spezies konserviert blieb) betrachten und lokale Genom-Alignments dieser Regionen produzieren.

28 5. Vorlesung WS 2005/06Softwarewerkzeuge28 Vergleich von Maus und Mensch auf Genomebene Wichtigste Ergebnisse: * das Mausgenom ist etwa 14% kürzer als das menschliche Genom. Die unterschiedliche Länge liegt wohl an der höheren Deletionsrate in Maus. * über 90% des Maus- und Menschen-Genoms kann in entsprechende Regionen mit konservierter Syntenie eingeteilt werden * auf dem Nukleotid-Level kann etwa 40% des menschlichen Genoms mit dem Maus-Genom aligniert werden (diese am stärksten orthologen Sequenzen blieben wohl in beiden Linien vom gemeinsamen Vorfahren erhalten). Der Rest wurde wohl in einem oder beiden Genomen gelöscht. * die neutrale Substitutionsrate beträgt etwa 0.5 Nucleotid-Substitutionen pro Position seit der Divergenz der beiden Spezien. Etwa doppelt so viele Austausche haben in Maus gegenüber Mensch stattgefunden. aus dem Paper des Mouse Genome Sequencing Consortiums Initial sequencing and comparative analysis of the mouse genome, Nature 420, ( ). Excellent paper! Well readable!

29 5. Vorlesung WS 2005/06Softwarewerkzeuge29 Vergleich von Maus und Mensch auf Genomebene Key findings: * der Anteil kurzer ( bp) Segmente in den Säugetier-Genomen, der reinigender Selektion unterliegt, ist etwa 5%, d.h. wesentlich höher als der Anteil der Protein-kodierenden Regionen Genome enthalten viele zusätzliche Eigenschaften wie UTRs (untranslated regions), regulatorische Elemente, nicht-Protein-kodierende Gene, chromosomale Strukturelemente, die unter Selektion für die biologische Funktion stehen. * die Evolution von Säugetier-Genomen verläuft ungleichmäßig. Es gibt deutliche Unterschiede an Divergenz je nach Genomposition. * Sowohl Maus wie Mensch-Genom enthalten etwa Gene, die für Proteine kodieren. Der Anteil an Mausgenen mit einem eindeutigen Orthologen im menschlichen Genom ist etwa 80%. Der Anteil der Mausgene ohne ein homologes Gen im menschlichen Genom ist < 1%.

30 5. Vorlesung WS 2005/06Softwarewerkzeuge30 The mouse genome. Nature 420, Konservierung von Syntenie zwischen Mensch und Maus Ein typisches 510-kb Segment des Maus-Chromosoms 12, das mit einem 600-kb Stück des menschlichen Chromosom 14 verwandt ist. Blaue Linien: reziprok eindeutige Treffer in beiden Genomen. Rote Markierungen kennzeichnen die Länge der passenden Regionen. Die Abstände zwischen diesen Landmarks sind im Maus-Genom kleiner als im Mensch, was mit der 14% kürzeren Gesamtlänge des Genoms übereinstimmt.

31 5. Vorlesung WS 2005/06Softwarewerkzeuge31 The mouse genome. Nature 420, Entsprechung syntenischer Regionen 342 Segmente und 217 Blöcke >300 kb mit konservierter Syntenie im Mensch sind im Maus-Genom markiert. Jede Farbe entspricht einem bestimmten menschlichen Chromosom.

32 5. Vorlesung WS 2005/06Softwarewerkzeuge32 Sensitivit ä t Couronne,..., Dubchak, Genome Res. 13, 73 (2003) Im globalen Mensch:Maus Alignment sind mehr als eine Millionen Regionen stärker als 70% konserviert (auf 100-bp Level) – diese Regionen decken > 200 Million bp ab. Nur 62% von ihnen werden von (lokalen) BLAT-Treffern abgedeckt. Dies bedeutet, daß man 38% der konservierten Abschnitte nur durch das globale Alignment finden kann! Idee: lokales Alignment soll als Anker-Verfahren für anschliessendes globales Alignment dienen. Dadurch hofft man, viele zusätzliche konservierte Regionen ausserhalb der Anker-Regionen zu finden.

33 5. Vorlesung WS 2005/06Softwarewerkzeuge33 hohe Sensitivit ä t von globalen Alignments Couronne,..., Dubchak, Genome Res. 13, 73 (2003) Beispiel: das globale Alignment der mouse finished sequence NT_ gegen die Region, die mit BLAT-Ankern gefunden wurde, zeigt konservierte kodierende und nicht-kodierende Elemente, die mit BLAT nicht gefunden wurden.

34 5. Vorlesung WS 2005/06Softwarewerkzeuge34 Zus ä tzliche Informationen aus globalem WGA Unterschiede in Repeat-Merkmalen –Duplikationen (große Fragmente, chromosomal) –Tandem-Repeats Große Insertionen und Deletionen Translokationen von einem Teil des Genoms zu einem anderen Single Nucleotide Polymorphism

35 5. Vorlesung WS 2005/06Softwarewerkzeuge35 Methods for WGA: iterative pairwise global alignment These Methods follow a general strategy of iteratively merging two multiple alignments of two disjoint subsets of sequences into a single multiple alignment of the union of those subsets. Construct a hash table on either the query string, or the database string (or both) for all possible substrings of a pre-specified size (say l) Find exactly matching substrings of length l using this hash table (seeds). In the second phase, these seeds are extended in both directions, and combined if possible, in order to find better alignments. If the global pairwise alignment of two genomic DNA sequences S 1 and S 2 is computed by standard dynamic programming algorithms (which requires O( | S 1 || S 2 | time, where |S| is the length of sequence S) such iterative methods cannot be used in practice to align DNA sequences of entire genomes due to time and memory limitations. examples are: FASTA, BLAST, MegaBLAST, BL2SEQ, Wu-blast, flash,PipMaker (BLASTZ), and PatternHunter

36 5. Vorlesung WS 2005/06Softwarewerkzeuge36 Methods for WGA: anchor-based global multiple alignment These methods try to identify substrings of the sequences under consideration that they are likely parts of a global alignment. (As mentioned, these substrings can be obtained from local alignments). These substrings form anchors in the sequences to be aligned. These methods first align the anchors and subsequently close the gaps (align the substrings between the anchors). Anchor-based alignment methods are well suited for aligning very long sequences. MUMmer is a very successful implementation of this strategy for aligning two genome sequences.

37 5. Vorlesung WS 2005/06Softwarewerkzeuge37 Was ist MUMmer? A.L. Delcher et al. 1999, 2002 Nucleic Acids Res. Nimm an, dass zwei Sequenzen eng verwandt sind (sehr ähnlich) MUMmer kann zwei bakterielle Genome in weniger als 1 Minute alignieren nutzt Suffix-Bäume um Maximal Unique Matches zu finden Definition eines Maximal Unique Matches (MUM): –Eine Subsequenz, die in beiden Sequenzen genau einmal ohne Abweichungen vorkommt und in keine Richtung verlängert werden kann. Grundidee: ein MUM ausreichender L ä nge wird sicher Teil eines globalen Alignments sein. A maximal unique matching subsequence (MUM) of 39 nt (shown in uppercase) shared by Genome A and Genome B. Any extension of the MUM will result in a mismatch. By definition, an MUM does not occur anywhere else in either genome. Delcher et al. Nucleic Acids Res 27, 2369 (1999)

38 5. Vorlesung WS 2005/06Softwarewerkzeuge38 MUMmer: wichtige Schritte Erkenne MUMs (L ä nge wird vom Benutzer festgelegt) ACTGATTACGTGAACTGGATCCA ACTCTAGGTGAAGTGATCCA ACTGATTACGTGAACTGGATCCA ACTCTAGGTGAAGTGATCCA ACTGATTACGTGAACTGGATCCA ACTC--TAGGTGAAGTG-ATCCA

39 5. Vorlesung WS 2005/06Softwarewerkzeuge39 Definition von MUMmers Für zwei Strings S1 und S2 und einen Parameter l Der Substring u ist eine MUM Sequenz wenn gilt: |u| > l u kommt genau einmal in S1 und genau einmal in S2 (Eindeutigkeit) Für jeden Buchstaben a kommt weder ua noch au sowohl in S1 als auch in S2 vor (Maximalität)

40 5. Vorlesung WS 2005/06Softwarewerkzeuge40 Wie findet man MUMs? Naiver Ansatz –Vergleiche alle Teilsequenzen von A mit allen Teilsequenzen von B. Dies dauert O(n n ) verwende Suffix-Bäume als Datenstruktur –ein naiver Ansatz, einen Suffix-Baum zu konstruieren hat eine quadratische Komplexität in der Rechenzeit und dem Speicherplatz –durch klevere Benutzung von Pointern gibt es lineare Algorithmen in Rechenzeit und Speicherplatz wie den Algorithmus von McCreight

41 5. Vorlesung WS 2005/06Softwarewerkzeuge41 Suffix-B ä ume CACATAG$ Suffix-Bäume sind seit über 20 Jahren wohl etabliert. Einige ihrer Eigenschaften: ein Suffix beginnt an jeder Position I der Sequenz und reicht bis zu ihrem Ende. Eine Sequenz der Länge N hat N Suffices. Es gibt N Blätter. Jeder interne Knoten hat mindest zwei Kinder. 2 Kanten aus dem selben Knoten können nicht mit dem selben Buchstaben beginnen. Am Ende wird $ angefügt

42 5. Vorlesung WS 2005/06Softwarewerkzeuge42 Konstruktion eines Suffix-Baums CACATAG$ C A T C A G $ 1 A Suffixes: 1. CACATAG$

43 5. Vorlesung WS 2005/06Softwarewerkzeuge43 Konstruktion eines Suffix-Baums CACATAG$ Suffixes: 1. CACATAG$ 2. ACATAG$ C A T C A G $ A T C A G $ A 1 2 A

44 5. Vorlesung WS 2005/06Softwarewerkzeuge44 Konstruktion eines Suffix-Baums CACATAG$ Suffixes: 1. CACATAG$ 2. ACATAG$ 3. CATAG$ C A T C A G $ A T C A G $ T G $ A A A

45 5. Vorlesung WS 2005/06Softwarewerkzeuge45 Konstruktion eines Suffix-Baums CACATAG$ Suffixes: 1. CACATAG$ 2. ACATAG$ 3. CATAG$ 4. ATAG$ C A T C A G $ A T C A G $ T G $ A A TG$A A

46 5. Vorlesung WS 2005/06Softwarewerkzeuge46 Konstruktion eines Suffix-Baums CACATAG$ Suffixes: 1. CACATAG$ 2. ACATAG$ 3. CATAG$ 4. ATAG$ 5. TAG$ C A T C A G $ A T C A G $ T T A G $ G $ A A TG$A A

47 5. Vorlesung WS 2005/06Softwarewerkzeuge47 Konstruktion eines Suffix-Baums C A T C A G $ A T C A G $ T T A G $ G $ A A TG$A G $ A CACATAG$ Suffixes: 1. CACATAG$ 2. ACATAG$ 3. CATAG$ 4. ATAG$ 5. TAG$ 6. AG$

48 5. Vorlesung WS 2005/06Softwarewerkzeuge48 Konstruktion eines Suffix-Baums C A T C A G $ A T C A G $ T T A G $ G $ A A TG$A G $ G$ A CACATAG$ Suffixes: 1. CACATAG$ 2. ACATAG$ 3. CATAG$ 4. ATAG$ 5. TAG$ 6. AG$ 7. G$

49 5. Vorlesung WS 2005/06Softwarewerkzeuge49 Konstruktion eines Suffix-Baums C A T C A G $ A T C A G $ T T A G $ G $ A A TG$A G $ G$$ CACATAG$ A Suffixes: 1. CACATAG$ 2. ACATAG$ 3. CATAG$ 4. ATAG$ 5. TAG$ 6. AG$ 7. G$ 8. $

50 5. Vorlesung WS 2005/06Softwarewerkzeuge50 Speicherplatz sparen [3, 6] [5, 4] [7, 2] [8, 1] CACATAG$ [1, 2] [2, 1] Suffix-Bäume können sehr groß werden, da ihre Größe mit der des Genoms vergleichbar ist. Es ist daher wichtig, Speicherplatz effizient zu nützen.

51 5. Vorlesung WS 2005/06Softwarewerkzeuge51 Suchen in einem Suffix-Baum C A T C A G $ A T C A G $ T T A G $ G $ A A TG$A G $ G$$ A Search Pattern: CATA

52 5. Vorlesung WS 2005/06Softwarewerkzeuge52 Suchen in einem Suffix-Baum C A T C A G $ A T C A G $ T T A G $ G $ A A TG$A G $ G$$ A Search Pattern: ATCG

53 5. Vorlesung WS 2005/06Softwarewerkzeuge53 MUMmer 1.0: Wie findet man MUMs? Konstruiere einen Suffix-Baum aus allen Suffices von Genom A F ü ge jedes Suffix von Genom B in diesen Suffix-Baum ein Kennzeichne jedes Blatt mit dem Genom, das es enth ä lt

54 5. Vorlesung WS 2005/06Softwarewerkzeuge54 Sortieren der MUMs MUMs werden nach ihren Positionen in Genom A sortiert Genome A: Genome B: Genome A: Genome B: Jeder MUM ist nur mit seiner Nummer gekennzeichnet, ohne Berücksichtigung seiner Länge. Das obere Alignment zeigt alle MUMs. Die Verschiebung von MUM 5 in Genom B zeigt eine Transposition an. Die Verschiebung von MUM 3 könnte ein Zufallstreffer oder Teil einer inexakten Repeat-Sequenz sein. Unteres Alignment: suche in beiden Genomen die längste gemeinsam ansteigende Folge an Subsequenzen

55 5. Vorlesung WS 2005/06Softwarewerkzeuge55 Es gibt 4 Arten an Gaps in MUM-Alignments Delcher et al. Nucleic Acids Res 27, 2369 (1999) Diese Beispiele stammen aus dem Alignment der beiden M.tuberculosis Genome.

56 5. Vorlesung WS 2005/06Softwarewerkzeuge56 Schliessen der Gaps SNP –einfache F ä lle: Gap aus einer Base zwischen benachbarten MUMs –wenn neben Repeat-Sequenzen: behandle als Tandem-Repeat Variable / Polymorphe Region –Kleine Region: Alignment mit dynamischer Programmierung –Gro ß e Region: rekursive Anwendung von MUMmer mit reduzierter L ä nge des minimalen Cut-offs Insertionen / Deletionen –Transposition: out of alignment order –Einfache Insertion: nicht ins Alignment aufnehmen Repeats –Tandem-Repeats werden durch ü berlagern von MUMs entdeckt –Andere Repeats (i.e. Duplikation) werden als Gaps behandeln Schließe Gaps durch lokale Alignments für die Abschnitte zwischen den alignierten MUMs (z.B. mit Smith-Waterman).

57 5. Vorlesung WS 2005/06Softwarewerkzeuge57 Beispiel: Alignment zweier Mikroorganismen Delcher et al. Nucleic Acids Res 27, 2369 (1999) Das Genom von M.genitalium ist nur etwa 2/3 so lang wie das von M.pneumoniae. Obere Abbildung: FASTA-Alignment von M.genitalium und M.pneumoniae. Mitte: Alignment mit 25mers Unten: Alignment mit MUMs. 5 Translokationen. Ein Punkt bedeutet jeweils einen Treffer zwischen den Genomen. FASTA-Plot: ähnliche Gene 25-mer-Plot: 25-Basen-Sequenz, die in beiden Sequenzen genau einmal vorkommt. MUM-Plot: MUM-Treffer.

58 5. Vorlesung WS 2005/06Softwarewerkzeuge58 Example: alignment human:mouse Delcher et al. Nucleic Acids Res 27, 2369 (1999) Alignment of even more distant species: human and mouse. Here: alignment of a bp subsequence of human chromosome 12p13, accession no. U47924, to a bp subsequence of mouse chromosome 6, accession no. AC Each point in the plot corresponds to an MUM of [ge]15 bp.

59 5. Vorlesung WS 2005/06Softwarewerkzeuge59 Zusammenfassung Die Anwendung der Suffix-Bäume war ein Durchbruch für die Alignierung ganzer Genome MUMmer 2 besitzt zusätzliche Verbesserung für die Rechenzeit und den Speicherplatz –die Verwendung von Suffix-Arrays anstatt von Suffix-Bäumen gibt eine verbesserte Datenstruktur ( Stefan Kurtz, Hamburg) –es wird nun m ö glich, mehr als zwei Genome zu alignieren (implementiert in MGA)


Herunterladen ppt "5. Vorlesung WS 2005/06Softwarewerkzeuge1 V5 – Analyse von Genomsequenzen - Genom-Assemblierung finde identische k-Tupel - Genom-Alignment Suche nach MUMs."

Ähnliche Präsentationen


Google-Anzeigen