Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

V4 – Analyse von Genomsequenzen

Ähnliche Präsentationen


Präsentation zum Thema: "V4 – Analyse von Genomsequenzen"—  Präsentation transkript:

1 V4 – Analyse von Genomsequenzen
- Gene identifizieren Intrinsische und Extrinsische Verfahren: Homologie bzw. Hidden Markov Modelle - Transkriptionsfaktorbindestellen identifizieren Position Specific Scoring Matrices (PSSM) - Ganz kurz: finde Repeat-Sequenzen Suche nach bekannten Repeat-Motiven 4. Vorlesung SS 2010 Softwarewerkzeuge

2 Aufbau der DNA 4. Vorlesung SS 2010 Softwarewerkzeuge

3 Aufbau der Doppelstrang-DNA
4. Vorlesung SS 2010 Softwarewerkzeuge

4 Packung der DNA 4. Vorlesung SS 2010 Softwarewerkzeuge

5 Transkription durch RNA Polymerase II
Tamkun J. Nat. Gen. 39, 1421 (2007) 4. Vorlesung SS 2010 SS 2009 – lecture 1 Biological Sequence Analysis Softwarewerkzeuge 5

6 Transkriptions – Gen-Regulationsnetzwerke
Die Maschine, die ein Gen transkribiert, besteht aus etwa 50 Proteinen, einschließlich der RNA Polymerase. Dies ist ein Enzym, das DNA code in RNA code übersetzt. Eine Gruppe von Transkriptions- faktoren bindet an die DNA gerade oberhalb der Stelle des Kern-Promoters, während assoziierte Aktivatoren an Enhancer-Regionen weiter oberhalb der Stelle binden. a 4. Vorlesung SS 2010 Softwarewerkzeuge

7 Identifikation von Genen
Die einfachste Methode, DNA Sequenzen zu finden, die für Proteine kodieren, ist nach offenen Leserahmen (open reading frames oder ORFs) zu suchen. In jeder Sequenz gibt es 6 mögliche offene Leserahmen: 3 ORFs starten an den Positionen 1, 2, und 3 und gehen in die 5‘ 3‘ Richtung, 3 ORFs starten an den Positionen 1, 2, und 3 und gehen in die 5‘ 3‘ Richtung des komplementären Strangs. In prokaryotischen Genomen werden Protein-kodierende DNA-Sequenzen gewöhnlich in mRNA transkribiert und die mRNA wird ohne wesentliche Änderungen direkt in einen Aminosäurestrang übersetzt. Daher ist der längste ORF von dem ersten verfügbaren Met codon (AUG) auf der mRNA bis zu dem nächsten Stopcodon in demselben offenen Leserahmen, gewöhnlich eine gute Vorhersage für die Protein-kodierende Region. 4. Vorlesung SS 2010 Softwarewerkzeuge

8 Vorgehen zur Genidentifikation
Erhalte neue genomische DNA-Sequenz Übersetze sie in allen 6 Leserahmen und vergleiche sie mit der Datenbank für Protein- sequenzen. Führe Suche in EST- Datenbank oder cDNA- Datenbank desselben Organismus nach ähnlichen Sequenzen durch, falls verfügbar. Benutze Genvorhersage- programm um Gene zu finden Analysiere regulatorische Sequenzen des Gens. 4. Vorlesung SS 2010 Softwarewerkzeuge

9 Extrinsische und intrinsische Methoden
Viele Verfahren kombinieren nun (a) Homologie-Methoden = „extrinsische Methoden“ mit (b) Genvorhersage-Methoden = „intrinsische Methoden“ Etwa die Hälfte aller Gene kann durch Homologie zu anderen bekannten Genen oder Proteinen gefunden werden (dieser Anteil wächst stetig, da die Anzahl an sequenzierten Genomen und bekannten cDNA/EST Sequenzen kontinuierlich wächst.) Um die übrige Hälfte an Genen zu finden, muß man prädiktive Methoden einsetzen. 4. Vorlesung SS 2010 Softwarewerkzeuge Mathé et al. Nucl. Acids. Res. 30, 4103 (2002)

10 Beispiel: Vergleich von Glimmer und GeneMarksS
Besemer et al. Nucl. Acids. Res. 29, 2607 (2003) 4. Vorlesung SS 2010 Softwarewerkzeuge

11 Hidden Markov Models Ein Hidden Markov Modell ist ein Graph, der verschiedene Zustände verbindet. Man möchte z.B. bestimmen, wo in einem Genom Exons und Introns sind. Dazu soll jedem Basenpaar der günstigste Zustand zugeordnet werden. Die Topologie (Verbindungspfeile) des Graphen gibt an, zwischen welchen Zuständen Übergänge erlaubt sind. Das „Trainieren“ des Modells bezieht sich auf die Bestimmung der günstigsten Übergangswahrscheinlichkeiten zwischen den Zuständen, so dass der Output des Modells möglicht gut der biologischen Wirklichkeit entspricht. 4. Vorlesung SS 2010 Softwarewerkzeuge

12 TIGR: GlimmerM, Exonomy und Unveil
Topologien von Unveil Exonomy 283-Zustands-HMM 23-Zustands-GHMM Majoros et al. Nucl. Acids. Res. 31, 3601 (2003) 4. Vorlesung SS 2010 Softwarewerkzeuge

13 Methoden funktionieren nicht überall
Ein Beispiel, in dem Exonomy die Gene richtig erkennt. Ein Beispiel, in dem GlimmerM die Gene richtig erkennt. Ein Beispiel, in dem Unveil die Gene richtig erkennt (auch Genscan). Majoros et al. Nucl. Acids. Res. 31, 3601 (2003) 4. Vorlesung SS 2010 Softwarewerkzeuge

14 Zusammenfassung - Genvorhersage
Die Resultate der intrinsischen Genvorhersage werden zuverlässiger; dennoch sollte man sie stets mit Vorsicht behandeln. Sie sind sehr nützlich um die Entdeckung von Genen zu beschleunigen. Dennoch sind biologische Techniken notwendig um die Existenz von virtuellen Proteinen zu bestätigen und um dessen biologischen Funktion zu finden bzw. zu beweisen. Deshalb werden vergleichende Genom-Ansätze immer wichtiger, in denen Programme Genkandidaten auf Homologie mit exprimierten Sequenzen vergleichen (EST oder cDNA Sequenzdaten). Neue Arbeiten wenden sich nun ebenfalls RNA-kodierenden Genen zu. Mathé et al. Nucl. Acids. Res. 30, 4103 (2002) 4. Vorlesung SS 2010 Softwarewerkzeuge

15 Transkriptions – Gen-Regulationsnetzwerke
Die Maschine, die ein Gen transkribiert, besteht aus etwa 50 Proteinen, einschließlich der RNA Polymerase. Dies ist ein Enzym, das DNA code in RNA code übersetzt. Eine Gruppe von Transkriptions- faktoren bindet an die DNA gerade oberhalb der Stelle des Kern-Promoters, während assoziierte Aktivatoren an Enhancer-Regionen weiter oberhalb der Stelle binden. a 4. Vorlesung SS 2010 Softwarewerkzeuge

16 Prokaryotische vs. eukaryotische Transkription
4. Vorlesung SS 2010 Softwarewerkzeuge

17 Promotervorhersage in E.coli
Um E.coli Promoter zu analysieren kann man eine Menge von Promoter-sequenzen bzgl. der Position alignieren, die den bekannten Transkriptionsstart markiert und in den Sequenzen nach konservierten Regionen suchen. E.coli Promotoren enthalten 3 konservierte Sequenzmerkmale eine etwa 6bp lange Region mit dem Konsensusmotif TATAAT bei Position -10 eine etwa 6bp lange Region mit dem Konsensusmotif TTGACA bei Position -35 die Distanz zwischen den beiden Regionen von etwa 17bp ist relativ konstant a 4. Vorlesung SS 2010 Softwarewerkzeuge

18 Machbarkeit der Motivsuche mit dem Computer?
Transkriptionsfaktorbindestellen mit einem Computerprogramm zu identifizieren ist schwierig, da diese aus kurzen, entarteten Sequenzen bestehen, die häufig ebenfalls durch Zúfall auftreten. Das Problem lässt daher sich schwer eingrenzen Zum einen ist die Länge des gesuchten Motivs vorher nicht bekannt das Motiv braucht zwischen verschiedenen Promotern nicht stark konserviert sein. die Sequenzen, mit denen man nach dem Motiv sucht, brauchen nicht notwendigerweise dem gesamten Promoter entsprechen die zu untersuchenden Promotoren verschiedener Gene wurden oft durch einen Clusteralgorithmus in eine Gruppe eingeteilt, der ebenfalls Beschränkungen unterliegt. 4. Vorlesung SS 2010 Softwarewerkzeuge

19 Strategie 1 Wird seit der Verfügbarkeit von Microarray Gen-Expressionsdaten eingesetzt. Durch Clustern erhält man Gruppen von Genen mit ähnlichen Expressionsprofilen (z.B. solche, die zur selben Zeit im Zellzyklus aktiviert sind)  Hypothese, dass dieses Profil, zumindest teilweise, durch eine ähnliche Struktur der für die transkriptionelle Regulation verantwortlichen cis-regulatorischen Regionen verursacht wird. Suche daher nach gemeinsamen Motiven in < 1000 Basen upstream Region. Bis heute wurde vor allem nach einzelnen Motiven gesucht (als TFBindestellen), die in den Promotoren von möglicherweise koregulierten Genen gemeinsamen auftreten. Besser: suche nach dem gleichzeitigen Auftreten von 2 oder mehr Stellen in einem vorgegebenen Abstand! Dadurch wird die Suche empfindlicher. 4. Vorlesung SS 2010 Softwarewerkzeuge

20 Motif-Identifizierung
A flowchart to illustrate the two different approaches for motif identification. We analyzed 800 bp upstream from the translation start sites of the five genes from the yeast gene family PHO by the publicly available systems MEME (alignment) and RSA (exhaustive search). MEME was run on both strands, one occurrence per sequence mode, and found the known motif ranked as second best. RSA Tools was run with oligo size 6 and noncoding regions as background, as set by the demo mode of the system. The well-conserved heptamer of the motifs used by MEME to build the weight matrix is printed in bold. Ohler, Niemann Trends Gen 17, 2 (2001) 4. Vorlesung SS 2010 Softwarewerkzeuge

21 Strategie 2: Erschöpfende Motivsuche in upstream-Regionen
Benutze Beobachtung dass sich relevante Motive in der upstream-Region oft viele Mal wiederholen, unter Umständen mit kleinen Variationen, damit die regulatorische Wirkung effektiv ist. Suche in der upstream-Region nach überrepräsentierten Motiven Ordne Gene nach den überrepräsentierten Motiven. Analysiere Gruppen von Genen, die Motive für Ko-Regulation in Microarray-Experimenten gemeinsam haben. Betrachte überrepräsentierte Motive, die Gruppen von koregulierten Genen als mögliche Bindungsstellen markieren. Cora et al. BMC Bioinformatics 5, 57 (2004) 4. Vorlesung SS 2010 Softwarewerkzeuge

22 Erschöpfende Motivsuche in upstream-Regionen
Exploit Cora et al. BMC Bioinformatics 5, 57 (2004) 4. Vorlesung SS 2010 Softwarewerkzeuge

23 Aktuelle Verfahren um Promotoren zu finden
Ohler, Niemann Trends Gen 17, 2 (2001) 4. Vorlesung SS 2010 Softwarewerkzeuge

24 Positions-spezifische Gewichtsmatrix
Populäres Verfahren wenn es eine Liste von Genen gibt, die ein TF-Bindungs-motiv gemeinsam haben. Bedingung: gute MSAs müssen vorhanden sein. Alignment-Matrix: wie häufig treten die verschiedenen Buchstaben an jeder Position im Alignment auf? Hertz, Stormo (1999) Bioinformatics 15, 563 4. Vorlesung SS 2010 Softwarewerkzeuge

25 Positions-spezifische Gewichtsmatrix
Beispiele für Matrizen, die von YRSA verwendet werden: 4. Vorlesung SS 2010 Softwarewerkzeuge

26 Datenbank für eukaryotische Transkriptionsfaktoren: TRANSFAC
BIOBase / TU Braunschweig / GBF Relationelle Datenbank 6 Dateien: FACTOR Wechselwirkung von TFs SITE ihre DNA-Bindungsstelle GENE durch welche sie diese Zielgene regulieren CELL wo kommt Faktor in Zelle vor? MATRIX TF Nukleotid-Gewichtungsmatrix CLASS Klassifizierungsschema der TFs Wingender et al. (1998) J Mol Biol 284,241 4. Vorlesung SS 2010 Softwarewerkzeuge

27 Datenbank für eukaryotische Transkriptionsfaktoren: TRANSFAC
BIOBase / TU Braunschweig / GBF Matys et al. (2003) Nucl Acid Res 31,374 4. Vorlesung SS 2010 Softwarewerkzeuge

28 Datenbank für eukaryotische Transkriptionsfaktoren: TRANSFAC
BIOBase / TU Braunschweig / GBF Matys et al. (2003) Nucl Acid Res 31,374 4. Vorlesung SS 2010 Softwarewerkzeuge

29 TRANSFAC Klassifizierung
1 Superklasse basische Domänen 3 Superklasse: Helix-turn-helix 1.1 Leuzin-zipper Faktoren (bZIP) 1.2 Helix-Loop-Helix Faktoren (bHLH) 4 Superklasse: beta-Scaffold bHLH-bZIP Faktoren mit Kontakt in der 1.4 NF Minor Groove 1.5 RF-X 1.6 bHSH 5 Superklasse: andere 2 Superklasse: Zink-koordinierende DNA-bindende Domänen 2.1 Cys4 Zinkfinger vom Typ nuklearer Rezeptor 2.2 verschiedene Cys4 Zinkfinger 2.3 Cys2His2 Zinkfinger Domänen 2.4 Cys6 Cystein-Zink Cluster 2.5 Zinkfinger mit abwechselnder Zusammensetzung 4. Vorlesung SS 2010 Softwarewerkzeuge

30 TRANSFAC Datenbank Eintrag für 1.1 Leuzine-Zippers
4. Vorlesung SS 2010 Softwarewerkzeuge

31 TRANSFAC Datenbank http://www.gene-regulation.com 4. Vorlesung SS 2010
Softwarewerkzeuge

32 TRANSFAC Datenbank http://www.gene-regulation.com 4. Vorlesung SS 2010
Softwarewerkzeuge

33 Identifizierung von Repeats: RepeatMasker
RepeatMasker: durchsucht DNA Sequenzen auf - eingefügte Abschnitte, die bekannten Repeat-Motiven entsprechen (dazu wird eine lange Tabelle mit bekannten Motiven verwendet) und - auf Regionen geringer Komplexität (z.B. lange Abschnitt AAAAAAAA). Output: - detaillierte Liste, wo die Repeats in der Sequenz auftauchen und - eine modifizierte Version der Input-Sequenz, in der die Repeats „maskiert“ sind, z.B. durch N‘s ersetzt sind. Für die Sequenzvergleiche wird eine effiziente Implementation des Smith-Waterman-Gotoh Algorithmus verwendet. 4. Vorlesung SS 2010 Softwarewerkzeuge

34 Zusammenfassung Es gibt große Datenbanken (z.B. TRANSFAC) mit Informationen über Promoterstellen. Diese Informationen sind experimentell überprüft. Microarray-Daten erlauben es, nach gemeinsamen Motiven von ko-regulierten Genen zu suchen. Auch möglich: gemeinsame Annotation in der Gene Ontology etc. TF-Bindungsmotive sind oft überrepräsentiert in der 1000 bp-Region upstream. Die klare Funktion dieser Bindungsmotive ist oft unbekannt. Allgemein gilt: relativ wenige TFs regulieren eine große Anzahl an Genen es gibt globale und lokale TFs Gene werden üblicherweise durch mehr als einen TF reguliert 4. Vorlesung SS 2010 Softwarewerkzeuge

35 zusätzliche Folien 4. Vorlesung SS 2010 Softwarewerkzeuge

36 3D Strukturen von Transkriptionsfaktoren
1A02.pdb 1AM9.pdb 1AU7.pdb TFs binden auf sehr unterschiedliche Weise. Manche sind sehr selektiv für die DNA-Konformation. 2 TFs bound! 1CIT.pdb 1GD2.pdb 1H88.pdb 4. Vorlesung SS 2010 Softwarewerkzeuge

37 Computational Performance
Batzoglou et al. Genome Res 12, 177 (2002) 4. Vorlesung SS 2010 Softwarewerkzeuge

38 Whole Genome Alignment (WGA)
Nachdem die genomische DNA-Sequenz eng verwandter Organismen verfügbar wird, ist die erste Frage, wie das Alignment zweier Genome aussieht. Globale Genom-Alignments machen nur für eng verwandte Organismen Sinn. Im anderen Fall muß man erst die genomischen Rearrangements betrachten. Dann kann man die systenischen Regionen (Regionen, in denen Gen-Reihenfolge des nächsten gemeinsamen Vorfahrens in beiden Spezies konserviert blieb) betrachten und lokale Genom-Alignments dieser Regionen produzieren. 4. Vorlesung SS 2010 Softwarewerkzeuge

39 Konservierung von Syntenie zwischen Mensch und Maus
Ein typisches 510-kb Segment des Maus-Chromosoms 12, das mit einem 600-kb Stück des menschlichen Chromosom 14 verwandt ist. Blaue Linien: reziprok eindeutige Treffer in beiden Genomen. Rote Markierungen kennzeichnen die Länge der passenden Regionen. Die Abstände zwischen diesen „Landmarks“ sind im Maus-Genom kleiner als im Mensch, was mit der 14% kürzeren Gesamtlänge des Genoms übereinstimmt. The mouse genome. Nature 420, 4. Vorlesung SS 2010 Softwarewerkzeuge

40 Entsprechung syntenischer Regionen
342 Segmente und 217 Blöcke >300 kb mit konservierter Syntenie im Mensch sind im Maus-Genom markiert. Jede Farbe entspricht einem bestimmten menschlichen Chromosom. The mouse genome. Nature 420, 4. Vorlesung SS 2010 Softwarewerkzeuge

41 Sensitivität Im globalen Mensch:Maus Alignment sind mehr als eine Millionen Regionen stärker als 70% konserviert (auf 100-bp Level) – diese Regionen decken > 200 Million bp ab. Nur 62% von ihnen werden von (lokalen) BLAT-Treffern abgedeckt. Dies bedeutet, daß man 38% der konservierten Abschnitte nur durch das globale Alignment finden kann! Idee: lokales Alignment soll als Anker-Verfahren für anschliessendes globales Alignment dienen. Dadurch hofft man, viele zusätzliche konservierte Regionen ausserhalb der Anker-Regionen zu finden. In conclusion, we think MUMmer is a major breakthrough in full genome alignment and MUMmer 2 has made some further improvement in time and space requirements; It is possible to improve the data structure further, for example by using suffix array Also, it is worth noting the the principle of MUMmer has been extended to multiple genome alignment implemented in a program called MGA Couronne, ..., Dubchak, Genome Res. 13, 73 (2003) 4. Vorlesung SS 2010 Softwarewerkzeuge

42 hohe Sensitivität von globalen Alignments
Beispiel: das globale Alignment der mouse finished sequence NT_ gegen die Region, die mit BLAT-Ankern gefunden wurde, zeigt konservierte kodierende und nicht-kodierende Elemente, die mit BLAT nicht gefunden wurden. In conclusion, we think MUMmer is a major breakthrough in full genome alignment and MUMmer 2 has made some further improvement in time and space requirements; It is possible to improve the data structure further, for example by using suffix array Also, it is worth noting the the principle of MUMmer has been extended to multiple genome alignment implemented in a program called MGA Couronne, ..., Dubchak, Genome Res. 13, 73 (2003) 4. Vorlesung SS 2010 Softwarewerkzeuge

43 Ankerbasierte Methoden für WGA
Diese Methoden versuchen sich entsprechende Teile der Buchstabenfolgen der betrachteten Sequenzen zu finden, die wahrscheinlich zu einem globalen Alignment gehören werden. (Diese teilweisen Treffer können durch lokale Alignments gefunden werden). Sie bilden „Anker“ in den beiden zu alignierenden Sequenzen. In diesen Methoden werden zuerst die Ankerpunkte aligniert und dann die Lücken dazwischen geschlossen. MUMmer ist eine sehr erfolgreiche Implementation dieser Strategie für das Alignment zweier genomischer Sequenzen. 4. Vorlesung SS 2010 Softwarewerkzeuge

44 Was ist MUMmer? A.L. Delcher et al. 1999, 2002 Nucleic Acids Res.
Nimm an, dass zwei Sequenzen eng verwandt sind (sehr ähnlich) MUMmer kann zwei bakterielle Genome in weniger als 1 Minute alignieren nutzt Suffix-Bäume um Maximal Unique Matches zu finden Definition eines Maximal Unique Matches (MUM): Eine Subsequenz, die in beiden Sequenzen genau einmal ohne Abweichungen vorkommt und in keine Richtung verlängert werden kann. Grundidee: ein MUM ausreichender Länge wird sicher Teil eines globalen Alignments sein. A maximal unique matching subsequence (MUM) of 39 nt (shown in uppercase) shared by Genome A and Genome B. Any extension of the MUM will result in a mismatch. By definition, an MUM does not occur anywhere else in either genome. Delcher et al. Nucleic Acids Res 27, 2369 (1999) 4. Vorlesung SS 2010 Softwarewerkzeuge

45 MUMmer: wichtige Schritte
Erkenne MUMs (Länge wird vom Benutzer festgelegt) ACTGATTACGTGAACTGGATCCA ACTCTAGGTGAAGTGATCCA ACTGATTACGTGAACTGGATCCA ACTCTAGGTGAAGTGATCCA 1 10 20 ACTGATTACGTGAACTGGATCCA ACTC--TAGGTGAAGTG-ATCCA 1 10 20 4. Vorlesung SS 2010 Softwarewerkzeuge

46 Definition von MUMmers
Für zwei Strings S1 und S2 und einen Parameter l Der Substring u ist eine MUM Sequenz wenn gilt: |u| > l u kommt genau einmal in S1 und genau einmal in S2 (Eindeutigkeit) vor Für jeden Buchstaben a kommt weder ua noch au sowohl in S1 als auch in S2 vor (Maximalität) 4. Vorlesung SS 2010 Softwarewerkzeuge

47 Wie findet man MUMs? Naiver Ansatz
Vergleiche alle Teilsequenzen von A mit allen Teilsequenzen von B. Dies dauert O(nn) verwende Suffix-Bäume als Datenstruktur ein naiver Ansatz, einen Suffix-Baum zu konstruieren hat eine quadratische Komplexität in der Rechenzeit und dem Speicherplatz durch klevere Benutzung von Pointern gibt es lineare Algorithmen in Rechenzeit und Speicherplatz wie den Algorithmus von McCreight 4. Vorlesung SS 2010 Softwarewerkzeuge

48 Suffix-Bäume CACATAG$
Suffix-Bäume sind seit über 20 Jahren wohl etabliert. Einige ihrer Eigenschaften: ein “Suffix” beginnt an jeder Position I der Sequenz und reicht bis zu ihrem Ende. Eine Sequenz der Länge N hat N Suffices. Es gibt N Blätter. Jeder interne Knoten hat mindest zwei Kinder. 2 Kanten aus dem selben Knoten können nicht mit dem selben Buchstaben beginnen. Am Ende wird $ angefügt CACATAG$ 4. Vorlesung SS 2010 Softwarewerkzeuge

49 Konstruktion eines Suffix-Baums
CACATAG$ Suffixes: 1. CACATAG$ C A C A T A G $ 1 4. Vorlesung SS 2010 Softwarewerkzeuge

50 Konstruktion eines Suffix-Baums
CACATAG$ A Suffixes: 1. CACATAG$ 2. ACATAG$ C A C C A A T T A A G G $ $ 2 1 4. Vorlesung SS 2010 Softwarewerkzeuge

51 Konstruktion eines Suffix-Baums
CACATAG$ A Suffixes: 1. CACATAG$ 2. ACATAG$ 3. CATAG$ C A C C A A T T T A A A G G G $ $ $ 2 3 1 4. Vorlesung SS 2010 Softwarewerkzeuge

52 Konstruktion eines Suffix-Baums
CACATAG$ A Suffixes: 1. CACATAG$ 2. ACATAG$ 3. CATAG$ 4. ATAG$ C T A G $ 4 A C C A A T T T A A A G G G $ $ $ 2 3 1 4. Vorlesung SS 2010 Softwarewerkzeuge

53 Konstruktion eines Suffix-Baums
CACATAG$ A Suffixes: 1. CACATAG$ 2. ACATAG$ 3. CATAG$ 4. ATAG$ 5. TAG$ C T A G $ 4 A C C T A A T T A T A A A G G G G $ $ $ $ 2 3 1 5 4. Vorlesung SS 2010 Softwarewerkzeuge

54 Konstruktion eines Suffix-Baums
CACATAG$ A Suffixes: 1. CACATAG$ 2. ACATAG$ 3. CATAG$ 4. ATAG$ 5. TAG$ 6. AG$ C T A G $ 4 A C C T A A T G T A T $ A A A G 6 G G G $ $ $ $ 2 3 1 5 4. Vorlesung SS 2010 Softwarewerkzeuge

55 Konstruktion eines Suffix-Baums
CACATAG$ G $ 7 A Suffixes: 1. CACATAG$ 2. ACATAG$ 3. CATAG$ 4. ATAG$ 5. TAG$ 6. AG$ 7. G$ C T A G $ 4 A C C T A A T G T A T $ A A A G 6 G G G $ $ $ $ 2 3 1 5 4. Vorlesung SS 2010 Softwarewerkzeuge

56 Konstruktion eines Suffix-Baums
CACATAG$ $ G $ 8 7 A Suffixes: 1. CACATAG$ 2. ACATAG$ 3. CATAG$ 4. ATAG$ 5. TAG$ 6. AG$ 7. G$ 8. $ C T A G $ 4 A C C T A A T G T A T $ A A A G 6 G G G $ $ $ $ 2 3 1 5 4. Vorlesung SS 2010 Softwarewerkzeuge

57 Suchen in einem Suffix-Baum
Search Pattern: CATA $ G $ 8 7 A C T A G $ 4 A C C T A A T G T A T $ A A A G 6 G G G $ $ $ $ 2 3 1 5 4. Vorlesung SS 2010 Softwarewerkzeuge

58 Suchen in einem Suffix-Baum
Search Pattern: ATCG $ G $ 8 7 A C T A G $ 4 A C C T A A T G T A T $ A A A G 6 G G G $ $ $ $ 2 3 1 5 4. Vorlesung SS 2010 Softwarewerkzeuge

59 Sortieren der MUMs MUMs werden nach ihren Positionen in Genom A sortiert Genome A: 1 2 3 4 5 6 7 Genome B: 3 6 5 1 2 4 7 Genome A: 1 2 4 6 7 Genome B: 6 7 1 2 4 Jeder MUM ist nur mit seiner Nummer gekennzeichnet, ohne Berücksichtigung seiner Länge. Das obere Alignment zeigt alle MUMs. Die Verschiebung von MUM 5 in Genom B zeigt eine Transposition an. Die Verschiebung von MUM 3 könnte ein Zufallstreffer oder Teil einer inexakten Repeat-Sequenz sein. Unteres Alignment: suche in beiden Genomen die längste gemeinsam ansteigende Folge an Subsequenzen 4. Vorlesung SS 2010 Softwarewerkzeuge

60 Beispiel: Alignment zweier Mikroorganismen
Das Genom von M.genitalium ist nur etwa 2/3 so lang wie das von M.pneumoniae. Obere Abbildung: FASTA-Alignment von M.genitalium und M.pneumoniae. Mitte: Alignment mit 25mers Unten: Alignment mit MUMs. 5 Translokationen. Ein Punkt bedeutet jeweils einen Treffer zwischen den Genomen. FASTA-Plot: ähnliche Gene 25-mer-Plot: 25-Basen-Sequenz, die in beiden Sequenzen genau einmal vorkommt. MUM-Plot: MUM-Treffer. In conclusion, we think MUMmer is a major breakthrough in full genome alignment and MUMmer 2 has made some further improvement in time and space requirements; It is possible to improve the data structure further, for example by using suffix array Also, it is worth noting the the principle of MUMmer has been extended to multiple genome alignment implemented in a program called MGA Delcher et al. Nucleic Acids Res 27, 2369 (1999) 4. Vorlesung SS 2010 Softwarewerkzeuge

61 Beispiel: Alignment Mensch:Maus
Alignment von weiter entfernt liegenden Spezies: Mensch gegen Maus. Hier: Alignment einer bp Teilsequenz auf dem mensch-lichen Chromosom 12, accession no. U47924, gegen eine bp lange Teilsequenz des Maus-chromosoms 6. Jeder Punkt des Plots entspricht einem MUM von [ge]15 bp. In conclusion, we think MUMmer is a major breakthrough in full genome alignment and MUMmer 2 has made some further improvement in time and space requirements; It is possible to improve the data structure further, for example by using suffix array Also, it is worth noting the the principle of MUMmer has been extended to multiple genome alignment implemented in a program called MGA Delcher et al. Nucleic Acids Res 27, 2369 (1999) 4. Vorlesung SS 2010 Softwarewerkzeuge

62 Zusammenfassung Die Anwendung der Suffix-Bäume war ein Durchbruch für die Alignierung ganzer Genome MUMmer 2 besitzt zusätzliche Verbesserung für die Rechenzeit und den Speicherplatz die Verwendung von Suffix-Arrays anstatt von Suffix-Bäumen gibt eine verbesserte Datenstruktur ( Stefan Kurtz, Hamburg) es wird nun möglich, mehr als zwei Genome zu alignieren (implementiert in MGA) In conclusion, we think MUMmer is a major breakthrough in full genome alignment and MUMmer 2 has made some further improvement in time and space requirements; It is possible to improve the data structure further, for example by using suffix array Also, it is worth noting the the principle of MUMmer has been extended to multiple genome alignment implemented in a program called MGA 4. Vorlesung SS 2010 Softwarewerkzeuge

63 Whole Genome Shotgun Assemblierung
Es gibt 2 Strategien für die Sequenzierung von Genomen: clone-by-clone Methode whole-genome shotgun Methode (Celera, Gene Myers). Die Shotgun Sequenzierung wurde bereits 1977 von F. Sanger et al. eingeführt und ist seither eine Standardmethode für die Sequenzierung von Genen. Umstritten war jedoch, ob man sie auch für komplette Genome verwenden kann. ED Green, Nat Rev Genet 2, 573 (2001) 4. Vorlesung SS 2010 Softwarewerkzeuge

64 Arachne Programm von Serafin Batzoglou (MIT, Doktorarbeit 2000)
konstruiere Graph G für Überlappungen zwischen Paaren von reads aus Shotgun-Daten prozessiere G um Supercontigs von gemappten reads zu erhalten. Wichtige Variation der whole-genome shotgun Sequenzierung: sequenziere reads jeweils von beiden Enden eines Klons. Da die Inserts nach ihrer Größe ausgewählt werden, ist damit der ungefähre Abstand zwischen dem Paar von reads bekannt. Man nennt diese earmuff (Ohrenwärmer) Verbindungen. Batzoglou et al. Genome Res 12, 177 (2002) 4. Vorlesung SS 2010 Softwarewerkzeuge

65 Arachne: erzeuge Überlappungsgraphen
Liste von reads R = (r1, ..., rN) , N ist die Anzahl der reads. Jeder read ri besitzt eine Länge li < 1000. Wenn beide reads von den Endpunkten desselben Klons stammen (earmuff link), besitzt ri eine Verknüpfung zu einem anderen read rj in einer festen Distanz dij. Erstes Ziel: erzeuge Graphen G der Überlappungen (Kanten) zwischen Paaren an reads (Knoten)  dies ergibt die Paare an reads in R, die aligniert werden müssen. Da R sehr lang sein kann, sind N2 alignments nicht praktikabel.  erstelle Tabelle für das Vorkommen von k-Tupel (Strings der Länge k) in den reads, zähle die Anzahl von k-Tupel Treffern für jedes Paar an reads. Führe dann paarweise Alignments zwischen den Paaren an reads durch, die mehr als cutoff gemeinsame k-mere besitzen. Batzoglou PhD thesis (2002) 4. Vorlesung SS 2010 Softwarewerkzeuge

66 Arachne: Tabelle für Vorkommen von k-meren
Ermittle die Anzahl an k-Tupel Treffern in der Vorwärts- und Rückwärts-Richtung zwischen jedem Paar von reads in R. (1) Ermittle alle Triplets (r,t,v) r = Nummer des reads in R t = Index eines k-mers, das in r vorkommt v = Richtung des Auftretens (vorwärts oder rückwärts) (2) sortiere die Menge der Paare nach den k-mer Indices t (3) verwende eine sortierte Liste um eine Tabelle T von Quadrubletts (ri, rj, f, v) zu erstellen, wobei ri und ri die reads sind, die mindestens einen gemeinsamen k-mer enthalten, v die Richtung angiebt, und f die Anzahl an gemeinsamen k-mers zwischen ri und rj in Richtung v. Batzoglou PhD thesis (2002) 4. Vorlesung SS 2010 Softwarewerkzeuge

67 Arachne: Tabelle für Vorkommen von k-mers
Hier: k = 3 Batzoglou PhD thesis (2002) 4. Vorlesung SS 2010 Softwarewerkzeuge

68 Arachne: Tabelle für Vorkommen von k-mers
Wenn ein k-Tupel „zu oft“ auftritt  gehört er wahrscheinlich zu einer Repeat-Sequenz. Man sollte diese nicht für die Detektion von Überlappungen verwenden. Implementierung finde k-Tupel (r,t,v) und sortieren sie in 64 Dateien entsprechend den ersten drei Nukleotiden jedes k-mers. Für i=1,64 lade Datei in den Speicher, sortiere nach t, speichere sortierte Datei ab. end lade 64 sortierte Dateien nacheinander in den Speicher, fülle Tabelle T nacheinander auf. In der Praxis ist k = 8 bis 24. Batzoglou PhD thesis (2002) 4. Vorlesung SS 2010 Softwarewerkzeuge

69 Arachne: paarweise read-Alignments
Führe paarweise Alignments zwischen den Reads durch, die mehr als Cutoff gemeinsame k-mers besitzen. Sobald man zu häufige k-mers ausschließt (mehr als ein zweiter Cutoff), ist sichergestellt, daß nur O(N) viele paarweise Sequenzalignments durchgeführt werden müssen. Nur eine kleine Anzahl an Basen-Austauschen und Indels ist in einer überlappenden Region zweier alignierter reads erlaubt. Output des Alignment-Algorithmus: für die reads ri, rj gibt es Quadrubletts (b1, b2, e1, e2) für jede detektierte Überlappungsregion mit den Anfangspositionen b1, b2 und Endpositionen e1,e2. Falls eine signifikante Überlappungsregion vorliegt, wird (ri, rj, b1, b2, e1, e2) eine Kante im Überlappungsgraphen G. Batzoglou PhD thesis (2002) 4. Vorlesung SS 2010 Softwarewerkzeuge

70 Kombination teilweiser Alignments
3 teilweise Alignments der Länge k = 6 zwischen einem Paar von reads werden zu einem einzigen vollen Alignment der Länge k = 19 kombiniert. Die vertikalen Linien verbinden übereinstimmenden Basen, wogegen x Mismatche sind. Dies ist eine oft auftretende Situation, in der ein ausgedehnter k-mer Treffer ein volles Alignment von zwei reads ist. Batzoglou et al. Genome Res 12, 177 (2002) 4. Vorlesung SS 2010 Softwarewerkzeuge

71 Repeats erzeugen Mehrdeutigkeit
Ohne das Auftreten von Sequen-zierungsfehlern und Repeats wäre es einfach, alle entdeckbaren paarweise Abstände von reads zu finden und den Graph G zu konstruieren. Da Repeats jedoch sehr häufig auftreten, bedeutet eine Verbindung zwischen zwei reads in G nicht ohne weiteres eine wahre Überlappung. Eine „Repeat-Verbindung“ ist eine Verbindung in G zwischen zwei reads, die aus verschiedenen Regionen des Genoms stammen und in der repetitiven Sequenz überein-stimmen. Batzoglou PhD thesis (2002) 4. Vorlesung SS 2010 Softwarewerkzeuge

72 Sequence contigs unerläßlich für die Assemblierung ist die ausreichende Überdeckung (mehrfache Sequenzierung = coverage) derselben Genomregionen Batzoglou PhD thesis (2002) 4. Vorlesung SS 2010 Softwarewerkzeuge

73 Verbinden von Contigs Durch die Löschung von k-mers hoher Frequenz wird einiges an Repetition im Genom vor der Erzeugung von G effizient maskiert. Zur Erkennung von repetitiven Verbindung dienen weitere heuristische Algorithmen, die hier nicht diskutiert werden sollen. Sequenz-Contigs werden gebildet indem Paare von reads verbunden werden, die eindeutig verbunden werden können. Tatsächlich ist die Situation viel schwieriger als hier gezeigt, da Repeats häufig nicht zu 100% zwischen Kopien konserviert sind. Batzoglou PhD thesis (2002) 4. Vorlesung SS 2010 Softwarewerkzeuge

74 Benutze Überlapp-Paarungen um die reads zu verbinden
Arachne sucht nach 2 Plasmiden mit gleicher Insert-Länge, deren Sequenzen an beiden Enden überlappen  paired pairs. (A) A paired pair of overlaps. The top two reads are end sequences from one insert, and the bottom two reads are end sequences from another. The two overlaps must not imply too large a discrepancy between the insert lengths. (B) Initially, the top two pairs of reads are merged. Then the third pair of reads is merged in, based on having an overlap with one of the top two left reads, an overlap with one of the top two right reads, and consistent insert lengths. The bottom pair is similarly merged. Unten: eine Menge von paired pairs werden zu contigs zusammengefasst und eine Konsensussequenz erzeugt. Batzoglou et al. Genome Res 12, 177 (2002) 4. Vorlesung SS 2010 Softwarewerkzeuge

75 Detection of repeat contigs
Some of the identified contigs are repeat contigs in which nearly identical sequence from distinct regions are collapsed together. Detection by (a) repeat contigs usually have an unusually high depth of coverage. (b) they will typically have conflicting links to other contigs. Contig R is linked to contigs A and B to the right. The distances estimated between R and A and R and B are such A and B cannot be positioned without substantial overlap between them. If there is no corresponding detected overlap between A and B then R is probably a repeat linking to two unique regions to the right. After marking repeat contigs, the remaining contigs should represent the correctly assembled sequence. Batzoglou et al. Genome Res 12, 177 (2002) 4. Vorlesung SS 2010 Softwarewerkzeuge

76 Contig assembly If (a,b) and (a,c) overlap, then (b,c) are expected to overlap. Moreover, one can calculate that shift(b,c) = shift(a,c) - shift(a,b). A repeat boundary is detected toward the right of read a, if there is no overlap (b,c), nor any path of reads x1, ..., xk such that (b,x1), (x1,x2) ..., (xk,c) are all overlaps, and shift(b,x1) shift(xk,c)  shift(a,c) – shift(a,b). Batzoglou et al. Genome Res 12, 177 (2002) 4. Vorlesung SS 2010 Softwarewerkzeuge

77 Consistency of forward-reverse links
The distance d(A,B) (length of gap or negated length of overlap) between two linked contigs A and B can be estimated using the forward-reverse linked reads between them. The distance d(B,C) between two contigs B,C that are linked to the same contig A can be estimated from their respective distances to the linked contig. Batzoglou et al. Genome Res 12, 177 (2002) 4. Vorlesung SS 2010 Softwarewerkzeuge

78 Contig Coverage and Read Usage
Batzoglou et al. Genome Res 12, 177 (2002) 4. Vorlesung SS 2010 Softwarewerkzeuge

79 Characterization of Contigs and Supercontigs
Batzoglou et al. Genome Res 12, 177 (2002) 4. Vorlesung SS 2010 Softwarewerkzeuge

80 Base Pair Accuracy base quality x*10 means that (on average) one sequencing error occurs in 10-x bases. Batzoglou et al. Genome Res 12, 177 (2002) 4. Vorlesung SS 2010 Softwarewerkzeuge

81 Vergleich verschiedener Assemblierungen
man sollte gucken nach: - welche Methode gibt die kleinste Anzahl an Contigs bzw. die kleinesten Anzahl am festen Contigs bzw. falsch assemblierten Contigs die größt mögliche Abdeckung durch Contigs falsch assemblierte Contigs sollten einen möglichst geringen Teil des Genoms ausmachen. Pevzner, Tang, Waterman PNAS 98, 9748 (2001) 4. Vorlesung SS 2010 Softwarewerkzeuge

82 There is no error-free assembler to date
Comparative analysis of EULER, PHRAP, CAP, and TIGR assemblers (NM sequencing project). Every box corresponds to a contig in NM assembly produced by these programs with colored boxes corresponding to assembly errors. Boxes in the IDEAL assembly correspond to islands in the read coverage. Boxes of the same color show misassembled contigs. Repeats with similarity higher than 95% are indicated by numbered boxes at the solid line showing the genome. To check the accuracy of the assembled contigs, we fit each assembled contig into the genomic sequence. Inability to fit a contig into the genomic sequence indicates that the contig is misassembled. For example, PHRAP misassembles 17 contigs in the NM sequencing project, each contig containing from two to four fragments from different parts of the genome. „Biologists "pay" for these errors at the time-consuming finishing step“. Pevzner, Tang, Waterman PNAS 98, 9748 (2001) 4. Vorlesung SS 2010 Softwarewerkzeuge


Herunterladen ppt "V4 – Analyse von Genomsequenzen"

Ähnliche Präsentationen


Google-Anzeigen