Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

V3 - Multiples Sequenz Alignment und Phylogenie

Ähnliche Präsentationen


Präsentation zum Thema: "V3 - Multiples Sequenz Alignment und Phylogenie"—  Präsentation transkript:

1 V3 - Multiples Sequenz Alignment und Phylogenie
Literatur: Kapitel 4 in Buch von David Mount Thioredoxin-Beispiel heute aus Buch von Arthur Lesk 3. Vorlesung WS 2006/2007 Softwarewerkzeuge der Bioinformatik

2 Definition von “Homologie”
Homologie: Ähnlichkeit, die durch Abstammung von einem gemeinsamen Ursprungsgen herrührt – die Identifizierung und Analyse von Homologien ist eine zentrale Aufgabe der Phylogenie. Ein Alignment ist eine Hypothese für die positionelle Homologie zwischen Basenpaaren bzw. Aminosäuren. 3. Vorlesung WS 2006/2007 Softwarewerkzeuge der Bioinformatik

3 Alignments können einfach oder schwer sein
GCGGCCCA TCAGGTACTT GGTGG GCGGCCCA TCAGGTAGTT GGTGG GCGTTCCA TCAGCTGGTT GGTGG GCGTCCCA TCAGCTAGTT GGTGG GCGGCGCA TTAGCTAGTT GGTGA ******** ********** ***** TTGACATG CCGGGG---A AACCG TTGACATG CCGGTG--GT AAGCC TTGACATG -CTAGG---A ACGCG TTGACATG -CTAGGGAAC ACGCG TTGACATC -CTCTG---A ACGCG ******** ?????????? ***** Einfach Schwierig wegen Insertionen und Deletionen (indels) Kann man beweisen, dass ein Alignment korrekt ist? 3. Vorlesung WS 2006/2007 Softwarewerkzeuge der Bioinformatik

4 Softwarewerkzeuge der Bioinformatik
Protein-Alignment kann durch tertiäre Strukturinformationen geführt werden Gaps eines Alignments sollten vorwiegend in Loops liegen, nicht in Sekundär- struktur- elementen. Escherichia coli DjlA protein Homo sapiens DjlA protein nur so kann man letztlich bewerten, ob ein Sequenzalignment korrekt ist. Beweisen im strikten Sinne kann man dies nie. 3. Vorlesung WS 2006/2007 Softwarewerkzeuge der Bioinformatik

5 Softwarewerkzeuge der Bioinformatik
Farbe Aminosäuretyp Aminosäuren gelb klein, wenig polar Gly, Ala, Ser, Thr grün hydrophob Cys, Val, Ile, Leu Pro, Phe, Tyr, Met, Trp violett polar Asn, Gln, His rot negativ geladen Asp, Glu blau positiv geladen Lys, Arg MSA für Thioredoxin-Familie 3. Vorlesung WS 2006/2007 Softwarewerkzeuge der Bioinformatik

6 Infos aus MSA von Thioredoxin-Familie
Thioredoxin: aus 5 beta-Strängen bestehendes beta-Faltblatt, das auf beiden Seiten von alpha-Helices flankiert ist. gemeinsamer Mechanismus: Reduktion von Disulfidbrücken in Proteinen 3. Vorlesung WS 2006/2007 Softwarewerkzeuge der Bioinformatik

7 Infos aus MSA von Thioredoxin-Familie
1) Die am stärksten konservierten Abschnitte entsprechen wahrscheinlich dem aktiven Zentrum. Disulfidbrücke zwischen Cys32 und Cys35 gehört zu dem konservierten WCGPC[K oder R] Motiv. Andere konservierte Sequenzabschnitte, z.B. Pro76Thr77 und Gly92Gly93 sind an der Substratbindung beteiligt. 3. Vorlesung WS 2006/2007 Softwarewerkzeuge der Bioinformatik

8 Infos aus MSA von Thioredoxin-Familie
2) Abschnitte mit vielen Insertionen und Deletionen entsprechen vermutlich Schleifen an der Oberfläche. Eine Position mit einem konservierten Gly oder Pro lässt auf eine Wendung der Kette (‚turn‘) schließen. 3. Vorlesung WS 2006/2007 Softwarewerkzeuge der Bioinformatik

9 Infos aus MSA von Thioredoxin-Familie
3) Ein konserviertes Muster hydrophober Bausteine mit dem Abstand 2 (d.h., an jeder zweiten Position), bei dem die dazwischenliegenden Bausteine vielfältiger sind und auch hydrophil sein können, läßt auf ein -Faltblatt an der Moleküloberfläche schließen. 3. Vorlesung WS 2006/2007 Softwarewerkzeuge der Bioinformatik

10 Infos aus MSA von Thioredoxin-Familie
4) Ein konserviertes Muster hydrophober Aminosäurereste mit dem Abstand von ungefähr 4 läßt auf eine -Helix schließen. 3. Vorlesung WS 2006/2007 Softwarewerkzeuge der Bioinformatik

11 Infos aus MSA von Thioredoxin-Familie
Die Thioredoxine sind Teil einer Superfamilie, zu der auch viele weiter entfernte homologe Protein gehören, z.B. Glutaredoxin (Wasserstoffdonor für die Reduktion von Ribonukleotiden bei der DNA-Synthese) Protein-Disulfidisomerase (katalysiert bei der Proteinfaltung den Austausch falsch gefalteter Disulfidbrücken) Phosducin (Regulator in G-Protein-abhängigen Signalübertragungswegen) Glutathion-S-Transferasen (Proteine der chemischen Abwehr). Die Tabelle des MSAs für Thioredoxinsequenzen enthält implizit Muster, die man zur Identifizierung dieser entfernteren Verwandten nutzen kann. 3. Vorlesung WS 2006/2007 Softwarewerkzeuge der Bioinformatik

12 Multiples Sequenz-Alignment - Methoden
Es gibt im wesentlichen 3 unterschiedliche Vorgehensweisen: (1) Manuell ein manuelles Alignment bietet sich an falls Alignment einfach ist. es zusätzliche (strukturelle) Information gibt automatische Alignment –Methoden in lokalen Minima feststecken. ein automatisch erzeugtes Alignment manuell “verbessert” werden kann. (2) Automatisch (3) Kombiniert 3. Vorlesung WS 2006/2007 Softwarewerkzeuge der Bioinformatik

13 Automatisches multiples Sequenzalignment
Hier gibt es vor allem folgende 2 wichtigen Methoden: Dynamische Programmierung liefert garantiert das optimale Alignment! aber: betrache 2 Proteinsequenzen von 100 Aminosäuren Länge. wenn es 1002 Sekunden dauert, diese beiden Sequenzen erschöpfend zu alignieren, dann wird es 1003 Sekunden dauern um 3 Sequenzen zu alignieren, 1004 Sekunden für 4 Sequenzen und x1034 Jahre für 20 Sequenzen. Progressives Alignment 3. Vorlesung WS 2006/2007 Softwarewerkzeuge der Bioinformatik

14 dynamische Programmierung mit MSA Programm
berechne zunächst paarweise Alignments für 3 Sequenzen wird Würfel aufgespannt: D.h. dynamische Programmierung hat nun Komplexität n1 * n2 * n3 mit den Sequenzlängen n1, n2, n3. Sehr aufwändig! Versuche, Suchraum einzuschränken und nur einen kleinen Teil des Würfels abzusuchen. 3. Vorlesung WS 2006/2007 Softwarewerkzeuge der Bioinformatik

15 Progressives Alignment
wurde von Feng & Doolittle 1987 vorgestellt ist eine heuristische Methode. Daher ist nicht garantiert, das “optimale” Alignment zu finden. benötigt (n-1) + (n-2) + (n-3) ... (n-n+1) paarweise Sequenzalignments als Ausgangspunkt. weitverbreitete Implementation in Clustal (Des Higgins) ClustalW ist eine neuere Version, in der den Parameter für Sequenzen und Programm Gewichte (weights) zugeteilt werden. 3. Vorlesung WS 2006/2007 Softwarewerkzeuge der Bioinformatik

16 ClustalW- Paarweise Alignments
Berechne alle möglichen paarweisen Alignments von Sequenzpaaren. Es gibt (n-1)+(n-2)...(n-n+1) Möglichkeiten. Berechne aus diesen isolierten paarweisen Alignments den “Abstand” zwischen jedem Sequenzpaar. Erstelle eine Abstandsmatrix. aus den paarweisen Distanzen wird ein Nachbarschafts-Baum erstellt Dieser Baum gibt die Reihenfolge an, in der das progressive Alignment ausgeführt werden wird. 3. Vorlesung WS 2006/2007 Softwarewerkzeuge der Bioinformatik

17 Überblick der ClustalW Prozedur
Hbb_Human 1 - CLUSTAL W Hbb_Horse Hba_Human Hba_Horse Myg_Whale Schnelle paarweise Alignments: berechne Matrix der Abstände Hbb_Human 2 3 4 Hbb_Horse Hba_Human 1 Nachbar-Verbindungs- Baumdiagramm Hba_Horse Myg_Whale alpha-helices 1 PEEKSAVTALWGKVN--VDEVGG 2 3 4 2 GEEKAAVLALWDKVN--EEEVGG 3 PADKTNVKAAWGKVGAHAGEYGA progressive Alignments entsprechend dem Baumdiagramm 1 4 AADKTNVKAAWSKVGGHAGEYGA 5 EHEWQLVLHVWAKVEADVAGHGQ 3. Vorlesung WS 2006/2007 Softwarewerkzeuge der Bioinformatik

18 Multiples Alignment - Erstes Paar
aligniere die beiden ähnlichsten Sequenzen zuerst. dieses Alignment ist dann “fest” und wird nicht mehr angetastet. Falls später ein GAP eingeführt werden muss, wird er in beiden Sequenzen an der gleichen Stelle eingeführt. Deren relatives Alignment bleibt unverändert. 3. Vorlesung WS 2006/2007 Softwarewerkzeuge der Bioinformatik

19 Clustal W – Zeit der Entscheidung
Ziehe den Baum heran um festzulegen, welches Alignment als nächstes durchgeführt werden soll: aligniere eine dritte Sequenz zu den ersten beiden oder aligniere zwei total verschiedene Sequenzen miteinander. Option 1 Option 2 3. Vorlesung WS 2006/2007 Softwarewerkzeuge der Bioinformatik

20 ClustalW- 2 Alternativen
Wenn beim Alignment einer dritten Sequenz mit den ersten beiden eine Lücke eingefügt werden muss um das Alignment zu verbessern, werden beide als Einzelsequenzen betrachtet. + Falls, andererseits, zwei getrennte Sequenzen aligniert werden müssen, werden diese zunächst miteinander aligniert. + 3. Vorlesung WS 2006/2007 Softwarewerkzeuge der Bioinformatik

21 Progressives Alignment – 1. Schritt
gctcgatacgatacgatgactagcta gctcgatacaagacgatgacagcta gctcgatacacgatgactagcta gctcgatacacgatgacgagcga ctcgaacgatacgatgactagct gctcgatacgatacgatgactagcta gctcgatacaagacgatgac-agcta 3. Vorlesung WS 2006/2007 Softwarewerkzeuge der Bioinformatik

22 Progressives Alignment – 2. Schritt
gctcgatacgatacgatgactagcta gctcgatacaagacgatgacagcta gctcgatacacgatgactagcta gctcgatacacgatgacgagcga ctcgaacgatacgatgactagct gctcgatacacgatgactagcta gctcgatacacgatgacgagcga 3. Vorlesung WS 2006/2007 Softwarewerkzeuge der Bioinformatik

23 Progressives Alignment – 3. Schritt
gctcgatacgatacgatgactagcta gctcgatacaagacgatgac-agcta + gctcgatacacgatgactagcta gctcgatacacgatgacgagcga gctcgatacgatacgatgactagcta gctcgatacaagacgatgac-agcta gctcgatacacga---tgactagcta gctcgatacacga---tgacgagcga 3. Vorlesung WS 2006/2007 Softwarewerkzeuge der Bioinformatik

24 Progressives Alignment – letzter Schritt
gctcgatacgatacgatgactagcta gctcgatacaagacgatgac-agcta gctcgatacacga---tgactagcta gctcgatacacga---tgacgagcga + ctcgaacgatacgatgactagct gctcgatacgatacgatgactagcta gctcgatacaagacgatgac-agcta gctcgatacacga---tgactagcta gctcgatacacga---tgacgagcga -ctcga-acgatacgatgactagct- 3. Vorlesung WS 2006/2007 Softwarewerkzeuge der Bioinformatik

25 ClustalW- Vor- und Nachteile
Vorteil: Geschwindigkeit. Nachteile: keine objektive Funktion. Keine Möglichkeit zu quantifizieren ob Alignment gut oder schlecht ist (vgl. E-value für BLAST) Keine Möglichkeit festzustellen, ob das Alignment “korrekt” ist Mögliche Probleme: Prozedur kann in ein lokales Minimum geraten. D.h. falls zu einem frühen Zeitpunkt ein Fehler im Alignment eingebaut wird, kann dieser später nicht mehr korrigiert werden. Zufälliges Alignment. 3. Vorlesung WS 2006/2007 Softwarewerkzeuge der Bioinformatik

26 Genauigkeit des Alignments verbessern
Sollen all Sequenzen gleich behandelt werden? Obwohl manche Sequenzen eng verwandt und andere entfernt verwandt sind? Sollen alle Positionen der Sequenzen gleich behandelt werden? Obwohl sie unterschiedliche Funktionen und Positionen in der dreidimensionalen Strukturen haben können? 3. Vorlesung WS 2006/2007 Softwarewerkzeuge der Bioinformatik

27 ClustalW- Besonderheiten
Sequenzgewichtung Variable Substitutionsmatrizen Residuen-spezifische Gap-Penalties und verringerte Penalties in hydrophilen Regionen (externe Regionen von Proteinsequenzen), bevorzugt Gaps in Loops anstatt im Proteinkern. Positionen in frühen Alignments, an denen Gaps geöffnet wurden, erhalten lokal reduzierte Gap Penalties um in späteren Alignments Gaps an den gleichen Stellen zu bevorzugen 3. Vorlesung WS 2006/2007 Softwarewerkzeuge der Bioinformatik

28 ClustalW- vom Benutzer festzulegende Parameter
Zwei Parameter sind festzulegen (es gibt Default-Werte, aber man sollte sich bewusst sein, dass diese abgeändert werden können): Die GOP- Gap Opening Penalty ist aufzubringen um eine Lücke in einem Alignment zu erzeugen Die GEP- Gap Extension Penalty ist aufzubringen um diese Lücke um eine Position zu verlängern. 3. Vorlesung WS 2006/2007 Softwarewerkzeuge der Bioinformatik

29 Positions-spezifische Gap penalties
Bevor irgendein Sequenzpaar aligniert wird, wird eine Tabelle von GOPs erstellt für jede Position der beiden Sequenzen. Die GOP werden positions-spezifisch behandelt und können über die Sequenzlänge variieren. Falls ein GAP an einer Position existiert, werden die GOP und GEP penalties herabgesetzt – und alle anderen Regeln treffen nicht zu. Daher wird die Bildung von Gaps an Positionen wahrscheinlicher, an denen bereits Gaps existieren. 3. Vorlesung WS 2006/2007 Softwarewerkzeuge der Bioinformatik

30 Softwarewerkzeuge der Bioinformatik
Vermeide zu viele Gaps Solange kein GAP offen ist, wird GOP hochgesetzt falls die Position innerhalb von 8 Residuen von einem bestehenden Gap liegt. Dadurch werden Gaps vermieden, die zu eng beieinander liegen. An jeder Position innerhalb einer Reihe von hydrophilen Residuen wird GOP herabgesetzt, da diese gewöhnlich in Loop-Regionen von Proteinstrukturen liegen. Eine Reihe von 5 hydrophilen Residuen gilt als hydrophiler stretch. Die üblichen hydrophilen Residuen sind: D Asp K Lys P Pro E Glu N Asn R Arg G Gly Q Gln S Ser Dies kann durch den Benutzer geändert werden. 3. Vorlesung WS 2006/2007 Softwarewerkzeuge der Bioinformatik

31 Tips für progressives Alignment
Progressives Alignment ist ein mathematischer Vorgang, der völlig unabhängig von der biologischen Realität abläuft. Es kann eine sehr gute Abschätzung sein. Es kann eine unglaublich schlechte Abschätzung sein. Erfordert Input und Erfahrung des Benutzers. Sollte mit Vorsicht verwendet werden. Kann (gewöhnlich) manuell verbessert werden. Es hilft oft, farbliche Darstellungen zu wählen. Je nach Einsatzgebiet sollte der Benutzer in der Lage sein, die zuverlässigen Regionen des Alignments zu beurteilen. Für phylogenetische Rekonstruktionen sollte man nur die Positionen verwenden, für die eine zweifelsfreie Hypothese über positionelle Homologie vorliegt. 3. Vorlesung WS 2006/2007 Softwarewerkzeuge der Bioinformatik

32 Alignment von Protein-kodierenden DNS-Sequenzen
Es macht wenig Sinn, proteinkodierende DNS-Abschnitte zu alignieren! ATGCTGTTAGGG ATGCTCGTAGGG ATGCT-GTTAGGG ATGCTCGT-AGGG Das Ergebnis kann sehr unplausibel sein und entspricht eventuell nicht dem biologischen Prozess. Es ist viel sinnvoller, die Sequenzen in die entsprechenden Proteinsequenzen zu übersetzen, diese zu alignieren und dann in den DNS-Sequenzen an den Stellen Gaps einzufügen, an denen sie im Aminosäure-Alignment zu finden sind. 3. Vorlesung WS 2006/2007 Softwarewerkzeuge der Bioinformatik

33 Softwarewerkzeuge der Bioinformatik
Zusammenfassung Progressive Alignments sind die am weitesten verbreitete Methode für multiple Sequenzalignments. Sehr sensitive Methode ebenfalls: Hidden Markov Modelle (HMMer) Multiples Sequenzalignment ist nicht trivial. Manuelle Nacharbeit kann in Einzelfällen das Alignment verbessern. Multiples Sequenzalignment erlaubt Denken in Proteinfamilien und –funktionen. 3. Vorlesung WS 2006/2007 Softwarewerkzeuge der Bioinformatik

34 Prediction of Phylogenies based on single genes
Material of this lecture taken from - chapter 6, DW Mount „Bioinformatics“ and from Julian Felsenstein‘s book. A phylogenetic analysis of a family of related nucleic acid or protein sequences is a determination of how the family might have been derived during evolution. Placing the sequences as outer branches on a tree, the evolutionary relationships among the sequences are depicted. Phylogenies, or evolutionary trees, are the basic structures to describe differences between species, and to analyze them statistically. They have been around for over 140 years. Statistical, computational, and algorithmic work on them is ca. 40 years old. 3. Vorlesung WS 2006/2007 Softwarewerkzeuge der Bioinformatik

35 3 main approaches in single-gene phylogeny
- maximum parsimony - distance matrix - maximum likelihood (not covered here) Popular programs: PHYLIP (phylogenetic inference package – J Felsenstein) PAUP (phylogenetic analysis using parsimony – Sinauer Assoc 3. Vorlesung WS 2006/2007 Softwarewerkzeuge der Bioinformatik

36 Softwarewerkzeuge der Bioinformatik
Parsimony methods Edwards & Cavalli-Sforza (1963): that evolutionary tree is to be preferred that involves „the minimum net amount of evolution“.  seek that phylogeny on which, when we reconstruct the evolutionary events leading to our data, there are as few events as possible. (1) We must be able to make a reconstruction of events, involving as few events as possible, for any proposed phylogeny. (2) We must be able to search among all possible phylogenies for the one or ones that minimize the number of events. 3. Vorlesung WS 2006/2007 Softwarewerkzeuge der Bioinformatik

37 Softwarewerkzeuge der Bioinformatik
A simple example Suppose that we have 5 species, each of which has been scored for 6 characters (0,1) We will allow changes 0  1 and 1  0. The initial state at the root of a tree may be either state 0 or state 1. 3. Vorlesung WS 2006/2007 Softwarewerkzeuge der Bioinformatik

38 Evaluating a particular tree
To find the most parsimonious tree, we must have a way of calculating how many changes of state are needed on a given tree. This tree represents the phylogeny of character 1. Reconstruct phylogeny of character 1 on this tree. 3. Vorlesung WS 2006/2007 Softwarewerkzeuge der Bioinformatik

39 Evaluating a particular tree
There are 2 equally good reconstructions, each involving just one change of character state. They differ in which state they assume at the root of the tree, and they differ in which branch they place the single change. 3. Vorlesung WS 2006/2007 Softwarewerkzeuge der Bioinformatik

40 Evaluating a particular tree
3 equally good reconstructions for character 2, which needs two changes of state. 3. Vorlesung WS 2006/2007 Softwarewerkzeuge der Bioinformatik

41 Evaluating a particular tree
A single reconstruction for character 3, involving one change of state. 3. Vorlesung WS 2006/2007 Softwarewerkzeuge der Bioinformatik

42 Evaluating a particular tree
on the right: 2 reconstructions for character 4 and 5 because these characters have identical patterns. single reconstruction for character 6, one change of state. 3. Vorlesung WS 2006/2007 Softwarewerkzeuge der Bioinformatik

43 Evaluating a particular tree
The total number of changes of character state needed on this tree is = 9 Reconstruction of the changes in state on this tree 3. Vorlesung WS 2006/2007 Softwarewerkzeuge der Bioinformatik

44 Evaluating a particular tree
Alternative tree with only 8 changes of state. The minimum number of changes of state would be 6, as there are 6 characters that can each have 2 states. Thus, we have two „extra“ changes  called „homoplasmy“. 3. Vorlesung WS 2006/2007 Softwarewerkzeuge der Bioinformatik

45 Finding the best tree by heuristic search
The obvious method for searching for the most parsimonious tree is to consider ALL trees and evaluate each one. Unfortunately, generally the number of possible trees is too large.  use heuristic search methods that attempt to find the best trees without looking at all possible trees. (1) Make an initial estimate of the tree and make small rearrangements of it = find „neighboring“ trees. (2) If any of these neighbors are better, consider them and continue search. 3. Vorlesung WS 2006/2007 Softwarewerkzeuge der Bioinformatik

46 Counting evolutionary changes
2 related dynamic programming algorithms: Fitch (1971) and Sankoff (1975) - evaluate a phylogeny character by character - for each character, consider it as rooted tree, placing the root wherever seems appropriate. - update some information down a tree; when we reach the bottom, the number of changes of state is available. Do not actually locate changes or reconstruct interior states at the nodes of the tree. 3. Vorlesung WS 2006/2007 Softwarewerkzeuge der Bioinformatik

47 Softwarewerkzeuge der Bioinformatik
Sankoff algorithm If we can compute these values for all nodes, we can also compute them for the bottom node in the tree. Simply choose the minimum of these values which is the desired total cost we seek, the minimum cost of evolution for this character. At the tips of the tree, the S(i) are easy to compute. The cost is 0 if the observed state is state i, and infinite otherwise. If we have observed an ambigous state, the cost is 0 for all states that it could be, and infinite for the rest. Now we just need an algorithm to calculate the S(i) for the immediate common ancestor of two nodes. 3. Vorlesung WS 2006/2007 Softwarewerkzeuge der Bioinformatik

48 Softwarewerkzeuge der Bioinformatik
Sankoff algorithm Suppose that the two descendant nodes are called l and r (for „left“ and „right“). For their immediate common ancestor, node a, we compute The smallest possible cost given that node a is in state i is the cost cij of going from state i to state j in the left descendant lineage, plus the cost Sl(j) of events further up in the subtree gien that node l is in state j. Select value of j that minimizes that sum. Same calculation for right descendant lineage  sum of these two minima is the smallest possible cost for the subtree above node a, given that node a is in state i. Apply equation successively to each node in the tree, working downwards. Finally compute all S0(i) and use previous eq. to find minimum cost for whole tree. 3. Vorlesung WS 2006/2007 Softwarewerkzeuge der Bioinformatik

49 Softwarewerkzeuge der Bioinformatik
Sankoff algorithm The array (6,6,7,8) at the bottom of the tree has a minimum value of 6 = minimum total cost of the tree for this site. 3. Vorlesung WS 2006/2007 Softwarewerkzeuge der Bioinformatik

50 Distance matrix methods
introduced by Cavalli-Sforza & Edwards (1967) and by Fitch & Margoliash (1967) general idea „seems as if it would not work very well“ (Felsenstein): - calculate a measure of the distance between each pair of species - find a tree that predicts the observed set of distances as closely as possible. All information from higher-order combinations of character states is left out. But computer simulation studies show that the amount of lost information is remarkably small. Best way to think about distance matrix methods: consider distances as estimates of the branch length separating that pair of species. 3. Vorlesung WS 2006/2007 Softwarewerkzeuge der Bioinformatik

51 Softwarewerkzeuge der Bioinformatik
Least square method - observed table (matrix) of distances Dij - any particular tree leads to a predicted set of distances dij. 3. Vorlesung WS 2006/2007 Softwarewerkzeuge der Bioinformatik

52 Softwarewerkzeuge der Bioinformatik
Least square method Measure of the discrepancy between the observed and expected distances: where the weights wij can be differently defined: - wij = 1 (Cavalli&Sforza, 1967) - wij = 1/Dij2 (Fitch&Margoliash, 1967) - wij = 1/Dij (Beyer et al., 1974) Aim: Find tree topology and branch lengths that minimize Q. Equation above is quadratic in branch lengths. Take derivative with respect to branch lengths, set = 0, and solve system of linear equations. Solution will minimize Q. Doug Brutlag‘s course 3. Vorlesung WS 2006/2007 Softwarewerkzeuge der Bioinformatik

53 Softwarewerkzeuge der Bioinformatik
Least square method Number all branches of the tree and introduce an indicator variable xijk: xijk = 1 if branch k lies in the path from species i to species j xijk = 0 otherwise. The expected distance between i and j will then be and For the case with wij = 1 ij. Note: these are k equations for each of the k branches. 3. Vorlesung WS 2006/2007 Softwarewerkzeuge der Bioinformatik

54 neighbor-joining method
introduced by Saitou and Nei (1987) – algorithm works by clustering - does not assume a molecular clock but approximates the „minimum evolution“ model. „Minimum evolution“ model: among possible tree topologies, choose the one with minimal total branch length. Neighbor-joining, as the least-squares method, is guaranteed to recover the true tree if the distance matrix is an exact reflection of the tree. 3. Vorlesung WS 2006/2007 Softwarewerkzeuge der Bioinformatik

55 neighbor-joining method
(1) For each tip, compute (2) Choose the i and j for which Dij – ui – uj is smallest. (3) Join items i and j. Compute the branch length from i to the new node (vi) and from j to the new node (vj) as (4) Compute distance between the new node (ij) and each of the remaining tips as (5) Delete tips i and j from the tables and replace them by the new node, (ij), which is now treated as a tip. (6) If more than 2 nodes remain, go back to step (1). Otherwise, connect the two remaining nodes (e.g. l and m) by a branch of length Dlm. 3. Vorlesung WS 2006/2007 Softwarewerkzeuge der Bioinformatik

56 Methoden für Einzel-Gen-Phylogenien
Wähle Menge von verwandten Sequenzen Berechne multiples Sequenz- alignment Gibt es starke Sequenz- ähnlichkeit? Ja Maximale Parsimonie Methoden Nein Ja Gibt es deutlich erkenn-bare Sequenzähnlichkeit? Distanz- methoden Nein Analysiere wie gut die Daten die Vorhersage unterstützen Maximum likelihood Methoden 3. Vorlesung WS 2006/2007 Softwarewerkzeuge der Bioinformatik

57 Softwarewerkzeuge der Bioinformatik
zusätzliche Folien 3. Vorlesung WS 2006/2007 Softwarewerkzeuge der Bioinformatik

58 Software für manuelle Alignments
GDE- The Genetic Data Environment (UNIX) CINEMA- Java applet available from: Seqapp/Seqpup- Mac/PC/UNIX available from: SeAl for Macintosh, available from: BioEdit for PC, available from: 3. Vorlesung WS 2006/2007 Softwarewerkzeuge der Bioinformatik

59 Beispiel: Src-Kinase HcK
Sequenz: MGGRSSCEDP GCPRDEERAP RMGCMKSKFL QVGGNTFSKT ETSASPHCPV YVPDPTSTIK PGPNSHNSNT PGIREAGSED IIVVALYDYE AIHHEDLSFQ KGDQMVVLEE SGEWWKARSL ATRKEGYIPS NYVARVDSLE TEEWFFKGIS RKDAERQLLA PGNMLGSFMI RDSETTKGSY SLSVRDYDPR QGDTVKHYKI RTLDNGGFYI SPRSTFSTLQ ELVDHYKKGN DGLCQKLSVP CMSSKPQKPW EKDAWEIPRE SLKLEKKLGA GQFGEVWMAT YNKHTKVAVK TMKPGSMSVE AFLAEANVMK TLQHDKLVKL HAVVTKEPIY IITEFMAKGS LLDFLKSDEG SKQPLPKLID FSAQIAEGMA FIEQRNYIHR DLRAANILVS ASLVCKIADF GLARVIEDNE YTAREGAKFP IKWTAPEAIN FGSFTIKSDV WSFGILLMEI VTYGRIPYPG MSNPEVIRAL ERGYRMPRPE NCPEELYNIM MRCWKNRPEE RPTFEYIQSV LDDFYTATES QYQQQP SMART ergibt: 3. Vorlesung WS 2006/2007 Softwarewerkzeuge der Bioinformatik

60 Beispiel: Src-Kinase HcK
Kinase-Einheit Protein Data Bank 1ATP 3. Vorlesung WS 2006/2007 Softwarewerkzeuge der Bioinformatik

61 Beispiel: Src-Kinase HcK
SH3 Domäne Src homology 3 (SH3) Domänen binden an Zielproteine mit Sequenzen, die Proline und hydrophobe Aminosäuren enthalten. Pro-enthaltende Polypeptide können an SH3 in zwei verschiedenen Orientierungen binden. SH3 Domänen sind kleine Proteinmodule von ungefähr 50 Residuen Länge. Man findet sie in vielen intrazellulären oder Membran-assoziierten Proteinen … CATH: 1abo 3. Vorlesung WS 2006/2007 Softwarewerkzeuge der Bioinformatik

62 Beispiel: Src-Kinase HcK
SH2 Domäne Die Src homology 2 (SH2) Domäne ist eine Proteindomäne mit etwa 100 Aminosäuren. SH2 Domänen funktionieren als Regelmodule von intrazellulären Signalkaskaden indem sie mit grosser Affinität an Phospho-Tyrosin enthaltende Peptide binden. SH2 Domänen findet man oft zusammen mit SH3 Domänen … Ihre Struktur ist alpha+beta … CATH: g fbz 1aot 3. Vorlesung WS 2006/2007 Softwarewerkzeuge der Bioinformatik

63 Beispiel: Src-Kinase HcK
3. Vorlesung WS 2006/2007 Softwarewerkzeuge der Bioinformatik

64 Was kann man mit modularem Denken erreichen?
3. Vorlesung WS 2006/2007 Softwarewerkzeuge der Bioinformatik

65 Softwarewerkzeuge der Bioinformatik
Least square method DAB + DAC + DAD + DAE = 4v1 + v2 + v3 + v4 + v5 + 2v6 + 2v7 DAB + DBC + DBD + DBE = v1 + 4v2 + v3 + v4 + v5 + 2v6 + 3v7 DAC + DBC + DCD + DCE = v1 + v2 + 4v3 + v4 + v5 + 3v6 + 2v7 DAD + DBD + DCD + DDE = v1 + v2 + v3 + 4v4 + v5 + 2v6 + 3v7 DAE + DBE + DCE + DDE = v1 + v2 + v3 + v4 + 4v5 + 3v6 + 2v7 DAC + DAE + DBC + DBE + DCD + DDE = 2v1 + 2v2 + 3v3 + 2v4 + 3v5 + 6v6 + 4v7 DAB + DAD + DBC + DCD + DBE + DDE = 2v1 + 3v2 + 2v3 + 3v4 + 2v5 + 4v6 + 6v7 Stack up the ( = 10) Dij, in alphabetical order, into a vector and the coefficients xijk are arranged in a matrix X with each row corresponding to the Dij in the row of d and containing a 1 if branch k occurs on the path between species i and j. 3. Vorlesung WS 2006/2007 Softwarewerkzeuge der Bioinformatik

66 Softwarewerkzeuge der Bioinformatik
Least square method If we also stack up the 7 vi into a vector v, the previous set of linear equations can be compactly expressed as: Multiplied from the left by the inverse of XTX one can solve for the least squares branch lengths This is a standard method of expressing least squares problems in matrix notation and solving them. check for example :-) 3. Vorlesung WS 2006/2007 Softwarewerkzeuge der Bioinformatik

67 Softwarewerkzeuge der Bioinformatik
Least square method When we have weighted least squares, with a diagonal matrix of weights in the same order as the Dij: then the least square equations can be written and their solution 3. Vorlesung WS 2006/2007 Softwarewerkzeuge der Bioinformatik

68 Finding the least squares tree topology
Now that we are able to assign branch lengths to each tree topology. we need to search among tree topologies. This can be done by the same methods of heuristic search that were presented for the Maximum Parsimony method. Note: no-one has sofar presented a branch-and-bound method for finding the least squares tree exactly. Day (1986) has shown that this problem is NP-complete. The search is not only among tree topologies, but also among branch lengths. 3. Vorlesung WS 2006/2007 Softwarewerkzeuge der Bioinformatik

69 Methods of rooting the tree
There are many rooted trees, one for each branch of this unrooted tree, and all have the same number of changes of state. The number of changes of state only depends on the unrooted tree, and not at all on where the tree is then rooted. Biologists want to think of trees as rooted  need method to place the root in an otherwise unrooted tree. (1) Outgroup criterion (2) Use a molecular clock. 3. Vorlesung WS 2006/2007 Softwarewerkzeuge der Bioinformatik

70 Softwarewerkzeuge der Bioinformatik
Outgroup criterion Assumes that we know the answer in advance. Suppose that we have a number of great apes, plus a single old-world monkey. Suppose that we know that the great apes are a monophyletic group. If we infer a tree of these species, we know that the root must be placed on the lineage that connects the old-world monkey (outgroup) to the great apes (ingroup). 3. Vorlesung WS 2006/2007 Softwarewerkzeuge der Bioinformatik

71 Softwarewerkzeuge der Bioinformatik
Molecular clock If an equal amount of changes were observed on all lineages, there should be a point on the tree that has equal amounts of change (branch lengths) from there to all tips. With a molecular clock, it is only the expected amounts of change that are equal. The observed amounts may not be.  using various methods find a root that makes the amounts of change approximately equal on all lineages. 3. Vorlesung WS 2006/2007 Softwarewerkzeuge der Bioinformatik

72 Softwarewerkzeuge der Bioinformatik
Branch lengths Having found an unrooted tree, locate the changes on it and find out how many occur in each of the branches. The location of the changes can be ambiguous.  average over all possible reconstructions of each character for which there is ambiguity in the unrooted tree. Fractional numbers in some branches of left tree add up to (integer) number of changes (right) 3. Vorlesung WS 2006/2007 Softwarewerkzeuge der Bioinformatik

73 Softwarewerkzeuge der Bioinformatik
Open questions * Particularly for larger data sets, need to know how to count number of changes of state by use of an algorithm. * need to know algorithm for reconstructing states at interior nodes of the tree. * need to know how to search among all possible trees for the most parsimonious ones, and how to infer branch lengths. * sofar only considered simple model of 0/1 characters. DNA sequences have 4 states, protein sequences 20 states. * Justification: is it reasonable to use the parsimony criterion? If so, what does it implicitly assume about the biology? * What is the statistical status of finding the most parsimonious tree? Can we make statements how well-supported it is compared to other trees? 3. Vorlesung WS 2006/2007 Softwarewerkzeuge der Bioinformatik

74 dynamische Programmierung mit MSA Programm
Links: Baum für 5 Sequenzen ohne Paarung von Sequenzen. Neighbour-joining Methode: berechne Summe aller Kantenlängen S = a + b + c + d + e (Kantenlängen sind bekannt) In diesem Fall seien sich A und B am nächsten. Konstruiere daher den Baum rechts. Generell: Verbinde die Sequenzpaare mit den kürzesten Abständen …  Man erhält den Baum mit der kleinsten Summe der Kantenlängen. Konstruiere anhand phylogenetischem Baum ein versuchsweises Multiples Sequenz Alignment. 3. Vorlesung WS 2006/2007 Softwarewerkzeuge der Bioinformatik

75 dynamische Programmierung mit MSA Programm
Dieses Alignment dient dazu, den möglichen Raum inmitten des Würfels einzugrenzen, in dem das beste MSA zu finden sein sollte. Grosse Rechenersparnis! 3. Vorlesung WS 2006/2007 Softwarewerkzeuge der Bioinformatik

76 limitation of distance methods
Distance matrix methods are the easiest phylogeny method to program, and they are very fast. Distance methods have problems when the evolutionary rates vary largely. One can correct for this in distance methods as well as in likelihood methods. When variation of rates is large, these corrections become important. In likelihood methods, the correction can use information from changes in one part of the tree to inform the correction in others. Once a particular part of the molecule is seen to change rapidly in the primates, this will affect the interpretation of that part of the molecule among the rodents as well. But a distance matrix method is inherently incapable of propagating the information in this way. Once one is looking at changes within rodents, it will forget where changes were seen among primates. 3. Vorlesung WS 2006/2007 Softwarewerkzeuge der Bioinformatik

77 Evaluating a particular tree
Figure right shows another tree also requiring 8 changes. These two most parsimonious trees are the same tree when the roots of the tree are removed. 3. Vorlesung WS 2006/2007 Softwarewerkzeuge der Bioinformatik

78 Softwarewerkzeuge der Bioinformatik
Divergente Sequenzen Die am meisten divergenten Sequenzen (also am stärksten von allen anderen Sequenzen verschiedenen) sind gewönlich am schwierigsten zu alignieren Es ist manchmal besser, ihr Alignment auf einen späteren Zeitpunkt zu verschieben (nachdem die einfacheren Sequenzen aligniert wurden) Man kann dazu einen Cutoff wählen (der Default liegt bei 40% Identität). 3. Vorlesung WS 2006/2007 Softwarewerkzeuge der Bioinformatik

79 Softwarewerkzeuge der Bioinformatik
Fitch algorithm intended to count the number of changes in a bifurcating tree with nucleotide sequence data, in which any one of the 4 bases (A, C, G, T) can change to any other. At the particular site, we have observed the bases C, A, C, A and G in the 5 species. Give them in the order in which they appear in the tree, left to right. 3. Vorlesung WS 2006/2007 Softwarewerkzeuge der Bioinformatik

80 Softwarewerkzeuge der Bioinformatik
Fitch algorithm For the left two, at the node that is their immediate common ancestor, attempt to construct the intersection of the two sets. But as {C}  {A} =  instead construct the union {C}  {A} = {AC} and count 1 change of state. For the rightmost pair of species, assign common ancestor as {AG}, since {A}  {G} =  and count another .... proceed to bottom Total number of changes = 3. Algorithm works on arbitrarily large trees. 3. Vorlesung WS 2006/2007 Softwarewerkzeuge der Bioinformatik

81 Complexity of Fitch algorithm
Fitch algorithm can be carried out in a number of operations that is proportional to the number of species (tips) on the tree. Don‘t we need to multiply this by the number of sites n ? Any site that is invariant (which has the same base in all species, e.g. AAAAA) can be dropped. Other sites with a single variant base (e.g. ATAAA) will only require a single change of state on all trees. These too can be dropped. For sites with the same pattern (e.g. CACAG) that we have already seen, simply use number of changes previously computed. Pattern following same symmetry (e.g. TCTCA = CACAG) need same number of changes  numerical effort rises slower than linearly with the number of sites. 3. Vorlesung WS 2006/2007 Softwarewerkzeuge der Bioinformatik

82 Softwarewerkzeuge der Bioinformatik
Sankoff algorithm Fitch algorithm is very effective – but we can‘t understand why it works. Sankoff algorithm: more complex, but its structure is more apparent. Assume that we have a table of the cost of changes cij between each character state i and each other state j. Compute the total cost of the most parsimonious combinations of events by computing it for each character. For a given character, compute for each node k in the tree a quantity Sk(i). This is interpreted as the minimal cost, given that node k is assigned state i, of all the events upwards from node k in the tree. 3. Vorlesung WS 2006/2007 Softwarewerkzeuge der Bioinformatik

83 Softwarewerkzeuge der Bioinformatik
Least square method v2 v1 v5 v6 v7 v4 v3 Number species in alphabetical order. The expected distance between species A and D d14 = v1 + v7 + v4 The expected distance between species B and E d25 = v5 + v6 + v7 + v2. 3. Vorlesung WS 2006/2007 Softwarewerkzeuge der Bioinformatik


Herunterladen ppt "V3 - Multiples Sequenz Alignment und Phylogenie"

Ähnliche Präsentationen


Google-Anzeigen