Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

Softwarewerkzeuge der Bioinformatik1 V3 - Multiples Sequenz Alignment und Phylogenie Literatur: Kapitel 4 in Buch von David Mount Thioredoxin-Beispiel.

Ähnliche Präsentationen


Präsentation zum Thema: "Softwarewerkzeuge der Bioinformatik1 V3 - Multiples Sequenz Alignment und Phylogenie Literatur: Kapitel 4 in Buch von David Mount Thioredoxin-Beispiel."—  Präsentation transkript:

1 Softwarewerkzeuge der Bioinformatik1 V3 - Multiples Sequenz Alignment und Phylogenie Literatur: Kapitel 4 in Buch von David Mount Thioredoxin-Beispiel heute aus Buch von Arthur Lesk 3. Vorlesung SS 2009

2 Softwarewerkzeuge der Bioinformatik2 Homologie: Ähnlichkeit, die durch Abstammung von einem gemeinsamen Ursprungsgen herrührt – die Identifizierung und Analyse von Homologien ist eine zentrale Aufgabe der Phylogenie. Ein Alignment ist eine Hypothese für die positionelle Homologie zwischen Basenpaaren bzw. Aminosäuren. Definition von Homologie 3. Vorlesung SS 2009

3 Softwarewerkzeuge der Bioinformatik3 Einfach Schwierig wegen Insertionen und Deletionen (indels) Alignments können einfach oder schwer sein GCGGCCCA TCAGGTACTT GGTGG GCGGCCCA TCAGGTAGTT GGTGG GCGTTCCA TCAGCTGGTT GGTGG GCGTCCCA TCAGCTAGTT GGTGG GCGGCGCA TTAGCTAGTT GGTGA ******** ********** ***** TTGACATG CCGGGG---A AACCG TTGACATG CCGGTG--GT AAGCC TTGACATG -CTAGG---A ACGCG TTGACATG -CTAGGGAAC ACGCG TTGACATC -CTCTG---A ACGCG ******** ?????????? ***** Kann man beweisen, dass ein Alignment korrekt ist? 3. Vorlesung SS 2009

4 Softwarewerkzeuge der Bioinformatik4 Homo sapiens DjlA protein Escherichia coli DjlA protein Protein-Alignment kann durch tertiäre Strukturinformationen geführt werden Nur so kann man letztlich bewerten, ob ein Sequenzalignment korrekt ist. Beweisen im strikten Sinne kann man dies nie. Gaps eines Alignments sollten vorwiegend in Loops liegen, nicht in Sekundär- struktur- elementen. 3. Vorlesung SS 2009

5 Softwarewerkzeuge der Bioinformatik5 MSA für Thioredoxin-Familie Farbe AminosäuretypAminosäuren gelbklein, wenig polarGly, Ala, Ser, Thr grünhydrophobCys, Val, Ile, Leu Pro, Phe, Tyr, Met, Trp violettpolarAsn, Gln, His rotnegativ geladenAsp, Glu blaupositiv geladenLys, Arg 3. Vorlesung SS 2009

6 Softwarewerkzeuge der Bioinformatik6 Infos aus MSA von Thioredoxin-Familie Thioredoxin: aus 5 beta-Strängen bestehendes beta-Faltblatt, das auf beiden Seiten von alpha-Helices flankiert ist. Gemeinsamer Mechanismus: Reduktion von Disulfidbrücken in Proteinen 3. Vorlesung SS 2009

7 Softwarewerkzeuge der Bioinformatik7 Infos aus MSA von Thioredoxin-Familie 1) Die am stärksten konservierten Abschnitte entsprechen wahrscheinlich dem aktiven Zentrum. Disulfidbrücke zwischen Cys32 und Cys35 gehört zu dem konservierten WCGPC[K oder R] Motiv. Andere konservierte Sequenzabschnitte, z.B. Pro76Thr77 und Gly92Gly93 sind an der Substratbindung beteiligt. 3. Vorlesung SS 2009

8 Softwarewerkzeuge der Bioinformatik8 Infos aus MSA von Thioredoxin-Familie 2) Abschnitte mit vielen Insertionen und Deletionen entsprechen vermutlich Schleifen an der Oberfläche. Eine Position mit einem konservierten Gly oder Pro lässt auf eine Wendung der Kette (turn) schließen. 3. Vorlesung SS 2009

9 Softwarewerkzeuge der Bioinformatik9 Infos aus MSA von Thioredoxin-Familie 3) Ein konserviertes Muster hydrophober Bausteine mit dem Abstand 2 (d.h., an jeder zweiten Position), bei dem die dazwischen liegenden Bausteine vielfältiger sind und auch hydrophil sein können, lässt auf ein -Faltblatt an der Moleküloberfläche schließen. 3. Vorlesung SS 2009

10 Softwarewerkzeuge der Bioinformatik10 Infos aus MSA von Thioredoxin-Familie 4) Ein konserviertes Muster hydrophober Aminosäurereste mit dem Abstand von ungefähr 4 lässt auf eine -Helix schließen. 3. Vorlesung SS 2009

11 Softwarewerkzeuge der Bioinformatik11 Hier gibt es vor allem folgende 2 wichtigen Methoden: Dynamische Programmierung –liefert garantiert das optimale Alignment! –aber: betrache 2 Proteinsequenzen von 100 Aminosäuren Länge. wenn es Sekunden dauert, diese beiden Sequenzen erschöpfend zu alignieren, dann wird es Sekunden dauern um 3 Sequenzen zu alignieren, Sekunden für 4 Sequenzen und x10 34 Jahre für 20 Sequenzen. Progressives Alignment Automatisches multiples Sequenzalignment 3. Vorlesung SS 2009

12 Softwarewerkzeuge der Bioinformatik12 berechne zunächst paarweise Alignments für 3 Sequenzen wird Würfel aufgespannt: D.h. dynamische Programmierung hat nun Komplexität n1 * n2 * n3 mit den Sequenzlängen n1, n2, n3. Sehr aufwändig!Versuche, Suchraum einzuschränken und nur einen kleinen Teil des Würfels abzusuchen. dynamische Programmierung mit MSA Programm 3. Vorlesung SS 2009

13 Softwarewerkzeuge der Bioinformatik13 wurde von Feng & Doolittle 1987 vorgestellt ist eine heuristische Methode. Daher ist nicht garantiert, das optimale Alignment zu finden. benötigt (n-1) + (n-2) + (n-3)... (n-n+1) paarweise Sequenzalignments als Ausgangspunkt. weitverbreitete Implementation in Clustal (Des Higgins) ClustalW ist eine neuere Version, in der den Parameter für Sequenzen und Programm Gewichte (weights) zugeteilt werden. Progressives Alignment 3. Vorlesung SS 2009

14 Softwarewerkzeuge der Bioinformatik14 Berechne alle möglichen paarweisen Alignments von Sequenzpaaren. Es gibt (n-1)+(n-2)...(n-n+1) Möglichkeiten. Berechne aus diesen isolierten paarweisen Alignments den Abstand zwischen jedem Sequenzpaar. Erstelle eine Abstandsmatrix. aus den paarweisen Distanzen wird ein Nachbarschafts-Baum erstellt Dieser Baum gibt die Reihenfolge an, in der das progressive Alignment ausgeführt werden wird. ClustalW- Paarweise Alignments 3. Vorlesung SS 2009

15 Softwarewerkzeuge der Bioinformatik15 Schnelle paarweise Alignments: berechne Matrix der Abstände 1 PEEKSAVTALWGKVN--VDEVGG 2 GEEKAAVLALWDKVN--EEEVGG 3 PADKTNVKAAWGKVGAHAGEYGA 4 AADKTNVKAAWSKVGGHAGEYGA 5 EHEWQLVLHVWAKVEADVAGHGQ Hbb_Human 1 - Hbb_Horse Hba_Human Hba_Horse Myg_Whale Hbb_Human Hbb_Horse Hba_Horse Hba_Human Myg_Whale alpha-helices Nachbar-Verbindungs- Baumdiagramm progressive Alignments entsprechend dem Baumdiagramm CLUSTAL W Überblick der ClustalW Prozedur 3. Vorlesung SS 2009

16 Softwarewerkzeuge der Bioinformatik16 Vorteil: –Geschwindigkeit. Nachteile: –keine objektive Funktion. –Keine Möglichkeit zu quantifizieren ob Alignment gut oder schlecht ist (vgl. E-value für BLAST) –Keine Möglichkeit festzustellen, ob das Alignment korrekt ist Mögliche Probleme: –Prozedur kann in ein lokales Minimum geraten. D.h. falls zu einem frühen Zeitpunkt ein Fehler im Alignment eingebaut wird, kann dieser später nicht mehr korrigiert werden, da die bereits alignierten Sequenzen fest bleiben. –Zufälliges Alignment. ClustalW- Vor- und Nachteile 3. Vorlesung SS 2009

17 Softwarewerkzeuge der Bioinformatik17 Sollen all Sequenzen gleich behandelt werden? Obwohl manche Sequenzen eng verwandt und andere entfernt verwandt sind? Sequenzgewichtung Variable Substitutionsmatrizen Residuen-spezifische Gap-Penalties und verringerte Penalties in hydrophilen Regionen (externe Regionen von Proteinsequenzen), bevorzugt Gaps in Loops anstatt im Proteinkern. Positionen in frühen Alignments, an denen Gaps geöffnet wurden, erhalten lokal reduzierte Gap Penalties um in späteren Alignments Gaps an den gleichen Stellen zu bevorzugen ClustalW- Besonderheiten 3. Vorlesung SS 2009

18 Softwarewerkzeuge der Bioinformatik18 Zwei Parameter sind festzulegen (es gibt Default-Werte, aber man sollte sich bewusst sein, dass diese abgeändert werden können): Die GOP- Gap Opening Penalty ist aufzubringen um eine Lücke in einem Alignment zu erzeugen. Bevor irgendein Sequenzpaar aligniert wird, wird eine Tabelle von GOPs erstellt für jede Position der beiden Sequenzen. Die GOP werden positions-spezifisch behandelt und können über die Sequenzlänge variieren. Die GEP- Gap Extension Penalty ist aufzubringen um diese Lücke um eine Position zu verlängern. ClustalW- vom Benutzer festzulegende Parameter 3. Vorlesung SS 2009

19 Softwarewerkzeuge der Bioinformatik19 Falls ein GAP an einer Position existiert, werden die GOP und GEP penalties herabgesetzt – und alle anderen Regeln treffen nicht zu. Daher wird die Bildung von Gaps an Positionen wahrscheinlicher, an denen bereits Gaps existieren. Solange kein GAP offen ist, wird GOP hochgesetzt falls die Position innerhalb von 8 Residuen von einem bestehenden Gap liegt. Dadurch werden Gaps vermieden, die zu eng beieinander liegen. An jeder Position innerhalb einer Reihe von hydrophilen Residuen wird GOP herabgesetzt, da diese gewöhnlich in Loop-Regionen von Proteinstrukturen liegen. Eine Reihe von 5 hydrophilen Residuen gilt als hydrophiler stretch. Vermeide zu viele Gaps 3. Vorlesung SS 2009

20 Softwarewerkzeuge der Bioinformatik20 Es macht wenig Sinn, proteinkodierende DNS-Abschnitte zu alignieren! ATGCTGTTAGGG ATGCTCGTAGGG ATGCT-GTTAGGG ATGCTCGT-AGGG Das Ergebnis kann sehr unplausibel sein und entspricht eventuell nicht dem biologischen Prozess. Es ist viel sinnvoller, die Sequenzen in die entsprechenden Proteinsequenzen zu übersetzen, diese zu alignieren und dann in den DNS-Sequenzen an den Stellen Gaps einzufügen, an denen sie im Aminosäure-Alignment zu finden sind. Alignment von Protein-kodierenden DNS-Sequenzen 3. Vorlesung SS 2009

21 Softwarewerkzeuge der Bioinformatik21 Progressive Alignments sind die am weitesten verbreitete Methode für multiple Sequenzalignments. Sehr sensitive Methode ebenfalls: Hidden Markov Modelle (HMMer) Multiples Sequenzalignment ist nicht trivial. Manuelle Nacharbeit kann in Einzelfällen das Alignment verbessern. Multiples Sequenzalignment erlaubt Denken in Proteinfamilien und – funktionen. Zusammenfassung 3. Vorlesung SS 2009

22 Softwarewerkzeuge der Bioinformatik22 Rekonstruiere Phylogenien aus einzelnen Gensequenzen Material dieser Vorlesung aus - Kapitel 6, DW Mount Bioinformatics und aus Buch von Julian Felsenstein. Eine phylogenetische Analyse einer Familie verwandter Nukleinsäure- oder Proteinsequenzen bestimmt, wie sich diese Familie durch Evolution entwickelt haben könnte. Die evolutionären Beziehungen der Sequenzen können durch Darstellung als Blätter auf einem Baum veranschaulicht werden. Phylogenien, oder evolutionäre Bäume, sind die Grundlage um Unterschiede zwischen Arten zu beschreiben und statistisch zu analysieren. Es gibt sie seit über 140 Jahren und seit etwa 40 Jahren mit Hilfe von statistischen, algorithmischen und numerischen Verfahren. 3. Vorlesung SS 2009

23 Softwarewerkzeuge der Bioinformatik23 3 Hauptansätze für Phylogenien einzelner Gene - maximale Parsimonie - Distanzmatrix - maximum likelihood (wird hier nicht behandelt) Häufig verwendete Programme: PHYLIP (phylogenetic inference package – J Felsenstein) PAUP (phylogenetic analysis using parsimony – Sinauer Assoc) 3. Vorlesung SS 2009

24 Softwarewerkzeuge der Bioinformatik24 Parsimonie Methoden Edwards & Cavalli-Sforza (1963): derjenige evolutionäre Baum ist zu bevorzugen, der den minimalen Anteil an Evolution enthält. suche Phylogenien, die gerade so viele Zustandsänderungen beinhalten, wenn wir mit ihnen die evolutionären Vorgänge rekonstruieren, die zu den vorhandenen Daten (Sequenzen) führen. (1) Für jede vorgeschlagene Phylogenie müssen wir in der Lage sein, die Vorgänge zu rekonstruieren, die am wenigsten Zustandsänderungen benötigen. (2) Wir müssen unter allen möglichen Phylogenien nach denen suchen können, die eine minimale Anzahl an Zustandsänderungen beinhalten. 3. Vorlesung SS 2009

25 Softwarewerkzeuge der Bioinformatik25 Ein einfaches Beispiel Gegeben seien 6 Buchstaben lange Sequenzen aus 5 Spezies, die die Werte 0 oder 1 annehmen können Erlaubt seien Austausche 0 1 und 1 0. Der anfängliche Zustand an der Wurzel des Baums kann 0 oder 1 sein. 3. Vorlesung SS 2009

26 Softwarewerkzeuge der Bioinformatik26 Bewerte einen bestimmten Baum Um den Baum höchster Parsimonität zu finden müssen wir berechnen können, wie viele Zustandsänderungen für einen gegebenen Baum nötig sind. Dieser Baum stelle die Phylogenie des ersten Buchstabens dar. 3. Vorlesung SS 2009

27 Softwarewerkzeuge der Bioinformatik27 Bewerte einen bestimmten Baum Es gibt zwei gleich gute Rekonstruktionen, die jede nur eine Buchstabenänderung benötigen. Sie nehmen unterschiedliche Zustände an der Wurzel des Baums an und unterschiedliche Positionen für die eine Änderung. 3. Vorlesung SS 2009

28 Softwarewerkzeuge der Bioinformatik28 Bewerte einen bestimmten Baum Hier sind drei gleich gute Rekonstruktionen für den zweiten Buchstaben gezeigt, die jeweils zwei Zustandsänderungen benötigen. 3. Vorlesung SS 2009

29 Softwarewerkzeuge der Bioinformatik29 Bewerte einen bestimmten Baum Die gesamte Anzahl an Zustandsänderungen für die 6 Buchstaben auf diesem Baum ist = 9 Rekonstruktion der Zustandsänderungen auf diesem Baum 3. Vorlesung SS 2009

30 Softwarewerkzeuge der Bioinformatik30 Bewerte einen bestimmten Baum Ein anderer Baum, der nur 8 Zustandsänderungen benötigt. Die minimale Anzahl an Zustandsänderungen ist 6, da es 6 Buchstaben gibt, die jeweils 2 Zustände annehmen können. 3. Vorlesung SS 2009

31 Softwarewerkzeuge der Bioinformatik31 Finde den besten Baum durch heuristische Suche Die naheliegende Methode, den Baum höchster Parsimonie zu finden ist, ALLE möglichen Bäume zu betrachten und einzeln zu bewerten. Leider ist die Anzahl an möglichen Bäumen üblicherweise zu groß. verwende heuristische Suchmethoden, die versuchen, die besten Bäume zu finden ohne alle möglichen Bäume zu betrachten. (1) Konstruiere eine erste Abschätzung des Baums und verfeinere diesen durch kleine Änderungen = finde benachbarte Bäume. (2) Wenn irgendwelche dieser Nachbarn besser sind, verwende diese und setze die Suche fort. 3. Vorlesung SS 2009

32 Softwarewerkzeuge der Bioinformatik32 Zähle evolutionäre Zustandsänderungen Hierfür existieren zwei verwandte Algorithmen, die dynamische Programmierung verwenden: Fitch (1971) und Sankoff (1975) - bewerte eine Phylogenie Buchstabe für Buchstabe - betrachte jeden Buchstaben als Baum mit Wurzel an einem geeigneten Platz. - propagiere eine Information von oben nach unten durch den Baum; beim Erreichen der Blätter ist die Anzahl der Zustandsänderungen bekannt. Dabei werden die Zustandsänderungen oder internen Zustände an den Knoten des Baums nicht konstruiert. 3. Vorlesung SS 2009

33 Softwarewerkzeuge der Bioinformatik33 Sankoff Algorithmus Ermöglicht es, die Werte für jeden Knoten zu berechnen, und somit auch für den Wurzelknoten. Setze dazu die minimalen Kosten S(i) für den Wurzelknoten Dieses Vorgehen beschreibt die minimalen evolutionären Zustandsänderungen für den jeweiligen Zustand. In den Anfangsknoten (den Blättern) ist S(i) einfach zu berechnen. Die Kosten sind 0, wenn der beobachtete Zustand i ist, ansonsten sind die Kosten unendlich. Nun benötigen wir einen Algorithmus, der die minimalen Kosten S(i) für die mittleren Knoten berechnet, die die Vorfahren von jeweils zwei Vorgängerknoten bilden. 3. Vorlesung SS 2009

34 Softwarewerkzeuge der Bioinformatik34 Sankoff-Algorithmus Definiere die beiden Vorgängerknoten als l (linker Knoten) und r (rechter Knoten). Berechne für den inneren (ancestor) Knoten S a (i): Die kleinst-möglichen Kosten dafür dass Knoten a im Zustand i ist, sind die Kosten c ij für den Übergang von Zustand i nach j in dem linken Ast plus die Kosten S l (j) für Prozesse weiter oben im Teil des Baums, die entstehen wenn Knoten l im Zustand s j ist. Wähle j so, dass diese Summe minimal wird. Für den rechten Ast wird dieselbe Berechnung durchgeführt die Summe der beiden Minima sind die minimalen Kosten für den Teil des Baums über Knoten a, wenn dieser im Zustand i ist. Die Gleichung wird von oben nach unten für alle Knoten im Baum angewandt. Aus den berechneten S 0 (i)-Werten ergeben sich die minimalen Kosten für den ganzen Baum ermittelt. 3. Vorlesung SS 2009

35 Softwarewerkzeuge der Bioinformatik35 Sankoff-Algorithmus Der Vektor (6,6,7,8) an den Blättern besitzt ein Minimum von 6 = dies sind die minimalen Gesamtkosten dieses Baums für diesen Buchstaben. 3. Vorlesung SS 2009

36 Softwarewerkzeuge der Bioinformatik36 neighbor-joining Methode durch Saitou und Nei (1987) eingeführt – der Algorithmus verwendet Clustering und das Modell minimaler Evolution. ClustalW benutzt diesen Algorithmus. Modell minimaler Evolution wähle unter den möglichen Baumtopologien die mit der minimalen Gesamtlänge der Äste. Wenn die Distanzmatrix den Baum exakt abbildet, garantiert die Neighbor-joining Methode, als Methode der geringsten Quadrate den optimalen Baum zu finden. 3. Vorlesung SS 2009

37 Softwarewerkzeuge der Bioinformatik37 neighbor-joining Methode (1) Berechne für jedes Blatt (2) Wähle i und j sodass D ij – u i – u j minimal ist. (3) Verbinde i und j. Berechne die Astlängen von i zum neuen Knoten (v i ) und vom j zum neuen Knoten (v j ) als (4) Berechne den Abstand zwischen dem neuen Knoten (ij) und den übrigen Blättern als (5) Lösche die Blätter i und j aus den Listen und ersetze sie durch den neuen Knoten, (ij), der nun als neues Blatt behandelt wird. (6) Falls mehr als 2 Knoten übrig bleiben, gehe nach Schritt (1) zurück. Andernfalls verbinde die zwei verbleibenden Knoten (z.B. l und m) durch einen Ast der Länge D lm. 3. Vorlesung SS 2009

38 Softwarewerkzeuge der Bioinformatik38 zusätzliche Folien

39 3. Vorlesung WS 2007/2008 Softwarewerkzeuge der Bioinformatik39 Methoden für Einzel-Gen-Phylogenien Wähle Menge von verwandten Sequenzen Berechne multiples Sequenz- alignment Gibt es starke Sequenz- ähnlichkeit? Maximale Parsimonie Methoden Ja Nein Gibt es deutlich erkenn- bare Sequenzähnlichkeit? Ja Distanz- methoden Nein Maximum likelihood Methoden Analysiere wie gut die Daten die Vorhersage unterstützen

40 3. Vorlesung WS 2007/2008 Softwarewerkzeuge der Bioinformatik40 Bewerte einen bestimmten Baum Eine Rekonstruktion für den dritten Buchstaben mit einer Zustandsänderung.

41 3. Vorlesung WS 2007/2008 Softwarewerkzeuge der Bioinformatik41 für Buchstaben 6 ist eine Zustandsänderung erforderlich. Bewerte einen bestimmten Baum der vierte und fünfte Buchstabe haben dasselbe Muster, das zwei Zustandsänderungen erfordert.

42 3. Vorlesung WS 2007/2008 Softwarewerkzeuge der Bioinformatik42 Infos aus MSA von Thioredoxin-Familie Die Thioredoxine sind Teil einer Superfamilie, zu der auch viele weiter entfernte homologe Protein gehören, z.B. Glutaredoxin (Wasserstoffdonor für die Reduktion von Ribonukleotiden bei der DNA-Synthese) Protein-Disulfidisomerase (katalysiert bei der Proteinfaltung den Austausch falsch gefalteter Disulfidbrücken) Phosducin (Regulator in G-Protein-abhängigen Signalübertragungswegen) Glutathion-S-Transferasen (Proteine der chemischen Abwehr). Die Tabelle des MSAs für Thioredoxinsequenzen enthält implizit Muster, die man zur Identifizierung dieser entfernteren Verwandten nutzen kann.

43 3. Vorlesung WS 2007/2008 Softwarewerkzeuge der Bioinformatik43 Es gibt im wesentlichen 3 unterschiedliche Vorgehensweisen: (1) Manuell ein manuelles Alignment bietet sich an falls Alignment einfach ist. es zusätzliche (strukturelle) Information gibt automatische Alignment –Methoden in lokalen Minima feststecken. ein automatisch erzeugtes Alignment manuell verbessert werden kann. (2) Automatisch (3) Kombiniert Multiples Sequenz-Alignment - Methoden

44 3. Vorlesung WS 2007/2008 Softwarewerkzeuge der Bioinformatik44 GDE- The Genetic Data Environment (UNIX) CINEMA- Java applet available from: –http://www.biochem.ucl.ac.uk Seqapp/Seqpup- Mac/PC/UNIX available from: –http://iubio.bio.indiana.edu SeAl for Macintosh, available from: –http://evolve.zoo.ox.ac.uk/Se-Al/Se-Al.html BioEdit for PC, available from: –http://www.mbio.ncsu.edu/RNaseP/info/programs/BIOEDIT/bioedit.html Software für manuelle Alignments

45 3. Vorlesung WS 2007/2008 Softwarewerkzeuge der Bioinformatik45 Sequenz: MGGRSSCEDP GCPRDEERAP RMGCMKSKFL QVGGNTFSKT ETSASPHCPV YVPDPTSTIK PGPNSHNSNT PGIREAGSED IIVVALYDYE AIHHEDLSFQ KGDQMVVLEE SGEWWKARSL ATRKEGYIPS NYVARVDSLE TEEWFFKGIS RKDAERQLLA PGNMLGSFMI RDSETTKGSY SLSVRDYDPR QGDTVKHYKI RTLDNGGFYI SPRSTFSTLQ ELVDHYKKGN DGLCQKLSVP CMSSKPQKPW EKDAWEIPRE SLKLEKKLGA GQFGEVWMAT YNKHTKVAVK TMKPGSMSVE AFLAEANVMK TLQHDKLVKL HAVVTKEPIY IITEFMAKGS LLDFLKSDEG SKQPLPKLID FSAQIAEGMA FIEQRNYIHR DLRAANILVS ASLVCKIADF GLARVIEDNE YTAREGAKFP IKWTAPEAIN FGSFTIKSDV WSFGILLMEI VTYGRIPYPG MSNPEVIRAL ERGYRMPRPE NCPEELYNIM MRCWKNRPEE RPTFEYIQSV LDDFYTATES QYQQQP SMART ergibt: Beispiel: Src-Kinase HcK

46 3. Vorlesung WS 2007/2008 Softwarewerkzeuge der Bioinformatik46 Kinase-Einheit Beispiel: Src-Kinase HcK Protein Data Bank 1ATP

47 3. Vorlesung WS 2007/2008 Softwarewerkzeuge der Bioinformatik47 SH3 Domäne Src homology 3 (SH3) Domänen binden an Zielproteine mit Sequenzen, die Proline und hydrophobe Aminosäuren enthalten. Pro-enthaltende Polypeptide können an SH3 in zwei verschiedenen Orientierungen binden. SH3 Domänen sind kleine Proteinmodule von ungefähr 50 Residuen Länge. Man findet sie in vielen intrazellulären oder Membran-assoziierten Proteinen … Beispiel: Src-Kinase HcK CATH: 1abo

48 3. Vorlesung WS 2007/2008 Softwarewerkzeuge der Bioinformatik48 SH2 Domäne Die Src homology 2 (SH2) Domäne ist eine Proteindomäne mit etwa 100 Aminosäuren. SH2 Domänen funktionieren als Regelmodule von intrazellulären Signalkaskaden indem sie mit grosser Affinität an Phospho-Tyrosin enthaltende Peptide binden. SH2 Domänen findet man oft zusammen mit SH3 Domänen … Ihre Struktur ist alpha+beta … Beispiel: Src-Kinase HcK CATH: 1g83 1fbz1aot

49 3. Vorlesung WS 2007/2008 Softwarewerkzeuge der Bioinformatik49 Beispiel: Src-Kinase HcK

50 3. Vorlesung WS 2007/2008 Softwarewerkzeuge der Bioinformatik50 Was kann man mit modularem Denken erreichen?

51 3. Vorlesung WS 2007/2008 Softwarewerkzeuge der Bioinformatik51 Least square method D AB + D AC + D AD + D AE = 4v 1 + v 2 + v 3 + v 4 + v 5 + 2v 6 + 2v 7 D AB + D BC + D BD + D BE = v 1 + 4v 2 + v 3 + v 4 + v 5 + 2v 6 + 3v 7 D AC + D BC + D CD + D CE = v 1 + v 2 + 4v 3 + v 4 + v 5 + 3v 6 + 2v 7 D AD + D BD + D CD + D DE = v 1 + v 2 + v 3 + 4v 4 + v 5 + 2v 6 + 3v 7 D AE + D BE + D CE + D DE = v 1 + v 2 + v 3 + v 4 + 4v 5 + 3v 6 + 2v 7 D AC + D AE + D BC + D BE + D CD + D DE = 2v 1 + 2v 2 + 3v 3 + 2v 4 + 3v 5 + 6v 6 + 4v 7 D AB + D AD + D BC + D CD + D BE + D DE = 2v 1 + 3v 2 + 2v 3 + 3v 4 + 2v 5 + 4v 6 + 6v 7 Stack up the ( = 10) D ij, in alphabetical order, into a vector and the coefficients x ijk are arranged in a matrix X with each row corresponding to the D ij in the row of d and containing a 1 if branch k occurs on the path between species i and j.

52 3. Vorlesung WS 2007/2008 Softwarewerkzeuge der Bioinformatik52 Least square method If we also stack up the 7 v i into a vector v, the previous set of linear equations can be compactly expressed as: Multiplied from the left by the inverse of X T X one can solve for the least squares branch lengths This is a standard method of expressing least squares problems in matrix notation and solving them. check for example :-)

53 3. Vorlesung WS 2007/2008 Softwarewerkzeuge der Bioinformatik53 Least square method When we have weighted least squares, with a diagonal matrix of weights in the same order as the D ij : then the least square equations can be written and their solution

54 3. Vorlesung WS 2007/2008 Softwarewerkzeuge der Bioinformatik54 Finding the least squares tree topology Now that we are able to assign branch lengths to each tree topology. we need to search among tree topologies. This can be done by the same methods of heuristic search that were presented for the Maximum Parsimony method. Note: no-one has sofar presented a branch-and-bound method for finding the least squares tree exactly. Day (1986) has shown that this problem is NP-complete. The search is not only among tree topologies, but also among branch lengths.

55 3. Vorlesung WS 2007/2008 Softwarewerkzeuge der Bioinformatik55 Methods of rooting the tree There are many rooted trees, one for each branch of this unrooted tree, and all have the same number of changes of state. The number of changes of state only depends on the unrooted tree, and not at all on where the tree is then rooted. Biologists want to think of trees as rooted need method to place the root in an otherwise unrooted tree. (1) Outgroup criterion (2) Use a molecular clock.

56 3. Vorlesung WS 2007/2008 Softwarewerkzeuge der Bioinformatik56 Outgroup criterion Assumes that we know the answer in advance. Suppose that we have a number of great apes, plus a single old-world monkey. Suppose that we know that the great apes are a monophyletic group. If we infer a tree of these species, we know that the root must be placed on the lineage that connects the old-world monkey (outgroup) to the great apes (ingroup).

57 3. Vorlesung WS 2007/2008 Softwarewerkzeuge der Bioinformatik57 Molecular clock If an equal amount of changes were observed on all lineages, there should be a point on the tree that has equal amounts of change (branch lengths) from there to all tips. With a molecular clock, it is only the expected amounts of change that are equal. The observed amounts may not be. using various methods find a root that makes the amounts of change approximately equal on all lineages.

58 3. Vorlesung WS 2007/2008 Softwarewerkzeuge der Bioinformatik58 Branch lengths Having found an unrooted tree, locate the changes on it and find out how many occur in each of the branches. The location of the changes can be ambiguous. average over all possible reconstructions of each character for which there is ambiguity in the unrooted tree. Fractional numbers in some branches of left tree add up to (integer) number of changes (right)

59 3. Vorlesung WS 2007/2008 Softwarewerkzeuge der Bioinformatik59 Open questions * Particularly for larger data sets, need to know how to count number of changes of state by use of an algorithm. * need to know algorithm for reconstructing states at interior nodes of the tree. * need to know how to search among all possible trees for the most parsimonious ones, and how to infer branch lengths. * sofar only considered simple model of 0/1 characters. DNA sequences have 4 states, protein sequences 20 states. * Justification: is it reasonable to use the parsimony criterion? If so, what does it implicitly assume about the biology? * What is the statistical status of finding the most parsimonious tree? Can we make statements how well-supported it is compared to other trees?

60 3. Vorlesung WS 2007/2008 Softwarewerkzeuge der Bioinformatik60 dynamische Programmierung mit MSA Programm Links: Baum für 5 Sequenzen ohne Paarung von Sequenzen. Neighbour-joining Methode: berechne Summe aller Kantenlängen S = a + b + c + d + e (Kantenlängen sind bekannt) In diesem Fall seien sich A und B am nächsten. Konstruiere daher den Baum rechts. Generell: Verbinde die Sequenzpaare mit den kürzesten Abständen … Man erhält den Baum mit der kleinsten Summe der Kantenlängen. Konstruiere anhand phylogenetischem Baum ein versuchsweises Multiples Sequenz Alignment.

61 3. Vorlesung WS 2007/2008 Softwarewerkzeuge der Bioinformatik61 Dieses Alignment dient dazu, den möglichen Raum inmitten des Würfels einzugrenzen, in dem das beste MSA zu finden sein sollte. Grosse Rechenersparnis! dynamische Programmierung mit MSA Programm

62 3. Vorlesung WS 2007/2008 Softwarewerkzeuge der Bioinformatik62 limitation of distance methods Distance matrix methods are the easiest phylogeny method to program, and they are very fast. Distance methods have problems when the evolutionary rates vary largely. One can correct for this in distance methods as well as in likelihood methods. When variation of rates is large, these corrections become important. In likelihood methods, the correction can use information from changes in one part of the tree to inform the correction in others. Once a particular part of the molecule is seen to change rapidly in the primates, this will affect the interpretation of that part of the molecule among the rodents as well. But a distance matrix method is inherently incapable of propagating the information in this way. Once one is looking at changes within rodents, it will forget where changes were seen among primates.

63 3. Vorlesung WS 2007/2008 Softwarewerkzeuge der Bioinformatik63 Evaluating a particular tree Figure right shows another tree also requiring 8 changes. These two most parsimonious trees are the same tree when the roots of the tree are removed.

64 3. Vorlesung WS 2007/2008 Softwarewerkzeuge der Bioinformatik64 Die am meisten divergenten Sequenzen (also am stärksten von allen anderen Sequenzen verschiedenen) sind gewönlich am schwierigsten zu alignieren Es ist manchmal besser, ihr Alignment auf einen späteren Zeitpunkt zu verschieben (nachdem die einfacheren Sequenzen aligniert wurden) Man kann dazu einen Cutoff wählen (der Default liegt bei 40% Identität). Divergente Sequenzen

65 3. Vorlesung WS 2007/2008 Softwarewerkzeuge der Bioinformatik65 Fitch algorithm intended to count the number of changes in a bifurcating tree with nucleotide sequence data, in which any one of the 4 bases (A, C, G, T) can change to any other. At the particular site, we have observed the bases C, A, C, A and G in the 5 species. Give them in the order in which they appear in the tree, left to right.

66 3. Vorlesung WS 2007/2008 Softwarewerkzeuge der Bioinformatik66 Fitch algorithm For the left two, at the node that is their immediate common ancestor, attempt to construct the intersection of the two sets. But as {C} {A} = instead construct the union {C} {A} = {AC} and count 1 change of state. For the rightmost pair of species, assign common ancestor as {AG}, since {A} {G} = and count another change of state..... proceed to bottom Total number of changes = 3. Algorithm works on arbitrarily large trees.

67 3. Vorlesung WS 2007/2008 Softwarewerkzeuge der Bioinformatik67 Complexity of Fitch algorithm Fitch algorithm can be carried out in a number of operations that is proportional to the number of species (tips) on the tree. Dont we need to multiply this by the number of sites n ? Any site that is invariant (which has the same base in all species, e.g. AAAAA) can be dropped. Other sites with a single variant base (e.g. ATAAA) will only require a single change of state on all trees. These too can be dropped. For sites with the same pattern (e.g. CACAG) that we have already seen, simply use number of changes previously computed. Pattern following same symmetry (e.g. TCTCA = CACAG) need same number of changes numerical effort rises slower than linearly with the number of sites.

68 3. Vorlesung WS 2007/2008 Softwarewerkzeuge der Bioinformatik68 Sankoff algorithm Fitch algorithm is very effective – but we cant understand why it works. Sankoff algorithm: more complex, but its structure is more apparent. Assume that we have a table of the cost of changes c ij between each character state i and each other state j. Compute the total cost of the most parsimonious combinations of events by computing it for each character. For a given character, compute for each node k in the tree a quantity S k (i). This is interpreted as the minimal cost, given that node k is assigned state i, of all the events upwards from node k in the tree.

69 3. Vorlesung WS 2007/2008 Softwarewerkzeuge der Bioinformatik69 Least square method Number species in alphabetical order. The expected distance between species A and D d 14 = v 1 + v 7 + v 4 The expected distance between species B and E d 25 = v 5 + v 6 + v 7 + v 2. v1v1 v2v2 v3v3 v4v4 v5v5 v6v6 v7v7

70 3. Vorlesung WS 2007/2008 Softwarewerkzeuge der Bioinformatik70 aligniere die beiden ähnlichsten Sequenzen zuerst. dieses Alignment ist dann fest und wird nicht mehr angetastet. Falls später ein GAP eingeführt werden muss, wird er in beiden Sequenzen an der gleichen Stelle eingeführt. Deren relatives Alignment bleibt unverändert. Multiples Alignment - Erstes Paar

71 3. Vorlesung WS 2007/2008 Softwarewerkzeuge der Bioinformatik71 Ziehe den Baum heran um festzulegen, welches Alignment als nächstes durchgeführt werden soll: –aligniere eine dritte Sequenz zu den ersten beiden oder –aligniere zwei total verschiedene Sequenzen miteinander. Option 1 Option 2 Clustal W – Zeit der Entscheidung

72 3. Vorlesung WS 2007/2008 Softwarewerkzeuge der Bioinformatik72 Wenn beim Alignment einer dritten Sequenz mit den ersten beiden eine Lücke eingefügt werden muss um das Alignment zu verbessern, werden beide als Einzelsequenzen betrachtet. + ClustalW- 2 Alternativen + Falls, andererseits, zwei getrennte Sequenzen aligniert werden müssen, werden diese zunächst miteinander aligniert.

73 3. Vorlesung WS 2007/2008 Softwarewerkzeuge der Bioinformatik73 gctcgatacgatacgatgactagcta gctcgatacaagacgatgacagcta gctcgatacacgatgactagcta gctcgatacacgatgacgagcga ctcgaacgatacgatgactagct gctcgatacgatacgatgactagcta gctcgatacaagacgatgac-agcta Progressives Alignment – 1. Schritt

74 3. Vorlesung WS 2007/2008 Softwarewerkzeuge der Bioinformatik74 gctcgatacgatacgatgactagcta gctcgatacaagacgatgacagcta gctcgatacacgatgactagcta gctcgatacacgatgacgagcga ctcgaacgatacgatgactagct gctcgatacacgatgactagcta gctcgatacacgatgacgagcga Progressives Alignment – 2. Schritt

75 3. Vorlesung WS 2007/2008 Softwarewerkzeuge der Bioinformatik75 gctcgatacgatacgatgactagcta gctcgatacaagacgatgac-agcta + gctcgatacacgatgactagcta gctcgatacacgatgacgagcga gctcgatacgatacgatgactagcta gctcgatacaagacgatgac-agcta gctcgatacacga---tgactagcta gctcgatacacga---tgacgagcga Progressives Alignment – 3. Schritt

76 3. Vorlesung WS 2007/2008 Softwarewerkzeuge der Bioinformatik76 gctcgatacgatacgatgactagcta gctcgatacaagacgatgac-agcta gctcgatacacga---tgactagcta gctcgatacacga---tgacgagcga + ctcgaacgatacgatgactagct gctcgatacgatacgatgactagcta gctcgatacaagacgatgac-agcta gctcgatacacga---tgactagcta gctcgatacacga---tgacgagcga -ctcga-acgatacgatgactagct- Progressives Alignment – letzter Schritt

77 3. Vorlesung WS 2007/2008 Softwarewerkzeuge der Bioinformatik77 Progressives Alignment ist ein mathematischer Vorgang, der völlig unabhängig von der biologischen Realität abläuft. Es kann eine sehr gute Abschätzung sein. Es kann eine unglaublich schlechte Abschätzung sein. Erfordert Input und Erfahrung des Benutzers. Sollte mit Vorsicht verwendet werden. Kann (gewöhnlich) manuell verbessert werden. Es hilft oft, farbliche Darstellungen zu wählen. Je nach Einsatzgebiet sollte der Benutzer in der Lage sein, die zuverlässigen Regionen des Alignments zu beurteilen. Für phylogenetische Rekonstruktionen sollte man nur die Positionen verwenden, für die eine zweifelsfreie Hypothese über positionelle Homologie vorliegt. Tips für progressives Alignment

78 3. Vorlesung WS 2007/2008 Softwarewerkzeuge der Bioinformatik78 Distance matrix methods introduced by Cavalli-Sforza & Edwards (1967) and by Fitch & Margoliash (1967) general idea seems as if it would not work very well (Felsenstein): - calculate a measure of the distance between each pair of species - find a tree that predicts the observed set of distances as closely as possible. All information from higher-order combinations of character states is left out. But computer simulation studies show that the amount of lost information is remarkably small. Best way to think about distance matrix methods: consider distances as estimates of the branch length separating that pair of species.

79 3. Vorlesung WS 2007/2008 Softwarewerkzeuge der Bioinformatik79 Least square method - observed table (matrix) of distances D ij - any particular tree leads to a predicted set of distances d ij.

80 3. Vorlesung WS 2007/2008 Softwarewerkzeuge der Bioinformatik80 Least square method Measure of the discrepancy between the observed and expected distances: where the weights w ij can be differently defined: - w ij = 1 (Cavalli&Sforza, 1967) - w ij = 1/D ij 2 (Fitch&Margoliash, 1967) - w ij = 1/D ij (Beyer et al., 1974) Aim: Find tree topology and branch lengths that minimize Q. Equation above is quadratic in branch lengths. Take derivative with respect to branch lengths, set = 0, and solve system of linear equations. Solution will minimize Q. Doug Brutlags course

81 3. Vorlesung WS 2007/2008 Softwarewerkzeuge der Bioinformatik81 Least square method Number all branches of the tree and introduce an indicator variable x ijk : x ijk = 1 if branch k lies in the path from species i to species j x ijk = 0 otherwise. The expected distance between i and j will then be and For the case with w ij = 1 ij. Note: these are k equations for each of the k branches.


Herunterladen ppt "Softwarewerkzeuge der Bioinformatik1 V3 - Multiples Sequenz Alignment und Phylogenie Literatur: Kapitel 4 in Buch von David Mount Thioredoxin-Beispiel."

Ähnliche Präsentationen


Google-Anzeigen