Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

Yue Lu and Sing-Hoi Sze Hauptseminar

Ähnliche Präsentationen


Präsentation zum Thema: "Yue Lu and Sing-Hoi Sze Hauptseminar"—  Präsentation transkript:

1 Multiple Sequence Alignment Based on Profile Alignment of Intermediate Sequences
Yue Lu and Sing-Hoi Sze Hauptseminar Aktuelle Probleme der Bioinformatik WS07/08 Annabelle Klarl Nach den Vorlesungen von letzter Woche in AlgoII bei Prof. Zimmer, passt jetzt mein Thema sehr gut…

2 Begriffe Ziel: Multiples Sequenz Alignment Methode: Profil Alignment
Multiple Sequence Alignment Based on Profile Alignment of Intermediate Sequences Begriffe Ziel: Multiples Sequenz Alignment Alignment von drei oder mehr Sequenzen, so dass übereinstimmende Bereiche übereinander liegen Methode: Profil Alignment Profil = relative Häufigkeit eines Rests pro Position in einer Sequenz Hilfsmittel: „Intermediate Sequences“ Sequenz, die ähnlicher zu zwei Sequenzen ist als diese beiden zueinander Zuerstmal möchte ich kurz darauf eingehen, was man unter diesem langen Titel der mit sovielen Fachbegriffen um sich wirft, versteht: MSA Profil… Alignment: alignieren von zwei Profilen nicht so leicht, wenn man bedenkt, dass sonst immer Score von zwei Resten berechnet wird, hier aber ein ganz er Vektor von Resten gegeben ist (später mehr) Intermediate: liegen eben so zwischen zwei Sequenzen, was das bringt später!  Bild Übergang: Zunächst erstmal mit MSA beschäftigen s1 r s2 Annabelle Klarl

3 Multiples Sequenz Alignment - Wozu?
Multiple Sequence Alignment Based on Profile Alignment of Intermediate Sequences Multiples Sequenz Alignment - Wozu? Identifizieren und Visualisieren konservierter Bereiche im Alignment (Motive, Domänen, Punktmutationen) Myosin: Motorproteinvon v.a. in Muskelfasern schwere Ketten: Kopfregion mit ATPase-Tätigkeit, Nackregion mit Bindestelle für leichte Ketten und Schwanzregion mit Proteininteraktionsdomänen längere ähnliche Bereiche: Motive oder Domänen hindeuten zu sehen: konserviertes Phenylalanin mit einer Punktmutation Leucin auch zu sehen: Insertionen Übergang: Was bringt uns das Wissen über solche konservierte Bereiche in mehreren Proteinen? Domäne: strukturelle Domäne: eigenständige Faltung funktionelle Domäne: eigenständige Struktur Motiv: Bereich auf der Sequenz, der im gleichen Molekül oder anderen immer wiederkehrt und dem eine biologische Bedeutung zugewiesen wird schwere Ketten von Myosin in verschiedenen Organismen: Annabelle Klarl

4 Multiples Sequenz Alignment - Wozu?
Multiple Sequence Alignment Based on Profile Alignment of Intermediate Sequences Multiples Sequenz Alignment - Wozu? Sequenzähnlichkeit kann bedeuten: gleiche phylogenetische Abstammung/Verwandtschaft funktionelle Ähnlichkeit Multiple Sequenz Alignments dienen zur: Charakterisierung von Domänen (PROSITE) Charakterisierung von Proteinfamilien (Profile) Erstellung phylogenetischer Bäume Sekundärstrukturvorhersage Anhand von MSA kann man diese Sequenzähnlichkeiten bestimmen aus der funkt. Ähnlichkeit: zunächst mal auf Domänen schließen (z.B. in PROSITE gespeichert) Verwandtschaft ableiten Bäume Proteinfamilien Vorhersage Übergang: Wenn sie schon so hilfreich sind, wie kann man sie dann berechnen? Annabelle Klarl

5 Multiples Sequenz Alignment - Wie?
Multiple Sequence Alignment Based on Profile Alignment of Intermediate Sequences Multiples Sequenz Alignment - Wie? exaktes Alignment nach Needleman-Wunsch erstellt für k Sequenzen eine k-dimensionale Matrix exponentieller Suchraum = (Länge der längsten Sequenz)k NP-Problem Sequenz 1 Sequenz 2 Sequenz 1 Sequenz 3 Sequenz 2 Wie geht das: für zwei Seqs: Matrix wie wir sie kennen für eine dritte Seq kommt dann eine Dimension dazu, wird dann ein Raum mit schon der Komplexität n³ für noch mehr n-dimensionale Matrix und exponentieller Suchraum  sogar bewiesen, dass NP-Problem Übergang: Wie alle NP-Problem, versucht man auch dieses über möglichst gute Heuristiken zu lösen (hier mal zwei vorgestellt) Annabelle Klarl

6 Multiples Sequenz Alignment - Wie?
Multiple Sequence Alignment Based on Profile Alignment of Intermediate Sequences Multiples Sequenz Alignment - Wie? Carillo-Lipman Algorithmus: paarweise Sequenz Alignment Ausschluss von Bereichen der n-dimensionalen Matrix immer noch sehr langsam gleiche Idee wie Needleman-Wunsch, aber paarweises Sequenz-Alignment  Ausschluss von Bereichen, die nicht mehr in einem best. Bereich um das optimale Alignment liegen  hier im 3D nur noch ein Schnittbereich, der alle optimalen Alignments einschließt Nachteil Carillo-Lipman: langsam Übergang: ein wenig andere Idee ist progressives Alignment Annabelle Klarl

7 Multiples Sequenz Alignment - Wie?
Multiple Sequence Alignment Based on Profile Alignment of Intermediate Sequences Multiples Sequenz Alignment - Wie? progressive Methode: Alignment aus zwei frei gewählten Sequenzen sukzessives Hinzualignieren der anderen Sequenzen Reihenfolge bestimmt Qualität des Alignments - G A - K K - A A - K K P G A - T P A G A - K - P T A A K K G A K K A A K K - G A K K - A A K K P G A T P A G A K - - G A K K - A A K K P G A T P - - G A K K P T A A K K - P G A T P - A G A K – - - A A K K bestimmen einer Ordnung der Sequenzen (z.B. phylogenetische Ordnung oder guide tree mit anderen Maßen als evolutionärer Abstand) beginne mit den Sequenzen, die sich am nächsten sind in der Ordnung immer die nächst verwandte dazu Nachteil progressiv: vorherbestimmte Ordnung der Sequenz beeinflusst Qualität des Alignments  wenn Ordnung schon falsch war, wird Alignment immer falscher, da zu Beginn schon nicht korrekt aligniert wird  hier zweites Bsp. viel besser: keine Lücken, obwohl die sehr verwandte Seq AAKK erst zum Schluss aligniert wurde? Übergang: einige Methoden, wie man solche Algorithmen verbessern kann Annabelle Klarl

8 Multiples Sequenz Alignment - Wie?
Multiple Sequence Alignment Based on Profile Alignment of Intermediate Sequences Multiples Sequenz Alignment - Wie? Verbessern der Genauigkeit: iterative Verfeinerung („iterative refinement“) Einbeziehen von Sekundärstrukturen Einbeziehen von Datenbanktreffern („intermediate sequences“) „consistency-based schemes“ Profil Alignment statt Sequenz Alignment iterative Verfeinerung: z.B: Zerlegung des fertigen Alignments in kleinere Stücke und realignieren Sekundärstrukturen: ähnliche Strukturen weißen auf ähnliche Funktionen hin  sollten aligniert werden Datenbanktreffer: fern verwandte Seqs schwer zu aligniern, aber evtl. zeigt DB- Treffer den Zusammenhang zwischen zwei Seqs consistency-based schemes: beim Alignieren von zwei Sequenzen wird beachtet, ob diese zwei Positionen mit der gleichen Position in einer dritten Sequenz aligniert wurden Profil Alignments: Aminosäuren müssen nicht exakt gematcht werden, sondern eine gewisse Variabilität pro Position wird zugelassen Übergang: Prozedur, die mehrere schon bekannte Methoden vereint  genauer anschauen (linke Seite Ablauf) ISPAlign: progressives Alignment mit allen Verbesserungen Annabelle Klarl

9 Datenbanksuche - Warum?
Multiple Sequence Alignment Based on Profile Alignment of Intermediate Sequences Datenbanksuche - Warum? Datenbanksuche Auswahl von Hits Erstellen von Profilen Sekundärstruktur- vorhersage paarweises Alignment Guide tree progressives Alignment iterative Verfeinerung gutes Alignment mehrerer Sequenzen schwierig (NP-Problem) noch mehr Sequenzen aus der Datenbank noch mehr Sequenzen zu alignieren noch schwereres Problem? Übergang: Kommt auf die Auswahl der Sequenzen an: Annabelle Klarl

10 Datenbanksuche Anforderung an Sequenz:
Multiple Sequence Alignment Based on Profile Alignment of Intermediate Sequences Datenbanksuche Datenbanksuche Auswahl von Hits Erstellen von Profilen Sekundärstruktur- vorhersage paarweises Alignment Guide tree progressives Alignment iterative Verfeinerung Anforderung an Sequenz: mit beiden Inputsequenzen alignierbar, aber möglichst entfernt verwandt ähnlicher zu den beiden Inputsequenzen als diese zueinander PSI-BLAST PSI-BLAST sucht zunächst nach verwandten Sequenzen, erstellt aus diesen Sequenzen ein Profil und sucht wieder verwandte Sequenzen  solange bis keine neuen mehr gefunden werden Irgendwie muss man diese näher verwandten Seqs raussuchen: Nachprozessierung Übergang: Für die Nachprozessierung nötig: Defintion von „näher verwandt“ Nachprozessierung der gemeinsamen Hits s1 r s2 Annabelle Klarl

11 Bestimmen von intermediaten Sequenzen
Multiple Sequence Alignment Based on Profile Alignment of Intermediate Sequences Bestimmen von intermediaten Sequenzen Datenbanksuche Auswahl von Hits Erstellen von Profilen Sekundärstruktur- vorhersage paarweises Alignment Guide tree progressives Alignment iterative Verfeinerung Sei d(x,y) der Distanzscore zwischen zwei Sequenzen x und y. Eine Sequenz r heißt intermediat (=dazwischen liegend) zwischen Sequenz s1 und s2, falls gilt: d(r,s1) < d(s1,s2) und d(r,s2) < d(s1,s2) Suche der Intermediaten Sequenzen recht einfach mit dieser Definition: Berechne Distanz zwischen den beiden Sequenzen z.B. mit SSEARCH: optimales globales Alignment  e-value als Distanz Berechne Distanz des gemeinsamen Hits jeweils zu den Sequenzen Vergleiche die Distanzen  intermediat? Übergang: Alle intermediate Seqs evtl viele, welche nimmt man? nicht!!! Distanzberechnungen: O(mn +n²)‏ Scorevergleiche: O(mn²)‏ BACKUP-FOLIE, wie kommt man auf die Laufzeit! Problem neu formulierbar: Wähle aus allen gemeinsamen Treffern die intermediaten Sequenzen aus Annabelle Klarl

12 Wahl eines Subsets von Intermediaten
Multiple Sequence Alignment Based on Profile Alignment of Intermediate Sequences Wahl eines Subsets von Intermediaten Datenbanksuche Auswahl von Hits Erstellen von Profilen Sekundärstruktur- vorhersage paarweises Alignment Guide tree progressives Alignment iterative Verfeinerung Auswahl von intermediaten Sequenzen möglichst wenige (Laufzeit des MSA) möglichst hilfreiche bzw. divergente (Ausschluss redundanter Informationen) Algorithmus zur Wahl des Subsets: Wähle k intermediate Sequenzen aus, deren minimale Distanz zu allen Sequenzen des Subsets die maximal mögliche ist. möglichst divergent: sehr verwandte Sequenzen beinhalten redundante Informationen (=überflüssige, die schon öfter vorkommen)  Überrepräsentation im Profil Übergang: weil hier schwer ersichtlich, was diese minimal Distanz bedeutet und was sie mit möglichst divergent zu tun hat  Bild Annabelle Klarl

13 Wahl eines Subsets von Intermediaten
Multiple Sequence Alignment Based on Profile Alignment of Intermediate Sequences Wahl eines Subsets von Intermediaten Datenbanksuche Auswahl von Hits Erstellen von Profilen Sekundärstruktur- vorhersage paarweises Alignment Guide tree progressives Alignment iterative Verfeinerung Algorithmus zur Wahl des Subsets: Wähle k intermediate Sequenzen aus, deren minimale Distanz zu allen Sequenzen des Subsets die maximal mögliche ist. s1 s2 s3 r1 r2 r3 si: Inputsequenzen rj: intermediate Sequenzen Haben jetzt: Menge mit Inputseqs und den ausgewählten intermediaten (werden im folgenden nicht mehr als intermediate bezeichnet) Und eine Menge mit den restlichen Sequenzen Übergang: Machen wir mal eine keine Zwischenbilanz, was wir nach den ganzen Definitionen jetzt schon gemacht haben und was wir für zusätzliche Infos gewonnen haben: nicht!!!! Distanzscoreberechnungen O(m(n+k)), leicht nachrechenbar mit dem Ansatz, dass man zunächst alle Distanzen berechnen muss --> mn dann immer nur noch die Distanzen der neu hinzugefügten Sequenz zu allen übrigen intermediate Sequenzen --> O(km)‏ BACKUP-Folie für Berechnung! BACKUP-Folie mit Algorithmus! Annabelle Klarl

14 Sequenzprofile Für jede intermediate Sequenz r:
Multiple Sequence Alignment Based on Profile Alignment of Intermediate Sequences Sequenzprofile Datenbanksuche Auswahl von Hits Erstellen von Profilen Sekundärstruktur- vorhersage paarweises Alignment Guide tree progressives Alignment iterative Verfeinerung Für jede intermediate Sequenz r: Zuordnung der am nächsten verwandten Sequenz aus der Inputmenge Für jede Sequenz s der Inputmenge: Center Star Alignment der Sequenz s mit den ihr zugeordneten intermediaten Sequenzen rj ein Profil für jede Inputsequenz s Profilbau: Bestimmen, aus welchen Sequenzen Profil zu bauen nächst verwandte (mittels SSEARCH Distanzen bestimmen) Statt Sequenzen alignieren, PROFILE alignieren Übergang: Was ist ein Center Star Alignment? Kam schon kurz in AlgoII Annabelle Klarl

15 Center Star Alignment: Beispiel
Multiple Sequence Alignment Based on Profile Alignment of Intermediate Sequences Center Star Alignment: Beispiel -GA-KK -AA-KK PGA-TP AGA-K- TPATKK -GAKK -AAKK PGATP AGAK- -GAKK -AAKK PGATP Datenbanksuche Auswahl von Hits Erstellen von Profilen Sekundärstruktur- vorhersage paarweises Alignment Guide tree progressives Alignment iterative Verfeinerung Sequenzen: s = GAKK r1 = AAKK r2 = PGATP r3 = AGAK r4 = TPATKK s: Inputsequenz rj: intermediate Sequenzen zu Inputsequenz s GAKK AAKK - G A - K K - A A - K K P G A - T P A G A - K - T P A T K K G A K K A A K K - G A K K - A A K K P G A T P - G A K K - A A K K P G A T P A G A K - Center Star Alignment: Satz von Sequenzen, die zu alignieren sind (hier: eine Inputsequenz und die ihr zugeordneten Intermediaten) Bestimmen eines Zentrums: hier Inputsequenz sj Alignment aller Seqs zu diesem Zentrum  Darstellung in einem Stern  Zeige Beispiel (Glycin, Alanin, Lysin, Prolin, Threonin) Übergang: Dann hat man MSA  daraus wird dann ein Profil gebaut GAKK *||| AAKK -GAKK ||** PGATP -GAKK ||| AGAK- -GA-KK *| || TPATKK Multiples Alignment Annabelle Klarl

16 Sequenzprofile: Beispiel
Multiple Sequence Alignment Based on Profile Alignment of Intermediate Sequences Sequenzprofile: Beispiel 1x P 1x A 1x T Datenbanksuche Auswahl von Hits Erstellen von Profilen Sekundärstruktur- vorhersage paarweises Alignment Guide tree progressives Alignment iterative Verfeinerung Spalte 1 - G A - K K - A A - K K P G A - T P A G A - K - T P A T K K Pos: G 0 A T P K 0 Hier jetzt mal die einfachste Methode dargestellt, einfach mit zählen  man könnte z.B. auch unterschiedliche gewichten und damit ein Profil bauen Man zählt vorkommende Reste in einer Spalte (z.B: Prolin, Alani, Threonin)  hier kein Glycin und Lysin teilt durch Gesamtanzahl der Reste in dieser Spalte (hier ohne Gaps  auch möglich, die Gaps irgendwie zu bewerten…) Übergang: Für die zweite Spalte, die ja keine Gaps enthält, teilt man dann also durch 5 Annabelle Klarl

17 Sequenzprofile: Beispiel
Multiple Sequence Alignment Based on Profile Alignment of Intermediate Sequences Sequenzprofile: Beispiel 1x P 1x A 1x T Datenbanksuche Auswahl von Hits Erstellen von Profilen Sekundärstruktur- vorhersage paarweises Alignment Guide tree progressives Alignment iterative Verfeinerung Spalte 1 - G A - K K - A A - K K P G A - T P A G A - K - T P A T K K 3x G 1x A 1x P Spalte 2 Pos: G A T P K Pos: G 0 A T P K 0 Glycin, Alanin, Prolin (kein Threonin, Lysin) Übergang: Schon Profil zur besseren Charakterisierung der Inputsequenzen, aber man kann das MSA noch weiter vereinfachen durch die Einbeziehung von Sekundärstrukturen Annabelle Klarl

18 Sekundärstrukturvorhersage
Multiple Sequence Alignment Based on Profile Alignment of Intermediate Sequences Sekundärstrukturvorhersage Datenbanksuche Auswahl von Hits Erstellen von Profilen Sekundärstruktur -vorhersage paarweises Alignment Guide tree progressives Alignment iterative Verfeinerung Für jede Sequenz der Inputmenge: Sekundärstrukturvorhersage mittels PSIPRED zusätzliche Informationen: Profile mit intermediaten Sequenzen Sekundärstrukturen Sekundärstrukturvorhersage orientiert an anderem Algorithmus SPEM (benutzt nur Sekundärstrukturvorhersage als Hilfsmittel) wirkt zwar ein wenig merkwürdig, dass das helfen soll weil ja auch nur eine Vorhersage, die nicht richtig sein muss, aber nach den Auswertungen mehrere Algos hilft sie was Übergang: nächster Punkt in der Liste ist paarweises Alignment Annabelle Klarl

19 Needleman-Wunsch Für jede Sequenz des Subsets:
Multiple Sequence Alignment Based on Profile Alignment of Intermediate Sequences Needleman-Wunsch Datenbanksuche Auswahl von Hits Erstellen von Profilen Sekundärstruktur- vorhersage paarweises Alignment Guide tree progressives Alignment iterative Verfeinerung Für jede Sequenz des Subsets: Sekundärstrukturvorhersage mittels PSIPRED zusätzliche Informationen: Profile mit intermediaten Sequenzen Sekundärstrukturen globales paarweises Alignment der Profile der Inputmenge unter Einbeziehung der Sekundärstrukturvorhersage wie können wir Profile alignieren? wie können wir Sek-strukturen mit einbeziehen in das Scoring?  Scoring Matrix, in der steht: Score von zwei Spalten mit einer best. Sekundärstruktur Übergang: So einen Score kann man sich nun mit einem Hidden Markov Model modellieren geeignete Scoring Matrix? Annabelle Klarl

20 Hidden Markov Models Ein Hidden Markov Model besteht aus: Zuständen
Multiple Sequence Alignment Based on Profile Alignment of Intermediate Sequences Hidden Markov Models Datenbanksuche Auswahl von Hits Erstellen von Profilen Sekundärstruktur- vorhersage paarweises Alignment Guide tree progressives Alignment iterative Verfeinerung Ein Hidden Markov Model besteht aus: Zuständen Anfangswahrscheinlichkeiten Übergangswahrscheinlichkeiten (Transitionswahrscheinlichkeiten) Beobachtungen Beobachtungswahrscheinlichkeiten (Emissionswahrscheinlichkeiten) Aufbau eines HMMs sollten einige ja schon aus der Gobi-Vorlesung vom Do kennen Übergang: Weil man sich so nur schwer was vorstellen kann, ein Bild dazu: Annabelle Klarl

21 Hidden Markov Models πIa M: aligniert zwei Positionen
Multiple Sequence Alignment Based on Profile Alignment of Intermediate Sequences Hidden Markov Models Datenbanksuche Auswahl von Hits Erstellen von Profilen Sekundärstruktur- vorhersage paarweises Alignment Guide tree progressives Alignment iterative Verfeinerung πIa M: aligniert zwei Positionen e‘(i,j): Wahrscheinlichkeit, dass Position i und j aligniert werden Ia: Gap in Sequenz b Ib: Gap in Sequenz a e‘(i): Wahrscheinlichkeit, dass Position i mit einem Gap aligniert wird Ia e‘(i) ε δ 1-ε 1-2δ M e‘(i,j) 1-ε πM δ πi: Anfangswahrscheinlichkeit Fehlt noch: Emissionswahrscheinlichkeit e(x,y) bzw. e(x/y) abhängig von der Position der Reste in der Sequenz (Profile) Emissionswahrscheinlichkeit abhängig von der Sekundärstruktur der beiden alignierten Spalten (Sekundärstrukturvorhersage) Übergang: Beginnen wir mal mit den Profilen Ib e‘(j) δ: Gap-open- Wahrscheinlichkeit ε ε: Gap-extend- Wahrscheinlichkeit πIb Annabelle Klarl

22 HMMs – Einbeziehen von Profilen
Multiple Sequence Alignment Based on Profile Alignment of Intermediate Sequences HMMs – Einbeziehen von Profilen Datenbanksuche Auswahl von Hits Erstellen von Profilen Sekundärstruktur- vorhersage paarweises Alignment Guide tree progressives Alignment iterative Verfeinerung e(x,y): Wahrscheinlichkeit x und y zu alignieren pa(x,i): Wahrscheinlichkeit ein x an der Position i in der Sequenz a zu finden pb(y,j): analog Emissionswahrscheinlichkeit: e(x,y): Wahrs. zwei Reste zu alignieren pa(x,i): Profilwahrscheinlichkeit für x an der Position i neue Emissionwahr: wie wahrs zwei Position i und j aligniert werden?  betrachtet man also jede Kombi von Resten (weil jede Kombi an diesen zwei Positionen ja vorkommen könnte  multipliziert die E-wahrs dieser zwei Reste mit der Wahrs, dass sie an den Positionen i und j vorkommen z.B. für Positionen 1 und 1 können zunächst A und A aligniert werden  wie wars werden diese zwei aligniert und wie wahrs ist ihr Vorkommen an Position 1 und 1. Dann können A und Glycerin aligniert werden…. ebenso, wenn nur eine Position mit einem Gap aligniert wird Übergang: Jetzt fehlen nur noch die Sek-strukturen oder Annabelle Klarl

23 HMMs – Sekundärstrukturen
Multiple Sequence Alignment Based on Profile Alignment of Intermediate Sequences HMMs – Sekundärstrukturen Datenbanksuche Auswahl von Hits Erstellen von Profilen Sekundärstruktur- vorhersage paarweises Alignment Guide tree progressives Alignment iterative Verfeinerung e‘(i,j): Wahrscheinlichkeit zwei Positionen i und j zu alignieren Emissionwahrscheinlichkeit: gleiche Sekundärstruktur: sonst:  e‘(i,j) gibt die Wahrscheinlichkeit an, zwei bestimmte Positionen zu alignieren Sek-struktur: sehr einfach durch Faktor alpha (sollte größer als 0.5 sein, da sonst lieber ungleiche Sek-strukturen aligniert als gleiche)  mehr Gaps erlaubt, da Emissionwahrs kleiner und sich damit die Wahrs im Matchzustand zu bleiben verringert, also um der Abstand zum Einfügen eines Gaps kleiner wird  beta Übergang: Schauen wir uns nochmal Übersicht an Durch α mehr Gaps im Alignment erlaubt: Einfügen des Faktors β zu allen Übergangswahrscheinlichkeiten Annabelle Klarl

24 HMMs mit Profilen und Sekundärstruktur
Multiple Sequence Alignment Based on Profile Alignment of Intermediate Sequences HMMs mit Profilen und Sekundärstruktur Datenbanksuche Auswahl von Hits Erstellen von Profilen Sekundärstruktur- vorhersage paarweises Alignment Guide tree progressives Alignment iterative Verfeinerung πIa M(α): aligniert zwei Zeichen abhängig von ihrer Sekundärstruktur e‘(i,j): Wahrscheinlichkeit, dass Position i und j aligniert werden Ia: Gap in Sequenz b Ib: Gap in Sequenz a e‘(i): Wahrscheinlichkeit, dass Position i mit einem Gap aligniert wird Ia e‘(i) βε βδ 1-2βδ 1-βε M(α) e‘(i,j) πM 1-βε Übergang: Haben wir HMM, der alles modelliert, aber die Frage ist, wie finden wir jetzt dadurch das beste Alignment? Ib e‘(j) βδ βε β: Ausgleichsfaktor πIb Annabelle Klarl

25 Posterior Wahrscheinlichkeit
Multiple Sequence Alignment Based on Profile Alignment of Intermediate Sequences Posterior Wahrscheinlichkeit Datenbanksuche Auswahl von Hits Erstellen von Profilen Sekundärstruktur- vorhersage paarweises Alignment Guide tree progressives Alignment iterative Verfeinerung Wahrscheinlichkeit eines Alignments a: Posterior Wahrscheinlichkeit, dass Position i und j im optimalen Alignment a* aligniert werden: Zunächst mal Wahrs für ein Alignment: Achtung: Übergangswahrs und Emissionswahrs sind natürlich nicht überall die gleichen!  wie leitet man daraus eine Scoring Matrix ab: Ablesen wie groß ist der Score, dass Pos. i und j im optimalen Alignment aligniert werden?  Definition: Score = Summe der Wahrs der Alignments, die diese Positionen enthalten Übergang: Zur Berechnung dieser Summe fehlen noch einige Sachen wie Anfangswahrs oder Übergangswahrs… Summe der P(a|x,y), in denen Position i und j aligniert werden Annabelle Klarl

26 Training und Scoring Matrix
Multiple Sequence Alignment Based on Profile Alignment of Intermediate Sequences Training und Scoring Matrix Datenbanksuche Auswahl von Hits Erstellen von Profilen Sekundärstruktur- vorhersage paarweises Alignment Guide tree progressives Alignment iterative Verfeinerung Training des HMMs auf BAliBASE π: δ: ε: Testen auf PREFAB α: 0.65 β: 0.75 Bestimmen mittels Training auf Benchmark z.B. durch Expectation-Maximization (EM-Algorithmus)  AlgoII Berechnung der Wahrscheinlichkeiten mittels des Forward-and-Backward-Algorithmus  AlgoII  mit Scoring Matrix: paarweise Needleman-Wunsch (global) und ohne Gapstrafen Übergang: paarweise Alignments müssen nun eine Ordnung bekommen, damit wir sie nach und nach nach dieser Ordnung zu einem MSA zusammenfügen können Scoring Matrix: Posterior Wahrscheinlichkeiten für alle Positionen i und j Annabelle Klarl

27 Multiple Sequence Alignment Based on Profile Alignment of Intermediate Sequences
Guide tree Datenbanksuche Auswahl von Hits Erstellen von Profilen Sekundärstruktur- vorhersage paarweises Alignment Guide tree progressives Alignment iterative Verfeinerung Aufstellen einer Abstandstabelle für alle Sequenzen der Inputmenge anhand der paarweisen Alignments sukzessive Clusterbildung aus den Sequenzen mit dem geringsten Abstand (Methodik nach UPGMA) um Reihenfolge für progressives Alignment rauszufinden UPGMA: Unweighted Pair Group Method with Arithmetic mean Übergang: Bisher haben wir nur paarweise aligniert: Bevor wir alle zum MSA vereinen, wollen wir uns nochmal die paarweisen Alignments im Bezug auf eine dritte Sequenz anschauen s3 s4 s5 s6 s2 s1 Annabelle Klarl

28 konsistente Match-Scores
Multiple Sequence Alignment Based on Profile Alignment of Intermediate Sequences konsistente Match-Scores Datenbanksuche Auswahl von Hits Erstellen von Profilen Sekundärstruktur- vorhersage paarweises Alignment Guide tree progressives Alignment iterative Verfeinerung paarweise Alignments vorgegeben Überprüfung jeder alignierten Positionen durch eine dritte Sequenz Anpassen des Scores SeqA GARFIELD THE LAST FAT CAT |||||||| ||| |||| ||| SeqB GARFIELD THE FAST CAT überprüft jede Position im Alignment im Alignment mit einer dritten Sequenz:  Bsp: D Score erhöhen und L/F Score erniedrigen  Score angepasst, so dass im optimalen MSA dann auch schon paarweise Alignment im Bezug auf dritte Sequenz gescort sind Überprüfung: Haben jetzt also Reihenfolge für MSA und angepasste Scores der paarweisen Alignments, jetzt können wir endlich progressives Alignment machen SeqA GARFIELD THE LAST FA-T CAT |||||||| ||| |||| || | ||| SeqC GARFIELD THE VERY FAST CAT |||||||| ||| |||| ||| SeqB GARFIELD THE ---- FAST CAT Annabelle Klarl

29 progressives Alignment
Multiple Sequence Alignment Based on Profile Alignment of Intermediate Sequences progressives Alignment Datenbanksuche Auswahl von Hits Erstellen von Profilen Sekundärstruktur- vorhersage paarweises Alignment Guide tree progressives Alignment iterative Verfeinerung Progressives Alignment in der Reihenfolge der Clusterbildung paarweise Alignments schon vorgegeben Alignment zweier Cluster mittels Profil-Profil-Alignment Übergang: Ein letzte Verbesserung wird dann noch angewendet: iterative Verfeinerung Annabelle Klarl

30 Iterative Verfeinerung
Multiple Sequence Alignment Based on Profile Alignment of Intermediate Sequences Iterative Verfeinerung Datenbanksuche Auswahl von Hits Erstellen von Profilen Sekundärstruktur- vorhersage paarweises Alignment Guide tree progressives Alignment iterative Verfeinerung Aufteilen des Multiplen Sequenz Alignments in zwei Subsets unterschiedlicher Größe Realignment der Subsets Iteration dieser Prozedur möglichst gutes Alignment durch ständige Anpassung Warum Realignment? die Reihenfolge bestimmt dann nicht mehr so in die Qualität des Alignments und MSA wird damit verbessert Übergang: Zuletzt muss man sich fragen, wie gut ist jetzt aber diese Prozedur? Annabelle Klarl

31 Gütetests Test auf den Benchmarks Vergleich mit Algorithmen
Multiple Sequence Alignment Based on Profile Alignment of Intermediate Sequences Gütetests Test auf den Benchmarks BAliBASE 3.0 HOMSTRAD PREFAB 4.0 SABmark 1.65 Vergleich mit Algorithmen MAFFT (Modellierung mit Fourier Transformation) SPEM (Einbeziehung von Sekundärstrukturen) ProbCons (Modellierung der Alignments als pair-HMMs) Benchmarks beinhalten gesicherte multiple Alignments SPEM und ProbCons werden hier abgekupfert Übergang: Von den Tests hab ich jetzt nur einen rausgenommen, weil die Test prinzipiell her eher dürftig ausfallen alle anderen lieferten sehr gemischte Ergebnisse Nur Teile der Benchmarks betrachtet werden und Ergebnisse ein wenig fragwürdig sind auch wird nur mit sehr wenigen anderen Algorithmen verglichen z.B. T-COFFEE, was eins der besten MSA tools ist hier nicht! Annabelle Klarl

32 Gütetests auf BAliBASE 3.0
Multiple Sequence Alignment Based on Profile Alignment of Intermediate Sequences Gütetests auf BAliBASE 3.0 SPS: Prozentzahl der korrekt alignierten Reste CS: Prozentzahl der korrekt alignierten Spalten Bei geringer Identität: ISPAlign weit vor ProbCons Bei hoher Identität: ISPAlign kaum besser als ProbCons Zwei verschiedene Maße: SPS, CS-Score Weit vor ProbCons, die keine Sekundärstrukturen miteinbeziehen Auf allen Benchmarks: ISPAlign gegenüber anderen Algorithmen meist besser in Bereichen geringer Identität Hoher Identität kaum besser oder sogar schlechter Gegenüber SPEM, die Sekundärstrukturen miteinbeziehen, keine großen Verbesserungen (im Prozentbereich) Gegenüber SPEM meist auch leicht langsamer das große ABER: Machen hier mehrere Verbesserungen (intermediate Seqs, Profilerstellung, Sek-strukturvorhersage, Modellierung mit HMMs, konsistenten Scores berechnet…), nimmt alles sehr viel Zeit in Anspruch und damit ist das Programm eher sehr langsam und nicht so empfehlenswert  v.a. sind nicht so große Verbesserungen zu sehen, dass sich diese Mehrzeit auszahlen würde! Übergang: Zuletzt möchte ich noch einen kleinen Ausblick geben, was man noch verbessern kann Insgesamt: ISPAlign kaum besser als SPEM durch viele Verbesserungsmethoden sehr langsam Annabelle Klarl

33 Verbesserungsmöglichkeiten
Multiple Sequence Alignment Based on Profile Alignment of Intermediate Sequences Verbesserungsmöglichkeiten variable Anzahl von intermediaten Sequenzen Hinzufügen von intermediaten Sequenzen, bis die intermediaten Sequenzen zu ähnlich werden erneutes Training des HMM Profilalignment mit anderen Algorithmen Wichtigste Hilfsmittel zur Verbesserung des MSA: Intermediate Sequenzen Profile Sekundärstrukturen Was ihr aus diesem Vortrag v.a. mitnehmen solltet, dass intermediate Seqs den Abstand zwischen den zu alignierenden Seqs verkürzen und damit das MSA erleichtern Profile mehr Informationen über eine Proteinfamilie beinhalten als nur eine Sequenz, damit MSA erleichtern Sekundärstrukturen länger konserviert sind als Sequenzen und damit MSA verbessern Annabelle Klarl

34 Multiple Sequence Alignment Based on Profile Alignment of Intermediate Sequences
Quellen Yue Lu and Sing-Hoi Sze: Multiple Sequence Alignment Based on Profile Alignment of Intermediate Sequences (2007) Do Chuong B. et al.: ProbCons: Probabilistic consistency-based multiple sequence alignment (2005) Katoh K et al.: MAFFT: a novel method for rapid multiple sequence alignment based on fast Fourier transformation (2002) Zhou H., Zhou Y.: SPEM: improving multiple sequence alignment with sequence profiles and predicted secondary structures (2005) Notredame C. et al.: T-Coffee: A novel method for fast and accurate multiple sequence alignment (2000) Carillo H. and Lipman D.: The multiple sequence alignment problem in biology (1989) EMBL-EBI: [ ] Universität Saarland: fred.bioinf.uni- sb.de:4711/downloads/seminar_ws01/backes_multiple_seq_align.ppt [ ] Heun Volker: Skriptum zur Vorlesung Algorthmische Bioinformatik I/II gehalten im Sommersemester 2005 Annabelle Klarl


Herunterladen ppt "Yue Lu and Sing-Hoi Sze Hauptseminar"

Ähnliche Präsentationen


Google-Anzeigen