Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

Fortgeschrittene algorithmische Bioinformatik Thema: Profile HMMs ein Vortrag von Gunar Maiwald.

Ähnliche Präsentationen


Präsentation zum Thema: "Fortgeschrittene algorithmische Bioinformatik Thema: Profile HMMs ein Vortrag von Gunar Maiwald."—  Präsentation transkript:

1 Fortgeschrittene algorithmische Bioinformatik Thema: Profile HMMs ein Vortrag von Gunar Maiwald

2 Gliederung Einführung Biologischer Hintergrund Multiples Sequenzalignment Profile HMMs in der Theorie Grundidee Parameterabschätzung Suche mit Profile HMMs Profile HMMs in der Praxis PFAM Fazit

3 Biologischer Hintergrund verschiedene Organismen haben Proteine mit ähnlichen Funktionen Funktionen in Merkmalsregionen (Domänen) konserviert Domänen: Alpha-Helices und Beta-Faltblätter 50 Aminosäuren und mehr in Domänen-Familien gruppierbar Frage: Gegeben ein Protein - lassen sich Domänen entdecken (... und damit Funktionen ableiten) ?

4

5

6

7

8

9 Biologischer Hintergrund verschiedene Organismen haben Proteine mit ähnlichen Funktionen Proteine mit ähnlichen Funktionen in Protein- Familien gruppierbar Frage: Gegeben ein Protein - kann man es einer Protein-Familie zuordnen ?

10 Profile HMMs - Begriffsklärung Definition: probabilistisches Modell zur Charakterisierung von Merkmalsregionen Bestandteile: 3 verschiedene Zustände (M, I, D) an jeder Position sowie Start- und Endzustand Emissionswahrscheinlichkeiten Übergangswahrscheinlichkeiten Voraussetzung: korrektes MSA dient der Generierung des Profile HMMs

11 Multiples Sequenzalignment MSA ist (optimale) Anordnung mehrerer (Protein)sequenzen MSA zeigt Merkmalsregion(en) einer Domäne Merkmalsregionen sind stark konserviert mit wenigen Gaps (Helices, Faltblätter) dazwischen Regionen mit vielen Gaps (Loops)

12 HBA_HUMAN VLSPADKTNVKAAWGKVG-- HBB_HUMAN VHLTPEEKSAVTALWGKV--- GLB5_PETMA -----PIVDTGSV-APLSAAEKTKIRSAWAPVY-- MYG_PHYCA ---MACRCEPHALUSVLSEGEWQLVLHVWAKVE-- GLB1_GLYDI BLDWRMGLSAAQRQVIAATWKDIAGA GLB3_CHITP THUMMIPIGERMIDGELSADQISTVQASFDKVK-- LGB2_LUPLU LUPINGALTESQAALVKSSWEEFN-- *: :. :.: HBA_HUMAN AHAGEYGAEALERMFLSFPTTKTYFPHF-DLSH-- HBB_HUMAN -NVDEVGGEALGRLLVVYPWTQRFFESFGDLSTPD GLB5_PETMA STYETSGVDILVKFFTSTPAAQEFFPKFKGLTTAD MYG_PHYCA ADVAGHGQDILIRLFKSHPETLEKFDRFKHLKTEA GLB1_GLYDI DNGAGVGKDCLIKFLSAHPQMAAVFGFSGASDP-- GLB3_CHITP ----GDPVGILYAVFKADPSIMAKFTQFAGKDLES LGB2_LUPLU ANIPKHTHRFFILVLEIAPAAKDLFSFLKGTSEVP. :. * *..

13 Profile HMMs – Grundidee Ideal: MSA ohne Gaps Sequenz x matcht mit Konsensussequenz an allen Positionen x 1...x n Länge des HMM = Länge d. Konsensussequenz Emissonswahrscheinlichkeiten für alle AS a: e M j (a) Transitionswahrscheinlichkeiten: t M j M j+1 = 1 Begin M1M1M1M1End MnMnMnMn MjMjMjMj M j+1

14 Profile HMMs – Grundidee Insert: in Sequenz x wird Buchstabe x j an Position j eingefügt Emissonswahrscheinlichkeiten für alle AS a: e I j (a) Transitionswahrscheinlichkeiten: t M j I j t I j I j t I j M j+1 BeginEnd MjMjMjMj M j+1 IjIjIjIj

15 Profile HMMs – Grundidee Delete: Teile aus Sequenz x werden gelöscht Realisierung durch Sprung von M j nach M j+k Problem: zu viele Übergänge nötig BeginEnd MjMjMjMj

16 Profile HMMs – Grundidee silent states: Zustände ohne Emission ermöglichen Gaps variabler Länge in Sequenz x Transitionswahrscheinlichkeiten: t M j-1 D j t D j D j+1 t D j M j+1 BeginEnd MjMjMjMj M j+1 DjDjDjDj

17 Profile HMMs – Grundidee M 0 Begin M L+1 End MjMjMjMj IjIjIjIj DjDjDjDj Insgesamt:

18 Profile HMMs – Generierung bat V E V - - L rat - E - E V L cat L E V – E - gnat L - - L E L goat - E V - - L

19 Profile HMMs – Generierung match emissions: 0123 E4-- L--4 V insert emissions: 0123 E--3- L2-1- V state transitons: 0123 M - M2324 M – D-1- M – I I – M2-2- I – D1-1 I – I D– M--1 D– D1- D – I-2-

20 Profile HMMs – Generierung match probabilities: e M j (x j ) 0123 E1-- L--1 V insert probabilities: e I j (x j ) 0123 E L V state transitons: t Z j-1 Z j 0123 M - M M – D M – I I – M I – D I – I D– M--1 D– D1- D – I-1-

21 Profile HMMs – Generierung M 0 Begin M 4 End M2M2M2M2 I2I2I2I2 D2D2D2D2 D1D1D1D1 D3D3D3D3 M1M1M1M1 M3M3M3M3 I0I0I0I0 L 0.67 V E 0.6 L 0.2 V E V L

22 Parameterabschätzung Frage: Wie werden Emissions- und Transitions- wahrscheinlichkeiten abgeschätzt ? einfacher Ansatz: Maximum Likelihood: e M j (a) = Vorkommen der AS a an Position j Anzahl aller AS b an Position j Problem: Kommt AS a an Position j im MSA nicht vor, so ist e M j (a) = 0 Grund: Trainingsdaten überdecken nicht alle in der Realität existierenden Fälle

23 Parameterabschätzung Pseudocounts: häufig verwendet Laplace (k=1) e M j (a) = Vorkommen von AS a an Position j + 1*k Anzahl aller AS b an Position j + 20*k kleine Trainingsmenge: Wahrscheinlichkeit nicht gesehener Ereignisse überschätzt grosse Trainingsmenge: Angleichung an Maximum Likelihood Werte Problem: grosser Aufwand nötig, um k gut abzuschätzen (50 und mehr Beispiele)

24 Parameterabschätzung Mixmodell: Berechnung der Pseudocounts durch Einbeziehen einer Substitutionsmatrix Umrechnung von Matrixeintrag s(b,a) nach P(a|b) positionsspez.Pseudocount: α ja = b e M j (b)*P(a|b) e M j (a) = Vorkommen von AS a an Position j + α ja Anzahl aller AS b an Position j + α jb Problem: heuristisches Modell ohne statistisch fundierte Erklärung der Herangehensweise

25 Suche mit Profile HMMs Suche: Hauptanwendung von Profile HMMs 1. Entdecken von Merkmalsregionen in Proteinen 2. Zuordnung von Proteinen zu Familien zwei unterschiedliche Algorithmen: Viterbi-Algorithmus Forward-Algorithmus dynamische Programmierung

26 Suche mit Profile HMMs Gegeben: Sequenz x 1...x n, Profile-HMM λ Frage: Wie wahrscheinlich ist es, dass x 1...x n durch λ modelliert wird ? Brute-Force: Durchlaufe alle potentiellen Pfade π 1... π m für x 1...x n und berechne die Wahrscheinlichkeiten p 1... p m Summiere alle Wahrscheinlichkeiten auf Wenn Schwellwert überschritten, dann Treffer Problem: # potientieller Pfade: m >> 3 n # Rechenschritte pro Pfad: 2n

27 Suche mit Profile HMMs Viterbi: ermittelt die wahrscheinlichste Abfolge π* von versteckten Zuständen gegeben eine Beobachtungsfolge x und ein HMM λ Beobachtungsfolge ist die Sequenz des Proteins versteckte Zustände sind M j, I j und D j Falls P( x, π* | λ ) einen Schwellwert übersteigt, gehört x der durch λ beschriebenen Familie an Hier: Variante des Viterbi-Algorithmus speziell für Profile-HMMs

28 Suche mit Profile HMMs dynamische Programmierung: Sei M 0 = Anfangszustand mit einem Viterbi-Score V 0 M (0) = 0 Sei M L+1 = Endzustand mit einem Viterbi-Score V L+1 M (n),für einen optimalen Pfad von Zuständen z 0,...,z L+1 mit der Ausgabe x 0,...,x n

29 Suche mit Profile HMMs dynamische Programmierung: Sei z 0,...,z j-1 eine optimale Zustandsfolge für die Ausgabe x 1...x i-1 V j M (i) ist der Viterbi-Score für die Zustandsfolge z 0...z j-1,M j mit der Ausgabe x 1...x i-1,x i V j I (i) ist Viterbi-Score für z 0...z j-1,I j und x 1...x i-1,x i V j D (i-1) ist Viterbi-Score für z 0...z j-1,D j undx 1...x i-1

30 V j M (i ) = log e M j (x i ) qxiqxi + max V j-1 M (i- 1 ) + log t M j-1 M j V j-1 I (i- 1 ) + log t I j-1 M j V j-1 D (i- 1 ) + log t D j-1 M j V j I (i ) = log e I j (x i ) qxiqxi + max V j M (i- 1 ) + log t M j I j V j I (i- 1 ) + log t I j I j V j D (i- 1 ) + log t D j I j V j D (i) = max V j-1 D (i) + log t M j-1 D j V j-1 D (i) + log t I j-1 D j V j-1 D (i) + log t D j-1 D j

31 Suche mit Profile HMMs Laufzeit: # möglicher Viterbi-Scores: 3i*j # Rechenschritte pro Viterbi-Score: 4 Platzkapazität: Backtracking erfordert die Speicherung aller Viterbi- Scores

32 Suche mit Profile HMMs Forward: ermittelt für jeden Buchstaben x j aus Sequenz x den wahrscheinlichsten Zustand Zustandsfolge = Aneinanderreihung der wahrscheinlichsten Zustände und eventueller Zwischenzustände Viterbi:wahrscheinlichste Abfolge von Zuständen Forward: Abfolge wahrscheinlichster Zustände

33 PFAM DB mit Vielzahl an MSAs und Profile HMMs analysiert Proteine ermöglicht Domänen-Organisation von Proteinen zu betrachten 75% alle Proteine mit mind.1 Match in PFAM

34

35

36 FAZIT Profile HMMs aus MSA erzeugbar Wahrscheinlichkeiten für Emission und Transition werden abgeschätzt Suche findet Proteindomänen und -familien Viterbi- und Forward-Algorithmus mit dynamischer Programmierung Realisierung in PFAM


Herunterladen ppt "Fortgeschrittene algorithmische Bioinformatik Thema: Profile HMMs ein Vortrag von Gunar Maiwald."

Ähnliche Präsentationen


Google-Anzeigen