Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

Gensuche mit Hidden Markov Modellen 1 Zentrum für Bioinformatik der Universität des Saarlandes WS 2002/2003.

Ähnliche Präsentationen


Präsentation zum Thema: "Gensuche mit Hidden Markov Modellen 1 Zentrum für Bioinformatik der Universität des Saarlandes WS 2002/2003."—  Präsentation transkript:

1

2 Gensuche mit Hidden Markov Modellen 1 Zentrum für Bioinformatik der Universität des Saarlandes WS 2002/2003

3 Gensuche mit Hidden Markov Modellen 2 Worum geht es? In der enormen Datenmenge eines Genoms sollen die kodierenden Regionen bestimmt werden... CAT ATG TTT CCA AGT ACA TGG TAT GTA TAA GGG CAT... StartkodonStopkodon Kodierender Bereich

4 Gensuche mit Hidden Markov Modellen 3 Suche nach Genen Aufgabenstellung: gegeben eine DNA-Sequenz, klassifiziere jede einzelne Base als Teil eines –Exons (kodierender Bereich) –Introns (nichtkodierender Bereich innerhalb eines Gens) –Zwischengenetischen Bereichs (nichtkodierender Bereich zwischen zwei Genen) Intron 1Exon 1Exon 2Exon 1Intron 1 Gen 1Gen 2 Zwischengen. Bereich

5 Gensuche mit Hidden Markov Modellen 4 Wie stellen wir das an? Idee: Suche nach Startkodon/Stopkodon – Paaren. Alles dazwischen ist kodierend. Nachteil: Funktioniert nicht! u.A. werden überlappende Gene und Introns nicht berücksichtigt Statt dessen: verwende statistische Informationen um Teilsequenzen zu klassifizieren Analogie: Automatische Erkennung der Sprache eines Textes. In einem typischen deutschen Text macht der Buchstabe e ca. 16,55% aller Buchstaben aus, in einem schwedischen nur ca. 9.77%. zähle die es im Text, um zu berechnen mit welcher Wahrscheinlichkeit es sich um einen deutschen Text handelt

6 Gensuche mit Hidden Markov Modellen 5 Hidden Markov Modelle Kurzwiederholung: Eine Markovkette ist ein stochastischer Prozess, der nacheinander eine Reihe von Zuständen mit einer gewissen Wahrscheinlichkeit durchläuft. Dabei hängt die Wahrscheinlichkeit für den jeweils nächsten Zustand nur vom aktuellen Zustand ab: P(t i+1 |t i, t i-1,...,t j ) = P(t i+1 |t i ) In ähnlichen Fragestellungen (z.B. in der Spracherkennung) haben sich Hidden Markov Modelle als sinnvoll erwiesen

7 Gensuche mit Hidden Markov Modellen 6 Hidden Markov Modelle Ein Hidden Markov Modell besteht aus einer Markovkette, bei der jedoch einige Zustände versteckt sind, d.h. wir können nicht genau angeben, in welchem Zustand sich das System befindet. In diesem Fall können wir nur von den Effekten die wir beobachten auf die Wahrscheinlichkeit jedes Zustands zurückschließen Ein Hidden Markov Modell lässt sich als Graph darstellen, dessen Knoten die Zustände und dessen Kanten die Übergänge darstellen. Die Kanten sind mit den Übergangswahrscheinlichkeiten gewichtet.

8 Gensuche mit Hidden Markov Modellen 7 VEIL – The Viterbi Exon-Intron Locator Ein einfaches Beispiel für ein solches Hidden Markov Modell zur Gensuche ist VEIL VEIL wurde vorgestellt in: Henderson, Salzberg and Fasman: Finding Genes in DNA with a Hidden Markov Model, J. Comp. Biol. (1996) Der Aufbau von VEIL besteht aus 3 Schritten: –Definition des Modells –Training des Modells mit dem EM-Algorithmus –Klassifizieren von Sequenzen mittels Viterbi-Algorithmus

9 Gensuche mit Hidden Markov Modellen 8 Die Modelldefinition von VEIL VEIL ist ein modular aufgebautes Hidden- Markov-Modell Es besteht aus einzelnen Komponenten (selber wieder vollständige HMMs), die zu einem Gesamtmodell verdrahtet werden Jedes Modul repräsentiert eine bestimmte Klassifikation der DNA

10 Gensuche mit Hidden Markov Modellen 9 Das Gesamtmodell von VEIL Upstream StartkodonExon Stopkodon Downstream 3´Splice Site Intron 5´Splice Site

11 Gensuche mit Hidden Markov Modellen 10 Das Intron-Modul von VEIL a c g t a c g t a c g t 5´Splice Site 3´Splice Site 16 Backedges Anpassung des Reading Frames Eine beliebige Folge von Codons

12 Gensuche mit Hidden Markov Modellen 11 Das Exon-Modul von VEIL Startkodon a c g t a c g t a g a c g t a g 3´Splice Site Downstream 5´Splice Site 16 Backedges

13 Gensuche mit Hidden Markov Modellen 12 Beispiel 1 – ein 1-Exon Gen Startkodon a c g t a c g t a g a c g t a g 3´Splice Site Downstream 5´Splice Site 16 Backedges (Start)

14 Gensuche mit Hidden Markov Modellen 13 Beispiel 1 – ein 1-Exon Gen Startkodon a c g t a c g t a g a c g t a g 3´Splice Site Downstream 5´Splice Site 16 Backedges (Start) A

15 Gensuche mit Hidden Markov Modellen 14 Beispiel 1 – ein 1-Exon Gen Startkodon a c g t a c g t a g a c g t a g 3´Splice Site Downstream 5´Splice Site 16 Backedges (Start) ACC

16 Gensuche mit Hidden Markov Modellen 15 Beispiel 1 – ein 1-Exon Gen Startkodon a c g t a c g t a g a c g t a g 3´Splice Site Downstream 5´Splice Site 16 Backedges (Start) ACC T

17 Gensuche mit Hidden Markov Modellen 16 Beispiel 1 – ein 1-Exon Gen Startkodon a c g t a c g t a g a c g t a g 3´Splice Site Downstream 5´Splice Site 16 Backedges (Start) ACC TAA (Downstream) Stopkodon

18 Gensuche mit Hidden Markov Modellen 17 Beispiel 2 – ein initiales Exon Startkodon a c g t a c g t a g a c g t a g 3´Splice Site Downstream 5´Splice Site 16 Backedges (Start) CTT

19 Gensuche mit Hidden Markov Modellen 18 Beispiel 2 – ein initiales Exon Startkodon a c g t a c g t a g a c g t a g 3´Splice Site Downstream 5´Splice Site 16 Backedges (Start) CTT ACC

20 Gensuche mit Hidden Markov Modellen 19 Beispiel 2 – ein initiales Exon Startkodon a c g t a c g t a g a c g t a g 3´Splice Site Downstream 5´Splice Site 16 Backedges (Start) CTT ACC AT Beliebig, zur Anpassung des Reading Frames

21 Gensuche mit Hidden Markov Modellen 20 Beispiel 2 – ein initiales Exon Startkodon a c g t a c g t a g a c g t a g 3´Splice Site Downstream 5´Splice Site 16 Backedges (Start) CTT ACC AT (Übergang zum 1. Intron) Beliebig, zur Anpassung des Reading Frames

22 Gensuche mit Hidden Markov Modellen 21 Das Training des Modells Die Topologie des HMM ist nun bekannt. Es fehlen nur noch die Übergangswahrscheinlichkeiten P ij Für einige P ij haben wir Schätzungen, z.B. aus biologischen Modellen. Diese verwenden wir dann als Ausgangsbelegung für die jeweiligen Kanten. Die restlichen Kanten belegen wir mit zufälligen Startwerten zwischen 0 und 1. Anschließend werden mit diesem initialen Modell bekannte Trainingssequenzen untersucht, und die Kantengewichte rekursiv angepasst, um die Vorhersagequalität zu optimieren

23 Gensuche mit Hidden Markov Modellen 22 Der EM-Algorithmus 1.Klassifiziere eine bekannte Sequenz s 1 vom Typ M mit dem HMM. Dies liefert P(s 1 |M). Wiederhole dies für alle Trainingssequenzen s i 2.Passe die P ij iterativ an, so dass P(S|M) := i P(s i |M) maximal wird. Dazu werden die P ij in jedem Iterationsschritt so verändert, dass P new (s i |M) ¸ P old (s i |M) i Laufzeit pro Iteration: O (ne), wobei n:= Gesamtlänge aller Trainingssequenzen und e := Anzahl Kanten im HMM

24 Gensuche mit Hidden Markov Modellen 23 Anwenden des Modells Da nun das Modell vollständig ist, können wir es auf unbekannte Sequenzen anwenden. Naiver Brute-Force-Ansatz: berechne alle Pfade der Länge N, überprüfe, welche davon S i generieren können, und wähle denjenigen mit maximaler Wahrscheinlichkeit exponentielle Laufzeit! Problemstellung: Für eine Eingabesequenz S i der Länge N, bestimme den Pfad q i durch die Zustände der HMM, der S i am wahrscheinlichsten generiert hat, d.h. den Pfad, der P(q 1,..,q N |S 1,...S N, ) maximiert

25 Gensuche mit Hidden Markov Modellen 24 Der Viterbi-Algorithmus Um die Laufzeit zu reduzieren, verwendet man einen Algorithmus, der an dynamische Programmierung angelehnt ist Dazu bauen wir rekursiv eine Datenstruktur (Trellis) auf, die alle Pfade der Länge i enthält. Der Trellis besteht aus i Schichten, die jeweils alle N Zustände des HMM enthalten. Gibt es im HMM eine Kante von i nach j, dann gibt es in jeder Schicht S(t) eine Kante von i zum Knoten j in der Schicht S(t+1) Paradigma: Speichern und Wiederverwerten bereits berechneter Informationen

26 Gensuche mit Hidden Markov Modellen 25 Wir verwenden den Trellis, um die folgenden Informationen zu berechnen: i+1 (q j ) ist die WK des wahrscheinlichsten Pfades, der beim (i+1)ten Eingabezeichen in q j endet. i+1 (q j ) ist der Vorgängerknoten von q j auf diesem wahrscheinlichsten Pfad. Die Formeln erklärt man so: um bei i+1 in q j zu enden, mußte man zuvor einen anderen Knoten q k erreichen ( i (q k )), von q k nach q j übergehen (P(q j |q k )) und schließlich in q j S i+1 ausgeben (P(S i+q |q j )) Der Viterbi-Algorithmus i+1 (q j ) := max 1 k N [ i (q k ) · P(S i+1 |q j ) · P(q j |q k )] i+1 (q j ):= argmax 1 k N [ i (q k ) · P(S i+1 |q j ) · P(q j |q k )]

27 Gensuche mit Hidden Markov Modellen 26 Initialisierung: 1 (q j ) = Anfangswahrscheinlichkeit von q j j 1 (q j ) = 0 j Terminierung: P * = max i [ T (q i )] q * T = argmax i [ T (q i )] Backtracking: q * t = t+1 (q * t +1), t = T-1,...,1 Der Viterbi-Algorithmus i+1 (q j ) := max 1 k N [ i (q k ) · P(S i+1 |q j ) · P(q j |q k )] i+1 (q j ):= argmax 1 k N [ i (q k ) · P(S i+1 |q j ) · P(q j |q k )]

28 Gensuche mit Hidden Markov Modellen 27 Nachteil: der Trellis benötigt für ein HMM mit e Kanten und eine Eingabesequenz der Länge n O (ne) Speicherplatz Idee: benutze die Markoveigenschaft, um den Trellis zu verkleinern! Dies liegt daran, daß die Übergangswahrscheinlichkeiten einer Markovkette unabhängig von der Geschichte des Pfades sind! Der Viterbi-Algorithmus Ein Knoten, der auf keinem optimalen Pfad von der Schicht i in die Schicht i+1 liegt, kann aus der Schicht i+1 und allen darauffolgenden Schichten gestrichen werden!

29 Gensuche mit Hidden Markov Modellen 28 Jetzt fehlt nur noch... Euch allen Frohe Weihnachten und erholsame Ferien zu wünschen!


Herunterladen ppt "Gensuche mit Hidden Markov Modellen 1 Zentrum für Bioinformatik der Universität des Saarlandes WS 2002/2003."

Ähnliche Präsentationen


Google-Anzeigen