Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

Vorhersage von Genstrukturen in der DNA - Sequenz Seminar zur Bioinformatik Stephan Didas 25. Januar 2002.

Ähnliche Präsentationen


Präsentation zum Thema: "Vorhersage von Genstrukturen in der DNA - Sequenz Seminar zur Bioinformatik Stephan Didas 25. Januar 2002."—  Präsentation transkript:

1 Vorhersage von Genstrukturen in der DNA - Sequenz Seminar zur Bioinformatik Stephan Didas 25. Januar 2002

2 Überblick (1.) Motivation (2.) Biologische Grundlagen Aufbau der DNA, Transkription und Splicing (3.) Grundlagen aus der Wahrscheinlichkeitstheorie Hidden Markov Modelle und Viterbi-Algorithmus (4.) Die Funktionsweise von GENSCAN 1997 (Burge und Karlin) (5.) Vergleich der Ergebnisse mit anderen Programmen (6.) Zusammenfassung - Vor- und Nachteile

3 Motivation Bisherige Vorträge: Überwiegend Sequenzierungstechniken Ergebnis der Sequenzierung: String über dem Alphabet {A, C, G, T} (beim menschlichen Genom z.B. String mit 3 Milliarden Zeichen) Neben Verbesserung der Sequenzdaten nächster Schritt: Verständnis der Sprache dieses Strings (momentan noch in den Anfängen) Konzentration der Erbinformation in den Genen ca. 75% der DNA liegt zwischen Genen ca. 24% innerhalb der Gene in Introns, die keine kodierende Information enthalten nur etwa 1,1% der DNA bildet mit den Exons die eigentliche Erbinformation

4 Motivation Wichtiger Schritt auf dem Weg zum Verständnis: Finden möglichst vieler Gene und Aufklärung ihrer Struktur. Lokalisieren von Genen mit Hilfe von biologischen Methoden sehr finanz- und zeitaufwändig. Sequenzdaten Ziel daher: Bestimmen potentieller Gene (Rechner)Experimentelles Verifizieren der Ergebnisse Rechnergestützte Genvorhersagen kein Ersatz für Experimente, sondern Lieferant von sinnvollen Parametern

5

6 Grundlagen aus der Biologie Transkription - Splicing - Translation DNA Promoter Exon 1IntronExon 2Poly-A-Signal ATGTGAGT AG CAPPolyadenylat Prä-mRNA Transkription 5´3´ mRNA Splicing Protein Translation Donor splice site Acceptor splice site

7 Grundlagen aus der Biologie - durchschnittlich 10 Exons pro Gen, jedoch auch Gene mit 27 und mehr - Exons unterteilt in Nukleotid-Triplets (Codons), die je eine Aminosäure kodieren - Splicing sites an jeder Stelle in einem solchen Codon möglich CCTGCCGTTGCGTCTCCGACGACAGGCATCTAATCAT Exon 1Exon 2 Intron CCTGCCTGTCCGTCTCCGACGACGAGCATCTAATCAT Exon 1Exon 2 Intron CCTGCCTGGTCGTCTCCGACGACGCAGATCTAATCAT Exon 1Exon 2 Intron

8 Vorgehensweisen zum Suchen neuer Gene (2.) Gezielte Suche eines Gens zu bekanntem Protein / RNA (3.) Durchsuchen neuer Sequenzdaten nach Genen Protein DNA-Sequenz mRNAkodierende DNAPotentiell kodierende Bereiche Vorhersage über Peptid-SequenzSuche des zugehörigen Proteins Technik: Spliced Alignment Technik: Statistische Methoden, Wahrscheinlichkeits- theoretische Modelle (1.) Ähnlichkeitssuche in der DNA mit der Sequenz schon bekannter Gene Auch mit Hilfe bekannter Sequenzen von anderen Organismen möglich

9 ------- TTGATAGTTGCAGAGTCAGGTTGATCGATGTGA DNA Spliced Alignment Voraussetzung: Protein oder mRNA bekannt, Suche dazu gehörendes Gen in der DNA ACGAGCCAAAG mRNA - Target-Sequenz TGCTCGGTTTC komplementärer Strang --------TGC ----TC -GGTT TC-- Kodierende Region Potentiell kodierende Gebiete

10 Start-CodonStop-Codon Statistische Methoden zum Finden von Genen Einfachste Methode: Suche von Open Reading Frames..CAGACATGTCCCTGCCGTTGCCTCCGACGACGCTGTGACGGCGGGG.. Keine weiteren Stop-Codons Open Reading Frame 3 von 64 möglichen Codons sind Stop-Codons Bei zufälliger Verteilung ca. jedes 21. Codon in der Sequenz Zahl von Codons für ein durchschnittliches Protein ca. 300 Lange ORF´s Kandidaten für Gene Problem: Kurze Gene / Exons werden nicht gefunden!

11 Hidden Markov-Modelle - Einführung Würfelspieler mit zwei Würfeln Beispiel: NORMAL Würfel 1: NORMAL, alle Zahlen gleich wahrscheinlich p (k) = 1/6 für alle k GEZINKT Würfel 2: GEZINKT, dieser Würfel hat keine 3, aber zweimal die 6 p (3) = 0, p (6) = 1/3, p (k) = 1/6 für k = 1, 2, 4, 5 Vor jedem Wurf kann sich der Würfelspieler entscheiden, ob er den Würfel wechselt oder behält. Er tut dies nach festen Wahrscheinlichkeiten: A( NORMAL, NORMAL ) = 1/3A( NORMAL, GEZINKT ) = 2/3 A( GEZINKT, NORMAL ) = 1/3A( GEZINKT, GEZINKT ) = 2/3 Außerdem kennt man die Wahrscheinlichkeiten dafür, mit welchem Würfel er anfängt: s ( NORMAL ) = 1/2, s ( GEZINKT ) = 1/2

12 Hidden Markov-Modelle - Einführung Bei einer gegebenen Folge von gewürfelten Zahlen 14235662162534262 sind folgende Fragestellungen interessant: (1.) Wie wahrscheinlich ist es, dass der Spieler nach den ersten k Würfen den NORMALEN/GEZINKTEN Würfel in der Hand hat? Forward - Algorithmus (2.) Wie wahrscheinlich ist es, dass der Spieler - mit dem NORMALEN/ GEZINKTEN Würfel beginnend - die restlichen Zahlen ab Stelle k würfelt? Backward - Algorithmus (3.) Wie wahrscheinlich ist es, dass die obige Folge zustande kommt, wenn der Spieler nach k Würfen den NORMALEN/GEZINKTEN Würfel hatte? Forward - Backward - Formel (4.) Welche Zahlen der Folge sind mit höchster Wahrscheinlichkeit mit welchem Würfel entstanden? Viterbi - Algorithmus

13 Hidden Markov-Modelle Mathematische Formulierung Gegeben: - endliche Zustandsmenge A = {A,... A } (Würfel) 1N - N N - Matrix T mit Übergangswahrscheinlichkeiten für die Zustände x - Alphabet B = {B,..., B } (Augenzahlen) 1M - Wahrscheinlichkeitsverteilungen p ( j A) zur Erzeugung der Buchstaben in den verschiedenen Zuständen j - Wahrscheinlichkeiten s ( j) ( j A) für den Anfangszustand Erzeugung von Zeichenfolgen: Wahl des Start- Zustandes mit s Wahl eines neuen Zustandes q mit T (Wechseln oder Behalten des Würfels) Erzeugen eines Zeichens mit p (Würfeln) q Modell Hidden, falls Zustandsfolge unbekannt.

14 Erzeugung des neuen Zeichens im Zustand q Zustandswechsel von l nach q Erzeugung der ersten j Zeichen mit letztem Zustand l Hidden Markov-Modelle Forward - Algorithmus Gegeben: X = x... x aus dem Alphabet des Markov-Modells 1L Gesucht: Wahrscheinlichkeit für die Erzeugung des Präfixes x... x mit Endzustand q (bezeichnet mit a (k) ) k1 q Rekursionsformel: a (0) = s (q) Startzustand vor dem ersten Zeichen q a ( j+1) = a ( j) T p (x ) q l A lqqj +1 l Summe: Wahrscheinlichkeiten für alle Pfade addieren

15 Hidden Markov-Modelle Backward - Algorithmus: Analog dazu, berechnet die Wahrscheinlichkeit, vom Zustand q ausgehend den Suffix x... x zu erzeugen (b (k) ). k +1Lq Forward - Backward - Formel: Wahrscheinlichkeit der Zeichenfolge X unter der Annahme, dass der k-te Zustand q ist. p (X | q = q) = k p ( X ) a (k) b (k) qq wobei p ( X ) = a (L) q A q

16 Hidden Markov-Modelle Viterbi- Algorithmus Analog zum Forward - Algorithmus, jedoch statt Summe nur Betrachtung des optimalen Pfades: c (0) = s (q) q c ( j+1) = max c ( j) T p (x ) q l A llqj +1 q Berechnung dieser Werte für alle q A und für j = 0... L liefert mit Back- Tracking den optimalen Pfad q... q von Zuständen zur Erzeugung von X. 0L Laufzeit:L 2 - Werte für alle L Zeichen berechnen - Dabei für jeden Zustand q ein Maximum über N Fälle bilden Platzbedarf: N + L N

17 Ein einfaches Modell für den Aufbau der DNA (Krogh et al.,1994) Intergenetic Start Stop Coding Produzierte Basen oder Codons: A, C, G, T Start-Codons ATG oder GTG Alle Codons außer den Stop-Codons Stop-Codons TAA, TAG oder TGA 4 Zustände: Verwendung zur Genvorhersage bei Escherichia Coli Vorteil: Vorhersagen auch möglich, wenn mehrere / nur teilweise Gene in der Eingabe vorkommen Für menschliche Gene Verfeinerung des Modells notwendig (Berücksichtigung des Splicings)

18 Länge der einzelnen Zustände State Length Distribution Markov-Modell: Länge von Folgen des gleichen Zustandes geometrisch verteilt. ii k-1 P(X = k ) = (1-T ) T Für Introns tatsächlich annähernd geometrische Längenverteilung beobachtet (allerdings z.B. keine Introns mit weniger als 65 bp) Bei Exons allerdings stark davon abweichende Beobachtungen: Länge Häufigkeit Daher Übergang zum Hidden Semi-Markov-Modell

19 Hidden Semi-Markov-Modell - Verallgemeinerung des Hidden Markov-Modells - Für jeden Zustand gibt es eine Längenverteilung. - Im Spezialfall der geometrischen Längenverteilung erhält man das bekannte Hidden Markov-Modell. - Erzeugung von Sequenzen: Wahl des Start- Zustandes mit s Wahl eines neuen Zustandes q mit T (Wechseln oder Behalten des Würfels) Erzeugen einer Zeichenkette der Länge l mit p (Würfeln) qq Erzeugen der Länge l des Zustandes q - Problem: Laufzeit des Viterbi-Algorithmus erhöht sich auf N L 23

20 Gen - Modell in GENSCAN 3´5´ Gen mit einem Exon auf dem + Strang N N 5´UTRExon3´UTRPoly - APromoter P+ N: intergenetisches Gebiet F+ E + sngl T+ A+

21 N N P+ F+ E + sngl T+ A+ Gen - Modell in GENSCAN E + 210 I + 210 E + init E + term Erweiterung für Multi-Exon-Gene: Indizes geben an, nach welcher Base im letzten Codon des Exons das Splicing erfolgt Übergänge von jedem Exon in jedes Intron möglich, vom Intron nur in zugehöriges Exon

22 Gen - Modell in GENSCAN N N P+ F+ E + sngl T+ A+ E + 210 I + 210 E + init E + term P- A- Für den komplementären Strang gibt es eine Kopie jedes Zustandes (außer N) mit umgekehrten Pfeilrichtungen Zustände mit geometrischer Längenverteilung (Typ D) wechseln sich mit solchen mit anderer Verteilung (Typ C - in Kreisen dargestellt) ab. Insgesamt: 27 Zustände Mit dieser Information kann die Laufzeit quadratisch in der Länge der Eingabe gemacht werden.

23 Erzeugung der Sequenzen in GENSCAN Bisher wurde noch nichts darüber ausgesagt, wie in den einzelnen Zuständen die zugehörigen Sequenzen erzeugt werden. Die biologische Relevanz der Ergebnisse hängt in erster Linie von den hier verwendeten Modellen und v.a. der Qualität der einbezogenen Daten ab. Erzeugung einer Datenbank (Learning Set L) - Ausgangspunkt: Bestehende Datenbanken menschlicher Gene mit einem und mehreren Exons - Bereinigen der Daten (Entfernen von als unsicher eingestuften Abschnitten) - Entfernen aller Gene mit zu großer Übereinstimmung zum GeneParser-Tet-Set (Damit spätere Tests mit dem Test-Set aussagekräftig bleiben.) Insgesamt 2,58 Mbp an Daten in L, verteilt auf 142 Single-Exon-und 238 Multi-Exon-Gene mit 1492 Exons und 1254 Introns. - Hinzunahme weiterer Daten über Promoter - Daten über kodierende Region aus cDNA - Sequenzen Erweitertes Learning Set mit 3195 kb

24 Typ D - Zustände (nichtkodierende Bereiche wie z.B. Intergenetische Region, 5´oder 3´UTR und Introns) Typ C - Zustände (Exons, Promoter und Poly-A-Signal) Modelle zur Erzeugung der Sequenzen Homogenes Markov-Modell 5. Ordnung (d.h. der neue Zustand hängt nicht nur vom letzten Zustand, sondern von den letzten fünf ab.) Inhomogenes 3-periodisches Markov-Modell 5. Ordnung Der neue Zustand hängt ab von den fünf letzten Zuständen und der Position in der Sequenz modulo 3 ab. (Modellieren von Triplets, also Codons im Exon) Es existieren verschiedene Modelle für E, E und E. 102

25 Modellierung von Signalsequenzen Transkriptionssignale: Promoter, Poly-A-Signal Splicing - Signale: Donor-, Acceptor splice sites - Aufgrund der Bedeutung der Signale als Markierung für Zustandsüber- gänge gute Modellierung sehr wichtig. - Schwierigkeiten der Modellierung durch: (1.) Kürze der Signalsequenzen (somit hohe Bedeutung einzelner Zeichen) (2.) Hohe wechselseitige Abhängigkeit nicht nur zwischen benachbarten Zeichen Vielzahl verschiedener Modelle für Signale

26 Modelle für Signale in Genen Betrachtet werden biologische Signalsequenzen wie z.B. Donor und Acceptor splice sites, Promoter oder Enhancer. Einfachstes Modell: Weight Matrix Method (WMM) (Staden 1984) Ausgangspunkt ist ein multiples Alignment von Signalsequenzen: CAGGTAAGT CACGTTAGT ACGGTATGT CGGGTAAAT --------- CAGGTAAGT Die relativen Häufigkeiten p der Basen j an der Stelle i bilden die (Position) Weight Matrix. Das Produkt p dient als Schätzwert für die Wahrscheinlichkeit der Erzeugung der Sequenz X = x... x. (i)(i) j 1n i = 1 n (i)(i) x i Zeichen der Sequenz werden als unabhängig angesehen.

27 Verallgemeinerung: Weight Array Method (WAM) Übergang zu bedingten Wahrscheinlichkeiten für ein Nukleotid abhängig vom Vorgänger im String: Erhalten dieser Koeffizienten durch die bedingten Häufigkeiten im multiplen Alignment Verallgemeinern auf höhere Ordnungen möglich Problem: Häufig nicht genügend Daten zur Berechnung vorhanden Die Wahrscheinlichkeit zum Erzeugen von ist damit X = x... x 1n p (i-1, i) x, x i-1i p(X) = p x 1 (1). i=2 n wobei die bedingte Wahrscheinlichkeit für Nukleotid x an der Stelle i unter der Voraussetzung von Nukleotid x an der Stelle i-1 bezeichnet p (i-1, i) x, x i-1i i

28 Maximal Dependence Decomposition (MDD) Mit GENSCAN neu eingeführtes Signalmodell Gegeben: multiples Alignment A von M Signalsequenzen der Länge k (M > 1000) (1.) Bilden des Consensus-Pattern (2.) Betrachte folgende Zufallsvariablen X : Nukleotid an Stelle j (A = 0, C = 1, G = 2, U = 3) C = 1, falls Nukleotid an Stelle i dem Consensus entspricht, 0 sonst j i Keine signifikante Abhängigkeit Benutze WMM Abhängigkeit zwischen benachbarten Positionen Benutze WAM Abhängigkeit nicht nur zwischen benachbarten Positionen Benutze MDD (3.) Untersuche die Abhängigkeit zwischen X und C mit Hilfe der - Statistik (Methode zum Test zweier Zufallsvariablen auf statistische Unabhängigkeit) Man errechnet dabei für alle i j den Wert (C, X ) und erhält eine k k - Tabelle. (C, X ) > Schranke X von C abhängig 2 i j ji 2 x 2 ijji

29 (1.) Berechne für alle i die Summe S = (C, X ) (Zeilensumme in der oben erstellten Tabelle) Maß für die Abhängigkeit aller weiteren Stellen von Stelle i j = 1 k 2 jii (2.) Wähle Wert i so, dass S maximal ist (Stelle, von der die meisten anderen Stellen abhängen, Maximal Dependence). Zerlege die Menge A in die Teilmengen A (alle Sequenzen mit dem Consensus-Symbol an Stelle i) sowie A (alle übrigen Sequenzen) 0 i 0 1 2 Ergebnis: Baumstruktur (3.) Wende auf die so erhaltenen Mengen rekursiv wieder die Punkte 1 und 2 an. (Berechnung der - Werte, Zeilensummen, weitere Zerlegung der Mengen) Falls eine Teilmenge zu klein wird (weniger als 175 Sequenzen), rechne nur mit der übrigen weiter. 2 Maximal Dependence Decomposition

30 Beispiel: Alle Sequenzen (z.B. 1200) G Stelle 4 - - - G (1100) A, C, T - - - [A|C|T] (100) Weniger als 175 WAM Stelle 1 A - - G (600) A C, G, T [C|G|T] - - G (500)... Erzeugen einer Sequenz: Ablaufen eines Pfades, im Blatt evtl. noch anderes Modell (WAM oder WMM) anwenden Consensus: ATCG Maximal Dependence Decomposition

31 Sequenzen auf dem komplementären Strang Die Hälfte des Zustandsmodells (mit - gekennzeichnete Zustände) bezieht sich auf den zur Eingabesequenz komplementären Strang. Zur Erzeugung der entsprechenden Sequenzen: (1.) Erzeugen der Sequenz für den korrespondierenden Zustand auf dem + Strang (2.) Bilden des inversen Komplements dieser Sequenz Beispiel: Stop-Codon TAG Komplement ATC Richtung umkehren CTA Also: Wahrscheinlichkeit für CTA auf - Strang = Wahrscheinlichkeit für TAG auf + Strang im entspr. Zustand

32 Qualität der Ergebnisse Übliche Maße für die Genauigkeit einer solchen Methode (auf Ebene der Nukleotide): Sensitivity: Sn = True Positives / Actual Positives Specificity: Sp = True Positives / Predicted Positives Vergleich der Genauigkeit der Ergebnisse mit einer Reihe weiterer Programme anhand des Burset/Guigó - Test-Set. (Dieses besteht aus 570 Wirbeltiergenen mit bekannter Struktur.) Actual Positive - Nukleotid liegt in kodierendem Gebiet Predicted Positive - Programm sagt für das Nukleotid kodierendes Gebiet voraus True Positive = Actual Positive und Predicted Positive False Positive = Predicted Positive, aber nicht Actual Positive

33 Vergleich mit weiteren Programmen GeneParser3 und GeneID+ nutzen neben der Eingabesequenz auch Proteinhomologie-Informationen GENSCAN überschreitet auch ohne diese Informationen die 90%-Marke

34 Vergleich mit weiteren Programmen Ermitteln der Werte auf Ebene der Exons (True Positive = Exonbeginn und -ende exakt gefunden) Missed Exons (ME) - Vorhandene Exons, die nicht mit einem vorhergesagten überlappen Wrong Exons (WE) - Vorhergesagte Exons, die nicht mit einem vorhandenen überlappen

35 Abhängigkeit vom CG-Content der Eingabesequenz Unterteilung des Burset/Guigó - Test-Sets nach CG-Content Abhängigkeit vom CG-Content geringer als die Differenzen zwischen den verschiedenen Programmen

36 Praktische Bedeutung der Forward-Backward-Probability Ermittlung der Forward-Backward-Probability p für 2678 Exons des Test Sets Anzahl der Exons davon exakt richtig F-B-Probability Hohe Forward-Backward- Probability und damit hoher Score-Wert kann als Maß für die Genauig-keit der vorhergesagten Exons genutzt werden.

37 Praktische Anwendung von GENSCAN Organismus: - Vertebrate - Human - Maize Schranke für die Ausgabe suboptimaler Exons Ausgabe- optionen Sequenzeingabe als Datei oder Cut & Paste GENSCAN Webserver: http://genes.mit.edu/GENSCAN.html Mail-Server: genscan@ccr-081.mit.edu

38 Praktische Anwendung von GENSCAN C+G - ContentZugehörige Peptid-SequenzenScore (aus Forward- Backward-Probability) Lage in der DNA-Sequenz Typ des Genabschnitts (Initial, internal, terminal exon etc.) DNA- Strang

39 Zusammenfassung Vorteile des Ansatzes von GENSCAN: - Verarbeitung von Eingabesequenzen mit mehreren oder nur teilweise vorhandenen Genen möglich - Beachtung auch des komplementären Stranges - Erzeugung der Sequenz nach empirisch gewonnenen Modellparametern - Berücksichtigung des CG-Contents zur Auswahl der Sequenzwahrschein- lichkeiten - Verbesserung des Signalmodells gegenüber vorherigen Programmen (Maximal Dependence Decomposition) - Anhand der Forward-Backward-Probability kann die Güte der Vorhersage abgeschätzt werden.

40 Nicht berücksichtigt werden: - Gene, die keine Proteine (sondern z.B. tRNA oder rRNA) kodieren - Überlappende Gene - Introns außerhalb der Übersetzungseinheiten (z.B. in den 3´ oder 5´ UTRs) - Bestimmte regulatorische Elemente (Enhancer etc.) - Zu alternativem Splicing gehörende Signale Zusammenfassung

41 Quellen Veröffentlichungen: (1.) Chris Burge and Samuel Karlin Prediction of Complete Gene Structures in Human Genome DNA (1997) J. Mol. Biol. 268, 78-94 (2.) Chris Burge Identification of complete gene structures in human gemonic DNA (1997) PhD thesis. Stanford University (3.) James W. Fickett The gene identification problem: An overview for developers GENSCAN - Webserver am MIT: http://genes.mit.edu/GENSCAN.html


Herunterladen ppt "Vorhersage von Genstrukturen in der DNA - Sequenz Seminar zur Bioinformatik Stephan Didas 25. Januar 2002."

Ähnliche Präsentationen


Google-Anzeigen