Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

Die Suche nach Signalen und Genen in DNA Zentrum für Bioinformatik der Universität des Saarlandes WS 2001/2002.

Ähnliche Präsentationen


Präsentation zum Thema: "Die Suche nach Signalen und Genen in DNA Zentrum für Bioinformatik der Universität des Saarlandes WS 2001/2002."—  Präsentation transkript:

1 Die Suche nach Signalen und Genen in DNA Zentrum für Bioinformatik der Universität des Saarlandes WS 2001/2002

2 Unter Signalen verstehen wir bestimmte in der Regel kurze Stücke von DNA, die wichtige Informationen für bestimmte Prozesse enthalten. Transkriptionsfaktoren ATGCGTGCAATGT AGGCACGCATGA TGACGCA CACGTG GGGCGG CCAAT TATA ATG TGA Exon Intron Exon Promoter In der Regel binden andere Moleküle an diese Signalketten und eine chemische Reaktion wird dadurch gestartet oder gestoppt. Transcription factor binding sitesregulation of gene expression transcription factors Splicing sitessplicing of exons (and introns) Splicing site Sites of the restriction enzym transcription factor binding site DNA cutting restriction enzymes

3 Transcription factor binding sites Sites of the restriction enzym TTGACAN 17 TATAAT E. coli promoter binding site N {A,T,C,G} GAATTC EcoRI CCAN 9 TGG Xcm I restriction enzyme Pu m CN Pu m C McrBC Endonuclease Pu {A,G} Wie kann man diese magischen Worte in einer vorgegebenen Menge von Sequenzen finden? Der triviale Ansatz, alle Worte der Länge l in allen vorgegebenen Sequenzen zu suchen, ist natürlich nur bei kurzen Worten ohne Lücken und Mutationen erfolgreich.

4 Annahme: Ein populärer Ansatz in der DNA-Linguistik basiert auf der Annahme, dass DNA-Signale in der Regel Worte sind, die häufig oder selten vorkommen. Wie kann man potentielle Signal-Muster finden und ihre statistische Signifikanz beweisen? Ansatz: (1) Man definiere ein Fitness-Maß (z.B. Häufigkeit des Auftretens). (2) Berechne die Häufigkeit von jedem Wort in einer Menge von DNA-Fragmenten. (3) Gebe das beste Wort oder die besten Worte als potentielle Signale aus. Wie kann man entscheiden, ob ein Wort W häufig oder selten vorkommt? Hierzu benötigt man den Erwartungswert E(W) und die Varianz Var(W)= 2 (W) für die Zahl der Vorkommen eines Worts W.

5 Für L > 2 gilt: Welches Wort der Spieler (1) auch auswählt, Spieler (2) kann immer ein Wort finden, dass bessere Gewinnchancen hat. Definition: Gegeben zwei L-Worte A und B über dem binären Alphabet {0,1}. Die Korrelation AB = (c 0,..., c L-1 ) ist ein L-Wort, dessen Komponenten wie folgt definiert sind: Spiel mit zwei Spielern: Spieler 1 wählt ein binäres Wort A der Länge L. Spieler 2 kennt das Wort, das Spieler 1 gewählt hat. Spieler 2 wählt anschließend ein (anderes) binäres Wort B der Länge L. Dann werfen Sie solange {0,1}-Münzen, bis entweder das Wort A oder das Wort B erscheint. Spieler (1) wählt A = 00 Spieler (2) wählt B = 10 Münzwürfe: = B falls die ersten (L-i) Buchstaben von B gleich den letzten (L-i) Buchstaben von A sind. sonst A = B = AB =

6 Definition: Gegeben zwei L-Worte A und B über dem binären Alphabet {0,1}. Die Korrelation AB = (c 0,..., c L-1 ) ist ein L-Wort, dessen Komponenten wie folgt definiert sind: falls die ersten (L-i) Buchstaben von B gleich den letzten (L-i) Buchstaben von A sind. sonst Das Korrelationspolynom definiert man als Ferner sei K AB = K AB (1/2). Mit H AB bezeichen wir die Menge der Reste von A: Für jedes i mit c i = 1 fügt man die ersten i Buchstaben von A als Wort zu H AB. AB = A = B = H AB = { 0, 0110} Für jedes c i = 1 wird ein ergänzender Präfix von A zu H AB hinzugefügt (Rest ohne die überlappenden Teile). Mit A * B bezeichnet man die Konkatenation von A und B. Sind X und Y zwei Wortmengen, so bezeichnen wir mit X * Y die Menge aller aus X und Y konkatenierten Wörter. |X * Y|=| X | | Y |.

7 Definition: Ein Wort W ist ein A-Gewinn, wenn A am Ende des Wortes steht und W das Wort B nicht enthält. Ein Wort W ist ein A-Vorgewinn, wenn W*A ein A-Gewinn ist. Die Wahrscheinlichkeit P(W) eines binären Wortes W der Länge L ist gleich Für eine Menge X von Worten sei Lemma: K AB (1/2) = P(H AB ) Ein Wort W ist ein B-Gewinn, wenn B am Ende des Wortes steht und W das Wort A nicht enthält. Ein Wort W ist ein B-Vorgewinn, wenn W*B ein B-Gewinn ist. AB = A = B = H AB = { 0, 0110} Für jedes c i = 1 wird ein ergänzender Präfix von A zu H AB hinzugefügt (Rest ohne die überlappenden Teile).

8 Wir betrachten die Wortmenge = { W | W ist weder A- noch B-Gewinn}. Jedes Wort W*A mit W ist entweder ein A-Gewinnoder ein B-Gewinn. Falls W*A ein A-Gewinn ist, WA A H AA = (VG B *H BB ) (VG A *H AB ) = (VG A *H AA ) (VG B *H BA ) A-Vorgewinn VG A Falls W*A ein B-Gewinn ist, WA B B-Vorgewinn H BA VG B Falls W*B ein B-Gewinn ist, WB B B-Vorgewinn H BB Falls W*B ein A-Gewinn ist, WB A A-Vorgewinn H AB VG A VG B

9 = (VG B *H BB ) (VG A *H AB ) (VG A *H AA ) (VG B *H BA ) => P(VG A *H AA ) + P (VG B *H BA ) = P(VG B *H BB ) + P(VG A *H AB ) => P(VG A ) P(H AA ) + P (VG B ) P(H BA ) = P(VG B ) P(H BB ) + P(VG A ) P(H AB ) => P(VG A ) K AA + P (VG B ) K BA = P(VG B ) K BB + P(VG A ) K AB Lemma P(VG B ) K AA - K AB P(VG A ) K BB - K BA = Satz (Conway): Die Wahrscheinlichkeit, dass das Wort B gegen A gewinnt, kann man durch den folgenden Quotienten der Wahrscheinlichkeiten der Vorgewinne von A und B abschätzen: P(VG B ) K AA - K AB P(VG A ) K BB - K BA = Beweis: Siehe oben (Pevzner [1993]). Li [1980] Guibas & Odlyzko [1981]).

10 Gegeben ein Bernouilli-Text der Länge n über einem Alphabet mit r Buchstaben. Wir nehmen an, dass der Text circulär ist. Die Wahrscheinlichkeit, dass ein Buchstabe an einer bestimmten Position auftritt, ist (1/r). Sei W ein Wort der Länge L. Die Zufallsvariable x i hat den Wert 1, falls das Wort W an der i-ten Position im Text startet (0 sonst). Die Zahl der Vorkommen von W wird durch die folgende Zufallsvariable beschrieben: 0 n(p-p 2 ) ? (siehe nächste Seite)

11 i i+t falls der t-te Koeffizient c t des Korrelations- polynoms K WW gleich 1 ist sonst

12 Gegeben ein Bernouilli-Text der Länge n über einem Alphabet mit r Buchstaben. Wir nehmen an, dass der Text circulär ist. Die Wahrscheinlichkeit, dass ein Buchstabe an einer bestimmten Position auftritt, ist (1/r). Sei W ein Wort der Länge L. Die Zufallsvariable x i hat den Wert 1, falls das Wort W an der i-ten Position im Text startet (0 sonst). Die Zahl der Vorkommen von W wird durch die folgende Zufallsvariable beschrieben: 0 n(p-p 2 )

13 Beispiel: Für ein Alphabet mit vier gleich wahrscheinlichen Buchstaben A,T, C, G gilt: Die folgenden Arbeiten präsentieren Approximations-Formeln für die Varianz von Texten, die durch Markov-Ketten generiert wurden: Fousler & Karlin [1987] Stuckle et al. [1990] Kleffe & Borodowsky [1992] Die Grenzverteilung für die Zahl von Wortvorkommen im Markov-Modell haben Prum et al. [1995] veröffentlicht. Exakte und approximative Formeln für den Erwartungswert, die Varianz und die Wahrscheinlichkeit von approximativen Wortvorkommen haben Regnier & Szpankowski [1998] veröffentlicht.

14 Bezeichnung: Für ein Wort W und eine Menge von Sequenzen bezeichnen wir mit n W (S) die Zahl der Vorkommen von W in S. Problem: Suche das Wort W der Länge L, das am häufigsten vorkommt (mit maximalem n W (S)). Lösung: Trivial: Zähle alle Worte der Länge L in S. Problem: Suche das Wort W der Länge L, das approximativ am häufigsten vorkommt. Hierbei erlaubt man bis zu k Fehler (mismatches). Lösung: Waterman et al. [1984] Galas et al. [1985] haben TTGACA und TATAAT als Promoter-Signale von E.coli identifiziert.

15 Consensus-String-Problem (CSP): Gegeben eine Menge S={s 1,..., s n } von Sequenzen und eine ganze Zahl L, finde einen Median-String s der Länge L und einen Teilstring t i der Länge L für jede Sequenz s i, so dass die folgende Summe der Abstände (Hamming-Distanz) minimal ist. Lösung: Li et al. [1999] zeigten, dass CSP NP-hard ist, und präsentierten ein PTAS (Polynomial Time Approximation Scheme).

16 Das seltenste Dinukleotid in vielen Genomen ist CG. Es existieren jedoch häufig sogenannte CG-Inseln in der Nähe von Genen, wo CG relativ gehäuft vorkommt. Wie kann man feststellen, ob ein bestimmter Bereich mit einigen CGs eine CG-Insel ist? Dieses Problem ist mit dem folgenden Münzwurfproblem (Durbin et al. [1998]) verwandt: Ein Spieler hat zwei Münzen zur Verfügung, eine normale Münze mit Wahrscheinlichkeit ½ für Kopf (0) und Zahl (1) und eine gezinkte Münze mit Wahrscheinlichkeit ¾ für Kopf (1) und ¼ für Zahl (0). Der Spieler kann diese Münzen während des Spiels auswechseln, ohne dass es die Mitspieler erkennen können. Er wechselt jedoch selten (Wahrscheinlichkeit 0.1) wegen der Gefahr, doch erwischt zu werden. Sei x = x 1 x 2....x n eine Folge von Münzwurfen ohne Vertauschen der Münzen: k ist die Anzahl der Einsen (1) wurde wahrscheinlich mit der gezinkten Münze geworfen.

17 HMM: sei ein Alphabet. Beispiel: Münzwürfe mit normaler und gezinkter Münze: = { 0, 1} (Zahl oder Kopf). Q sei eine Menge von Zuständen, die Symbole aus produzieren. Q = { normal, gezinkt}, je nachdem, mit welcher Münze geworfen wird. A = (a ij ) ist eine |Q|x|Q| Matrix mit Wahrscheinlichkeiten von Zustandsübergängen. a normal,normal = a gezinkt, gezinkt = 0.9 und a normal, gezinkt = a gezinkt, normal = 0.1. P = (p q ( )) ist eine |Q|x| | Matrix mit Produktionswahrscheinlichkeiten. p normal (0) = ½, p normal (1) = ½, p gezinkt (0) = ¼, p gezinkt (1) = ¾. Ein Pfad q = q 1 q 2...q n in einem HMM ist eine Folge von Zuständen, z.B., normal, gezinkt, normal,.... Die Wahrscheinlichkeit, dass eine Folge x = x 1 x 2... x n von Münzwürfen durch einen Pfad q generiert wurde, ist wobei a 0 und a n+1 die fiktiven Start- und Endzustände begin und end sind.

18 Dekodierungsproblem: Man finde einen optimalen Pfad q * = arg max q P(x|q) für x, so dass P(x|q) maximiert wird. Das vorhergehende Model definiert die Wahrscheinlichkeit für eine gegebene Folge x von Münzwürfen und einen (bekannten) Pfad von Zuständen. Normalerweise kennt jedoch nur der Spieler den Pfad, der die Münzen wirft. Man spricht daher auch von einem versteckten (hidden) Pfad. Idee: Man betrachte einen Präfix x 1 x 2... x i+1 und man überlege, wie man den optimalen Pfad für diesen Präfix und einen beliebigen Status q i+1 rekursiv aus den optimalen Pfaden des Präfix x 1 x 2... x i berechnen kann. Sei w q (i) die Wahrscheinlichkeit des wahrscheinlichsten Pfades für den Präfix x 1 x 2... x i, der x i aus dem Zustand q produziert: Initialisierung: und für k begin. Viterbi Algorithmus [1967]

19 normal0 gezinkt0 begin1 end Die Berechnungen im Viterbi-Algorithmus werden in der Regel mit einer logarithmischen Skala durchgeführt: Die Laufzeit des Viterbi-Algorithmus ist O(n|Q|).

20 Gene kodieren die Baupläne für den Aufbau der molekularen Bausteine (Proteine, RNA). Transkriptionsfaktoren ATGCGTGCAATGT AGGCACGCATGA TGACGCA CACGTG GGGCGG CCAAT TATA ATG TGA Exon Intron Exon PromotermRNA-Reifung plus Splicing UACGCACGUUACGUGCGUACU Bei der mRNA-Reifung und Splicing werden die Introns aus der mRNA herausgeschnitten. UACGCACGUUAGT AGCGUGCGUACU mRNA-MolekülTranskription Bei der Transkription wird eine mRNA-Kopie (messenger RNA) des Gens erstellt. Translation in Protein Bei der Translation wird die in der mRNA gespeicherte Infor- mation übersetzt und der ent- sprechende Baustein (Protein) synthetisiert. Tyr Ala Arg Tyr Val Arg Thr

21 Wie kann man die Gene im Genom finden? Man sucht statistisch nach charakteristischen Signalen (magischen Wörtern), die häufig in der Nähe eines Gens oder in einem Gen auftauchen und sonst selten. ATGCGTGCAATGT AGGCACGCATGA TGACGCA CACGTG GGGCGG CCAAT TATA ATG TGA Exon Intron Exon Promoter Man sucht zum Beispiel nach Open Reading Frames (ORFs). Ein ORF startet mit einem Start-Kodon (ATG), endet mit einem von drei Stopp-Kodons (z.B. TGA) und es gibt kein Stopp- Kodon dazwischen. Die Durchschnittsdifferenz in zufälliger DNA zwischen Stopp-Kodons ist: 64/3 = 21. Ein langes ORFs kann ein Indiz für ein potentielles Gen sein. In kodierenden und nicht-kodierenden Bereichen trifft man auf unterschiedliche Kodon- Häufigkeiten (Häufigkeiten der Kodons in einem Fenster einer bestimmten Größe). Am Anfang und am Ende von Introns treten gewisse Signale (magische) Worte auf.

22 Wie kann man die Gene im Genom finden? ATGCGTGCAATGT AGGCACGCATGA TGACGCA CACGTG GGGCGG CCAAT TATA ATG TGA Exon Intron Exon Promoter Ähnlichkeitssuche: Gegeben ein noch nicht auf Gene untersuchtes DNA-Molekül. Man suche mit Hilfe von Alignment-Algorithmen nach Sequenzen im DNA-Molekül, die zu bekannten Genen ähnlich sind. mRNA-MolekülTranskription mRNA-Reifung plus Splicing UACGCACGUUACGUGCGUACU UACGCACGUUAGT AGCGUGCGUACU Translation in Protein Tyr Ala Arg Tyr Val Arg Thr Die Ähnlichkeitssuche (Alignment) kann jedoch auch von einem Genprodukt aus- gehen. Ein solcher Ansatz wurde von Gelfand et al veröffentlicht. Die Methode wird als Spliced-Alignment- Verfahren bezeichnet.

23 Sei ferner E = { B 1, B 2,...,B p } eine Menge von Teilstrings von G. Die Menge E erhält man, in dem man alle potentiellen Exons von G berechnet. ATGCGTGCAATGT AGGCACGCATGA TGACGCA CACGTG GGGCGG CCAAT TATA ATG TGA Exon Intron Exon Promoter mRNA-MolekülTranskription mRNA-Reifung plus Splicing UACGCACGUUACGUGCGUACU UACGCACGUUAGT AGCGUGCGUACU Sei G = g 1 g 2... g n ein String (das neue DNA-Molekül). Seien ferner B = g i g i+1... g j und B = g i g i+1... g i Teilstrings von G. Wir schreiben B B, falls j < i ist. Eine Folge = (B 1, B 2,..., B s ) von Teilstrings von G wird dann als Kette bezeichnet, wenn gilt: B 1 B 2... B s Mit * = B 1 * B 2 *... * B s bezeichnen wir die Konkatenation der B i s. Sei T = t 1 t 2... t m eine Sequenz, die sogenannte Target-Sequenz (in unserem Beispiel die mRNA).

24 Spliced-Alignment-Problem: Gegeben G, T und E = { B 1, B 2,... B p }, bestimme aus allen möglichen Ketten von E eine Kette von Strings in E mit optimalem Alignment, d.h., der Score D( *, T) von dem Alignment zwischen der Konkatenation * der Strings von und dem String T ist optimal (maximal). ATCAGTGCAATGCAGCCATGA Komplement der mRNA T = t 1 t 2... t m ATCAGTGCAATGT AGGCAGCCATGA Exon Intron Exon G E = { B 1, B 2,... B p }

25 Spliced-Alignment-Problem: Gegeben G, T und E = { B 1, B 2,... B p }, bestimme aus allen möglichen Ketten von E eine Kette von Strings in E mit optimalem Alignment, d.h., der Score D( *, T) von dem Alignment zwischen der Konkatenation * der Strings von und dem String T ist optimal (maximal). Wir benötigen die folgenden Bezeichnungen: first(B) = f last(B) = l size(B) = l – f+1 E(i) = {B k E| last(B k ) < i } B(i) = g f... g i Sei B = g f...g i... g l ein Block aus E. Sei = (B 1,..., B k,..., B t ) eine Kette, so dass B k die Position i (g i ) enthält. *(i) = B 1 * B 2 *... * B k-1 * B k (i) Sei

26 Spliced-Alignment-Problem: Gegeben G, T und E = { B 1, B 2,... B p }, bestimme aus allen möglichen Ketten von E eine Kette von Strings in E mit optimalem Alignment, d.h., der Score D( *, T) von dem Alignment zwischen der Konkatenation * der Strings von und dem String T ist optimal (maximal). Um das Spliced-Alignment-Problem zu lösen, muß man das folgende Maximum bestimmen: Die folgende Rekursion ermöglicht die Berechnung dieses Maximums: i first(B k ) i = first(B k )


Herunterladen ppt "Die Suche nach Signalen und Genen in DNA Zentrum für Bioinformatik der Universität des Saarlandes WS 2001/2002."

Ähnliche Präsentationen


Google-Anzeigen