Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

2. Vorlesung WS 2004/05Softwarewerkzeuge der Bioinformatik 1 Paarweises Sequenzalignment Methoden des Sequenzalignments Áustauschmatrizen Bedeutsamkeit.

Ähnliche Präsentationen


Präsentation zum Thema: "2. Vorlesung WS 2004/05Softwarewerkzeuge der Bioinformatik 1 Paarweises Sequenzalignment Methoden des Sequenzalignments Áustauschmatrizen Bedeutsamkeit."—  Präsentation transkript:

1 2. Vorlesung WS 2004/05Softwarewerkzeuge der Bioinformatik 1 Paarweises Sequenzalignment Methoden des Sequenzalignments Áustauschmatrizen Bedeutsamkeit von Alignments BLAST, Algorithmus – Parameter – Ausgabe http://www.ncbi.nih.gov Diese Vorlesung lehnt sich eng an das BLAST Tutorial- Buch (links) an, Kapitel 3-9 siehe auch Vorlesung Bioinformatik I von Prof. Lenhof, Wochen 3 und 5

2 2. Vorlesung WS 2004/05Softwarewerkzeuge der Bioinformatik 2 Sequenz-Alignment Wenn man 2 oder mehr Sequenzen vorliegen hat, möchte man zunächst einmal - ihre Ähnlichkeiten quantitativ erfassen - Entsprechungen zwischen einzelnen Bausteinen beider Sequenzen erfassen - Gesetzmässigkeiten der Konservierung und Variabilität beobachten - Rückschlüsse auf entwicklungsgeschichtliche Verwandschaftsverhältnisse ziehen Wichtiges Ziel: Annotation, z.B. Zuordnung von Struktur und Funktion

3 2. Vorlesung WS 2004/05Softwarewerkzeuge der Bioinformatik 3 Suche in Datenbanken Identifiziere Ähnlichkeiten zwischen einer neuen Testsequenz, deren Struktur und Funktion unbekannt und nicht charakterisiert ist und Sequenzen in (öffentlichen) Datenbanken deren Strukturen und Funktionen bekannt sind. N.B. Die ähnlichen Regionen können die ganze Sequenz, oder Teile von ihr umfassen! Lokales Alignment globales Alignment

4 2. Vorlesung WS 2004/05Softwarewerkzeuge der Bioinformatik 4 Informationstheorie Wenn ein Kind auf jede Frage nein antwortet, enthalten die Antworten praktisch keine Information. Wenn die Antworten ja oder nein sind, enthalten Sie mehr Information. Definition der Information: p ist die Wahrscheinlichkeit einer Antwort. Logarithmitsierte Werte zur Basis 2 heissen bits, aus binary und digit. Wenn die Wahrscheinlichkeit, daß ein Kind kein Eis mag 0.25 ist, hat die Antwort 2 bits an Information. Die gegenteilige Information (es mag Eis) hat nur 0.41 bits an Information. Bezüglich der Basis e, heisst die entsprechende Einheit nats.

5 2. Vorlesung WS 2004/05Softwarewerkzeuge der Bioinformatik 5 Information Theory Tossing a coin is a source of head and tail symbols. A message might be: tththtt The letters A C G T are emitted from a DNA source. If the probability of any particular symbol is simply 1/n the information of any symbol is log 2 (n). This value is also the average. The formal name for the average information per symbol is entropy. If the symbols are not equally probable one has to weigh the information of each symbol by its probability of occurring. Shannons entropy: A random DNA source has an entropy of: -{ (0.25)(-2) + (0.25)(-2) + (0.25)(-2) + (0.25)(-2) } = 2 bits A DNA source with 90 % A or T and 10% C or G has an entropy of: - { 2 (0.45)(-1.15) + 2 (0.05)(-4.32) } = 1.47 bits

6 2. Vorlesung WS 2004/05Softwarewerkzeuge der Bioinformatik 6 Amino Acid Similarity Dayhoff represented the similarity (observed exchange frequences between related sequences) between amino acids as a log 2 odds ratio, or lod score. Lod score of an amino acid: take the log 2 of the ratio of a pairings observed frequency divided by the pairings randomly expected frequency. Lod score = 0 observed and expected frequencies are equal > 0 a pair of letters is common < 0 unlikely pairing General formula for the score s ij of two amino acids i and j. With: individual properties p i and p j, pairing frequency q jj,

7 2. Vorlesung WS 2004/05Softwarewerkzeuge der Bioinformatik 7 Ähnlichkeit der Aminosäuren Beispiel: die relative Häufigkeit von Methionin und Leucin seien 0.01 und 0.1. Durch zufällige Paarung erwartet man 1/1000 Austauschpaare Met – Leu. Wenn die beobachtete Paarungshäufigkeit 1/500 ist, ist das Verhältnis der Häufigkeiten 2/1. Im Logarithmus zur Basis 2 ergibt sich ein lod score von +1 or 1 bit. If the frequency of Arginine is 0.1 and its frequency of pairing with Leu is 1/500, the lod score of an Arg – Leu pair is -2.322 bits. Usually one uses nats, multiplies the values by a scaling factor and rounds them to integer values scoring matrices PAM and BLOSUM. These integer values are called raw scores.

8 2. Vorlesung WS 2004/05Softwarewerkzeuge der Bioinformatik 8 Towards Karlin-Altschul statistical theory Raw scores can be misleading because scaling factors are arbitrary. More useful measure: normalized scores. Converting a raw score to a normalized score requires a matrix-specific constant, called lambda. Lambda is approximately the inverse of the original scaling factor. The observed frequencies for all pairs sum up to 1: Write as where S ij are now the raw scores (integer values).

9 2. Vorlesung WS 2004/05Softwarewerkzeuge der Bioinformatik 9 Towards Karlin-Altschul statistical theory Thus, a pairwise frequency (q ij ) is implied from individual amino acid frequencies (p i und p j ) and a normalized score (λS ij ). Need to find λ so that: Once λ is estimated, it is used to calculate the E-value of every BLAST hit. The expected score of a scoring matrix is the sum of its raw scores weighted by their frequencies of occurrence.

10 2. Vorlesung WS 2004/05Softwarewerkzeuge der Bioinformatik 10 Karlin-Altschul Statistik Karlin und Altschul leiteten daraus nun die Bewertung der Signifikanz eines Alignments ab (hier ohne Herleitung): Fünf zentrale Annahmen: - eine positive Bewertung muß möglich sein - die erwartete Bewertung muß negativ sein - die Buchstaben einer Sequenz sind voneinander unabhängig und gleichverteilt - die Sequenzen sind unendlich lang sequences - Alignments enthalten keine gaps Die Anzahl an Alignments (E), die man während einer Suche in einer Sequenzdatenbank zufällig erhält, ist eine Funktion der Größe des Suchraums (m*n), der normalisierten Austauschbewertungen (λS), und einer Konstanten (k).

11 2. Vorlesung WS 2004/05Softwarewerkzeuge der Bioinformatik 11 Bewertungs- oder Austausch-Matrizen – dienen um die Qualität eines Alignments zu bewerten –Für Protein/Protein Vergleiche: eine 20 x 20 Matrix für die Wahrscheinlichkeit mit der eine bestimmte Aminosäure gegen eine andere durch zufällige Mutationen ausgetauscht werden kann. –Der Austausch von Aminosäuren ähnlichen Charakters (Ile, Leu) ist wahrscheinlicher (hat einen höheren Score) als der von Aminosäuren unterschiedlichen Charkters (e.g. Ile, Asp). –Matrizen werden als symmetrisch angenommen, besitzen also Form einer Dreiecksmatrix.

12 2. Vorlesung WS 2004/05Softwarewerkzeuge der Bioinformatik 12 Substitutions-Matrizen Nicht alle Aminosäuren sind gleich –Einige werden leichter ausgetauscht als andere –Bestimmte Mutationen geschehen leichter als andere –Einige Austausche bleiben länger erhalten als andere Mutationen bevorzugen bestimmte Austausche –Einige Aminosäuren besitzen ähnliche Codons –Diese werden eher durch Mutation der DNA mutiert Selektion bevorzugt bestimmte Austausche –Einige Aminosäuren besitzen ähnliche Eigenschaften und Struktur

13 2. Vorlesung WS 2004/05Softwarewerkzeuge der Bioinformatik 13 PAM250 Matrix

14 2. Vorlesung WS 2004/05Softwarewerkzeuge der Bioinformatik 14 Beispiel für eine Bewertung log (A B) = log A + log B Die Bewertung (Score) eines Alignments ist die Summe aller Bewertungen für die Paare an Aminosäuren (Nukleinsäuren) des Alignments: Sequenz 1: TCCPSIVARSN Sequenz 2: SCCPSISARNT 1 12 12 6 2 5 -1 2 6 1 0 => Alignment Score = 46

15 2. Vorlesung WS 2004/05Softwarewerkzeuge der Bioinformatik 15 Dayhoff Matrix (1) – wurde von M.O. Dayhoff aufgestellt, die statistische Daten über die Austauschhäufigkeit von Aminosäuren sammelte – Datensatz von eng verwandten Proteinsequenzen (> 85% Identität). Diese können zweifelsfrei aligniert werden. – Aus der Frequenz, mit der Austausche auftreten, wurde die 20 x 20 Matrix für die Wahrscheinlichkeiten aufgestellt, mit der Mutationen eintreten. – Diese Matrize heisst PAM 1. Ein evolutionärer Abstand von 1 PAM (point accepted mutation) bedeutet, dass es 1 Punktmutation pro 100 Residuen gibt, bzw. Dass die beiden Sequenzen zu 99% identisch sind.

16 2. Vorlesung WS 2004/05Softwarewerkzeuge der Bioinformatik 16 Log odds Matrix: enthält den Logarithmus der Elemente der PAM Matrizen. Score der Mutation i j beobachtete Mutationsrate i j = log() aufgrund der Aminosäurefrequenz erwartete Mutationsrate Die Wkt zweier unabhängiger Mutationsereignisse ist das Produkt der Einzelwahrscheinlichkeiten. Bei Verwendung einer log odds Matrix (d.h. bei Verwendung der logarithmisierten Werte) erhält man den gesamten Score des Alignments als Summe der Scores für jedes Residuenpaar. Dayhoff Matrix (2)

17 2. Vorlesung WS 2004/05Softwarewerkzeuge der Bioinformatik 17 Aus PAM 1 kann man Matrizen für grössere evolutionäre Entfernungen herstellen indem man die Matrix mehrfach mit sich selbst multipliziert. PAM250: –2,5 Mutationen pro Residue –entspricht 20% Treffern zwischen zwei Sequenzen, d.h. man beobachtet Änderungen in 80% der Aminosäurepositionen. –Dies ist die Default-Matrize in vielen Sequenzanalysepaketen. Dayhoff Matrix (3)

18 2. Vorlesung WS 2004/05Softwarewerkzeuge der Bioinformatik 18 BLOSUM Matrix Einschränkung der Dayhoff-Matrix: Die Matrizen, die auf dem Dayhoff-Modell der evolutionären Raten basieren, sind von eingeschränktem Wert, da ihre Substitionsraten von Sequenzalignments abgeleitet wurden, die zu über 85% identisch sind. Ein anderer Weg wurde von S. Henikoff und J.G. Henikoff eingeschlagen, welche lokale multiple Alignments von entfernter verwandten Sequenzen verwendeten. Ihre Vorteile: - grössere Datenmengen - multiple Alignments sind robuster

19 2. Vorlesung WS 2004/05Softwarewerkzeuge der Bioinformatik 19 BLOSUM Matrix (2) Die BLOSUM Matrizen (BLOcks SUbstitution Matrix) basieren auf der BLOCKS Datenbank. Die BLOCKS Datenbank verwendet das Konzept von Blöcken (lückenlose Aminosäure-Signaturen), die charakteristisch für eine Proteinfamilie sind. Aus den beobacheten Mutationen innerhalb dieser Blöcke wurden Austauschwahrscheinlichkeiten für alle Aminosäurepaare berechnet und für eine log odds BLOSUM matrix benutzt. Man erhält unterschiedliche Matrizen indem man die untere Schranke des verlangten Grads an Identität variiert. z.B. wurde die BLOSUM80 Matrix aus Blöcken mit > 80% Identität abgeleitet.

20 2. Vorlesung WS 2004/05Softwarewerkzeuge der Bioinformatik 20 Welche Matrix soll man benutzen? Enge Verwandtschaft (Niedrige PAM, hohe Blosum) Entfernte Verwandtschaft (Hohe PAM, niedrige Blosum) Vernünftige Default-Werte: PAM250, BLOSUM62

21 2. Vorlesung WS 2004/05Softwarewerkzeuge der Bioinformatik 21 Gewichtung von Lücken (Gaps) Neben der Substitutionsmatrix braucht man auch eine Methode zur Bewertung von Lücken. Welche Bedeutung haben Insertionen und Deletionen im Verhältnis zu Substitutionen? Unterscheide Einführung von Lücken: aaagaaa aaa-aaa von der Erweiterung von Lücken: aaaggggaaa aaa----aaa Verschiedene Programme (CLUSTAL-W, BLAST, FASTA) empfehlen unterschiedliche Default-Werte, die man wohl erst einmal verwenden sollte.

22 2. Vorlesung WS 2004/05Softwarewerkzeuge der Bioinformatik 22 Needleman-Wunsch Algorithmus - allgemeiner Algorithmus für Sequenzvergleiche - maximiert einen Ähnlichkeitsscore - bester Match = grösste Anzahl an Residuen einer Sequenz, die zu denen einer anderen Sequenz passen, wobei Deletionen erlaubt sind. - Der Algorithmus findet durch dynamische Programmierung das bestmögliche GLOBALE Alignment zweier beliebiger Sequenzen - NW beinhaltet eine iterative Matrizendarstellung alle möglichen Residuenpaare (Basen oder Aminosäuren) – je eine von jeder Sequenz – werden in einem zwei-dimensionalen Gitter dargestellt. alle möglichen Alignments werden durch Pfade durch dieses Gitter dargestellt. - Der Algorithmus hat 3 Schritte: 1 Initialisierung 2 Auffüllen 3 Trace-back

23 2. Vorlesung WS 2004/05Softwarewerkzeuge der Bioinformatik 23 Needleman-Wunsch Algorithm: Initialisierung Aufgabe: aligniere die Wörter COELACANTH und PELICAN der Länge m =10 und n =7. Konstruiere (m+1) (n+1) Matrix. Ordne den Elementen der ersten Zeile und Reihe die Werte – m gap und – n gap zu. Die Pointer dieser Felder zeigen zurück zum Ursprung. COELACANTH 0-2-3-4-5-6-7-8-9-10 P E -2 L -3 I -4 C -5 A -6 N -7

24 2. Vorlesung WS 2004/05Softwarewerkzeuge der Bioinformatik 24 Needleman-Wunsch Algorithm: Auffüllen Fülle alle Matrizenfelder mit Werten und Zeigern gemäss von simplen Operationen, die die Werte der diagonalen, vertikal, und horizontalen Nachbarzellen einschliessen. Berechne match score: Wert der Diagonalzelle links oben + Wert des Alignments (+1 oder -1) horizontal gap score: Wert der linken Zelle + gap score (-1) vertical gap score: Wert der oberen Zelle + gap score (-1) ordne der Zelle das Maximum dieser 3 Werte zu. Der Pointer zeigt in Richtung des maximalen Scores. max(-1, -2, -2) = -1 max(-2, -2, -3) = -2 (Pointer soll bei gleichen Werte immer in eine bestimmte Richtung zeigen, z.B. entlang der Diagonalen. COELACANTH 0-2-3-4-5-6-7-8-9-10 P -2

25 2. Vorlesung WS 2004/05Softwarewerkzeuge der Bioinformatik 25 Needleman-Wunsch Algorithmus: Trace-back Trace-back ergibt das Alignment aus der Matrix. Starte in Ecke rechts unten und folge den Pfeilen bis in die Ecke links oben. COELACANTH -PELICAN-- COELACANTH 0-2-3-4-5-6-7-8-9-10 P -2-3-4-5-6-7-8-9-10 E -2 -2-3-4-5-6-7-8 L -3 -20-2-3-4-5-6 I -4 -3 -2-3-4-5-6 C -5-3-4 -2 0-2-3-4 A -6-4 -5-3 10 -2 N -7-5 -4-2 0210

26 2. Vorlesung WS 2004/05Softwarewerkzeuge der Bioinformatik 26 Smith-Waterman-Algorithmus Smith-Waterman ist ein lokaler Alignment-Algorithmus. SW ist eine sehr einfache Modifikation von Needleman-Wunsch. Lediglich 3 Änderungen: die Matrixränder werden auf 0 statt auf ansteigende Gap-Penalties gesetzt. der maximale Wert sinkt nie unter 0. Pointer werden nur für Werte grösser als 0 eingezeichnet. Trace-back beginnt am grösseten Wert der Matrix und endet bei dem Wert 0. ELACAN ELICAN COELACANTH 00000000000 P 00000000000 E 00010000000 L 00002100000 I 00001100000 C 01000020000 A 00000103210 N 00000001432

27 2. Vorlesung WS 2004/05Softwarewerkzeuge der Bioinformatik 27 FASTA Algorithmus – Schritt 1 FASTA ist eine heuristische Methode zum Vergleich zweier Zeichenfolgen. Der Algorithmus wurde 1985 von Lipman und Pearson entwickelt und 1988 verbessert. FASTA vergleicht einen Eingabestring gegen eine einzelne Buchstabenfolge. Wenn man eine ganze Datenbank nach Treffern zu einer Eingabesequenz absucht, vergleicht FASTA die Eingabesequenz mit jedem Eintrag der Datenbank. Der Algorithmus nimmt an, daß ein Alignment zweier Sequenzen einen Abschnitt mit absoluter Übereinstimmung enthält und konzentriert sich auf identische Regionen. Dies sind die einzelnen Schritte des FASTA-Algorithmus 1. Wir geben einen ganzzahligen Parameter ktup vor (für k respective tuples), and suchen nach identischen Substrings der Länge ktup in beiden Sequenzen. Die empfohlenen Werte für ktup sind 6 für DNA- und 2 für Proteinsequenzvergleiche. Die passenden Substrings der Länge ktup bezeichnet man als hot spots. Aufeinander folgende hot spots werden entlang der Diagonale der dynamischen Programmierung gefunden Dieser Schritt läßt sich effizient mit einer lookup- oder hash-Tabelle durchführen:

28 2. Vorlesung WS 2004/05Softwarewerkzeuge der Bioinformatik 28 Lookup-Methode Position1 2 3 4 5 6 7 8 9 10 11 Sequenz 1n c s p t a... Sequenz 2 a c s p r k Position in AminosäureProtein AProtein Bpos A – pos B a660 c27-5 k-11 n1- p49-5 r-10 s38-5 t5 Aminosäuren c, s, und p haben den gleichen Offset. So erhält man schnell das mögliche Alignment.

29 2. Vorlesung WS 2004/05Softwarewerkzeuge der Bioinformatik 29 FASTA Algorithmus – Schritt 2 Finde nun die 10 besten Diagonalläufe der Hot spots in der Matrix. Eine Diagonale ist eine Reihe von benachbarten hot spots auf der gleichen Diagonale (müssen nicht unbedingt auf der Diagonale benachbart sein, d.h. Zwischenräume zwischen den hot spots sind erlaubt). In einem Duchlauf müssen nicht alle hot spots auf der Diagonale liegen und die Diagonale kann mehr als einer der 10 besten Durchläufe enthalten. Um die Diagonalen-Durchläufe zu bewerten gibt FASTA jedem hot spot eine positive Bewertung und den Zwischenräumen zwischen aufeinanderfolgenden hot spots eines Runs eine negative Bewertung, die mit zunehmender Entfernung abnimmt. Dann wird die Summe gebildet. Mit diesem Bewertungsschema findet FASTA die 10 Diagonalläufe mit der höchsten Bewertung.

30 2. Vorlesung WS 2004/05Softwarewerkzeuge der Bioinformatik 30 FASTA Algorithmus – Schritt 3 Ein Diagonalenlauf bezeichnet ein Paar von alignierten Substrings. Das Alignment setzt sich aus Treffern (hot spots) und Nichttreffern (dazwischen) zusammen. Es enthält jedoch keine Indels, da es aus einer einzigen Diagonale besteht. Als nächstes bewerten wir die Läufe mit einer Aminosäure- (Nukleotid-) Austauschmatrix und wählen den besten Lauf. Das beste einzelne Teilalignment in diesem Schritt heisst init1. Weiterhin wird eine Filterung durchgefühhrt und alle Diagonalläufe mit relativen geringen Bewertungen gelöscht.

31 2. Vorlesung WS 2004/05Softwarewerkzeuge der Bioinformatik 31 FASTA Algorithmus – Schritt 4 Bis jetzt wurden keine Indels in den Teilalignments erlaubt. Wir versuchen nun, gute Diagonalläufe aus eng benachbarten Diagonalen zu kombinieren, und erreichen dadurch ein Teilalignment mit Indels. Die gute Teilalignments stammen aus dem vorherigen Schritt (Bewertung > als ein cut-off Wert) und versuchen, sie zu einem einzigen großen Alignment mit hoher Bewertung zu kombinieren, das einige Gaps enthält. Dazu konstruieren wir einen gerichteten, gewichteten Graph, dessen Vertices die Teilalignments aus dem vorherigen Schritt sind. Das Gewicht jedes Vertix entspricht der Bewertung des entsprechenden Teilalignments. Dann verbinden wir Vertex u mit Vertex v falls das Teilalignment von v in einer tieferen Reihe beginnt als es endet. Wir geben dieser Verbindung ein negatives Gewicht, das der Anzahl an zwischen u und v einzufügenden Gaps entspricht. FASTA bestimmt dann in diesem Graphen einen Pfad mit maximalem Gewicht. Dieses ausgewählte Alignment entspricht einem einzelnen lokalen Alignment der beiden Strings. Das beste Alignment in diesem Schritt wird mit initn bezeichnet. Wie im vorherigen Schritt werden Alignments mit relativ geringer Bewertung gelöscht. Dann kommen noch 2 weitere Schritte...

32 2. Vorlesung WS 2004/05Softwarewerkzeuge der Bioinformatik 32 FASTA Algorithmus – graphisch

33 2. Vorlesung WS 2004/05Softwarewerkzeuge der Bioinformatik 33 BLAST – Basic Local Alignment Search Tool Findet das am besten bewertete lokale optimale Alignment einer Testsequenz mit allen Sequenzen einer Datenbank. Sehr schneller Algorithmus, 50 mal schneller als dynamische Programmierung. Kann verwendet werden um sehr grosse Datenbanken zu durchsuchen, da BLAST eine vor-indizierte Datenbank benutzt Ist ausreichend sensititv und selektiv für die meisten Zwecke Ist robust – man kann üblicherweise die Default-Parameter verwenden

34 2. Vorlesung WS 2004/05Softwarewerkzeuge der Bioinformatik 34 BLAST Algorithmus, Schritt 1 Für ein gegebenes Wort der Länge w (gewöhnlich 3 für Proteine) und eine gegebene Score-Matrix Erzeuge eine Liste aller Worte (w-mers), die einen Score > T erhalten, wenn man sie mit dem w-mer der Eingabe vergleicht P D G 13 P Q A 12 P Q N 12 etc. unterhalb Schranke (T=13) Test SequenzL N K C K T P Q G Q R L V N Q P Q G 18 P E G 15 P R G 14 P K G 14 P N G 13 benachbarte Wörter Wort P M G 13

35 2. Vorlesung WS 2004/05Softwarewerkzeuge der Bioinformatik 35 BLAST Algorithmus, Schritt 2 jedes benachbarte Wort ergibt alle Positionen in der Datenbank, in denen es gefunden wird (hit list). P D G 13 P Q G 18 P E G 15 P R G 14 P K G 14 P N G 13 P M G 13 PMG Database

36 2. Vorlesung WS 2004/05Softwarewerkzeuge der Bioinformatik 36 Traditional BLAST programs Sequence 1 Sequence 2 Alignments Gapped alignments Search Space

37 2. Vorlesung WS 2004/05Softwarewerkzeuge der Bioinformatik 37 Seeding Sequence 1 Sequence 2 Word hits

38 2. Vorlesung WS 2004/05Softwarewerkzeuge der Bioinformatik 38 Neighboorhood for 3-letter words BLOSUM62PAM200 WordScoreWord Score RGD17RGD18 KGD14RGE17 QGD13RGN16 RGE13KGD15 EGD12RGQ15 HGD12KGE14 NGD12HGD13 RGN12KGN13 AGD11RAD13 MGD11RGA13 RAD11RGG13 RGQ11RGH13 RGS11RGK13 RND11RGS13 RSD11RGT13 SGD11RSD13 TGD11WGD13 Choice of cut-off T will affect seeding

39 2. Vorlesung WS 2004/05Softwarewerkzeuge der Bioinformatik 39 Seeding Sequence 1 Sequence 2 Word clusters Isolated words

40 2. Vorlesung WS 2004/05Softwarewerkzeuge der Bioinformatik 40 BLAST Algorithm: Extension Program tries to extend seeds in both directions by adding residue pairs until the added score is smaller than a cut-off. After terminating the extension, the alignment is trimmed back to that with the maximal score.

41 2. Vorlesung WS 2004/05Softwarewerkzeuge der Bioinformatik 41 PSI-BLAST Position-Specific Iterated BLAST –Entfernte Verwandtschaften lassen sich besser durch Motiv- oder Profil- Suchen entdecken als durch paarweise Vergleiche –PSI-BLAST führt zunächst eine BLAST-Suche mit Gaps durch. –Das PSI-BLAST Programm verwendet die Information jedes signifikanten Alignments um eine positionsspezifische Substitionsmatrix zu konstruieren, die an Stelle der Eingabesequenz in der nächsten Runde der Datenbank- Suche verwendet wird. –PSI-BLAST kann iterativ verwendet werden bis keine neuen signifikanten Alignments mehr gefunden werden.

42 2. Vorlesung WS 2004/05Softwarewerkzeuge der Bioinformatik 42 BLAST Input Notwendige Schritte um BLAST einzusetzen (im Zeitalter des Internets!): Wähle einen Webserver (EBI = European Bioinformatics Institute, NCBI = National Center for Biotechnology Information …) gib Testsequenz ein (cut-and-paste) wähle die Nukleotid bzw. Aminosäure-Sequenzdatenbank, die durchsucht werden soll wähle Parameter um Output zu steuern (Zahl der Sequenzen …) wähle Parameter für das Alignment (z.B. Austauschmatrix, Filter,….) Testsequenz = MAFIWLLSCYALLGTTFGCGVNAIHPVLTGLSKIVNGEEAVPGTWPWQVTLQDRSGFHF CGGSLISEDWVVTAAHCGVRTSEILIAGEFDQGSDEDNIQVLRIAKVFKQPKYSILTVNND ITLLKLASPARYSQTISAVCLPSVDDDAGSLCATTGWGRTKYNANKSPDKLERAALPLLT NAECKRSWGRRLTDVMICGAASGVSSCMGDSGGPLVCQKDGAYTLVAIVSWASDTCS ASS GGVYAKVTKIIPWVQKILSSN

43 2. Vorlesung WS 2004/05Softwarewerkzeuge der Bioinformatik 43 BLAST Output (1)

44 2. Vorlesung WS 2004/05Softwarewerkzeuge der Bioinformatik 44 Kleine Wahrscheinlichkeit deutet an, dass der Treffer wohl nicht zufällig zustande kam. BLAST Output (2)

45 2. Vorlesung WS 2004/05Softwarewerkzeuge der Bioinformatik 45 Niedrige Scores mit hohen Wahrscheinlickeiten deuten an, dass dies wohl keine guten Treffer sind. BLAST Output (3)

46 2. Vorlesung WS 2004/05Softwarewerkzeuge der Bioinformatik 46 Bedeutung des Alignments in BLAST P-Wert (Wahrscheinlichkeit) –Gibt die Wahrscheinlichkeit an, mit der der Score eines Alignments zufällig zustande kommen kann. Je näher P bei Null liegt, desto grösser die Sicherheit, dass ein gefundener Treffer ein richtiger Treffer (homologe Sequenz) ist. E-Wert (Erwartungswert) –E = P * Anzahl der Sequenzen in Datenbank –E entspricht der Anzahl an Alignments eines bestimmten Scores, die man zufällig in einer Sequenz-Datenbank dieser Grösse erwartet (wird z.B. für ein Sequenzalignment E=10 angegeben, erwartet man 10 zufällige Treffer mit dem gleichen Score). Dieses Alignment ist also nicht signifikant. –Treffer werden in BLAST nur ausgegeben, wenn der E-Wert unterhalb einer Schranke liegt.

47 2. Vorlesung WS 2004/05Softwarewerkzeuge der Bioinformatik 47 Grobe Anhaltspunkte P-Wert (Wahrscheinlichkeit) – A. M. Lesk P 10 -100 genaue Übereinstimmung P zwischen 10 -100 und 10 -50 nahezu identische Sequenzen, zum Beispiel Allele oder SNPs P zwischen 10 -50 und 10 -10 eng verwandte Sequenzen, Homologie gesichert P zwischen 10 -10 und 10 -1 in der Regel entfernte Verwandte P > 10 -1 Ähnlichkeit vermutlich nicht signifikant E-Wert (Erwartungswert) E 0,02Sequenzen vermutlich homolog E zwischen 0,02 und 1Homologie ist nicht auszuschliessen E 1man muss damit rechnen, dass diese gute Übereinstimmung Zufall ist.

48 2. Vorlesung WS 2004/05Softwarewerkzeuge der Bioinformatik 48 Traditional BLAST programs ProgramDatabase QueryTypical uses BLASTN Nucleotide NucleotideMapping oligonucleotides, cDNAs and PCR products to a genome, screening repetitive elements; cross-species sequence exploration; annotating genomic DNA; clustering sequencing reads BLASTP Protein ProteinIdentifying common regions between proteins; collecting related proteins for phylogenetic analyses BLASTX Protein NucleotideFinding protein-coding genes in genomic DNA; determining translated intoif a cDNA corresponds to a known protein protein TBLASTN Nucleotide ProteinIdentifying transcripts, potentially from multiple organisms, translated similar to a given protein; mapping a protein to genomic DNA into protein TBLAST Nucleotide NucleotideCross-species gene prediction at the genome or transcript translated into translated intolevel; searching for genes missed by traditional methods protein proteinor not yet in protein databases

49 2. Vorlesung WS 2004/05Softwarewerkzeuge der Bioinformatik 49 BLAST Output (4)

50 2. Vorlesung WS 2004/05Softwarewerkzeuge der Bioinformatik 50 BLAST Output (5)

51 2. Vorlesung WS 2004/05Softwarewerkzeuge der Bioinformatik 51 BLAST Output (6) Although good content of identical and positive positions, both hits have high E-values due to their short length.

52 2. Vorlesung WS 2004/05Softwarewerkzeuge der Bioinformatik 52 Tips für den Einsatz von BLAST Verwende nicht stur die Standardparameter You get what you look for. Führe Kontrollen durch, besonders in der twilight zone. z.B. Schüttle die Sequenz durcheinander und wiederhole die Suche. Falls die variierte Sequenz ähnliche Ergebnisse liefert, beruht das Alignment auf einer systematischen Verfälschung, oder die Parameter sind nicht empfindlich genug gewählt Setze Komplexitätsfilter ein wenn erforderlich. Maskiere Repeats in genomischer DNA. Teile große Genomsequenzen in Stücke auf um die Suche zu beschleunigen.

53 2. Vorlesung WS 2004/05Softwarewerkzeuge der Bioinformatik 53 Tips für den Einsatz von BLAST Sei skeptisch gegenüber hypothetischen Proteinen. Erwarte Verunreinigungen in EST Datenbanken. In der Theorie sind ESTs Sequenzierungs-reads von cDNA, cDNA wird von mRNA erhalten und die mRNAs stammen direkt von den Genen. Allerdings entsprechen ESTs oft keinen Genen, sondern gehöhren zu Exons bzw. UTRs, dem Überlappteil eines Repeats...

54 2. Vorlesung WS 2004/05Softwarewerkzeuge der Bioinformatik 54 Zusammenfassung Paarweises Sequenzalignment ist heute Routine, aber nicht trivial. Mit dynamischer Programmierung (z.B. Smith-Waterman) findet man garantiert das Alignment mit optimaler Bewertung. Vorsicht: die Bewertungsfunktion ist nur ein Modell der biologischen Evolution. FASTA ist erheblich schneller als dynamische Programmierung. Am schnellsten ist BLAST und seine Derivate. Beide geben sehr robuste und brauchbare Ergebnisse für Proteinsequenzen. FASTA ist für Nukleotidsequenzen zuverlässiger. Multiple Sequenzalignments sind in der Lage, entferntere Ähnlichkeiten aufzuspüren und bieten ein besseres funktionelles Verständnis von Sequenzen und ihren Beziehungen Kommt nächste Woche dran.


Herunterladen ppt "2. Vorlesung WS 2004/05Softwarewerkzeuge der Bioinformatik 1 Paarweises Sequenzalignment Methoden des Sequenzalignments Áustauschmatrizen Bedeutsamkeit."

Ähnliche Präsentationen


Google-Anzeigen