Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

Der Bauplan des Menschen Effiziente Algorithmen zur Berechnung von Sequenz-Alignments Zentrum für Bioinformatik der Universität des Saarlandes WS 2001/2002.

Ähnliche Präsentationen


Präsentation zum Thema: "Der Bauplan des Menschen Effiziente Algorithmen zur Berechnung von Sequenz-Alignments Zentrum für Bioinformatik der Universität des Saarlandes WS 2001/2002."—  Präsentation transkript:

1 Der Bauplan des Menschen Effiziente Algorithmen zur Berechnung von Sequenz-Alignments Zentrum für Bioinformatik der Universität des Saarlandes WS 2001/2002

2 Der Bauplan des Menschen Sequenz-Alignments ist eines der ältesten Forschungsgebiete der Bioinformatik.... the wholy grail of Bioinformatics... (Dan Gusfield) Sequenz-Alignments werden in vielen Bereichen der Bioinformatik verwendet: 5. Berechnung von Evolutionary Trees 3. Bestimmung der Funktion von Genen und Proteinen 4. Bestimmung der Struktur von Proteinen 1. Sequenzierung 2. Suche nach Genen 6. Design von Proteinen

3 Der Bauplan des Menschen Mutiertes Gen verursacht Krankheit. Mögliche Behandlung: Gentherapie d.h. das Einschleusen einer normalen Kopie des Gens in den Zellkern. Zelle Zellkern mutiertesGen Kopien des Gens Nanopartikel Lektine Lektine docken an gewissen Zucker- molekülen (GlcNAG) auf der Zellober- fläche an. Dieser Vorgang ermöglicht die Auf- nahme der Partikel in die Zelle.

4 Der Bauplan des Menschen VAIAEQCGRQAGGKLCPNNLCCSQWGWCGSTDEYCSPDHNCQSNCK Sequenz Struktur TAHAQRCGEQGSNMECPNNLCCSQYGYCGMGGDYCGKGCQNGACYT ATNAQTCGKQNDGMICPHNLCCSQFGYCGLGRDYCGTGCQSGACCS LVSAQRCGSQGGGGTCPALWCCSIWGWCGDSEPYCGRTCENKCWS TAQAQRCGEQGSNMECPNNLCCSQYGYCGMGGDYCGKGCQNGACWT QRCGEQGSGMECPNNLCCSQYGYCGMGGDYCGKGCQNGACWT TVKSQNCGCAPNLCCSQFGYCGSTDAYCGTGCRSGPCRS SAEQCGRQAGDALCPGGLCCSSYGWCGTTVDYCGIGCQSQCDG PAAAQNCGCQPNFCCSKFGYCGTTDAYCGDGCQSGPCRS PAAAQNCGCQPNVCCSKFGYCGTTDEYCGDGCQSGPCRS SAEQCGQQAGDALCPGGLCCSSYGWCGTTADYCGDGCQSQCDG SAEQCGRQAGDALCPGGLCCSFYGWCGTTVDYCGDGCQSQCDG EQCGRQAGGKLCPNNLCCSQYGWCGSSDDYCSPSKNCQSNCK Design von Lektinen mit optimalen Bindungseigenschaften für GlcNAG. Hevein ist das kleinste Lektin (Ausgangssubstanz). Datenbanksuche mit Hevein liefert eine Reihe weiterer Lektine. Sequenz-Alignments der gefundenen Lektine zeigt Gemeinsamkeiten und Unterschiede der Sequenzen (in den Spalten des Alignments). Funktion Hevein

5 Der Bauplan des Menschen Sequenz Struktur Design von Lektinen mit optimalen Bindungseigenschaften für GlcNAG. Hevein ist das kleinste Lektin (Ausgangssubstanz). Datenbanksuche mit Hevein liefert eine Reihe weiterer Lektine. Sequenz-Alignments der gefundenen Lektine zeigt Gemeinsamkeiten und Unterschiede der Sequenzen (in den Spalten des Alignments). Funktion Hevein VAIAEQCGRQAGGKLC-PNNLCCSQWGWCGSTDEYCSPDHNCQSN-CK- TAHAQRCGEQGSNMEC-PNNLCCSQYGYCGMGGDYCGKG--CQNGACYT ATNAQTCGKQNDGMIC-PHNLCCSQFGYCGLGRDYCGTG--CQSGACCS LVSAQRCGSQGGGGTC-PALWCCSIWGWCGDSEPYCGRT--CENK-CWS TAQAQRCGEQGSNMEC-PNNLCCSQYGYCGMGGDYCGKG--CQNGACWT ----QRCGEQGSGMEC-PNNLCCSQYGYCGMGGDYCGKG--CQNGACWT TVKSQNCG CAP-NLCCSQFGYCGSTDAYCGTG--CRSGPCRS SAE--QCGRQAGDALC-PGGLCCSSYGWCGTTVDYCGIG--CQSQ-CDG PAAAQNCG CQP-NFCCSKFGYCGTTDAYCGDG--CQSGPCRS PAAAQNCG CQP-NVCCSKFGYCGTTDEYCGDG--CQSGPCRS SAE--QCGQQAGDALC-PGGLCCSSYGWCGTTADYCGDG--CQSQ-CDG SAE--QCGRQAGDALC-PGGLCCSFYGWCGTTVDYCGDG--CQSQ-CDG ----EQCGRQAGGKLC-PNNLCCSQYGWCGSSDDYCSPSKNCQSN-CK- Beispiel: Die gelben Balken zeigen die acht Cysteine, die vier Schwefelbrücken bilden [ein essentielles Strukturelement aller hier gezeigten Lektine].

6 Der Bauplan des Menschen ={A,C,G,U,-} AUGAACG--C AU-AUCGGCC ={A,C,G,U} s 1 AUGAACGC s 2 AUAUCGGCC Gegeben k Sequenzen S={ s 1,..., s k } über einem Alphabet. Ein Sequenz-Alignment von S ist eine Menge von k Sequenzen AS = {as 1,..., as k } über dem erweiterten Alphabet = {-} mit den folgenden Eigenschaften: (1) Alle Sequenzen in AS besitzen die gleiche Länge. (2) Entfernt man die Lückensymbole {-} aus as i, so erhält man die Sequenz s i (für alle i). Definition:

7 Der Bauplan des Menschen ={A,C,G,U,-} AUGAACG--C AU-AUCGGCC ={A,C,G,U} s 1 AUGAACGC s 2 AUAUCGGCC Biologische Interpretation von Alignments: Annahme: Die Ähnlichkeit von DNA-Sequenzen kann als ein Hinweis auf eine gemeinsame evolutionäre Herkunft (gemeinsamen Vorfahren) gedeutet werden. Im Laufe der Evolution kam es zu Mutationen, die die Unterschiede im Erbgut der verschiedenen Spezies hervorgerufen haben. Deletion Insertion Indels Substitution Fragen: Wieviele Mutationen sind erforderlich, um eine Sequenz in eine andere Sequenz zu überführen? Wie wahrscheinlich sind diese Mutationen? Wie oft kommen solche Mutationen (Transformationen) in einem be- stimmten Zeitraum im Durchschnitt vor?

8 Der Bauplan des Menschen Für die Bewertung von Alignments stehen viele unterschiedliche Funktionen zur Verfügung. Die meisten Bewertungsfunktionen kann man zwei Klassen zuordnen: 1. Abstandsfunktionen 2. Ähnlichkeitsfunktionen Die einfachen Bewertungsfunktionen bewerten jede Spalte eines Alignments. Die Summe der Spaltenwerte ergibt dann die Gesamtbewertung eines Alignments. Beispiel mit einer einfachen Abstandsfunktion: S AUGAACGC P AUAUCGGCC AS AUGAACG--C AP AU-AUCGGCC = 4

9 Der Bauplan des Menschen S AUGAACGC P AUAUCGGCC AS AUGAACG--C AP AU-AUCGGCC = 4 Gegeben zwei Sequenzen S und P über einem Alphabet und eine Bewertungsfunktion d. Berechne ein bezüglich d optimales paarweises Alignment A opt [S,P] von S und P. Paarweises Sequenz-Alignment-Problem: Beispiel mit einer einfachen Abstandsfunktion:

10 Der Bauplan des Menschen S AUGAACGC P AUAUCGGCC AS AUGAACG--C AP AU-AUCGGCC = 6 Gegeben zwei Sequenzen S und P über einem Alphabet und eine Bewertungsfunktion d. Berechne ein bezüglich d optimales paarweises Alignment A opt [S,P] von S und P. Paarweises Sequenz-Alignment-Problem: Beispiel mit einer einfachen Ähnlichkeitsfunktion:

11 Der Bauplan des Menschen S AUGAACGC P AUAUCGGCC Gegeben zwei Sequenzen S und P über einem Alphabet und eine Bewertungsfunktion d. Berechne ein bezüglich d optimales paarweises Alignment A opt [S,P] von S und P, wobei S die Länge n und P die Länge m hat.. Beispiel für Distanzfunktion d S i = Präfix der Länge i von S P j = Präfix der Länge j von P d(S i,P j ) = Wert des opt. Alignments von S i und P j mit Wert d(S n,P m ) d(S i,P j ) = min d(s i,p j ) CCCC d(S i-1,P j-1 ) d(S i-1,P j-1 ) + d(S i-1,P j ) d(s i,-)d(S i-1,P j ) + C-C- -C-C d(S i,P j-1 ) d(-,p j )d(S i,P j-1 ) + Idee: Betrachte die Möglichkeiten für die letzte Spalte und leite hieraus eine Rekursionformel ab. i j

12 Der Bauplan des Menschen 0 Gegeben zwei Sequenzen S und P über einem Alphabet und eine Bewertungsfunktion d. Berechne ein bezüglich d optimales paarweises Alignment A opt [S,P] von S und P, wobei S die Länge n und P die Länge m hat.. mit Wert d(S n,P m ) d(S i,P j ) = min d(s i,p j )d(S i-1,P j-1 ) + d(s i,-)d(S i-1,P j ) + d(-,p j )d(S i,P j-1 ) + Fülle Matrix A ji mit a ji = d(S i,P j ) für alle i {0,...,n} für alle j {0,...,m} d(S i,P 0 ) = i d(S 0,P j ) = j CCCC -C-C GGGG AUGAAC- AU-AUCG A U G A A C G C S 0 S 1 S 2 S 3 S 4 S 5 S 6 S 7 S 8 P 0 P 1 A P 2 U P 3 A P 4 U P 5 C P 6 G P 7 G P 8 C P 9 C

13 Der Bauplan des Menschen CCCC -C-C GGGG AUGAAC- AU-AUCG 0 A U G A A C G C S 0 S 1 S 2 S 3 S 4 S 5 S 6 S 7 S 8 P 0 P 1 A P 2 U P 3 A P 4 U P 5 C P 6 G P 7 G P 8 C P 9 C Gegeben zwei Sequenzen S und P über einem Alphabet und eine Bewertungsfunktion d. Berechne ein bezüglich d optimales paarweises Alignment A opt [S,P] von S und P, wobei S die Länge n und P die Länge m hat.. mit Wert d(S n,P m ) Fülle Matrix A ji mit a ji = d(S i,P j ) für alle i {0,...,n} für alle j {0,...,m} (1) Intitialisierung (der Ränder der Matrix). (2) Berechnung der Matrixeinträge mittels Rekursion. (3) Backtracking: Berechne ein optimales Alignment. d(S i,P j ) = min d(s i,p j )d(S i-1,P j-1 ) + d(s i,-)d(S i-1,P j ) + d(-,p j )d(S i,P j-1 ) + d(S i,P 0 ) = i d(S 0,P j ) = j Laufzeit: O(mn). Speicherplatzbedarf: O(mn)

14 Der Bauplan des Menschen Zunächst hat sich die Bioinformatik mit globalen Alignments beschäftigt, d.h., man hat versucht, die Sequenzen vollständig miteinander zu vergleichen. Dies macht nur dann Sinn, wenn (a) die Sequenzen sehr ähnlich und (b) fast gleich lang sind. Sind die Sequenzen jedoch unterschiedlich lang, so sucht man nach lokalen Alignments. (a)Falls zum Beispiel eine kleine Sequenz in einer großen Sequenz versteckt ist (eine ähnliche oder identische Teil- sequenz in der Großen versteckt ist). Beispiel: Suche Verwandte eines Genes in einem langen, neu sequenzierten DNA-Molekül. (b)Falls zwei Sequenzen nur an den Enden überlappen. Beispiel: Fragmente (reads) bei der Sequenzierung. (c)Falls eine Sequenz in Teilstücken in der anderen auftaucht. Beispiel: Suche mit EST oder Protein nach Exons in DNA.

15 Der Bauplan des Menschen Bei lokalen Alignments werden die überstehenden Endstücke und die leeren Mittelstücke nicht bewertet: d(S i,P 0 ) = 0 d(S 0,P j ) = 0 Als Bewertungsfunktionen werden in der Regel Ähnlichkeitsfunktionen verwendet. d(S i,P j ) = max d(s i,p j )d(S i-1,P j-1 ) + d(s i,-)d(S i-1,P j ) + d(-,p j )d(S i,P j-1 ) + 0

16 Der Bauplan des Menschen Bei lokalen Alignments werden die überstehenden Endstücke und die leeren Mittelstücke nicht bewertet: d(S i,P 0 ) = 0 d(S 0,P j ) = 0 Als Bewertungsfunktionen werden in der Regel Ähnlichkeitsfunktionen verwendet. d(S i,P j ) = max d(s i,p j )d(S i-1,P j-1 ) + d(s i,-)d(S i-1,P j ) + d(-,p j )d(S i,P j-1 ) + 0 A U G A A C C C S 0 S 1 S 2 S 3 S 4 S 5 S 6 S 7 S 8 P P 1 G P 2 A P 3 C P 4 C Man beachte, dass bei der Berechnung von lokalen Alignments der beste Wert irgendwo in der Matrix erscheinen kann (modifiziertes Back-Tracing).

17 Der Bauplan des Menschen Ein Lücke (Gap) ist eine maximale Aufeinanderfolge von (mindestens einem) Lückensymbolen (-): ATACGCGGTTGAT ATA---GGT-GCT Lücken Die Bewertungsfunktionen können um einen additiven Term für Lücken erweitert werden. S AUGAACGC P AUAUCGGCC AS AUGAACG--C AP AU-AUCGGCC Affine Gap-Kostenfunktion: Konvexe Gap-Kostenfunktion:

18 Der Bauplan des Menschen Falls die Bewertungsfunktion eine affine Gap-Kostenfunktion beinhaltet, benötigt man vier Matrizen der Größe [n+1,m+1], um ein optimales paarweises Alignment von zwei Sequenzen S und P mit den Längen n und m zu berechnen. Affine Gap-Kostenfunktion: d (S i, P j ) = Wert eines (maximalen) optimalen Alignments der Präfixe S i und P j d (S i, P j ) = max { E(S i, P j ), F (S i, P j ), H (S i, P j ) }, wobei E (S i, P j ) = Wert des max. Alignments von S i und P j, das mit der Spalte endet. sipjsipj F (S i, P j ) = Wert des max. Alignment von S i und P j, das mit der Spalte endet. _pj_pj H (S i, P j ) = Wert des max. Alignment von S i und P j, das mit der Spalte endet. si_si_

19 Der Bauplan des Menschen Falls die Bewertungsfunktion eine affine Gap-Kostenfunktion beinhaltet, benötigt man vier Matrizen der Größe [n+1,m+1], um ein optimales paarweises Alignment von zwei Sequenzen S und P mit den Längen n und m zu berechnen. Affine Gap-Kostenfunktion: d (S i, P j ) = Wert eines (maximalen) optimalen Alignments der Präfixe S i und P j d (S i, P j ) = max { E(S i, P j ), F (S i, P j ), H (S i, P j ) }, wobei E (S i, P j ) = Wert des max. Alignments von S i und P j, das mit der Spalte endet. sipjsipj F (S i, P j ) = Wert des max. Alignment von S i und P j, das mit der Spalte endet. _pj_pj H (S i, P j ) = Wert des max. Alignment von S i und P j, das mit der Spalte endet. si_si_ d (S i-1, P j-1 ) + d(s i, p j ) max{ d (S i, P j-1 ) + w s + w v, F(S i, P j-1 ) + w v } max{ d (S i-1, P j ) + w s + w v, H(S i-1, P j ) + w v } Der folgende Algorithmus für affine Gap-Kosten hat Laufzeit und Speicherplatzbedarf O(nm).

20 Der Bauplan des Menschen mandrill TTTTKGENFTETDVKMMERVVEQMCITQYEKESQAYYQ__RGSSMVLFSS presbytis_francoisi TTTTKGENFTETDVKMMERVVEQMCITQYEKESQAYYQ--RGSSMVFFSS crab_eating_macaque TTTTKGENFTETDVKMMERVVEQMCITQYEKESQAYYQ--RGSSMVLFSS green_monkey TTTTKGENFTETDVKMMERVVEQMCITQYEKESQAYYQ--RGSSMVLFSS br._capped_capuchin TTTTKGENFTETDVKMMERVVEQMCITQYERESQAYYQ--RGSSMVLFSS chimpanzee TTTTKGENFTETDVKMMERVVEQMCITQYERESQAYYQ--RGSSMVLFSS orangutan TTTTKGENFTETDVKMMERVVEQMCITQYERESQAYYQ--RGSSMVLFSS gorilla TTTTKGENFTETDVKMMERVVEQMCITQYERESQAYYQ--RGSSMVLFSS human TTTTKGENFTETDVKMMERVVEQMCITQYERESQAYYQ--RGSSMVLFSS bovine TTTTKGENFTETDIKMMERVVEQMCITQYQRESQAYYQ--RGASVILFSS sheep TTTTKGENFTETDIKIMERVVEQMCITQYQRESQAYYQ--RGASVILFSS mule_deer TTTTKGENFTETDIKMMERVVEQMCITQYQRESQAYYQ--RGASVILFSS rat TTTTKGENFTETDVKMMERVVEQMCVTQYQKESQAYYDG-RRSSAVLFSS golden_hamster TTTTKGENFTETDIKIMERVVEQMCTTQYQKESQAYYDG-RRSSAVLFSS mouse TTTTKGENFTETDVKMMERVVEQMCVTQYQKESQAYYDGRRSSSTVLFSS Das obige multiple Alignment zeigt einen Abschnitt eines multiplen Alignments von Prionen Proteinen verschiedener Spezies. Die Prionen gelten als Verursacher von BSE, Scrapie und der Jacob-Kreutzfeld-Erkrankung.

21 Der Bauplan des Menschen Wir betrachten der Einfachheit halber im folgenden nur den Fall k = 3, d.h., gegeben drei Sequenzen S, P, Q der Längen n, m, l. Multiples Sequenzalignment-Problem: Gegeben k Sequenzen über einem Alphabet und eine Bewertungsfunktion d. Berechne ein optimales multiples Sequenz-Alignment der k Sequenzen. Sum-of-Pairs-Problem (SP): Die Bewertungsfunktion d sei eine Distanz- oder Ähnlichkeitsfunktion. Die Bewertung einer Spalte eines multiplen Alignments [AS,AP,AQ] ist gleich der Summe der Abstände (Ähnlichkeiten) aller Paare von Buchstaben in dieser Spalte. Die Summe der Spalten liefert die Gesamtbewertung (plus eventuell Gap-Kosten).

22 Der Bauplan des Menschen Sum-of-Pairs-Problem (SP): Ein optimales SP-Alignment kann man mittels Dynamischer Programmierung (DP) berechnen. Die Rekursionsgleichung leitet man aus einer Fallunterscheidung für die letzte Spalte ab (siehe Übung). Falls alle k Sequenzen die Länge n haben, so ist die Laufzeit und der Speicherplatzbedarf O(n k ). DP funktioniert nur für sehr kleine k (< 10). Für k > 4 und entsprechende Längen n findet man nur dann ein optimales Alignment, wenn man den Suchraum verkleinern kann (Branch-and-Bound). Die Berechnung eines optimalen Alignments entspricht der Suche nach einem kürzesten (oder längsten) Pfad in einem Alignment-Graphen (gerichteter Graph mit Quelle und Senke). Die Kanten des Graphen entsprechen den möglichen Spalten des Alignments. Das Gewicht einer Kante ist gleich der Bewertung der zugehörigen Spalte. Suchraum verkleinern! Nur den interessanten Teilgraphen durchmustern! Branch-and-Bound!

23 Der Bauplan des Menschen Sum-of-Pairs-Problem (SP): Betrachte ein optimales SP-Alignment A opt [S,P,Q] von S, P und Q. Sei d(S n, P m, Q l ) der Wert des optimalen SP-Alignments. AATGCGTCTC AA-GCGTATC AA-GCGT-TG AATGCGTCTC AA-GCGTATC AA-GCGT-TG AATGCGTCTC AA-GCGT-TG AATGCGTCTC AA-GCGTATC AAGCGTATC AAGCGT-TG AATGCGTCTC AA-GCGT-TG Betrachte alle durch das optimale Alignment implizierten paarweisen Alignments. Die implizierten paarweisen Alignments erhält man, indem man die Spalten ohne Informationen (Doppelminus => Bewertung 0) streicht. Es gilt (d Ähnlichkeitsfunktion): d(S n, P m, Q l ) = d(I(S n, P m )) + d(I(S n, Q l )) + d(I( P m, Q l )) d(S n, P m ) + d(S n, Q l ) + d( P m, Q l ) I(S n, P m ) I(S n, Q l ) I(P m, Q l )

24 Der Bauplan des Menschen Sum-of-Pairs-Problem (SP): Sei d(S i, P j, Q r ) der Wert des optimalen SP-Alignments für die Präfixe S i, P j, Q r. Es gilt (d Ähnlichkeitsfunktion) für beliebige Präfixe S i, P j, Q r : d(S i, P j, Q r ) d(S i, P j ) + d(S i, Q r ) + d( P j, Q r ) Bezeichnung: Seien RS i der Suffix [s i+1 s i+2....s n ] von S RP j der Suffix [p j+1 p j+2....p m ] von P RQ r der Suffix [q r+1 q r+2....q l ] von Q Die Summe der optimalen paarweisen Alignments ist eine obere Schranke OS für den Wert des optimalen SP-Alignments: d(S n, P m, Q l ) OS = d(S n, P m ) + d(S n, Q l ) + d( P m, Q l ) Es gilt natürlich auch für alle Suffixe RS i, RP j, RQ r : d(RS i, RP j, RQ r ) d(RS i, RP j ) + d(RS i, RQ r ) + d( RP j, RQ r )

25 Der Bauplan des Menschen Sei d(S i, P j, Q r ) der Wert des optimalen SP-Alignments für die Präfixe S i, P j, Q r. d(S i, P j, Q r ) + d(RS i, RP j, RQ r ) US Branch-and-Bound: Dieser Wert wird im Alignment-Graphen (bzw. der Matrix) in dem zugehörigen Knoten gespeichert. Wurde dieser Wert gerade berechnet, so kann man die Frage stellen, ob dieser Knoten überhaupt auf dem optimalen Pfad liegen kann, d.h., ob man die Kanten, die von diesem Knoten ausgehen, betrachten muss. Nehmen wir einmal an, dass wir eine untere Schranke US für den Wert des optimalen SP-Alignments von S, P,Q kennen. so kann der (d(S i, P j, Q r ) ) Knoten nicht auf einem optimalen Pfad liegen. d(RS i, RP j, RQ r ) d(RS i, RP j ) + d(RS i, RQ r ) + d( RP j, RQ r ) Aus folgt: d(S i, P j, Q r ) + d(RS i, RP j ) + d(RS i, RQ r ) + d( RP j, RQ r ) US Ist so kann der (d(S i, P j, Q r ) ) Knoten nicht auf einem optimalen Pfad liegen. Ist

26 Der Bauplan des Menschen Um die unten angegebene Bedingung zur Reduzierung des Suchraums einsetzen zu können, benötigt man Branch-and-Bound: d(S i, P j, Q r ) + d(RS i, RP j ) + d(RS i, RQ r ) + d( RP j, RQ r ) US Ist so kann der (d(S i, P j, Q r ) ) Knoten nicht auf einem optimalen Pfad liegen. (1) die Werte aller optimalen paarweisen Alignments d(RS i, RP j ), d(RS i, RQ r ), d( RP j, RQ r ). [Ordne die Buchstaben von hinten nach vorne und berechne die paarweisen Alignments.] (2) eine gute untere Schranke US für den Wert des optimalen SP-Alignments. [Zur Berechnung der unteren Schranke benötigt man gute Heuristiken.]

27 Der Bauplan des Menschen Eine ganze Reihe von Heuristiken basieren auf der folgenden Heuristiken zur Berechnung von multiplen Sequenz-Alignments: Idee: Man kombiniere optimale paarweise Alignments zu multiplen Alignments. Frage (1): Welche paarweisen Alignments lassen sich kombinieren (sind kompatibel)? Frage (2): Wie kann man paarweise Alignments kombinieren ? Satz [Feng & Doolitle (1987)]: Gegeben ein Baum, in dem jeder Knoten eine Sequenz repräsentiert und jede Kante ein optimales paarweises Alignment der beiden Sequenzen repräsentiert, die in den Knoten der Kante gespeichert sind. Dann gibt es ein multiples Alignment aller vom Baum reprä- sentierten Sequenzen, das zu den paarweisen Alignments der Kanten kompatibel ist. Kompatibel bedeutet hier genauer: Für jedes Paar von Sequenzen, das im Baum durch eine Kante repräsentiert wird, ist das vom multiplen Alignment induzierte paarweise Alignment gleich dem paarweisen Alignment, das durch die Baumkante repräsentiert wird.

28 Der Bauplan des Menschen Heuristiken zur Berechnung von multiplen Sequenz-Alignments: AGCT AGT ACT AGGT AGGCT AG-T AGCT A-CT AGCT AGGT AGG-T AGGCT AAAAAA -GG-GG C-CC-C TTTTTT AAAA GGGG GGGG TTTT -C-C AAAAAAAAAA GGGG-GGGG- GGC-CGGC-C T T = T -C----C--- AAAAAAAAAA GGGG-GGGG- GGC-CGGC-C TTTTTTTTTT -C----C--- Greedy-Ansatz: MA eine (zunächst leere) Alignment-Menge. Solange E noch nicht leer ist, (S i, S j ) seien die Sequenzen der Kante e. a. Wähle die beste Kante e=(S i, S j ) in E. E sei die Kantenmenge. ae sei das paarweise Alignment der Kante e. b. Sind S i und S j Teil von Alignments in MA, beste Kante = optimaler Alignment-Wert. dann kombiniere mittels ae (ersetze die zwei alten durch das neue kombinierte Alignment). c. Ist S i oder S j Teil eines Alignments in MA, dann kombiniere die andere Sequenz mit dem entspr. Alignment in MA. d. Ist weder S i noch S j in MA vertreten, dann füge ae zu MA hinzu. e. Entferne e=(S i, S j ) aus E AAAA GGGG TTTT -C-C

29 Der Bauplan des Menschen Heuristiken zur Berechnung von multiplen Sequenz-Alignments: AGCT AGT ACT AGGT AGGCT AG-T AGGT A-CT AGGT AGCT AGGT AGG-T AGGCT Sterne (Stars) sind eine besondere Form von Bäumen mit einem zentralen Knoten, dem Zentrum, und sonst nur Blätter. Gegeben einen Stern G. Ein Alignment A G heißt Star-Alignment von G, falls das Alignment zu den optimalen paarweisen Alignments der Kanten des Sterns kompatibel ist. Pevzner und Gusfield haben Approximationsverfahren für das Sum-of-Pairs-Problem mit einer Metrik d als Bewertungsfunktion (Distanzfunktion) entwickelt. Für drei beliebige Sequenzen S, P, Q gilt: d(S,Q) d(S,P) + d(P,Q) Dreiecksungleichung. Wir nehmen o.B.d.A. an, dass die Metrik d ein Maß für die Zahl der Transformationen (Mutationen) ist, um einen String S in einen String P zu überführen.

30 Der Bauplan des Menschen Heuristiken zur Berechnung von multiplen Sequenz-Alignments: AGCT AGT ACT AGGT AGGCT AG-T AGGT A-CT AGGT AGCT AGGT AGG-T AGGCT Sei G=(E,V) ein ungerichteter Graph mit gewichteten Kanten. Den kürzesten Pfad zwischen zwei Knoten v und w bezeichnen wir mit sp(v,w). Die Kommunikationskosten c(e) einer Kante e definieren wir als die Zahl der kürzesten Pfade sp(v,w), die diese Kante benutzen. In einem Stern mit k Knoten hat jede Kante e Kommunikations- kosten c(e) = k-1. Unterscheiden wir noch zwischen dem kürzesten Pfad von v nach w und von w nach v, so hat jede Kante e in einem Stern mit k Knoten (k-Star) Kommunikationskosten. c(e) = 2(k-1). Seien {v 1,..., v k } die Knoten von G.Sei C(G) = (c ij ) die k x k Matrix mit c ij = c(e) falls e=(v i, v j ) eine Kante von G ist, und c ij = 0 sonst.

31 Der Bauplan des Menschen Heuristiken zur Berechnung von multiplen Sequenz-Alignments: AGCT AGT ACT AGGT AGGCT AG-T AGGT A-CT AGGT AGCT AGGT AGG-T AGGCT Für ein vorgegebenes multiples Alignments A von k Sequenzen definieren wir W(A) = (w(A ij )) als eine k x k Matrix mit den Werten w(A ij ), der vom Alignment A induzierten paarweisen Alignments A ij. Sei E = ( ij ) eine k x k Matrix mit 0 auf der Diagonale und 1 sonst. Der Sum-of-Pairs-Wert eines Alignments A ist Den Sum-of-Pairs-Wert SP(G) eines zu einen Baum G=(V,E) kompatiblen Alignments A G können wir wie folgt abschätzen: ?

32 Der Bauplan des Menschen Heuristiken zur Berechnung von multiplen Sequenz-Alignments: AGCT AGT ACT AGGT AGGCT AG-T AGGT A-CT AGGT AGCT AGGT AGG-T AGGCT Den Sum-of-Pairs-Wert SP(G) eines zu einen Baum G=(V,E) kompatiblen Alignments A G können wir wie folgt abschätzen: ? AGG-T AGGCT AGC-T AG--T A-C-T Für jedes Alignment A G, das zu einem Baum G kompatibel ist, und für jedes durch A G induzierte paarweise Alignment (A G ) ij gilt: AGG-T AGGCT AGC-T AG--T A-C-T Beispiel (siehe Abbildung auf der rechten Seite): Betrachten wir alle paarweisen Alignments (A G ) ij und summieren wir jeweils die Werte links und rechts in der obigen Ungleichung, so erhalten wir die unten ange- gebene Formel:

33 Der Bauplan des Menschen Heuristiken zur Berechnung von multiplen Sequenz-Alignments: Sei K eine Menge (Kollektion) von k-Stars in einem Graphen mit k Knoten. K heißt balanciert, wenn es eine ganze Zahl r gibt, so dass Da C(G) nur für Kanten in G Einträge ungleich 0 hat und da ein zu G kompatibles Alignment A G optimale paarweise Alignments für die Kanten von G induziert (garantiert), gilt für jedes beliebige Alignment A: Lemma:Ist K eine (mit Skalar) r-balancierte Menge von Stars, dann gilt

34 Der Bauplan des Menschen Lemma:Ist K eine (mit Skalar) r balancierte Menge von Stars, dann gilt Beweis: für jedes Alignment A Da diese Ungleichung für jedes beliebige Alignment gilt, gilt sie natürlich auch für das optimale Alignment

35 Der Bauplan des Menschen Der Star-Alignment-Algorithmus: Konstruiere eine balancierte Menge K von k-Stars. Berechne für jeden k-Star G K ein Star-Alignment A G. Bestimme den k-Star G Best K mit minimalem Wert (C(G) o W(A G )). Gib A G zurück. Best Satz (Gusfield [1993]) Gegeben eine r-balancierte Menge K von k-Stars. Der obige Algorithmus liefert eine Approximation des optimalen multiples Alignment mit einem garantierten Approximationsfaktor von (2-(2/k)). Beweis: Die obige Aussage folgt jetzt aus dem vorhergehenden Lemma.


Herunterladen ppt "Der Bauplan des Menschen Effiziente Algorithmen zur Berechnung von Sequenz-Alignments Zentrum für Bioinformatik der Universität des Saarlandes WS 2001/2002."

Ähnliche Präsentationen


Google-Anzeigen