Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

T A T A C G A A T C T A A A PosACGT 1.49998.5.00001 2.49998.5 3.6.39998.00001 Wie oft matcht das Profil ?

Ähnliche Präsentationen


Präsentation zum Thema: "T A T A C G A A T C T A A A PosACGT 1.49998.5.00001 2.49998.5 3.6.39998.00001 Wie oft matcht das Profil ?"—  Präsentation transkript:

1 T A T A C G A A T C T A A A PosACGT 1.49998.5.00001 2.49998.5 3.6.39998.00001 Wie oft matcht das Profil ?

2 T A T A C G A A T C T A A A PosACGT 1.49998.5.00001 2.49998.5 3.6.39998.00001 Wie oft matcht das Profil ? 1234

3 Suche nach Motiven mit PSSMs und Enhanced Suffix Array PoSSuMSearch: Fast and Sensitive Matching of Position Specific Scoring Matrices using Enhanced Suffix Arrays Beckstette, Strothmann, Homann, Giegerich, Kurtz

4 Lineup ST vs SA LAS Suffix Tree LAS Suffix Array Vergleich LAS Probability Distribution Lineup Suffix Tree versus Suffix Array Lookahead Search bei Suffix Trees Lookahead Search bei Suffix Arrays Vergleich Restricted Probability Computation Zusammenfassung

5 Lineup ST vs SA LAS Suffix Tree LAS Suffix Array Vergleich LAS Probability Distribution Suffix Tree vs Suffix Array 1ATATA$ 3 ATA$ 5 A$ 2 TATA$ 4 TA$ 6 $ Suffix Tree for |ATATA$| = n Start Inorder Traversierung [3]

6 Lineup ST vs SA LAS Suffix Tree LAS Suffix Array Vergleich LAS Probability Distribution Suffix Tree vs Suffix Array Suffix Tree for |ATATA$| = n Start Suffix Array for ATATA$ 1ATATA$ 3 ATA$ 5 A$ 2 TATA$ 4 TA$ 6 $ [3]

7 Lineup ST vs SA LAS Suffix Tree LAS Suffix Array Vergleich LAS Probability Distribution Suffix Tree vs Suffix Array Suffix Tree for |ATATA$| = n Start Suffix Array for ATATA$ Speicherbedarf: 4 byte pro Zeichen17 byte pro Zeichen Aufbau: O (n)O (n) Stringsuche: O (m * log n)O (m) 1ATATA$ 3 ATA$ 5 A$ 2 TATA$ 4 TA$ 6 $ [3]

8 Lineup ST vs SA LAS Suffix Tree LAS Suffix Array Vergleich LAS Probability Distribution Naive Suche mit Suffix Trees Suche nach allen Strings mit Threshold t in O (mn) PosACGT 11210-9-10 2 -8911 3138-10-9 1..m1..m Threshold t = 22

9 Lineup ST vs SA LAS Suffix Tree LAS Suffix Array Vergleich LAS Probability Distribution Naive Suche mit Suffix Trees Suche nach allen Strings mit Threshold t in O (mn) PosACGT 11210-9-10 2 -8911 3138-10-9 1..m1..m Threshold t = 22

10 Lineup ST vs SA LAS Suffix Tree LAS Suffix Array Vergleich LAS Probability Distribution Lookahead Search Suffix Tree @ Dorohonceanu et. al [4] Scores in PSSM können benutzt werden um t row, einen Zwischengrenzwert für jede Zeile der PSSM, zu berechnen PosACGTt rowmax end 11210-9-10-224 2-10-8911913 3 8-10-9220 1..m1..m Threshold t = 22 max end(i) = max(i+1)+..+max(m) t row = t – max end

11 Lineup ST vs SA LAS Suffix Tree LAS Suffix Array Vergleich LAS Probability Distribution 1..m1..m Laufzeit verringert zu O (k * n), wobei k die durchschnittliche Anzahl von PSSM - Vergleichen pro Sequenzposition ist Lookahead Search Suffix Tree @ Dorohonceanu et. al [4] PosACGTt rowmax end 11210-9-10-224 2-10-8911913 3 8-10-9220 Scores in PSSM können benutzt werden um t row, einen Zwischengrenzwert für jede Zeile der PSSM, zu berechnen

12 Lineup ST vs SA LAS Suffix Tree LAS Suffix Array Vergleich LAS Probability Distribution Lookahead Search Details Der Algorithmus läuft mit Tiefensuche die Suffixe ab und entscheidet welche den Threshold erreichen PosACGTt rowmax end 11210-9-10-224 2-10-8911913 3 8-10-9220 PSSM matcht vollständig Fall 1:

13 Lineup ST vs SA LAS Suffix Tree LAS Suffix Array Vergleich LAS Probability Distribution Lookahead Search Details Der Algorithmus läuft mit Tiefensuche die Suffixe ab und entscheidet welche den Threshold erreichen PSSM matcht nicht vollständig Fall 2: PosACGTt rowmax end 11210-9-10-224 2-10-8911913 3 8-10-9220

14 Lineup ST vs SA LAS Suffix Tree LAS Suffix Array Vergleich LAS Probability Distribution Lookahead Search Details Der Algorithmus läuft mit Tiefensuche die Suffixe ab und entscheidet welche den Threshold erreichen PSSM matcht nicht vollständig Fall 2: PosACGTt rowmax end 11210-9-10-224 2-10-8911913 3 8-10-9220

15 Lineup ST vs SA LAS Suffix Tree LAS Suffix Array Vergleich LAS Probability Distribution Lookahead Search Details Der Algorithmus läuft mit Tiefensuche die Suffixe ab und entscheidet welche den Threshold erreichen Nur 6 Vergleiche mit Lookahead Scoring statt 9 mit naiver Suche PosACGTt rowmax end 11210-9-10-224 2-10-8911913 3 8-10-9220

16 Lineup ST vs SA LAS Suffix Tree LAS Suffix Array Vergleich LAS Probability Distribution Lookahead Search Details Der Algorithmus läuft mit Tiefensuche die Suffixe ab und entscheidet welche den Threshold erreichen

17 Lineup ST vs SA LAS Suffix Tree LAS Suffix Array Vergleich LAS Probability Distribution Tiefensuche Suffix Array @ Beckstette et. al [1][2] Wie kann man mit Suffix Arrays Tiefesuche simulieren ?? Suffix Array (1..n) Suffix Tree

18 Lineup ST vs SA LAS Suffix Tree LAS Suffix Array Vergleich LAS Probability Distribution lcp[i] = lcp {Suf(i - 1), Suf(i)} i [2,n] Wie kann man mit Suffix Arrays Tiefesuche simulieren ?? Suffix Array (1..n) Suffix Tree Lowest Common Prefix Array Tiefensuche Suffix Array @ Beckstette et. al [1][2]

19 Lineup ST vs SA LAS Suffix Tree LAS Suffix Array Vergleich LAS Probability Distribution lcp[i] = lcp {Suf(i - 1), Suf(i)} i [2,n] Wie kann man mit Suffix Arrays Tiefesuche simulieren ?? Suffix Array (1..n) Suffix Tree Lowest Common Prefix Array Skip Array nächstes Blatt was nicht im gleichen Subbaum ist Tiefensuche Suffix Array @ Beckstette et. al [1][2]

20 Lineup ST vs SA LAS Suffix Tree LAS Suffix Array Vergleich LAS Probability Distribution Lookahead Search Suffix Array @ Beckstette et. al [1][2] Beispiel für Lookahead Search mit Suffix Arrays: Suffix Array (1..n) Suffix Tree Skip Array Lowest Common Prefix Array lcp[i] = lcp {Suf(i - 1), Suf(i)} i [2,n] nächstes Blatt was nicht im gleichen Subbaum ist

21 Lineup ST vs SA LAS Suffix Tree LAS Suffix Array Vergleich LAS Probability Distribution Lookahead Search Suffix Array @ Beckstette et. al [1][2] Beispiel für Lookahead Search mit Suffix Arrays: Suffix Array (1..n) Suffix Tree Skip Array Lowest Common Prefix Array lcp[i] = lcp {Suf(i - 1), Suf(i)} i [2,n] nächstes Blatt was nicht im gleichen Subbaum ist

22 Lineup ST vs SA LAS Suffix Tree LAS Suffix Array Vergleich LAS Probability Distribution Lookahead Search Suffix Array @ Beckstette et. al [1][2] Beispiel für Lookahead Search mit Suffix Arrays: Suffix Array (1..n) Suffix Tree Skip Array Lowest Common Prefix Array lcp[i] = lcp {Suf(i - 1), Suf(i)} i [2,n] nächstes Blatt was nicht im gleichen Subbaum ist

23 Lineup ST vs SA LAS Suffix Tree LAS Suffix Array Vergleich LAS Probability Distribution Lookahead Search Suffix Array @ Beckstette et. al [1][2] Beispiel für Lookahead Search mit Suffix Arrays: Suffix Array (1..n) Suffix Tree Skip Array Lowest Common Prefix Array lcp[i] = lcp {Suf(i - 1), Suf(i)} i [2,n] nächstes Blatt was nicht im gleichen Subbaum ist

24 Lineup ST vs SA LAS Suffix Tree LAS Suffix Array Vergleich LAS Probability Distribution Vergleich Lookahead Search Speicherbedarf und Laufzeit von Suffix Tree und Enhanced Suffix Array: Suffix Array (1..n) Suffix Tree Skip Array Lowest Common Prefix Array Speicher Laufzeit pro Zeichen 17 bytes O ( kn ) 9 bytes O ( kn ) 4 bytes 1 byte 8 byte pro Zeichen weniger bei gleicher Laufzeit Enhanced Suffix Array:

25 Lineup ST vs SA LAS Suffix Tree LAS Suffix Array Vergleich LAS Probability Distribution Restricted Probability Computation analog zu Lookahead Scoring muss nach Überschreiten des p-Values nicht weiter gerechnet werden

26 Zusammenfassung Lookahead Scoring bei Suffix Trees erlaubt Suche nach PSSMs in O (kn) Enhanced Suffix Arrays mit Lookahead Scoring erlauben ebenfalls Suche in O (kn) bei 8 byte pro Zeichen weniger Speicherbedarf Wahrscheinlichkeitsverteilung brauch nur für die signifikanten p-Values berechnet werden

27 [1] PoSSuMSearch: Fast and Sensitive Matching of Position Specific Scoring Matrices using Enhanced Suffix Arrays Beckstette, Strothmann, Homann, Giegerich, Kurtz [2] Replacing Enhanced Suffix Trees with Enhanced Suffix Arrays Abouelhoda,Kurtz,Ohlebusch [3] Suffix Trees and Suffix Arrays Srinivas Aluru [4] Accelerating Protein Classification Dorohonceanu, Nevill-Manning


Herunterladen ppt "T A T A C G A A T C T A A A PosACGT 1.49998.5.00001 2.49998.5 3.6.39998.00001 Wie oft matcht das Profil ?"

Ähnliche Präsentationen


Google-Anzeigen