T A T A C G A A T C T A A A PosACGT 1.49998.5.00001 2.49998.5 3.6.39998.00001 Wie oft matcht das Profil ?

Slides:



Advertisements
Ähnliche Präsentationen
Suche in Texten (Stringsuche )
Advertisements

Hauptseminar Automaten und Formale Sprachen
Problemlösen am Beispiel des Rückwärtsarbeitens
R What is this R thing, and is it worth some effort?
3 Elektrochemische Wandler
8 Zündung/Motormanagement
Stichwortverzeichnis
2 Elektrische Maschinen in Kraftfahrzeugen
Einführung in die Wahrscheinlichkeitsrechnung
Motoremissionen mobiler Anlagen – Stand der Technik
Einführung in Web- und Data-Science
Industrie 4.0 für die Ausbildung 4.0
PSG II Neuer Pflegebedürftigkeitsbegriff und dessen Begutachtung (NBA)
«Wir bereiten uns auf die Deutschlandreise vor»
Pflege & Finanzierung 01. Juni 2017 Dr. Sonja Unteregger
Das Arbeitgebermodell in Zeiten des
Mathematik 10.
Betriebliche Gesundheitsförderung 2
Liebe BetrachterInnen,
Neue Unterrichtsmaterialien zur Teilchenphysik Philipp Lindenau CERN | Herzlich willkommen! Präsentation mit Notizen hinterlegt!
Roomtour - Podio für Anfänger
175 Jahre UZH Krisenkommunikation
Frauen- Männerriegen KONFERENZ
Was ist eigentlich Datenschutz?
Wer wir sind! Ihr S-Campus-Team direkt im Campus Center. Sven Deussing
Non-Standard-Datenbanken
Amand Fäßler 3. Januar 2017; RC Bregenz
Sortieren auf Multiprozessorrechnern
VO Aktuelle Forschung in der Biomechanik Ziel:
„Status cw-linac“ Motivation Timeline and status Testing of components
Generative Posenschätzung
Algorithmen und Datenstrukturen
Vorlesungseinheit 6 – Prüfung von Zusammenschlüssen auf ihre Vereinbarkeit mit dem Gemeinsamen Markt (Art. 2 FKVO)
Metrik Sondermaschinenbau e. K.
Remo Zandonella Chancen und Herausforderungen der Digitalisierung auf die NRP-Zielgruppen Studie im Auftrag des SECO - Zwischenstand Fribourg, 24.
Jahresablauf und Wetter
GUTES TUN IN DER WELTOING
Kaufe einen Hund !!!.

Christian Eriksen.
Web Scale Discovery Service
Gebäude-Systemtechnik von ABB IP-Gateway
JAHRESABSCHLUSS 2016 REGION NORDEN
Ostern in Deutschland.
Vorlesung Wasserwirtschaft & Hydrologie I
Vorlesung Eigenspannungen in Bauteilen und Werkstoffen
„Die richtige Fährte legen“ – zur Bedeutung der Fachkompetenz von MathematiklehrerInnen in der Sekundarstufe 1 Franz Pauer Institut für Fachdidaktik und.
Definition/Allgemeines:
Facharbeit in Klasse 5 „Der Traum vom Fliegen“
ɣ brain to write Erklärung des Rauschens Experimente
Den Elementarteilchen auf der Spur
Algorithmen und Datenstrukturen
Evaluation & Forschungsstrategien
Preprocessing Ein wenig Theorie der astronomischen Bildvorverarbeitung. „Es gibt nichts Praktischeres als eine gute Theorie.“ (D.Hilbert, I.Kant, K. Lewin)
Algorithmen und Datenstrukturen
Experimentelle Untersuchung von Hochvolt FGL-Ansteuerung
Forschung trifft Schule CERN Summer School Auffrischung: Das Standardmodell im Schulunterricht Philipp Lindenau u. Michael Kobel CERN |
Bekannte Formeln aus der Mathematik
Evidenz Dunkler Materie
Neue Verfahren zur Messung der Fließeigenschafften von Frischbeton
Fraktale Maple D =
Christoph Lass, KN-NAS Theorie
Seismologie Und Seismik
1. Einleitung, Problemstellung und Zielsetzung
Algorithmen und Datenstrukturen
Algorithmen und Datenstrukturen
Fraktale D =
Lineare Gleichungssysteme mit 3 Unbekannten
Algorithmen und Datenstrukturen
Grundlagen der computergestützten Produktion und Logistik W1332
 Präsentation transkript:

T A T A C G A A T C T A A A PosACGT Wie oft matcht das Profil ?

T A T A C G A A T C T A A A PosACGT Wie oft matcht das Profil ? 1234

Suche nach Motiven mit PSSMs und Enhanced Suffix Array PoSSuMSearch: Fast and Sensitive Matching of Position Specific Scoring Matrices using Enhanced Suffix Arrays Beckstette, Strothmann, Homann, Giegerich, Kurtz

Lineup ST vs SA LAS Suffix Tree LAS Suffix Array Vergleich LAS Probability Distribution Lineup Suffix Tree versus Suffix Array Lookahead Search bei Suffix Trees Lookahead Search bei Suffix Arrays Vergleich Restricted Probability Computation Zusammenfassung

Lineup ST vs SA LAS Suffix Tree LAS Suffix Array Vergleich LAS Probability Distribution Suffix Tree vs Suffix Array 1ATATA$ 3 ATA$ 5 A$ 2 TATA$ 4 TA$ 6 $ Suffix Tree for |ATATA$| = n Start Inorder Traversierung [3]

Lineup ST vs SA LAS Suffix Tree LAS Suffix Array Vergleich LAS Probability Distribution Suffix Tree vs Suffix Array Suffix Tree for |ATATA$| = n Start Suffix Array for ATATA$ 1ATATA$ 3 ATA$ 5 A$ 2 TATA$ 4 TA$ 6 $ [3]

Lineup ST vs SA LAS Suffix Tree LAS Suffix Array Vergleich LAS Probability Distribution Suffix Tree vs Suffix Array Suffix Tree for |ATATA$| = n Start Suffix Array for ATATA$ Speicherbedarf: 4 byte pro Zeichen17 byte pro Zeichen Aufbau: O (n)O (n) Stringsuche: O (m * log n)O (m) 1ATATA$ 3 ATA$ 5 A$ 2 TATA$ 4 TA$ 6 $ [3]

Lineup ST vs SA LAS Suffix Tree LAS Suffix Array Vergleich LAS Probability Distribution Naive Suche mit Suffix Trees Suche nach allen Strings mit Threshold t in O (mn) PosACGT m1..m Threshold t = 22

Lineup ST vs SA LAS Suffix Tree LAS Suffix Array Vergleich LAS Probability Distribution Naive Suche mit Suffix Trees Suche nach allen Strings mit Threshold t in O (mn) PosACGT m1..m Threshold t = 22

Lineup ST vs SA LAS Suffix Tree LAS Suffix Array Vergleich LAS Probability Distribution Lookahead Search Suffix Dorohonceanu et. al [4] Scores in PSSM können benutzt werden um t row, einen Zwischengrenzwert für jede Zeile der PSSM, zu berechnen PosACGTt rowmax end m1..m Threshold t = 22 max end(i) = max(i+1)+..+max(m) t row = t – max end

Lineup ST vs SA LAS Suffix Tree LAS Suffix Array Vergleich LAS Probability Distribution 1..m1..m Laufzeit verringert zu O (k * n), wobei k die durchschnittliche Anzahl von PSSM - Vergleichen pro Sequenzposition ist Lookahead Search Suffix Dorohonceanu et. al [4] PosACGTt rowmax end Scores in PSSM können benutzt werden um t row, einen Zwischengrenzwert für jede Zeile der PSSM, zu berechnen

Lineup ST vs SA LAS Suffix Tree LAS Suffix Array Vergleich LAS Probability Distribution Lookahead Search Details Der Algorithmus läuft mit Tiefensuche die Suffixe ab und entscheidet welche den Threshold erreichen PosACGTt rowmax end PSSM matcht vollständig Fall 1:

Lineup ST vs SA LAS Suffix Tree LAS Suffix Array Vergleich LAS Probability Distribution Lookahead Search Details Der Algorithmus läuft mit Tiefensuche die Suffixe ab und entscheidet welche den Threshold erreichen PSSM matcht nicht vollständig Fall 2: PosACGTt rowmax end

Lineup ST vs SA LAS Suffix Tree LAS Suffix Array Vergleich LAS Probability Distribution Lookahead Search Details Der Algorithmus läuft mit Tiefensuche die Suffixe ab und entscheidet welche den Threshold erreichen PSSM matcht nicht vollständig Fall 2: PosACGTt rowmax end

Lineup ST vs SA LAS Suffix Tree LAS Suffix Array Vergleich LAS Probability Distribution Lookahead Search Details Der Algorithmus läuft mit Tiefensuche die Suffixe ab und entscheidet welche den Threshold erreichen Nur 6 Vergleiche mit Lookahead Scoring statt 9 mit naiver Suche PosACGTt rowmax end

Lineup ST vs SA LAS Suffix Tree LAS Suffix Array Vergleich LAS Probability Distribution Lookahead Search Details Der Algorithmus läuft mit Tiefensuche die Suffixe ab und entscheidet welche den Threshold erreichen

Lineup ST vs SA LAS Suffix Tree LAS Suffix Array Vergleich LAS Probability Distribution Tiefensuche Suffix Beckstette et. al [1][2] Wie kann man mit Suffix Arrays Tiefesuche simulieren ?? Suffix Array (1..n) Suffix Tree

Lineup ST vs SA LAS Suffix Tree LAS Suffix Array Vergleich LAS Probability Distribution lcp[i] = lcp {Suf(i - 1), Suf(i)} i [2,n] Wie kann man mit Suffix Arrays Tiefesuche simulieren ?? Suffix Array (1..n) Suffix Tree Lowest Common Prefix Array Tiefensuche Suffix Beckstette et. al [1][2]

Lineup ST vs SA LAS Suffix Tree LAS Suffix Array Vergleich LAS Probability Distribution lcp[i] = lcp {Suf(i - 1), Suf(i)} i [2,n] Wie kann man mit Suffix Arrays Tiefesuche simulieren ?? Suffix Array (1..n) Suffix Tree Lowest Common Prefix Array Skip Array nächstes Blatt was nicht im gleichen Subbaum ist Tiefensuche Suffix Beckstette et. al [1][2]

Lineup ST vs SA LAS Suffix Tree LAS Suffix Array Vergleich LAS Probability Distribution Lookahead Search Suffix Beckstette et. al [1][2] Beispiel für Lookahead Search mit Suffix Arrays: Suffix Array (1..n) Suffix Tree Skip Array Lowest Common Prefix Array lcp[i] = lcp {Suf(i - 1), Suf(i)} i [2,n] nächstes Blatt was nicht im gleichen Subbaum ist

Lineup ST vs SA LAS Suffix Tree LAS Suffix Array Vergleich LAS Probability Distribution Lookahead Search Suffix Beckstette et. al [1][2] Beispiel für Lookahead Search mit Suffix Arrays: Suffix Array (1..n) Suffix Tree Skip Array Lowest Common Prefix Array lcp[i] = lcp {Suf(i - 1), Suf(i)} i [2,n] nächstes Blatt was nicht im gleichen Subbaum ist

Lineup ST vs SA LAS Suffix Tree LAS Suffix Array Vergleich LAS Probability Distribution Lookahead Search Suffix Beckstette et. al [1][2] Beispiel für Lookahead Search mit Suffix Arrays: Suffix Array (1..n) Suffix Tree Skip Array Lowest Common Prefix Array lcp[i] = lcp {Suf(i - 1), Suf(i)} i [2,n] nächstes Blatt was nicht im gleichen Subbaum ist

Lineup ST vs SA LAS Suffix Tree LAS Suffix Array Vergleich LAS Probability Distribution Lookahead Search Suffix Beckstette et. al [1][2] Beispiel für Lookahead Search mit Suffix Arrays: Suffix Array (1..n) Suffix Tree Skip Array Lowest Common Prefix Array lcp[i] = lcp {Suf(i - 1), Suf(i)} i [2,n] nächstes Blatt was nicht im gleichen Subbaum ist

Lineup ST vs SA LAS Suffix Tree LAS Suffix Array Vergleich LAS Probability Distribution Vergleich Lookahead Search Speicherbedarf und Laufzeit von Suffix Tree und Enhanced Suffix Array: Suffix Array (1..n) Suffix Tree Skip Array Lowest Common Prefix Array Speicher Laufzeit pro Zeichen 17 bytes O ( kn ) 9 bytes O ( kn ) 4 bytes 1 byte 8 byte pro Zeichen weniger bei gleicher Laufzeit Enhanced Suffix Array:

Lineup ST vs SA LAS Suffix Tree LAS Suffix Array Vergleich LAS Probability Distribution Restricted Probability Computation analog zu Lookahead Scoring muss nach Überschreiten des p-Values nicht weiter gerechnet werden

Zusammenfassung Lookahead Scoring bei Suffix Trees erlaubt Suche nach PSSMs in O (kn) Enhanced Suffix Arrays mit Lookahead Scoring erlauben ebenfalls Suche in O (kn) bei 8 byte pro Zeichen weniger Speicherbedarf Wahrscheinlichkeitsverteilung brauch nur für die signifikanten p-Values berechnet werden

[1] PoSSuMSearch: Fast and Sensitive Matching of Position Specific Scoring Matrices using Enhanced Suffix Arrays Beckstette, Strothmann, Homann, Giegerich, Kurtz [2] Replacing Enhanced Suffix Trees with Enhanced Suffix Arrays Abouelhoda,Kurtz,Ohlebusch [3] Suffix Trees and Suffix Arrays Srinivas Aluru [4] Accelerating Protein Classification Dorohonceanu, Nevill-Manning