Übersicht DIALIGN = DIagonal ALIGNment

Slides:



Advertisements
Ähnliche Präsentationen
Matrixmultiplikation
Advertisements

Algorithmentheorie 08 – Dynamische Programmierung (4) Editierdistanz Approximative Zeichenkettensuche Sequence Alignment Prof. Dr. Th. Ottmann WS
Christian Scheideler SS 2009
Rekursion: Rekurrenz: Algorithmen rufen sich selbst (rekursiv) auf.
Falls Algorithmen sich selbst rekursiv aufrufen, so kann ihr Laufzeitverhalten bzw. ihr Speicherplatzbedarf in der Regel durch eine Rekursionsformel (recurrence,
Inhalt Saarbrücken,.
Paarweises Sequenz Alignment
Gliederung Einführung Profile HMMs in der Theorie
SST - Sequence Search Tree
TECHNISCHE UNIVERSITÄT DARMSTADT Naive Bayes for Ranking
Suche in Texten (Stringsuche )
Genetische Algorithmen für die Variogrammanpassung
Seminar „Extrapolationsmethoden für zufällige Felder“
Seminar über Algorithmen
Simulated Annealing Marco Block & Miguel Domingo Seminar : Maschinelles Lernen und Markov KettenSommersemester 2002.
HEINZ NIXDORF INSTITUT Universität Paderborn Fachbereich Mathematik/Informatik Algorithmische Probleme in Funknetzwerken X Christian Schindelhauer
Klaus Volbert 1 HEINZ NIXDORF INSTITUT Universität Paderborn Algorithmen und Komplexität Sommersemester 2004.
Anwendung und Visual Basic
1 Whole Genome Alignment mit Suffixbäumen Fortgeschrittene Algorithmische Bioinformatik SoSe 2005 Emre Kutbay.
Sortierverfahren Richard Göbel.
Heuristiken Automatic Problem Solving Institut für Informatik
Algorithmentheorie 04 –Hashing
Algorithmentheorie 6 – Greedy-Verfahren
WS Algorithmentheorie 05 - Treaps Prof. Dr. Th. Ottmann.
Dynamische Programmierung (2) Matrixkettenprodukt
Vorlesung Informatik 2 Algorithmen und Datenstrukturen Halbzeit: Was haben wir bisher gelernt? Prof. Th. Ottmann.
WS Algorithmentheorie 08 – Dynamische Programmierung (2) Matrixkettenprodukt Prof. Dr. Th. Ottmann.
Vorlesung Informatik 2 Algorithmen und Datenstrukturen (27 – Kürzeste Wege) Prof. Th. Ottmann.
Informatik II, SS 2008 Algorithmen und Datenstrukturen Vorlesung 4 Prof. Dr. Thomas Ottmann Algorithmen & Datenstrukturen, Institut für Informatik Fakultät.
Informatik II, SS 2008 Algorithmen und Datenstrukturen Vorlesung 16 Prof. Dr. Thomas Ottmann Algorithmen & Datenstrukturen, Institut für Informatik Fakultät.
Genetische Algorithmen
PG 520 Intelligence Service – gezielte Informationen aus dem Internet
Secondary Structure Prediction for Aligned RNA Sequences
Christian Schindelhauer
Algorithmen des Internets 2005 HEINZ NIXDORF INSTITUT Universität Paderborn Algorithmen und Komplexität 1 Materialien zu Übung 9 Bälle in Körbe Ranged.
1/25 UNIVERSITY OF PADERBORN Projektgruppe KIMAS Projektgruppe KIMAS MultiAgenten-Systeme Andreas Goebels.
Minimum Spanning Tree: MST
Ralf KüstersDagstuhl 2008/11/30 2 Ralf KüstersDagstuhl 2008/11/30 3.
Phylogenetic Footprinting
Institut für Kartographie und Geoinformation Prof. Dr. Lutz Plümer Diskrete Mathematik II Vorlesung 1 SS 2001 Algorithmus von Dijkstra.
Effiziente Algorithmen
LS 2 / Informatik Datenstrukturen, Algorithmen und Programmierung 2 (DAP2)
Abschlussvortrag zur Studienarbeit
Chomp Enumerative Combinatoric Algorithms
Effiziente Algorithmen Hartmut Klauck Universität Frankfurt SS
Quantum Computing Hartmut Klauck Universität Frankfurt WS 04/
Quantum Computing Hartmut Klauck Universität Frankfurt WS 05/
Effiziente Algorithmen Hartmut Klauck Universität Frankfurt SS
Effiziente Algorithmen Hartmut Klauck Universität Frankfurt SS
Effiziente Algorithmen Hartmut Klauck Universität Frankfurt SS
Black Box Algorithmen Hartmut Klauck Universität Frankfurt SS
Effiziente Algorithmen
Quantum Computing Hartmut Klauck Universität Frankfurt WS 05/
Information und Kommunikation Hartmut Klauck Universität Frankfurt SS
Beweissysteme Hartmut Klauck Universität Frankfurt WS 06/
Polynome und schnelle Fourier-Transformation
Dynamische Programmierung mit Anwendung auf Sequence Alignment Problem
K-SAT: Ein heuristischer Algorithmen- Vergleich Kann man den Brute Force Search Algorithmus schlagen?
VL Algorithmische BioInformatik (19710)
Advanced Digital Design Übung 3. Aufgabe 1: Algorithmus für Phasen Inverter Plazierung Systematic approach: 1. Identify combinational logic and registers/memories.
Rekonstruktion phylogenetischer Bäume.
Paarweises Sequenz-Alignment
Das Traveling Salesman Problem (TSP)
Analyse der Laufzeit von Algorithmen
Institut für Kartographie und Geoinformation Prof. Dr. Lutz Plümer Diskrete Mathematik II Foliendesign: Jörg Steinrücken & Tobias Kahn Vorlesung
Technische Informatik I Vorlesung 4: Vereinfachung von Schaltfunktionen Mirco Hilbert Universität Bielefeld Technische Fakultät.
Gene Prediction Marco Block Jonas Heise Nima Keshvari Michael Schreiber.
K-SAT: Ein heuristischer Algorithmen- Vergleich Kann man den ‚Brute Force Search‘ Algorithmus schlagen?
Algorithmen und Datenstrukturen Prof. Dr. Ralf Möller Universität zu Lübeck Institut für Informationssysteme Stefan Werner (Übungen) sowie viele Tutoren.
Wiederholung TexPoint fonts used in EMF.
 Präsentation transkript:

Seminarvortrag von Germar Brauer DIALIGN Seminarvortrag von Germar Brauer

Übersicht DIALIGN = DIagonal ALIGNment Versionen: DIALIGN, DIALIGN 2, DIALIGN-T neue und spezielle Methode für multiples Sequenzalignment (MSA) Idee: Finden von Proteinfamilien mit gleicher Funktion (hochkonservierte Stücke in verschiedenen Organismen) Einsatzgebiet: Nukleinsäuresequenzen, Proteinsequenzen

Voraussetzungen Algorithmus von Needleman-Wunsch mit gegebener Matrix (PAM, BLOSUM) „lokale“ Version von Smith-Waterman Regionen mit hoher Ähnlichkeit werden von Regionen mit geringer Ähnlichkeit unterbrochen (Introns bei DNA, Loops bei Proteinen) es werden Blöcke statt einzelner Zeichen miteinander verglichen

Was wird untersucht? untersucht werden nur die Diagonalen

Konsistente und nicht-konsistente Paare konsistente Zuordnung

Konsistente und nicht-konsistente Paare nicht-konsistente Zuordnung a) doppelte Belegung b) cross-over Zuordnung

Algorithmus Bilden aller optimalen paarweisen Alignments

Algorithmus gegeben : Diagonale D mit Länge l und Anzahl m von Matchen P ist die Wahrscheinlichkeit eine Diagonale der Länge l mit mindestens m Matches zu bekommen p Wahrscheinlichkeit in Matrix ein Match zu repräsentieren p=0,25 bei DNA, p=0,05 bei Proteinen

Algorithmus T ist frei wählbarer Schwellenwert (verringert Rauschen) die Länge Diagonale ist mindestens 7 Werte

Algorithmus Problem: - Dialign bevorzugt viele kurze Diagonalen vor wenigen langen - signifikante lokale Gemeinsamkeiten gehen im „Rauschen“ der kleinen zufälligen Diagonalen unter keine allgemeine Regel für T (Schwellenwert) benötigte Mindestlänge der Diagonalen ist sehr willkürlich

Algorithmus Lösung: neue Wahrscheinlichkeit in Dialign 2 finde eine Diagonale der Länge l mit mindestens m gemeinsamen Paaren, in einer Vergleichsmatrix von 2 zufälligen Sequenzen mit derselben Länge, wie die Originalsequenzen die Wahrscheinlichkeit hängt nun von l, m und der Länge der Sequenzen ab

Algorithmus für kleinere Werte gilt folgende Approximation definiere: basieren auf experimentell ermittelten Werten für kleinere Werte gilt folgende Approximation definiere:

Algorithmus (Overlap) Sj gehört zu Dl und Dm

Algorithmus (Overlap) sind Dl und Dm identisch oder haben keinen Overlap für eine beliebige Diagonale D wird Overlap-Gewicht folgendermaßen definiert

Algorithmus Gewichtsscore für Diagonalen berechnen je größer das Gewicht, desto signifikanter die Diagonale

Algorithmus Überführen der Diagonalen in MSA mit Greedy-Strategie Diagonale mit höchsten Score wird die erste Diagonale Überprüfen der weiteren Diagonalen auf Konsistenz und MSA hinzufügen

Algorithmus Wiederholen des Algorithmus – weitere Diagonale D5 mit Gewicht 4,6 zum MSA hinzufügen im weiteren Schritt keine neuen Diagonalen

Algorithmus einmal hinzugefügte Diagonale kann nicht mehr entfernt werden Ergebnis: alle Diagonalen werden in Spalten angeordnet unbenutzte Zeichen werden klein geschrieben

Überblick

Zeitkomplexität für x und Sequenz S1 für x und Sequenz S2 „consistency bounds“ und für x und Sequenz S1 für x und Sequenz S2 benötigt für jede Diagonale, die zu M2 kommt

Zeitkomplexität (a) (b) (c) (d) Gesamtkomplexität:

Ergebnisse Vergleich mit anderen MSA Algorithmen (HTH = Helix-Turn-Helix, bHLH = basic Helix-Loop-Helix)

Vorteile beim globalen Alignment vergleichbare Ergebnisse mit anderen Standardmethoden (Clustal W) bessere Ergebnisse im Vergleich mit anderen Methoden beim lokalen Alignment kleine hochkonservierte Regionen werden erkannt keine Strafpunkte für Gaps Nachteil: Dialign kann leicht im lokalen Maximum laufen

Screenshot http://bibiserv.techfak.uni-bielefeld.de/dialign/

Beispiel

Literatur B. Morgenstern (1999) DIALIGN 2: improvement of the segment-to- segment approach to multiple sequence alignment. Bioinformatics 15, 211-218 B. Morgenstern, W.R. Atchley, K. Hahn, A. Dress (1998) Segment- based scores for pairwise and multiple sequence alignments. Proceedings ISMB'98, pp. 115-121 B. Morgenstern, A. Dress, T. Werner (1996) Multiple DNA and protein sequence alignment based on segment-to-segment comparison.Proc. Natl. Acad. Sci. USA 93, 12098-12103 B. Morgenstern, K. Frech, A. Dress, T. Werner (1998) DIALIGN: Finding local similarities by multiple sequence alignment.Bioinformatics 14, 290- 294