Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

Humboldt-Universität zu Berlin, Institut für Informatik, Seminar Fortgeschrittene algorithmische Bioinformatik, SS 2005 DIALIGN Seminarvortrag von Germar.

Ähnliche Präsentationen


Präsentation zum Thema: "Humboldt-Universität zu Berlin, Institut für Informatik, Seminar Fortgeschrittene algorithmische Bioinformatik, SS 2005 DIALIGN Seminarvortrag von Germar."—  Präsentation transkript:

1 Humboldt-Universität zu Berlin, Institut für Informatik, Seminar Fortgeschrittene algorithmische Bioinformatik, SS 2005 DIALIGN Seminarvortrag von Germar Brauer

2 Humboldt-Universität zu Berlin, Institut für Informatik, Seminar Fortgeschrittene algorithmische Bioinformatik, SS Übersicht DIALIGN = DIagonal ALIGNment Versionen: DIALIGN, DIALIGN 2, DIALIGN-T neue und spezielle Methode für multiples Sequenzalignment (MSA) Idee: Finden von Proteinfamilien mit gleicher Funktion (hochkonservierte Stücke in verschiedenen Organismen) Einsatzgebiet: Nukleinsäuresequenzen, Proteinsequenzen

3 Humboldt-Universität zu Berlin, Institut für Informatik, Seminar Fortgeschrittene algorithmische Bioinformatik, SS Voraussetzungen Algorithmus von Needleman-Wunsch mit gegebener Matrix (PAM, BLOSUM) lokale Version von Smith-Waterman Regionen mit hoher Ähnlichkeit werden von Regionen mit geringer Ähnlichkeit unterbrochen (Introns bei DNA, Loops bei Proteinen) es werden Blöcke statt einzelner Zeichen miteinander verglichen

4 Humboldt-Universität zu Berlin, Institut für Informatik, Seminar Fortgeschrittene algorithmische Bioinformatik, SS Was wird untersucht? untersucht werden nur die Diagonalen

5 Humboldt-Universität zu Berlin, Institut für Informatik, Seminar Fortgeschrittene algorithmische Bioinformatik, SS Konsistente und nicht-konsistente Paare konsistente Zuordnung

6 Humboldt-Universität zu Berlin, Institut für Informatik, Seminar Fortgeschrittene algorithmische Bioinformatik, SS Konsistente und nicht-konsistente Paare nicht-konsistente Zuordnung a) doppelte Belegung b) cross-over Zuordnung

7 Humboldt-Universität zu Berlin, Institut für Informatik, Seminar Fortgeschrittene algorithmische Bioinformatik, SS Algorithmus Bilden aller optimalen paarweisen Alignments

8 Humboldt-Universität zu Berlin, Institut für Informatik, Seminar Fortgeschrittene algorithmische Bioinformatik, SS Algorithmus gegeben : Diagonale D mit Länge l und Anzahl m von Matchen P ist die Wahrscheinlichkeit eine Diagonale der Länge l mit mindestens m Matches zu bekommen p Wahrscheinlichkeit in Matrix ein Match zu repräsentieren p=0,25 bei DNA, p=0,05 bei Proteinen

9 Humboldt-Universität zu Berlin, Institut für Informatik, Seminar Fortgeschrittene algorithmische Bioinformatik, SS Algorithmus T ist frei wählbarer Schwellenwert (verringert Rauschen) die Länge Diagonale ist mindestens 7 Werte

10 Humboldt-Universität zu Berlin, Institut für Informatik, Seminar Fortgeschrittene algorithmische Bioinformatik, SS Algorithmus Problem: - Dialign bevorzugt viele kurze Diagonalen vor wenigen langen -signifikante lokale Gemeinsamkeiten gehen im Rauschen der kleinen zufälligen Diagonalen unter keine allgemeine Regel für T (Schwellenwert) benötigte Mindestlänge der Diagonalen ist sehr willkürlich

11 Humboldt-Universität zu Berlin, Institut für Informatik, Seminar Fortgeschrittene algorithmische Bioinformatik, SS Algorithmus Lösung: neue Wahrscheinlichkeit in Dialign 2 finde eine Diagonale der Länge l mit mindestens m gemeinsamen Paaren, in einer Vergleichsmatrix von 2 zufälligen Sequenzen mit derselben Länge, wie die Originalsequenzen die Wahrscheinlichkeit hängt nun von l, m und der Länge der Sequenzen ab

12 Humboldt-Universität zu Berlin, Institut für Informatik, Seminar Fortgeschrittene algorithmische Bioinformatik, SS Algorithmus basieren auf experimentell ermittelten Werten für kleinere Werte gilt folgende Approximation definiere:

13 Humboldt-Universität zu Berlin, Institut für Informatik, Seminar Fortgeschrittene algorithmische Bioinformatik, SS Algorithmus (Overlap) S j gehört zu D l und D m

14 Humboldt-Universität zu Berlin, Institut für Informatik, Seminar Fortgeschrittene algorithmische Bioinformatik, SS Algorithmus (Overlap) sind D l und D m identisch oder haben keinen Overlap für eine beliebige Diagonale D wird Overlap-Gewicht folgendermaßen definiert

15 Humboldt-Universität zu Berlin, Institut für Informatik, Seminar Fortgeschrittene algorithmische Bioinformatik, SS Algorithmus Gewichtsscore für Diagonalen berechnen je größer das Gewicht, desto signifikanter die Diagonale

16 Humboldt-Universität zu Berlin, Institut für Informatik, Seminar Fortgeschrittene algorithmische Bioinformatik, SS Algorithmus Überführen der Diagonalen in MSA mit Greedy-Strategie Diagonale mit höchsten Score wird die erste Diagonale Überprüfen der weiteren Diagonalen auf Konsistenz und MSA hinzufügen

17 Humboldt-Universität zu Berlin, Institut für Informatik, Seminar Fortgeschrittene algorithmische Bioinformatik, SS Algorithmus Wiederholen des Algorithmus – weitere Diagonale D 5 mit Gewicht 4,6 zum MSA hinzufügen im weiteren Schritt keine neuen Diagonalen

18 Humboldt-Universität zu Berlin, Institut für Informatik, Seminar Fortgeschrittene algorithmische Bioinformatik, SS Algorithmus einmal hinzugefügte Diagonale kann nicht mehr entfernt werden Ergebnis: alle Diagonalen werden in Spalten angeordnet unbenutzte Zeichen werden klein geschrieben

19 Humboldt-Universität zu Berlin, Institut für Informatik, Seminar Fortgeschrittene algorithmische Bioinformatik, SS Überblick

20 Humboldt-Universität zu Berlin, Institut für Informatik, Seminar Fortgeschrittene algorithmische Bioinformatik, SS Zeitkomplexität consistency bounds und für x und Sequenz S 1 für x und Sequenz S 2 benötigt für jede Diagonale, die zu M 2 kommt

21 Humboldt-Universität zu Berlin, Institut für Informatik, Seminar Fortgeschrittene algorithmische Bioinformatik, SS Zeitkomplexität (a) (b) (c) (d) Gesamtkomplexität:

22 Humboldt-Universität zu Berlin, Institut für Informatik, Seminar Fortgeschrittene algorithmische Bioinformatik, SS Ergebnisse Vergleich mit anderen MSA Algorithmen (HTH = Helix-Turn-Helix, bHLH = basic Helix-Loop-Helix)

23 Humboldt-Universität zu Berlin, Institut für Informatik, Seminar Fortgeschrittene algorithmische Bioinformatik, SS Vorteile beim globalen Alignment vergleichbare Ergebnisse mit anderen Standardmethoden (Clustal W) bessere Ergebnisse im Vergleich mit anderen Methoden beim lokalen Alignment kleine hochkonservierte Regionen werden erkannt keine Strafpunkte für Gaps Nachteil: Dialign kann leicht im lokalen Maximum laufen

24 Humboldt-Universität zu Berlin, Institut für Informatik, Seminar Fortgeschrittene algorithmische Bioinformatik, SS Screenshot

25 Humboldt-Universität zu Berlin, Institut für Informatik, Seminar Fortgeschrittene algorithmische Bioinformatik, SS Beispiel

26 Humboldt-Universität zu Berlin, Institut für Informatik, Seminar Fortgeschrittene algorithmische Bioinformatik, SS Literatur B. Morgenstern (1999) DIALIGN 2: improvement of the segment-to- segment approach to multiple sequence alignment. Bioinformatics 15, B. Morgenstern, W.R. Atchley, K. Hahn, A. Dress (1998) Segment- based scores for pairwise and multiple sequence alignments. Proceedings ISMB'98, pp B. Morgenstern, A. Dress, T. Werner (1996) Multiple DNA and protein sequence alignment based on segment-to-segment comparison.Proc. Natl. Acad. Sci. USA 93, B. Morgenstern, K. Frech, A. Dress, T. Werner (1998) DIALIGN: Finding local similarities by multiple sequence alignment.Bioinformatics 14,


Herunterladen ppt "Humboldt-Universität zu Berlin, Institut für Informatik, Seminar Fortgeschrittene algorithmische Bioinformatik, SS 2005 DIALIGN Seminarvortrag von Germar."

Ähnliche Präsentationen


Google-Anzeigen