Bioinformatik-Seminar

Slides:



Advertisements
Ähnliche Präsentationen
Simulationsansätze in der BWL: Erstellung eines eigenen Projekts
Advertisements

Grundlagen des A*-Algorithmus und Anwendung in der Routenplanung
Rekursion: Rekurrenz: Algorithmen rufen sich selbst (rekursiv) auf.
Falls Algorithmen sich selbst rekursiv aufrufen, so kann ihr Laufzeitverhalten bzw. ihr Speicherplatzbedarf in der Regel durch eine Rekursionsformel (recurrence,
Inhalt Saarbrücken,.
Paarweises Sequenz Alignment
Statistische Aspekte der PSG
SST - Sequence Search Tree
Kapitel 6: Klassifizierung von Sortiertechniken
Kapitel 6. Suchverfahren
Genetische Algorithmen für die Variogrammanpassung
Simulated Annealing Marco Block & Miguel Domingo Seminar : Maschinelles Lernen und Markov KettenSommersemester 2002.
Multivariate Analysemethoden Johannes Gutenberg Universität Mainz
Übersicht DIALIGN = DIagonal ALIGNment
Sortierverfahren Richard Göbel.
Sortierverfahren Richard Göbel.
1 Vorlesung Informatik 2 Algorithmen und Datenstrukturen (03 – Verschiedene Algorithmen für dasselbe Problem) Prof. Dr. Th. Ottmann.
1 Vorlesung Informatik 2 Algorithmen und Datenstrukturen (03 – Verschiedene Algorithmen für dasselbe Problem) Prof. Dr. Th. Ottmann.
Vorlesung Informatik 2 Algorithmen und Datenstrukturen Halbzeit: Was haben wir bisher gelernt? Prof. Th. Ottmann.
Informatik II, SS 2008 Algorithmen und Datenstrukturen Vorlesung 4 Prof. Dr. Thomas Ottmann Algorithmen & Datenstrukturen, Institut für Informatik Fakultät.
1 Vorlesung Informatik 2 Algorithmen und Datenstrukturen (03 – Verschiedene Algorithmen für dasselbe Problem) Prof. Dr. Th. Ottmann.
Genetische Algorithmen
Biophysik F1-Praktikum – Kursteil "Molekulare Evolution"
Konfidenzintervalle für Parameter
Datenbankentwurf mit Hilfe des ER-Modells entwickeln
PG 520 Intelligence Service – gezielte Informationen aus dem Internet
Secondary Structure Prediction for Aligned RNA Sequences
V3 - Multiples Sequenz Alignment und Phylogenie
Strukturgleichungsmodelle
Intelligentes Crawling im WWW mit Hilfe intuitiver Suchbedingungen
Statistische Methoden I WS 2007/2008 Donnerstag, 31. Januar 2008 und Freitag, 1. Februar 2008 Probeklausur - statt Vorlesungen -
Phylogenetische Bäume & ihre Konstruktion
Tutorium
Bayes‘sche Verfahren (Mitchell Kap. 6), Teil 1
Phylogenetic Footprinting
Multikollinearität Wann spricht man von Multikollinearität?
Histogramm/empirische Verteilung Verteilungen
Beweissysteme Hartmut Klauck Universität Frankfurt WS 06/
Self Organizing Tree Algorithm
Effiziente Algorithmen
Universität Stuttgart Wissensverarbeitung und Numerik I nstitut für K ernenergetik und E nergiesysteme Numerik partieller Differentialgleichungen, SS 01Teil.
Abschlussvortrag zur Studienarbeit
Quantum Computing Hartmut Klauck Universität Frankfurt WS 05/
Effiziente Algorithmen Hartmut Klauck Universität Frankfurt SS
Effiziente Algorithmen
Quantum Computing Hartmut Klauck Universität Frankfurt WS 05/
Dynamische Programmierung mit Anwendung auf Sequence Alignment Problem
STATISIK LV Nr.: 0028 SS Mai 2005.
… oder wie finde ich den Weg
4 6 5 Rechenoperationen hoch 2 ??? hoch 2 ??? hoch 2
Das Heronverfahren arithmetisches Mittel geometrisches Mittel
Rekonstruktion phylogenetischer Bäume.
SOTA Andrej Gisbrecht
Paarweises Sequenz-Alignment
SFZ FN Sj. 13/14 Python 3 Rekursion Inf K1/2 Sj 13/14
Bioinformatik Vorlesung
Statistik – Regression - Korrelation
Einführung zur Fehlerrechnung
Die Clusteranalyse Zielsetzung Datenreduktion: Zusammenfassung einer Vielzahl von Objekten oder Variablen zu Gruppen mit möglichst ähnlichem Informationsgehalt.
10. KFKI-Seminar • • Bremerhaven
Dr.-Ing. R. Marklein - GET I - WS 06/07 - V Grundlagen der Elektrotechnik I (GET I) Vorlesung am Fr. 08:30-10:00 Uhr; R (Hörsaal)
Dr.-Ing. R. Marklein - GET I - WS 06/07 - V Grundlagen der Elektrotechnik I (GET I) Vorlesung am Fr. 08:30-10:00 Uhr; R (Hörsaal)
Gene Prediction Marco Block Jonas Heise Nima Keshvari Michael Schreiber.
SS 2009Maschinelles Lernen und Neural Computation 133 Kapitel 7: Ensemble Methoden.
Programmiersprachen II Fortsetzung Datenstrukturen Balancierte Bäume 3 Prof. Dr. Reiner Güttler Fachbereich GIS HTW.
Die klassischen Methoden der historisch-vergleichenden Forschung Universität Zürich Soziologisches Institut Seminar: Methoden des internationalen Vergleichs.
Spärliche Kodierung von Videos natürlicher Szenen Vortragender: Christian Fischer.
 Gegenstandsbereich der Testtheorie: Analyse der Charakteristika von Tests:  Güte von Tests.  Struktur von Tests.  Schwierigkeit von Tests.  Gruppenunterschiede.
Lineare Optimierung Nakkiye Günay, Jennifer Kalywas & Corina Unger Jetzt erkläre ich euch die einzelnen Schritte und gebe Tipps!
Independent Component Analysis: Analyse natürlicher Bilder Friedrich Rau.
 Präsentation transkript:

Bioinformatik-Seminar 12.5.04 Multiples Sequenz-Alignment Phylogenie

Multiple Sequenz-Alignments Multiples Alignment: Gleichzeitiger Vergleich mehrerer Sequenzen

Multiple Sequenz-Alignments Multiples Alignment: Gleichzeitiger Vergleich mehrerer Sequenzen Anwendungen: Funktionsvorhersage, Suche nach konservierten Motiven Datenbanksuche (z. B. PSI-BLAST: Position-Specific Iterated BLAST; zuerst wird ein Profil erstellt) Phylogenie Sequenzassemby (Sequenzierprojekte) Vorteile: ähnliche Bereiche (Motive) können herausgearbeitet werden Unähnlichkeiten können für die Rekonstruktion phylogenetischer Zusammenhänge verwendet werden

Multiple Sequenz-Alignments Global: Lokal:

Multiple Sequenz-Alignments Optimale Lösungsansätze (dynamisches Programmieren): Zeit- und Speicherbedarf wächst ins Unermessliche Bei einer Sequenzlänge L und n Sequenzen: Speicherbedarf: O(Ln), Zeitbedarf: O(2nLn). Das Problem ist NP-vollständig.

Multiple Sequenz-Alignments Optimierungsmöglichkeiten durch z.B. divide and conquer

Multiple Sequenz-Alignments Heuristische Ansätze: Halten Aufwand in Grenzen, bei akzeptabel guten Ergebnissen - PileUp (GCG) - CLUSTALW - Lösungen basierend auf Hidden Markov Modellen - PSI-BLAST

Multiple Sequenz-Alignments 1. Beispiel für globale multiple Alignments: Progressives Alignment nach Feng und Doolittle (1987) Beispiel: PileUp in GCG Iterativer Ansatz mit paarweisen globalen Alignments (ergibt jeweils einen score S) Berechnung jeweils eines korrigierten score Seff und daraus eines „Unähnlichkeitsscores“ D (difference score) Erzeugung einer Matrix mit diesen Abweichungs-Scores der paarweisen Alignments als Basis für den guide tree Alignment der Sequenzen dem guide tree folgend (progressiv)

Multiple Sequenz-Alignments Die difference score-Matrix beinhaltet für n Sequenzen (n-1) x n/2 Felder. Die Matrix ist spiegelsymmetrisch, d. h. es genügt der Informationsgehalt einer Diagonalhälfte. Beispiel: - Für 4 Sequenzen entsteht eine Matrix mit 10 Feldern. - Aus dieser Matrix wird der guide tree erstellt, bei dem ähnliche Sequenzen in Clustern zusammengefaßt werden. 1. Cluster 2. Cluster Seq 1 3. Cluster   Seq 2 Seq 3 Seq 4

Multiple Sequenz-Alignments Progressives Alignment: UPGMA-Methode: unweighted pair-group method using arithmetic averages Annahme: alle Sequenzen evolvieren gleichmäßig und mit konstanter Geschwindigkeit - Sequenzen je einer Verzweigung ergeben Alignment, arithmetische Mittelung ihrer Distanzen - Alignments der benachbarten Äste werden in neues Alignment gefaßt - Weitere Alignments bis letzte Einzelsequenz oder Ast-Alignment erfaßt ist

Multiple Sequenz-Alignments Probleme: - Fehler am Anfang (bei den paarweisen Alignments) bleiben erhalten; "once a gap, always a gap", z. B. bei mehreren Möglichkeiten: x: ACTTA y: AGTA x ACTTA ACTTA ACTTA y A-GTA AG-TA AGT-A - Nicht-überlappende Fragmente können gesamtes MSA ins Chaos stürzen (zerstört guide tree, da die paarweisen Distanz-Scores nicht stimmen)

Multiple Sequenz-Alignments 2. Beispiel für globale multiple Alignments: Progressives Alignment nach Thompson, Higgins und Gibson (1994) ClustalW Besonderheiten: - beachtet differenzierte Lückenfunktionen und Matrizenauswahl - Auswahl, ob dynamic programming oder Heuristik bei der Erstellung der paarweisen Alignments - Neighbor Joining-Verfahren für die Erstellung des guide tree (statt UPGMA wie bei PileUp) -> verschiedene Gewichtung der Äste; Wurzel in der Mitte des Baumes -> Abstand durch Summe der Astlängen definiert (zusätzlich wird durch die Anzahl der Sequenzen, die sich diesen Ast teilen, dividiert)

Multiple Sequenz-Alignments Darstellung von MSA: Darstellung der Konsensus-Sequenz: - Pretty (GCG) - GeneDoc (Windows) - Sequenzlogo (http://www.lecb.ncifcrf.gov/~toms/sequencelogo.html)

Stammbaumberechung (Phylogenie) Grundlage: gutes multiples Sequenzalignment wichtig also: Sorgfalt bei der Auswahl der Sequenzen (1 nicht passende Sequenz macht das Alignment kaputt) manuelle Nachbearbeitung/Überprüfung des Alignments bei Bedarf Miteinbeziehen weiterer Sequenzen

Stammbaumberechung (Phylogenie) Definitionen: Phylogramm: Darstellung der verwandtschaftlichen Beziehungen in einem Baum Dendrogramm: Astlängen haben keine Ausagekraft Cladogramm: Astlängen spiegeln evolutionären Abstand wider rooted: Baum mit Wurzel unrooted: Sterntopologie ohne Wurzel

Stammbaumberechung (Phylogenie) nur Topologie Miteinbeziehung evolutionärer Abstände aus: Burmester & Hankeln, Genomforschung und Sequenzanalyse, Uni Mainz

Stammbaumberechung (Phylogenie) ungewurzelter Baum aus: Burmester & Hankeln, Genomforschung und Sequenzanalyse, Uni Mainz

Stammbaumberechung (Phylogenie) aus: Burmester & Hankeln, Genomforschung und Sequenzanalyse, Uni Mainz

Stammbaumberechung (Phylogenie) Baumberechnungsmethoden: 1. Distanz-Methoden: Für die Berechnung werden (normalerweise) nur Positionen ohne Lücken herangezogen - Berechnung einer Distanzmatrix (ähnlich wie bei MSA) Es gibt dafür verschiedene Berechnungs-Modelle: - Kimura-Distanz: Zahl der Substitutionen - basierend auf PAM-Matrix: Konservative Substitutionen werden anders bewertet als nicht-konservative - Kimura-2-Parameter-Modell und Kategorien-Modell: für Nukeotid-Alignments, unterschiedl. Bewertung v. Transition u. Transversion - auf Basis der Distanzmatrix UPGMA oder Neighbor-Joining für Baumerstellung

Stammbaumberechung (Phylogenie) 2. Parsimony-Methoden: - Parsimony (engl.): Sparsamkeit - aus allen theoretisch möglichen Bäumen wird der Baum gesucht, der mit wenigsten Substitutionen die Sequenzunterschiede erklärt - dazu wird pro Baum ein Score berechnet - Nur bestimmt Positionen sind informativ: es muß einen Baum geben, der sich durch weniger Austausche erklären lässt als andere. - nicht informativ sind demnach: * Positionen mit nur gleichen AS/Nucl. * Positionen mit nur verschiedenen AS/Nucl. Seq 1 Seq 3 Seq 2 Seq 4 1 2 3 4 5 Seq 1 C G T A A Seq 2 G G C C A Seq 3 G G T T C Seq 4 G G A G C nur Pos. 5 ist informativ Seq 1 Seq 2 Seq 3 Seq 4 Seq 1 Seq 2 Seq 4 Seq 3

Stammbaumberechung (Phylogenie) 3. Maximum-Likelihood-Methoden: - Matrix mit Übergangswahrscheinlichkeiten der AS/Codons - Annahme: Mutationen erfolgen unabhängig von ihrer Position in der Sequenz - wiederum werden alle theoretisch möglichen Bäume durchgerechnet - für jeden Baum wird die Wahrscheinlichkeit (L) berechnet, daß er für die zugrundeliegenen Sequenzdaten und die Matrix richtig ist. Ziel ist es, den Baum mit der höchsten Wahrscheinlichkeit zu finden.

Stammbaumberechung (Phylogenie) Statistische Signifikanz: Bewertung von Bäumen Bootstrapping: Alignment, das dem Baum zugrunde liegt, wird durch "Ziehen und Zurücklegen" permutiert. Aus den permutierten Alignments werden Bäume berechnet. Ein Baum, der trotz des Mischens immer gleich berechnet wird, gilt als statistisch signifikant.

Stammbaumberechung (Phylogenie) vorgestellte Software: ClustalW: http://www-igbmc.u-strasbg.fr/BioInfo/ClustalX/Top.html SequenceLogo: http://www.bio.cam.ac.uk/seqlogo/ GeneDoc: http://www.psc.edu/biomed/genedoc/ (Phylip: http://evolution.genetics.washington.edu/phylip.html) Phylip Online: http://bioportal.bic.nus.edu.sg/phylip/ (PAUP: http://paup.csit.fsu.edu [kommerziell] MEGA: http://www.megasoftware.net/ Phylip und PAUP gelten als Standardprogramme in der Phylogenie