V7 Homologie-basierte Proteinmodellierung (SwissModel)

Slides:



Advertisements
Ähnliche Präsentationen
Algorithmen und Datenstrukturen
Advertisements

V6 Homologie-basierte Proteinmodellierung
Polynomial Root Isolation
V8 funktionelle Annotation
Docking von starren und flexiblen Proteinen
Die Umwandlung von Chorismat in Prephenat stellt
Aminosäuren bilden: Peptidbindungen
Seminar Textmining WS 06/07 Themen Übung 8 Stemming Crawling.
WS 05/06Automatische Akquisition linguistischen Wissens1 Partielles Wissen erweitern 1.Zusammenhang mit bisherigen Algorithmen 2.Vom offensichtlichen zum.
Übung 6.6Schranken 1.Angenommen, Ihr Algorithmus habe einen Aufwand von g(n) = 5n 3 + n für alle n a)Geben sie eine obere Schranke O(g(n)) an. b)Beweisen.
Aufgabenbesprechung Programming Contest. Order 7 Bo Pat Jean Kevin Claude William Marybeth 6 Jim Ben Zoe Joey Frederick Annabelle 0 SET 1 Bo Jean Claude.
On a Buzzword: Hierachical Structure David Parnas.
Übersicht DIALIGN = DIagonal ALIGNment
Heuristiken und Kontexteinflüsse
Java: Objektorientierte Programmierung
Theoretical Analysis of Protein-Protein Interactions Proseminar SS 2004.
1 Proseminar Bioinformatik: Theoretical Analysis of Protein-Protein-Interactions Scoring Functions Silke Ruzek 22.Juni.2004.
Seminar: Theoretical Analysis of Protein-Protein Interactions
V5: Bioinformatische Analyse von Proteinstrukturen
Protein-Protein Bindungsstellen
V6: Proteinstrukturvorhersage
7. Vorlesung WS 2004/05Softwarewerkzeuge1 V7: Aufklärung von Proteinstrukturen in der nahen Zukunft Structural genomics soll die Strukturen von
6. Vorlesung SS 2010Softwarewerkzeuge1 V6 Homologie-basierte Proteinmodellierung Idee: Sequenzähnlichkeit führt oft zu Ähnlichkeit der 3D-Struktur Lernziele:
V5: Proteinstruktur: Sekundärstruktur
Bärbel Arnds und Lia Saki Bucar Shigemori
WS Algorithmentheorie 08 – Dynamische Programmierung (2) Matrixkettenprodukt Prof. Dr. Th. Ottmann.
Computerkurs: Quantitative Auswertung biochemischer Experimente Guten Morgen.
Aminosäure, Peptide und Proteine
Struktur und Funktion von Biopolymeren Elmar Lang
Projekt A4: Alignment of Situation Models Gert Rickheit Sven Wachsmuth Constanze Vorwerg Agnes Swadzba SFB-Kolloqium,
Secondary Structure Prediction for Aligned RNA Sequences
Analyse von DNA-Sequenzen
How much paternal resemblance is enough? Sex differencies in hypothetical investment decisions but not in the detection of resemblance Platek, Critton,
V7: Aufklärung von Proteinstrukturen in der nahen Zukunft
V5: Proteinstruktur: Sekundärstruktur
6. Vorlesung SS 2009Softwarewerkzeuge1 V6 Homologie-basierte Proteinmodellierung Idee: Sequenzähnlichkeit führt oft zu Ähnlichkeit der 3D-Struktur Lernziele:
Mathematische Grundlagen und Rechnen mit algebraischen Zahlen
Biologisch wichtige organische Verbindungen
Vorlesung: Einführung in der Bioinformatik
Homologes Modelling von Protein Komplexen
Die Deutsche Politik.
Computational Thinking Online Algorithmen [Was ist es wert, die Zukunft zu kennen?] Kurt Mehlhorn Konstantinos Panagiotou.
Effiziente Algorithmen
Black Box Algorithmen Hartmut Klauck Universität Frankfurt SS
Quantum Computing Hartmut Klauck Universität Frankfurt WS 05/
Hartmut Klauck Universität Frankfurt SS
Information und Kommunikation Hartmut Klauck Universität Frankfurt SS
Beweissysteme Hartmut Klauck Universität Frankfurt WS 06/
Information und Kommunikation Hartmut Klauck Universität Frankfurt SS
… oder wie finde ich den Weg
VL Algorithmische BioInformatik (19710)
Multivariate Statistische Verfahren
Aufgabe 1 Ein kleines Protein (siehe Sequenz) wurde mit dem Enzym Trypsin inkubiert. Typsin hydrolysiert Peptidbindungen nach Arginin und Lysin. a. Ordnen.
V7 Modellierung von biomolekularen Komplexen Protein-Protein-Docking Protein-DNA-Komplexe 7. Vorlesung WS 14/15Softwarewerkzeuge1.
Wiederholung/Zusammenfassung
V6 Homologie-basierte Proteinmodellierung
Zentrales Dogma der Molekularbiologie:
III II I Relations between masses and mixing angles.
Gene Prediction Marco Block Jonas Heise Nima Keshvari Michael Schreiber.
Projekt A4: „Alignment of Situation Models“ Dr. Gerd Rickheit Dr. Sven Wachsmuth Dr. Constanze Vorwerg Agnes Swadzba SFB-Kolloqium,
6 Prepositions with ACCUSATIVE
Kapitel 4 Grammar INDEX 1.Ordinal Numbers 2.Relative Pronouns and Relative Clauses 3.Conditional Sentences 4.Posessive: Genitive Case.
Kapitel 2 Grammar INDEX 1.Subjects & Verbs 2.Conjugation of Verbs 3.Subject Verb Agreement 4.Person and Number 5.Present Tense 6.Word Order: Position of.
Kapitel 8 Grammar INDEX 1.Command Forms: The Du-Command Form & Ihr- Command 2.Sentences & Clauses.
Komparativ und Superlativ German 2. zum Beispiel … Ein VW ist schnell. Ein BMW ist schneller. Ein Porsche ist am Schnellsten. There are 2 levels of comparison:
Proteine Proteine sind die eigentlichen "Arbeitstiere" der Zelle. Beispiele: Enzyme, Strukturproteine, Regulatoren der Genexpression Proteine bestehen.
Bremse brake Welcher Roller hat eine Fussbremse, welcher hat eine Handbremse? Which scooter has a footbrake, which one has a handbrake?
Du bist am dicksten und am dümmsten.
Homologes Modelling von Protein Komplexen
V6 Homologie-basierte Proteinmodellierung
 Präsentation transkript:

V7 Homologie-basierte Proteinmodellierung (SwissModel) Methode: Wissensbasierter Ansatz. Erfordernis: Mindestens 1 bekannte 3D-Struktur eines verwandten Proteins, Prozedur: finde Proteine bekannter Struktur, die zu Inputsequenz verwandt sind. Erzeugung eines multiplen Sequenzalignments mit der Zielsequenz. Generierung eines Frameworks für die neue Sequenz. Konstruiere fehlende Loops. Vervollständige und korrigieren das Proteinrückgrat. Korrigiere die Seitenketten. Überprüfe die Qualität der modellierten Struktur und deren Packung. Strukturverfeinerung durch Energieminimierung und Moleküldynamik.

Modellierung von Proteinstrukturen Protein structure modeling for structural genomics. R. Sánchez et al. Nat. Struct. Biol. 7, 986 - 990 (2000)

Methode zur Fold-Erkennung: Threading Gegeben: Sequenz: IVACIVSTEYDVMKAAR… Ein Datenbank von möglichen Proteinstrukturen (“folds”) Bilde die Sequenz auf jeden fold ab Starte dabei bei jeder möglichen Position Bestimme anhand einer energetischen Bewertungsfunktion, welcher Fold am besten zu dieser Sequenz passt.

Homologie/Komperative Modellierung Qualität der Modellierung hängt von Sequenzidentität mit Vorlage ab. Protein structure modeling for structural genomics. R. Sánchez et al. Nat. Struct. Biol. 7, 986 - 990 (2000)

Überlagerung der 3D-Strukturen Regionen mit Sequenzähnlichkeit werden automatisch ausgewählt und ihre Residuen in 3D überlagert. Diese erste Auswahl wird weiter verfeinert. www.expasy.org/swissmodel/ SWISS-MODEL.html

3D Framework für die neue Sequenz Für alle Atome, die eine ähnliche Position besitzen und vermutlich eine strukturelle Entsprechung in der neuen Struktur besitzen, werden gemittelte Positionen als Framework-Koordinaten bestimmt. Seitenketten mit völlig inkorrekter Geometrie werden entfernt. Matrix mit Gewichten für lokale Ähnlichkeit. www.expasy.org/swissmodel/ SWISS-MODEL.html

Konstruktion fehlender Loops Konformationen für strukturell abweichende Loops zu konstruieren, ist ein ernstes Problem bei der vergleichende Modellierung. Seine Lösung ist (noch) offen. Dies gilt nicht nur für lange Loops, in denen zahlreiche Mutationen auftraten, sondern auch für kurze Loops im Fall von Insertionen und Deletionen. Sobald das Alignment von Zielsequenz und der Vorlagesequenz vorliegt, sollte man überprüfen, ob die eingefügten Gaps ausserhalb von Sekundärstruktur-elementen in der 3D-Struktur der Vorlage liegen. Ein paar Regeln: - bei sehr kurzen Loops können wir Daten über beta-turns verwenden

Beta-Turns Eine Aminosäurekette kann ihre Richtung dadurch umkehren, daß ein „reverse turn“ durch Bildung einer H-Bindung zwischen C=O und H-N gebildet wird. Fig. 1.9 Wenn dies zwischen zwei antiparallelen beta-Strängen, nennt man diesen einen beta-Haarnadel (hairpin). Es ergeben sich folgende Diederwinkel: table 1.1 a table 1.1 [Tramontano book]

Konstruktion fehlender Loops Ein paar Regeln: - falls mittellange Loops kompakte Substrukturen bilden, spielt die Ausbildung von Wasserstoffbrücken-bindungen mit den Atomen des Rückgrats die wichtigste Rolle für die Konformation - falls mittellange Loops ausgedehnte Konformationen haben, ist für ihre Stabilisierung meistens eine hydrophobe Seitenkette verantwortlich, die ins Proteininnere zeigt und zwischen die Sekundärstrukturelemente gepackt ist, zwischen denen der Loop liegt. Fig 4.16 [Tramontano book]

Konstruktion fehlender Loops Sehr ähnliche Konformation dreier Loops mit unterschiedlicher Sequenz. Zwei Loops enthalten ein cis-Prolin. Die stabilisierenden H-Bindungen werden mit sehr unterschiedlichen Proteingruppen ausgebildet. Fig 4.17 [Tramontano book]

Konstruktion fehlender Loops Basierend auf den Verankerungen der Loops werden wird eine Datenbank bekannter Loopfragmente in der PDB-Datenbank durchsucht. Für den neuen Loop verwendet man entweder das am besten passende Fragment oder ein Framework aus den 5 besten Fragmenten. Der Torsionsraum der Loopresiduen wird durchsucht - 7 erlaubte Kombinationen der - Winkel - benötigter Raum für den gesamten Loop www.expasy.org/swissmodel/ SWISS-MODEL.html

Rekonstruktion von fehlendem Proteinrückgrat Das Rückgrat wird auf der Grundlage von C -Positionen konstruiert. - 7 Kombinationen der - Winkel sind erlaubt. - Durchsuche Datenbank für Backbone-Fragmente mit Fenster aus 5 Residuen, Verwende die Koordinaten der 3 zentralen Residuen des am besten passenden Fragments. www.expasy.org/swissmodel/SWISS-MODEL.html

Konstruktion unvollständiger/fehlender Seitenketten Ponder & Richards (1987): einige Aminosäuren bevorzugen bestimmte Winkel-bereiche für ihre Seitenkettenwinkel  Rotamerbibliotheken. Verwende Bibliothek erlaubter Seitenketten-Rotamere geordnet nach der Häufigkeit des Auftretens in der PDB-Datenbank. Erst werden verdrehte (aber komplette) Seitenketten korrigiert. fehlende Seitenketten werden aus der Rotamer-Bibliothek ergänzt. Teste dabei, ob van-der-Waals Überlapps auftreten und ob die Torsisonswinkel in erlaubten Bereichen liegen. www.expasy.org/swissmodel/ SWISS-MODEL.html

Rotamer-Bibliotheken: günstige Diederwinkel Phe, Tyr, His, Trp r1 chi1 chi1-120 chi2 chi2+180 Syn-pentane (N-CA-CB-CG) (C-CA-CB-CG) (CA-CB-CG-XD1) (CA-CB-CG-XD2) interactions --- ----------- ----------- ------------ -------------- ----------- g+ 60 -60 60 -120 C,XD1 60 -60 120 -60 N,XD2 60 -60 -120 60 C,XD2 60 -60 -60 120 N,XD1 Conformation likely to be near chi2=+90 or -90 Aromatic sidechain chi2's are perturbed by interaction between XD1 and XD2 and backbone N and C. Without perturbation, chi2 would be near +90 or -90. When r1 is trans, interaction between backbone N and XD2 and XD1 at chi2=120 or -60 pushes the average for chi2 to values below 90 or below -90 respectively. Similarly, for r1 of g-, the averages are pushed to values above chi2=90 and chi2=-90 by interactions of N and XD1 and XD2 when chi2 is 60 or -120. For g+ rotamers, interactions at chi2=60 and 120 exert steric conflict about equally, so that chi2 averages 90 degrees. http://dunbrack.fccc.edu/bbdep/confanalysis.php

Paarungs-Präferenz von Aminosäuren Bei der Orientierung der Seitenketten wird üblicherweise jede für sich betrachtet (Rotamer-Bibliothek berüchsichtigt zwar die Konformation des Rückgrats, aber nicht die Umgebung). Aminosäuren nehmen jedoch je nach Umgebung unterschiedliche Konformationen ein. Diese “Packungseffekte” könnten in der Zukunft ebenfalls für komparative Modellierung berücksichtigt werden. K

Salzbrücken Datenbank für statistische Präferenz für die Orientierung von Aminosäure-Seitenketten in der PDB-Datenbank: http://www.biochem.ucl.ac.uk/bsm/ sidechains/index.html# Häufigkeit von 1845 Asp-Lys-Kontakte in PDB-Datenbank 34 66 K 84 31 60

-stacking von aromatischen Ringen Aromatische Ringe (z.B. Phenol, Benzol, Seitenketten von Tyrosin, Phenylalanin, Tryptophan, Histidin …) besitzen delokalisiertes Elektronensystem ausserhalb der Ringebene. Mehrere dieser Ringe “packen” gerne aufeinander bzw. senkrecht zueinander. Cluster Phe-Tyr 1 4

Kationen--Wechselwirkung Die gleichen aromatischen Ringe wechselwirken gerne senkrecht zur Ringebene mit positiv geladenen Gruppen. Beispiele: Acetylcholin in Bindungstasche von Acetylcholinesterase Tyr-Lys Cluster 6 Bevorzugte Geometrien für die Wechselwirkung von Trimethyl- Ammoniumgruppen mit Phenyl- Ringen Gohlke & Klebe, JMB 2000 K

Kationen--Wechselwirkung Wechselwirkung der positiv geladenen Guanidinium-Gruppe von Arg mit dem -Elektronensystem von His. Fast immer planare Packung. Nur in Cluster 3 Ausbildung einer Wasserstoffbrücke N-H … N 1 2 3 4 K

Überprüfe die Qualität der 3D-Modelle Analysiere 3D-Umgebung jeder Seitenkette. Erlaubt die Identifizierung missgefalteter Regionen. Auch: WHATCHECK überprüft auch die Packungsdichte www.expasy.org/swissmodel/ SWISS-MODEL.html

Analyse der Packungsdichte eines atomaren Modells Berechne, welche Bereiche des Proteins für eine kleine Probe zugänglich sind (Connolly-Oberfläche bzw. Kubisches Gitter). Algorithmus entdeckt Oberflächen innerhalb und ausserhalb des Proteins. Der Vergleich von Grösse und Verteilung von internen Cavities zwischen Modell und Kristallstruktur-Vorlage erlaubt es, Fehler im Modell aufzuspüren. www.expasy.org/swissmodel/ SWISS-MODEL.html

Bewertung der Qualität eines Homologiemodells 1 Bewertung der Qualität eines Homologiemodells 1. Allgemeine Gesichtspunkte Ein Modell wird als falsch angesehen, wenn mindestens eines seiner strukturellen Elemente gegenüber dem Rest des Modells falsch angeordnet ist. Dies kann durch ein falsches Sequenzalignment entstehen. Das Modell kann dennoch korrekte Stereochemie besitzen. Man kann ein Modell als ungenau ansehen wenn seine atomare Koordinaten mehr als 0.5 Å von einer experimentellen Kontrollstruktur abweichen. Ungenauigkeiten können auch in der Stereochemie (Bindungslängen und –winkel auftreten). Dies kann leicht mit WhatCheck überprüft werden. Statistische Paarpotentiale für die Verteilung von Aminosäuren in bekannten Proteinen erlauben manchmal die Aufspürung von fehlerhaften Modellen. www.expasy.org/swissmodel/SWISS-MODEL.html

2. Fehlerquellen Die Qualität eines Modells hängt von 2 Kriterien ab Seine Korrektheit hängt von der Qualität des Sequenzalignments ab. Seine Genauigkeit wird durch seine Abweichung von einer (zukünftig zu bestimmenden) experimentellen Struktur bestimmt. Strukturelle Abweichungen haben 2 Ursachen - der inherente Fehler der Modellierungsprozedur - durch Umgebung und Methoden der Datenerfassung bewirkte Variationen der experimentellen Strukturen, die als Vorlage verwendet werden. Ein durch komparative Methoden abgeleitetes Protein-Modell kann nicht genauer sein als der Unterschied zwischen einer NMR-Struktur und einer Kristallstruktur desselben Proteins. www.expasy.org/swissmodel/SWISS-MODEL.html

3 Proteinkern und Loops Fast jedes Proteinmodell enthält nicht-konservierte Loops, die als die am wenigsten zuverlässigen Teile des Proteinmodells angesehen werden können. Andererseits sind diese Bereiche der Struktur oft auch am flexibelsten – hohe Temperaturfaktoren in Kristallstrukturen oder hohe Unterschiede zwischen verschiedenen (gleichsam gültigen) NMR-Strukturen. Die Residuen im Proteinkern werden gewöhnlich fast in der identischen Orientierung wie in experimentellen Kontrollstrukturen modelliert. Residuen an der Proteinoberfläche zeigen grössere Abweichungen. www.expasy.org/swissmodel/SWISS-MODEL.html

Einordnung von Proteinmodellen in 3 Kategorien Modelle, die auf falschen Alignments zwischen Vorlage und Zielprotein basieren. Strategie: konstruiere mehrere Modelle für unterschiedliche Alignments. Wähle das am besten erscheinende Modell. Modelle, die auf korrekten Alignments beruhen, können für zielgerichtete Mutagenese-Experimente hilfreich sein. Sind oft nicht zuverlässig genug für detaillierte Untersuchung von Ligandenbindung. Modelle, die auf einer hohen Sequenzidentität (> 70%) mit der Vorlage beruhen. Solche Modelle können in Drug Design Projekten verwendet werden. Fehler sind jedoch immer, also auch bei sehr hoher Identität möglich.

Test für die Zuverlässigkeit von SwissModell 3DCrunch-Projekt von Expasy zusammen mit SGI. Generiere „Homologie-Modelle“ für Proteine mit bekannter 3D-Struktur. Die Vorlagen besaßen 25 – 95 % Sequenzidentität mit dem Zielprotein. 1200 Kontrolle-Modelle. Grad der Identität [%] Modell innerhalb von x Å RMSD zur Vorlage < 1 < 2 < 3 < 4 < 5 > 5 25-29 0 10 30 46 67 33 30-39 0 18 45 66 77 23 40-49 9 44 63 78 91 9 50-59 18 55 79 86 91 9 60-69 38 72 85 91 92 8 70-79 42 71 82 85 88 12 80-89 45 79 86 94 95 5 90-95 59 78 83 86 91 9 www.expasy.org/swissmodel /SWISS-MODEL.html

Zusammenfassung – Homologiemodellierung Gemeinsamer Kern von Proteinen mit 50% Sequenzidentität besitzt ca. 1 Å RMSD Dies gilt sogar für absolute identische Sequenzen. Der zuverlässigste Teil eines Proteinmodells ist der Sequenzabschnitt, den es mit der Vorlage gemeinsam hat. Die größten Abweichungen liegen in den konstruierten Schleifen. Die Wahl der Modellvorlage ist entscheidend! Die An- oder Abwesenheit von Ko-faktoren, anderen Untereinheiten oder Substraten kann Proteinkonformation sehr beeinflussen und somit alle Modelle, die von ihnen abgeleitet werden. Jeder Fehler im Alignment produziert falsche Modelle! Solche Alignment-Fehler treten bei Sequenzidentität unter 40% auf.

IV The importance of being unfolded? Anscheinend sind nicht wenige Proteine der Zelle einen Großteil der Zeit teilweise entfaltet (P.E. Wright, H.J. Dyson, J. Mol. Biol. 293, 321 (1999)) Dies klingt sehr unerwartet. Was wären mögliche biologische Vorteile davon? (1) Entfaltete Proteine können schneller abgebaut werden  kann für Regulation eines schnellen Zellzyklus erforderlich sein. (2) Molekulare Erkennung ist schneller, wenn Faltung und Bindung gekoppelt sind (3) Loopstrukturen können viele biologische Targets erkennen  wichtig für Kommunikation und Regulierung bzw. Bildung großer Komplexe? (4) Entfaltete Proteine können schnell in andere Zellkompartments transportiert werden.

NORS regions: no regular secondary structure NORS regions are defined to have at least 70 consecutive residues with less than 12% regular secondary structure (helix or strand). We found four types of proteins. (A) Connecting loops: long loops that connect two domains or chains (shown Formate Dehydrogenase H, 1AA6). of interactions. (B) Loopy ends: long N- or C-terminal regions that lack regular secondary structure (shown Hexon from adenovirus type 2, 1DHX). (C) Loopy wraps: long loopy regions wrapping around globular domains (shown Class II chitinase, 2BAA. (D) Loopy domains: entire structures that have almost no regular secondary structure (shown extra-cellular domain of T beta RI, 1TBI). Liu, Tan, Rost, J Mol Biol (2002) 332, 53-64

NORS regions use particular amino acids The height of the one-letter amino acid code is proportional to the abundance of the respective acid in each data set. The actual value is the difference in occurrence with respect to the frequency observed in a sequence-unique subset of PDB: . Inverted letters indicate acids that are less frequent than 'expected'. The amino acids are sorted by 'flexibility' , with the more rigid ones on the left. Overall, NORS regions are as abundant in more flexible residues as loop regions in PDB . However, we found considerably more Serine (S), Glutamine (Q), and Glycine (G) and considerably fewer Arginine (R), Aspartic acid (D), Glutamic acid (E), Tryptophan (W), and Phenylalanine (F) in NORS regions than in loop regions, in general. Liu, Tan, Rost, J Mol Biol (2002) 332, 53-64

Many NORS regions predicted in proteomes We predicted many NORS regions in 31 entirely sequenced organisms. NORS proteins appeared particularly abundant in eukaryotes. (A) gives the percentage of proteins in respective proteome for which at least one NORS region is predicted. High enrichment in eukaryotic proteomes! (B) illustrates the percentage of all the residues of the respective proteome for which a NORS region is predicted. (C) gives the percentage of all predicted NORS regions that are between N and N+10 residues long (note that, by definition, NORS regions are longer than 70 residues). Surprisingly, almost 15% of all the predicted NORS regions extend over more than 200 residues (inset of C). Liu, Tan, Rost, J Mol Biol (2002) 332, 53-64

Prion: ein ungeklärtes Beispiel für misgefaltete Proteine Das Prion-Protein PrPc: ist ein normales zelluläres Glycoprotein ist an die Plasmamembran über einen GPI-Anker angehängt hat 209 Aminosäuren Seine genaue Funktion ist unbekannt. Cu2+ Speicherung, Erinnerung? Struktur aus NMR-Bestimmungen bekannt: Die N-terminale Region 23-120 ist sehr flexibel und meist ungeordnet. C-terminale Region enthält 3 -Helices, 2 kurze -Stränge PrPc wird schnell durch Proteinase K abgebaut