V6: Proteinstrukturvorhersage

Slides:



Advertisements
Ähnliche Präsentationen
Algorithmen und Datenstrukturen
Advertisements

Spektrale Analysen in EMU-R: eine Einführung
V8 funktionelle Annotation
7. Vorlesung SS 2011Softwarewerkzeuge1 V7 Genexpression - Microarrays Idee: analysiere Ko-Expression von mehreren Genen um auf funktionelle Ähnlichkeiten.
V9 Systembiologie Idee: Methoden der Systembiologie ermöglichen die integrierte, simultane Betrachtung möglichst vieler zellulärer Prozesse. wichtige Fragen:
V6 Homologie-basierte Proteinmodellierung
Zur Rolle der Sprache bei der Modellierung von Datenbanken
V8 funktionelle Annotation
Docking von starren und flexiblen Proteinen
spezielle Nutzersichten formale Ebene (deskriptive Regeln)
Die Binomialverteilung
Dr. Brigitte Mathiak Kapitel 9 Physische Datenorganisation (ganz kurz)
TECHNISCHE UNIVERSITÄT DARMSTADT Naive Bayes for Ranking
Aminosäuren bilden: Peptidbindungen
Proteinfaltung und post-translationale Prozessierung
On a Buzzword: Hierachical Structure David Parnas.
Übersicht DIALIGN = DIagonal ALIGNment
Der R-Baum Richard Göbel.
Computational Chemistry
Theoretical Analysis of Protein-Protein Interactions Proseminar SS 2004.
Softwarewerkzeuge der Bioinformatik
Seminar: Theoretical Analysis of Protein-Protein Interactions
Softwarewerkzeuge der Bioinformatik
V7 Homologie-basierte Proteinmodellierung (SwissModel)
V5: Bioinformatische Analyse von Proteinstrukturen
Protein-Protein Bindungsstellen
V9 metabolische Netzwerke / Protein-Interaktionsnetzwerke
7. Vorlesung WS 2004/05Softwarewerkzeuge1 V7: Aufklärung von Proteinstrukturen in der nahen Zukunft Structural genomics soll die Strukturen von
6. Vorlesung SS 2010Softwarewerkzeuge1 V6 Homologie-basierte Proteinmodellierung Idee: Sequenzähnlichkeit führt oft zu Ähnlichkeit der 3D-Struktur Lernziele:
V5: Proteinstruktur: Sekundärstruktur
Spektrale Analysen in EMU-R: eine Einführung
Algorithmentheorie 04 –Hashing
Vorlesung Informatik 2 Algorithmen und Datenstrukturen (19 - Analyse natürlicher Bäume) Prof. Th. Ottmann.
Computerkurs: Quantitative Auswertung biochemischer Experimente
Aminosäure, Peptide und Proteine
Lösung der Aufgabe 1: Die Erweiterung des Diagramms auf „Winged Egde“ besteht in zwei Beziehungen, nr-Kante und vl-Kante, zwischen der Klasse Kante. Jede.
Die Nukleon-Nukleon Wechselwirkung
Secondary Structure Prediction for Aligned RNA Sequences
Analyse von DNA-Sequenzen
Access 2000 Datenbanken.
V7: Aufklärung von Proteinstrukturen in der nahen Zukunft
V5: Proteinstruktur: Sekundärstruktur
V7 Genexpression - Microarrays
6. Vorlesung SS 2009Softwarewerkzeuge1 V6 Homologie-basierte Proteinmodellierung Idee: Sequenzähnlichkeit führt oft zu Ähnlichkeit der 3D-Struktur Lernziele:
V7 Genexpression - Microarrays
V7 Genexpression - Microarrays
Dieter Bergmann, Lichtenfels
Wismar Business School
Vorlesung: Einführung in der Bioinformatik
Biologische Datenbanken
Vorlesung: ANOVA I
Prof. Dr. Gerhard Schmidt pres. by H.-J. Steffens Software Engineering SS 2009Folie 1 Objektmodellierung Objekte und Klassen Ein Objekt ist ein Exemplar.
Erdbebenlokalisierung
Histogramm/empirische Verteilung Verteilungen
Homologes Modelling von Protein Komplexen
Computational Thinking Online Algorithmen [Was ist es wert, die Zukunft zu kennen?] Kurt Mehlhorn Konstantinos Panagiotou.
Globale Interpolations- und Prädiktionsverfahren
Black Box Algorithmen Hartmut Klauck Universität Frankfurt SS
Black Box Algorithmen Hartmut Klauck Universität Frankfurt SS
Quantum Computing Hartmut Klauck Universität Frankfurt WS 05/
VL Algorithmische BioInformatik (19710)
Schnelleinstieg Schnelleinstieg für bereits geschulte User zur Schulung OMDS-Einspielung in FinanzProfiT Bitte auf gewünschte Variante klicken oder weiterblättern….
Methoden der Chemie III – Teil 1 Modul M. Che
V7 Modellierung von biomolekularen Komplexen Protein-Protein-Docking Protein-DNA-Komplexe 7. Vorlesung WS 14/15Softwarewerkzeuge1.
Wiederholung/Zusammenfassung
V6 Homologie-basierte Proteinmodellierung
1 Prozesse im Studiengangsmanagement Kontext: Neues Abschlussziel erstellen Neues Studienfach erstellen.
1 Prozesse im Studiengangsmanagement Kontext: Neues Abschlussziel erstellen Neues Studienfach erstellen.
 Gegenstandsbereich der Testtheorie: Analyse der Charakteristika von Tests:  Güte von Tests.  Struktur von Tests.  Schwierigkeit von Tests.  Gruppenunterschiede.
Homologes Modelling von Protein Komplexen
 Präsentation transkript:

V6: Proteinstrukturvorhersage Bedeutung von Folds. Grundsätzliches zu Struktur – Funktion Beziehung. Definition von Folds: siehe V5 Structural genomics soll die Strukturen von 1000-10.000 Proteinen vor allem mit neuen Faltungsmustern („folds“) aufklären. V7 Homologiemodellierung von Proteinen.

Analyse einer unbekannten Sequenz Input: neue Proteinsequenz Experimentelle Daten vorhanden? Multiples Sequenzalignment Suche in Sequenzdatenbanken nach identischer Sequenz bzw. ähnlichen Sequenzen Erkenne Domänen Gibt es ähnliche Sequenz mit bekannter 3D-Struktur? Nein Vorhersage der Sekundärstruktur Zuordnung eines Protein-Folds Analyse dieses Folds, Nachbarn? Ja Ja Fold erkannt? Alignment der Sekundärstrukturen. Nein Modellierung der Proteinstruktur durch Homologiemodellierung Alignment der Sequenz mit einer Target-Struktur Ab inito Vorhersage der Tertiärstruktur 3D-Proteinstruktur Nach Rob Russell, http://speedy.embl-heidelberg.de/ gtsp/flowchart2.html Kann man Funktion zuordnen?

Integrative Datenbankanalyse Gibt es Faltungsmuster, die es nur in bestimmten phylogenetischen Gruppen gibt? Diese Proteine könnte gute Targets für selektive Inhibitoren sein. Das Ziel von structural genomics könnte sein, die Lücken zwischen den bekannten Regionen zu füllen.

Integrative Datenbankanalyse Integrative database analysis in structural genomics M. Gerstein, Nat. Struct. Biol. 7, 960 (2000) 10 most common folds in yeast genome (= number of gene duplications); table shows ranking according to various measures. It shows how common popular folds in yeast occur in other genomes and in the PDB data base; variety of functions; level of expression. Bestimmte Faltungsmuster kommen in allen Organismen vor!

Beziehung zwischen Fold, Funktion, und WWs - die meisten Proteine derselben Proteinfaltung haben dieselbe (oder eine von zwei) Funktionen  Kenntnis des “folds” ermöglicht oft Funktionszuordnung!  “fold prediction” alleine ist bereits sehr wertvoll. Integrative database analysis in structural genomics M. Gerstein, Nat. Struct. Biol. 7, 960 (2000)

Proteinstrukturmodellierung für Structural Genomics Grad an Sequenzidentität zwischen den bekannten Proteinstrukturen und den Proteinen von M. Genitalium. Für 333 von 479 Sequenzen konnte mindestens für ein Stück von 30 Residuen ein Modell erstellt oder ein Fold zugeordnet werden. Protein structure modeling for structural genomics. R. Sánchez et al. Nat. Struct. Biol. 7, 986 - 990 (2000)

Genomweite Strukturmodellierung Effekt des Wachstums der PDB-Datenbank auf die Zahl der Protein des Bakteriums M. Genitalium, deren Fold und Struktur im jeweiligen Jahr vorhergesagt werden konnte. Homologie-Modellierung ist nicht aufwendig, dauert pro Struktur nur wenige Minuten. Akkurate Modellierung von Loops und Seitenketten kann jedoch erheblich aufwendiger sein. Grün: Proteine mit Modell oder fold assignment aus PSI-BLAST für mindestens 30 ihrer Residuen. Blau: nur Modell Rot: Anteil der Residuen des Genoms, die in Modell oder fold assignment vorkommen. R. Sánchez et al. Nat. Struct. Biol. 7, 986 - 990 (2000)

Schliesse von Struktur auf Funktion? From structure to function: Approaches and limitations J. M. Thornton et al. Nat. Struct. Biol. 7, 991  (2000)

Faltung  homologe Superfamilie  Funktion Verteilung homologer Superfamilien in CATH Klassifizierung von Proteinstrukturen. Obwohl manche Folds sehr unterschiedliche Funktionen ausüben können, enthalten 556 Folds jeweils nur eine homologe Superfamilie. From structure to function: Approaches and limitations J. M. Thornton et al. Nat. Struct. Biol. 7, 991  (2000)

Faltung  homologe Superfamilie  Funktion Konservierung von Enzymfunktion (durch EC-Nummer definiert) innerhalb einer homologen Superfamilie ist relativ gut erfüllt. Dennoch gibt es eine Reihe von absoluten Ausnahmen. From structure to function: Approaches and limitations J. M.Thornton et al. Nat. Struct. Biol. 7, 991  (2000) Ähnlichkeit der Enzymfunktion

Faltung  homologe Superfamilie  Funktion Diversität der Enzymfunktion in der Familie der Typ1- Aspartat-Aminotransferasen: gezeigt sind die verschiedenen EC-Klassifizierungen von Mitgliedern dieser Superfamilie. Dies ist ein Beispiel für eine der wenigen Superfamilien, bei denen die Zuordnung Fold  Funktion nicht eindeutig ist. From structure to function: Approaches and limitations J. M.Thornton et al. Nat. Struct. Biol. 7, 991  (2000)

Aktives Zentrum der Aspartat Proteasen Kristallstruktur des menschlichen Pepsins. Beide Domänen steuern Residuen für aktives Zentrum bei. From structure to function: Approaches and limitations J. M.Thornton et al. Nat. Struct. Biol. 7, 991  (2000)

Aktives Zentrum der Aspartat Proteasen Superposition der Residuen des aktiven Zentrums in 18 unterschiedlichen Aspartat-Protease Proteinfamilien  das aktive Zentrum der Aspartat-Protease kann durch die Position von 8 Atomen beschrieben werden. From structure to function: Approaches and limitations J. M.Thornton et al. Nat. Struct. Biol. 7, 991  (2000)

Genomweite Sequenzanalyse bzw Genomweite Sequenzanalyse bzw. Sequenzvergleich: Auswahl der Target-Proteine Genauigkeit der CASP Proteinstrukturen als Funktion der Sequenzidentität von Ziel und Vorlage. Sobald die Identität unter 30% sinkt, nimmt die Abweichung der Modelle von der korrekten exp. Struktur schnell zu. Completeness in structural genomics D. Vitkup et al. Nat. Struct. Biol. 8, 559  (2001)

Korrektheit von Alignments Die Hauptursache für diesen Effekt sind Fehler im Alignment von Zielprotein und Vorlage. Hier ist der Anteil der korrekt alignierten Residuen gezeigt (bewertet anhand der 3D-Struktur). Completeness in structural genomics D. Vitkup et al. Nat. Struct. Biol. 8, 559  (2001)

Strukturelle Abdeckung der Sequenzdatenbanken Zahl an (Struktur-)Modellen, die korrekt erzeugt werden können als Funktion der Sequenzidentität (x-Achse) und des passenden Sequenzabschnitts (y-Achse). Der rechte-obere Quadrant umfasst 19% aller Proteine in Swissprot+TrEMBL, für die eine zuverlässige Vorlage in der PDB-Datenbank existiert. Completeness in structural genomics D. Vitkup et al. Nat. Struct. Biol. 8, 559  (2001)

Strukturelle Information für gesamte Genome Completeness in structural genomics. Vitkup et al. Nat. Struct. Biol. 8, 559 (2001)

Strukturelle Abdeckung der ras-Proteinfamilie Ras-Proteine in Hefe. Der Abstand zwischen den Proteinen entspricht 100% - Sequenzidentität. Mit 1 Struktur (YPT6) kann man alle Proteine aufgrund von 20% Identität modellieren (grüner Kreis), mit 5 Strukturen alle mit 30% Identität (rote Kreise). Completeness in structural Genomics. D. Vitkup et al. Nat. Struct. Biol. 8, 559  (2001)

Wie viele Proteinstrukturen werden benötigt? Geplante Modellierung aller Nichtmembran-proteine. Completeness in structural Genomics. D. Vitkup et al. Nat. Struct. Biol. 8, 559  (2001)

Wie viele Strukturen werden praktisch benötigt? Wie gut ist die strukturelle Abdeckung, wenn man Erfolgsraten von 100% (1:1) bis runter zu 10% (1:10) für die Kristallisationsprojekte ansetzt? Man kann auch für geringere Erfolgsraten eine ähnlich gute Abdeckung erwarten! Completeness in structural Genomics. D. Vitkup et al. Nat. Struct. Biol. 8, 559  (2001)

Auswahl der zu kristallisierenden Proteine Blau: optimale Auswahl der Targetproteine Grün: Targetproteine werden zufällig ausgewählt. Man benötigt 7 x mehr Strukturen um 90% Abdeckung zu erreichen. Rot: Auswahl ebenfalls zufällig unter der Bedingung, dass die Ähnlichkeit zu allen anderen Strukturen < 30% liegt. Completeness in structural Genomics. D. Vitkup et al. Nat. Struct. Biol. 8, 559  (2001)

Genomweite Sequenzanalyse bzw. Sequenzvergleich Etwa die Hälfte aller Sequenzen und damit etwa ein Viertel aller Residuen in bekannten Genomen kann einer der 2000 bekannten Pfam Proteinfamilien zugeordnet werden. Daher erwarten wir ca. 8000 Proteinfamilien. Für die strukturelle Abdeckung der 2000 bekannten Proteinfamilien zu 90% sind etwa 4000 Proteinstrukturen notwendig. Damit sind bei optimaler Auswahl der Targetproteine 16000 Strukturbestim-mungen notwendig. Completeness in structural Genomics. D. Vitkup et al. Nat. Struct. Biol. 8, 559  (2001)

„New view of protein folding“: Faltung entlang trichterähnlichen Energielandschaften Bryngelson, Wolynes, PNAS (1987) Gradient  Rauhigkeit beschleunigt bremst Faltung Faltung “Frustration” Brooks, Gruebele, Onuchic, Wolynes, PNAS 95, 11037 (1998)

Simulation des Faltungsprozesses Wie lang dauert Proteinfaltung? Welche Zeitskala können MD-Simulationen abdecken?  Kann man einen Protein-Faltungsprozess simulieren?

Faltungs-Simulationen Kann man einen Faltungsprozess mit MD-Simulationen simulieren? 1998 1 s Simulation der 36-Residuen des Villin-Fragments exp. Faltungszeit: zwischen 10 – 100 s, Tm = 70 C - enthält 3 kurze Helices (NMR), die durch Loop und Schleife verbunden sind - dicht gepackter hydrophober Kern 4 Monate CPU Zeit auf 256 Prozessor Cray T3D und T3E

Faltung des Villin-Fragments entfaltet teilweise gefaltet native Strukturen Vergleich der nativen Struktur (rot) und des stabilsten clusters (blau) Duan & Kollman, Science 282, 740 (1998)

Faltung des Villin-Fragments (A) relativer Helix-Anteil (C) Gyrationsradius und RMSD von nativer Struktur (B) relativer nativer Anteil (D) freie Solvatationsenergie (Eisenberg-Parameter) Duan & Kollman, Science 282, 740 (1998)

Zusammenfassung - Proteinstruktur ist Schlüssel zum Verständnis mechanistischer Details der Proteinfunktion - ab initio Vorhersage der Proteinstruktur durch Faltungssimulationen ist noch sehr problematisch; funktioniert nur für kurze Proteine

zusätzliche Folien

Fold Optimierung Zwei Sorten von Seitenketten: hydrophob und polar Einfache Gittermodelle (HP-Modelle) Zwei Sorten von Seitenketten: hydrophob und polar 2-D oder 3-D Gitter Treibende Kräfte: hydrophober Kollaps – es ist günstig, Kontakte zwischen hydropoben Seitenketten zu bilden Bewertung = Anzahl an HH Kontakten

HP-Gittermodelle Ken Dill ~ 1997 Vorteil solch einfacher Modelle: man kann den Konformationsraum systematisch absuchen.