Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

7. Vorlesung WS 2005/06Softwarewerkzeuge1 V7: Aufklärung von Proteinstrukturen in der nahen Zukunft Structural genomics soll die Strukturen von 1000-10.000.

Ähnliche Präsentationen


Präsentation zum Thema: "7. Vorlesung WS 2005/06Softwarewerkzeuge1 V7: Aufklärung von Proteinstrukturen in der nahen Zukunft Structural genomics soll die Strukturen von 1000-10.000."—  Präsentation transkript:

1 7. Vorlesung WS 2005/06Softwarewerkzeuge1 V7: Aufklärung von Proteinstrukturen in der nahen Zukunft Structural genomics soll die Strukturen von Proteinen vor allem mit neuen Faltungsmustern (folds) aufklären. Bedeutung von Folds. Grundsätzliches zu Struktur – Funktion Beziehung. Definition von Folds: siehe V6 Homologiemodellierung der Strukturen aller verwandten Proteine unter Verwendung der bekannten 3D-Strukturen als Vorlagen.

2 7. Vorlesung WS 2005/06Softwarewerkzeuge2 Analyse einer unbekannten Sequenz Suche in Sequenzdatenbanken nach identischer Sequenz bzw. ähnlichen Sequenzen Gibt es ähnliche Sequenz mit bekannter 3D-Struktur? Vorhersage der Sekundärstruktur Kann man Funktion zuordnen? Modellierung der Proteinstruktur durch Homologiemodellierung Ab inito Vorhersage der Tertiärstruktur Zuordnung eines Protein-Folds Multiples Sequenzalignment Input: neue Proteinsequenz Alignment der Sekundärstrukturen. Erkenne Domänen Analyse dieses Folds, Nachbarn? Experimentelle Daten vorhanden? 3D-Proteinstruktur Alignment der Sequenz mit einer Target-Struktur Fold erkannt? Nein Ja Nein Ja Nach Rob Russell, gtsp/flowchart2.html

3 7. Vorlesung WS 2005/06Softwarewerkzeuge3 Integrative Datenbankanalyse Integrative database analysis in structural genomics M. Gerstein, Nat. Struct. Biol. 7, 960 (2000) 10 most common folds in yeast genome (= number of gene duplications); table shows ranking according to various measures. It shows how common popular folds in yeast occur in other genomes and in the PDB data base; variety of functions; level of expression.

4 7. Vorlesung WS 2005/06Softwarewerkzeuge4 Integrative Datenbankanalyse Gibt es Faltungsmuster, die es nur in bestimmten phylogenetischen Gruppen gibt? Diese Proteine könnte gute Targets für selektive Inhibitoren sein. Die vorangehende Abbildung zeigt, dass bestimmte Faltungsmuster in allen Organismen vorkommen. Das Ziel von structural genomics könnte nun sein, die Lücken zwischen den bekannten Regionen zu füllen.

5 7. Vorlesung WS 2005/06Softwarewerkzeuge5 Beziehung zwischen Fold, Funktion, und WWs Integrative database analysis in structural genomics M. Gerstein, Nat. Struct. Biol. 7, 960 (2000) - die meisten Proteine derselben Proteinfaltung haben dieselbe (oder eine von zwei) Funktionen Kenntnis des folds ermöglicht oft Funktionszuordnung! fold prediction alleine ist bereits sehr wertvoll.

6 7. Vorlesung WS 2005/06Softwarewerkzeuge6 Proteinstrukturmodellierung für Structural Genomics Protein structure modeling for structural genomics. R. Sánchez et al. Nat. Struct. Biol. 7, (2000) Grad an Sequenzidentität zwischen den bekannten Proteinstrukturen und den Proteinen von M. Genitalium. Für 333 von 479 Sequenzen konnte mindestens für ein Stück von 30 Residuen ein Modell erstellt oder ein Fold zugeordnet werden.

7 7. Vorlesung WS 2005/06Softwarewerkzeuge7 Modellierung von Proteinstrukturen Protein structure modeling for structural genomics. R. Sánchez et al. Nat. Struct. Biol. 7, (2000)

8 7. Vorlesung WS 2005/06Softwarewerkzeuge8 Homologie/Komperative Modellierung Protein structure modeling for structural genomics. R. Sánchez et al. Nat. Struct. Biol. 7, (2000) Qualität der Modellierung hängt von Sequenzidentität mit Vorlage ab.

9 7. Vorlesung WS 2005/06Softwarewerkzeuge9 Genomweite Strukturmodellierung R. Sánchez et al. Nat. Struct. Biol. 7, (2000) Effekt des Wachstums der PDB- Datenbank auf die Zahl der Protein des Bakteriums M. Genitalium, deren Fold und Struktur im jeweiligen Jahr vorhergesagt werden konnte. Homologie-Modellierung ist nicht aufwendig, dauert pro Struktur nur wenige Minuten. Akkurate Modellierung von Loops und Seitenketten kann jedoch erheblich aufwendiger sein. Grün: Proteine mit Modell oder fold assignment aus PSI-BLAST für mindestens 30 ihrer Residuen. Blau: nur Modell Rot: Anteil der Residuen des Genoms, die in Modell oder fold assignment vorkommen.

10 7. Vorlesung WS 2005/06Softwarewerkzeuge10 Schliesse von Struktur auf Funktion? From structure to function: Approaches and limitations J. M. Thornton et al. Nat. Struct. Biol. 7, 991 (2000)

11 7. Vorlesung WS 2005/06Softwarewerkzeuge11 Faltung homologe Superfamilie Funktion From structure to function: Approaches and limitations J. M. Thornton et al. Nat. Struct. Biol. 7, 991 (2000) Verteilung homologer Superfamilien in CATH Klassifizierung von Proteinstrukturen. Obwohl manche Folds sehr unterschiedliche Funktionen ausüben können, enthalten 556 Folds jeweils nur eine homologe Superfamilie.

12 7. Vorlesung WS 2005/06Softwarewerkzeuge12 Faltung homologe Superfamilie Funktion From structure to function: Approaches and limitations J. M.Thornton et al. Nat. Struct. Biol. 7, 991 (2000) Konservierung von Enzymfunktion (durch EC- Nummer definiert) innerhalb einer homologen Superfamilie ist relativ gut erfüllt. Dennoch gibt es eine Reihe von absoluten Ausnahmen. Ähnlichkeit der Enzymfunktion

13 7. Vorlesung WS 2005/06Softwarewerkzeuge13 Faltung homologe Superfamilie Funktion From structure to function: Approaches and limitations J. M.Thornton et al. Nat. Struct. Biol. 7, 991 (2000) Diversität der Enzymfunktion in der Familie der Typ1- Aspartat-Aminotransferasen: gezeigt sind die verschiedenen EC-Klassifizierungen von Mitgliedern dieser Superfamilie. Dies ist ein Beispiel für eine der wenigen Superfamilien, bei denen die Zuordnung Fold Funktion nicht eindeutig ist.

14 7. Vorlesung WS 2005/06Softwarewerkzeuge14 Aktives Zentrum der Aspartat Proteasen From structure to function: Approaches and limitations J. M.Thornton et al. Nat. Struct. Biol. 7, 991 (2000) Kristallstruktur des menschlichen Pepsins. Beide Domänen steuern Residuen für aktives Zentrum bei.

15 7. Vorlesung WS 2005/06Softwarewerkzeuge15 From structure to function: Approaches and limitations J. M.Thornton et al. Nat. Struct. Biol. 7, 991 (2000) Superposition der Residuen des aktiven Zentrums in 18 unterschiedlichen Aspartat- Protease Proteinfamilien das aktive Zentrum der Aspartat-Protease kann durch die Position von 8 Atomen beschrieben werden. Aktives Zentrum der Aspartat Proteasen

16 7. Vorlesung WS 2005/06Softwarewerkzeuge16 Genomweite Sequenzanalyse bzw. Sequenzvergleich: Auswahl der Target-Proteine Completeness in structural genomics D. Vitkup et al. Nat. Struct. Biol. 8, 559 (2001) Genauigkeit der CASP Proteinstrukturen als Funktion der Sequenzidentität von Ziel und Vorlage. Sobald die Identität unter 30% sinkt, nimmt die Abweichung der Modelle von der korrekten exp. Struktur schnell zu.

17 7. Vorlesung WS 2005/06Softwarewerkzeuge17 Completeness in structural genomics D. Vitkup et al. Nat. Struct. Biol. 8, 559 (2001) Korrektheit von Alignments Die Hauptursache für diesen Effekt sind Fehler im Alignment von Zielprotein und Vorlage. Hier ist der Anteil der korrekt alignierten Residuen gezeigt (bewertet anhand der 3D- Struktur).

18 7. Vorlesung WS 2005/06Softwarewerkzeuge18 Strukturelle Abdeckung der Sequenzdatenbanken Zahl an (Struktur-)Modellen, die korrekt erzeugt werden können als Funktion der Sequenzidentität (x-Achse) und des passenden Sequenzabschnitts (y-Achse). Der rechte-obere Quadrant umfasst 19% aller Proteine in Swissprot+TrEMBL, für die eine zuverlässige Vorlage in der PDB-Datenbank existiert. Completeness in structural genomics D. Vitkup et al. Nat. Struct. Biol. 8, 559 (2001)

19 7. Vorlesung WS 2005/06Softwarewerkzeuge19 Strukturelle Information für gesamte Genome Completeness in structural genomics. Vitkup et al. Nat. Struct. Biol. 8, 559 (2001)

20 7. Vorlesung WS 2005/06Softwarewerkzeuge20 Strukturelle Abdeckung der ras-Proteinfamilie Completeness in structural Genomics. D. Vitkup et al. Nat. Struct. Biol. 8, 559 (2001) Ras-Proteine in Hefe. Der Abstand zwischen den Proteinen entspricht 100% - Sequenzidentität. Mit 1 Struktur (YPT6) kann man alle Proteine aufgrund von 20% Identität modellieren (grüner Kreis), mit 5 Strukturen alle mit 30% Identität (rote Kreise).

21 7. Vorlesung WS 2005/06Softwarewerkzeuge21 Wie viele Proteinstrukturen werden benötigt? Geplante Modellierung aller Nichtmembran- proteine. Completeness in structural Genomics. D. Vitkup et al. Nat. Struct. Biol. 8, 559 (2001)

22 7. Vorlesung WS 2005/06Softwarewerkzeuge22 Wie viele Strukturen werden praktisch benötigt? Wie gut ist die strukturelle Abdeckung, wenn man Erfolgsraten von 100% (1:1) bis runter zu 10% (1:10) für die Kristallisationsprojekte ansetzt? Man kann auch für geringere Erfolgsraten eine ähnlich gute Abdeckung erwarten! Completeness in structural Genomics. D. Vitkup et al. Nat. Struct. Biol. 8, 559 (2001)

23 7. Vorlesung WS 2005/06Softwarewerkzeuge23 Blau: optimale Auswahl der Targetproteine Grün: Targetproteine werden zufällig ausgewählt. Man benötigt 7 x mehr Strukturen um 90% Abdeckung zu erreichen. Rot: Auswahl ebenfalls zufällig unter der Bedingung, dass die Ähnlichkeit zu allen anderen Strukturen < 30% liegt. Auswahl der zu kristallisierenden Proteine Completeness in structural Genomics. D. Vitkup et al. Nat. Struct. Biol. 8, 559 (2001)

24 7. Vorlesung WS 2005/06Softwarewerkzeuge24 Genomweite Sequenzanalyse bzw. Sequenzvergleich Etwa die Hälfte aller Sequenzen und damit etwa ein Viertel aller Residuen in bekannten Genomen kann einer der 2000 bekannten Pfam Proteinfamilien zugeordnet werden. Daher erwarten wir ca Proteinfamilien. Für die strukturelle Abdeckung der 2000 bekannten Proteinfamilien zu 90% sind etwa 4000 Proteinstrukturen notwendig. Damit sind bei optimaler Auswahl der Targetproteine Strukturbestim- mungen notwendig. Completeness in structural Genomics. D. Vitkup et al. Nat. Struct. Biol. 8, 559 (2001)

25 7. Vorlesung WS 2005/06Softwarewerkzeuge25 Methode zur Fold-Erkennung: Threading Gegeben: –Sequenz: IVACIVSTEYDVMKAAR… –Ein Datenbank von möglichen Proteinstrukturen (folds) Bilde die Sequenz auf jeden fold ab Bestimme anhand einer Bewertungsfunktion, welcher Fold am besten zu dieser Sequenz passt.

26 7. Vorlesung WS 2005/06Softwarewerkzeuge26 Bryngelson, Wolynes, PNAS (1987) Gradient Rauhigkeit beschleunigtbremstFaltung Frustration New view of protein folding: Faltung entlang trichterähnlichen Energielandschaften Brooks, Gruebele, Onuchic, Wolynes, PNAS 95, (1998)

27 7. Vorlesung WS 2005/06Softwarewerkzeuge27 Fold Optimierung Einfache Gittermodelle (HP-Modelle) –Zwei Sorten von Seitenketten: hydrophob und polar –2-D oder 3-D Gitter –Treibende Kräfte: hydrophober Kollaps – es ist günstig, Kontakte zwischen hydropoben Seitenketten zu bilden –Bewertung = Anzahl an H H Kontakten

28 7. Vorlesung WS 2005/06Softwarewerkzeuge28 HP-Gittermodelle Ken Dill ~ 1997 Vorteil solch einfacher Modelle: man kann den Konformationsraum systematisch absuchen.

29 7. Vorlesung WS 2005/06Softwarewerkzeuge29 Simulating the folding process How long does protein folding take? What timescale can we bridge by MD simulations? Can we simulate a folding process?

30 7. Vorlesung WS 2005/06Softwarewerkzeuge30 Folding simulations Can one simulate a folding process by MD simulations? s simulation of 36-residue villin headpiece exp. folding time: between 10 – 100 s, T m = 70 C - contains 3 short helices (NMR) connected by loop and turn - closely packed hydrophobic core 4 months of CPU time on 256 processor Cray T3D and T3E

31 7. Vorlesung WS 2005/06Softwarewerkzeuge31 Folding of villin headpiece unfoldedpartially foldednative structures Duan & Kollman, Science 282, 740 (1998) comparison of native (red)most stable cluster and most stable cluster (blue)

32 7. Vorlesung WS 2005/06Softwarewerkzeuge32 Folding of villin head piece (A) fractional helical content(C) Radius of gyration and RMSD from native (B) fractional native content(D) solvation free energy (Eisenberg params) Duan & Kollman, Science 282, 740 (1998)

33 7. Vorlesung WS 2005/06Softwarewerkzeuge33 Homologie-basierte Proteinmodellierung (SwissModel) Methode: Wissensbasierter Ansatz. Erfordernis: Mindestens 1 bekannte 3D-Struktur eines verwandten Proteins, Prozedur: Superposition der verwandten 3D-Strukturen Erzeugung eines multiplen Sequenzalignments mit der Zielsequenz. Generierung eines Frameworks für die neue Sequenz. Konstruiere fehlende Loops. Vervollständige und korrigieren das Proteinrückgrat. Korrigiere die Seitenketten. Überprüfe die Qualität der modellierten Struktur und deren Packung. Strukturverfeinerung durch Energieminimierung und Moleküldynamik. SWISS-MODEL.html

34 7. Vorlesung WS 2005/06Softwarewerkzeuge34 Überlagerung der 3D-Strukturen Regionen mit Sequenzähnlichkeit werden automatisch ausgewählt und ihre Residuen in 3D überlagert. Diese erste Auswahl wird weiter verfeinert. SWISS-MODEL.html

35 7. Vorlesung WS 2005/06Softwarewerkzeuge35 (a)Für alle Atome, die eine ähnliche Position besitzen und vermutlich eine strukturelle Entsprechung in der neuen Struktur besitzen, werden gemittelte Positionen als Framework-Koordinaten bestimmt. (b)Seitenketten mit völlig inkorrekter Geometrie werden entfernt. (c)Matrix mit Gewichten für lokale Ähnlichkeit. 3D Framework für die neue Sequenz SWISS-MODEL.html

36 7. Vorlesung WS 2005/06Softwarewerkzeuge36 Basierend auf den Verankerungen der Loops werden (a)wird eine Datenbank bekannter Loopfragmente in der PDB-Datenbank durchsucht. Für den neuen Loop verwendet man entweder das am besten passende Fragment oder ein Framework aus den 5 besten Fragmenten. (b)Der Torsionsraum der Loopresiduen wird durchsucht - 7 erlaubte Kombinationen der - Winkel - benötigter Raum für den gesamten Loop Konstruktion fehlender Loops SWISS-MODEL.html

37 7. Vorlesung WS 2005/06Softwarewerkzeuge37 Rekonstruktion von fehlendem Proteinrückgrat Das Rückgrat wird auf der Grundlage von C -Positionen konstruiert. - 7 Kombinationen der - Winkel sind erlaubt. - Durchsuche Datenbank für Backbone- Fragmente mit Fenster aus 5 Residuen, Verwende die Koordinaten der 3 zentralen Residuen des am besten passenden Fragments.

38 7. Vorlesung WS 2005/06Softwarewerkzeuge38 Verwende Bibliothek erlaubter Seitenketten-Rotamere geordnet nach der Häufigkeit des Auftretens in der PDB-Datenbank. - Erst werden verdrehte (aber komplette) Seitenketten korrigiert. - fehlende Seitenketten werden aus der Rotamer-Bibliothek ergänzt. Teste dabei, ob van-der-Waals Überlapps auftreten und ob die Torsisonswinkel in erlaubten Bereichen liegen. Konstruktion unvollständiger/fehlender Seitenketten SWISS-MODEL.html

39 7. Vorlesung WS 2005/06Softwarewerkzeuge39 Überprüfe die Qualität der 3D-Modelle Analysiere 3D-Umgebung jeder Seitenkette. Erlaubt die Identifizierung missgefalteter Regionen. Auch: WHATCHECK SWISS-MODEL.html

40 7. Vorlesung WS 2005/06Softwarewerkzeuge40 Berechne, welche Bereiche des Proteins für eine kleine Probe zugänglich sind (Connolly-Oberfläche bzw. Kubisches Gitter). Algorithmus entdeckt Oberflächen innerhalb und ausserhalb des Proteins. Der Vergleich von Grösse und Verteilung von internen Cavities zwischen Modell und Kristallstruktur-Vorlage erlaubt es, Fehler im Modell aufzuspüren. Analyse der Packungsdichte eines atomaren Modells SWISS-MODEL.html

41 7. Vorlesung WS 2005/06Softwarewerkzeuge41 Bewertung der Qualität eines Homologiemodells 1. Allgemeine Gesichtspunkte Ein Modell wird als falsch angesehen, wenn mindestens eines seiner strukturellen Elemente gegenüber dem Rest des Modells falsch angeordnet ist. Dies kann durch ein falsches Sequenzalignment entstehen. Das Modell kann dennoch korrekte Stereochemie besitzen. Man kann ein Modell als ungenau ansehen wenn seine atomare Koordinaten mehr als 0.5 Å von einer experimentellen Kontrollstruktur abweichen. Ungenauigkeiten können auch in der Stereochemie (Bindungslängen und – winkel auftreten). Dies kann leicht mit WhatCheck überprüft werden. Statistische Paarpotentiale für die Verteilung von Aminosäuren in bekannten Proteinen erlauben manchmal die Aufspürung von fehlerhaften Modellen.

42 7. Vorlesung WS 2005/06Softwarewerkzeuge42 2. Fehlerquellen Die Qualität eines Modells hängt von 2 Kriterien ab 1Seine Korrektheit hängt von der Qualität des Sequenzalignments ab. 2Seine Genauigkeit wird durch seine Abweichung von einer (zukünftig zu bestimmenden) experimentellen Struktur bestimmt. Strukturelle Abweichungen haben 2 Ursachen - der inherente Fehler der Modellierungsprozedur - durch Umgebung und Methoden der Datenerfassung bewirkte Variationen der experimentellen Strukturen, die als Vorlage verwendet werden. Ein durch komparative Methoden abgeleitetes Protein-Modell kann nicht genauer sein als der Unterschied zwischen einer NMR-Struktur und einer Kristallstruktur desselben Proteins.

43 7. Vorlesung WS 2005/06Softwarewerkzeuge43 3 Proteinkern und Loops Fast jedes Proteinmodell enthält nicht-konservierte Loops, die als die am wenigsten zuverlässigen Teile des Proteinmodells angesehen werden können. Andererseits sind diese Bereiche der Struktur oft auch am flexibelsten – hohe Temperaturfaktoren in Kristallstrukturen oder hohe Unterschiede zwischen verschiedenen (gleichsam gültigen) NMR-Strukturen. Die Residuen im Proteinkern werden gewöhnlich fast in der identischen Orientierung wie in experimentellen Kontrollstrukturen modelliert. Residuen an der Proteinoberfläche zeigen grössere Abweichungen.

44 7. Vorlesung WS 2005/06Softwarewerkzeuge44 Einordnung von Proteinmodellen in 3 Kategorien 1Modelle, die auf falschen Alignments zwischen Vorlage und Zielprotein basieren. Strategie: konstruiere mehrere Modelle für unterschiedliche Alignments. Wähle das am besten erscheinende Modell. 2Modelle, die auf korrekten Alignments beruhen, können für zielgerichtete Mutagenese-Experimente hilfreich sein. Sind oft nicht zuverlässig genug für detaillierte Untersuchung von Ligandenbindung. 3Modelle, die auf einer hohen Sequenzidentität (> 70%) mit der Vorlage beruhen. Solche Modelle können in Drug Design Projekten verwendet werden. Fehler sind jedoch immer, also auch bei sehr hoher Identität möglich.

45 7. Vorlesung WS 2005/06Softwarewerkzeuge45 Test für die Zuverlässigkeit von SwissModell 3DCrunch-Projekt von Expasy zusammen mit SGI. Generiere Homologie- Modelle für Proteine mit bekannter 3D-Struktur. Die Vorlagen besaßen 25 – 95 % Sequenzidentität mit dem Zielprotein Kontrolle-Modelle. Grad der Identität [%]Modell innerhalb von x Å RMSD zur Vorlage /SWISS-MODEL.html

46 7. Vorlesung WS 2005/06Softwarewerkzeuge46 Zusammenfassung Gemeinsamer Kern von Proteinen mit 50% Sequenzidentität besitzt ca. 1 Å RMSD Dies gilt sogar für absolute identische Sequenzen. Der zuverlässigste Teil eines Proteinmodells ist der Sequenzabschnitt, den es mit der Vorlage gemeinsam hat. Die größten Abweichungen liegen in den konstruierten Schleifen. Die Wahl der Modellvorlage ist entscheidend! Die An- oder Abwesenheit von Ko-faktoren, anderen Untereinheiten oder Substraten kann Proteinkonformation sehr beeinflussen und somit alle Modelle, die von ihnen abgeleitet werden. Jeder Fehler im Alignment produziert falsche Modelle! Solche Alignment-Fehler treten bei Sequenzidentität unter 40% auf.

47 7. Vorlesung WS 2005/06Softwarewerkzeuge47 IV The importance of being unfolded? Anscheinend sind nicht wenige Proteine der Zelle einen Großteil der Zeit teilweise entfaltet (P.E. Wright, H.J. Dyson, J. Mol. Biol. 293, 321 (1999)) Dies klingt sehr unerwartet. Was wären mögliche biologische Vorteile davon? (1) Entfaltete Proteine können schneller abgebaut werden kann für Regulation eines schnellen Zellzyklus erforderlich sein. (2) Molekulare Erkennung ist schneller, wenn Faltung und Bindung gekoppelt sind (3) Loopstrukturen können viele biologische Targets erkennen wichtig für Kommunikation und Regulierung bzw. Bildung großer Komplexe? (4) Entfaltete Proteine können schnell in andere Zellkompartments transportiert werden.

48 7. Vorlesung WS 2005/06Softwarewerkzeuge48 NORS regions: no regular secondary structure NORSNORS regions are defined to have at least 70 consecutive residues with less than 12% regular secondary structure (helix or strand). We found four types of proteins. (A) Connecting loops: long loops that connect two domains or chains (shown Formate Dehydrogenase H, 1AA6). of interactions. (B) Loopy ends: long N- or C-terminal regions that lack regular secondary structure (shown Hexon from adenovirus type 2, 1DHX). (C) Loopy wraps: long loopy regions wrapping around globular domains (shown Class II chitinase, 2BAA. (D) Loopy domains: entire structures that have almost no regular secondary structure (shown extra-cellular domain of T beta RI, 1TBI). Liu, Tan, Rost, J Mol Biol (2002) 332, 53-64

49 7. Vorlesung WS 2005/06Softwarewerkzeuge49 Many NORS regions predicted in proteomes We predicted many NORS regions in 31 entirely sequenced organisms. NORS proteins appeared particularly abundant in eukaryotes.NORS (A) gives the percentage of proteins in respective proteome for which at least one NORS region is predicted. High enrichment in eukaryotic proteomes!NORS (B) illustrates the percentage of all the residues of the respective proteome for which a NORS region is predicted.NORS (C) gives the percentage of all predicted NORS regions that are between N and N+10 residues long (note that, by definition, NORS regions are longer than 70 residues). Surprisingly, almost 15% of all the predicted NORS regions extend over more than 200 residues (inset of C).NORS Liu, Tan, Rost, J Mol Biol (2002) 332, 53-64

50 7. Vorlesung WS 2005/06Softwarewerkzeuge50 NORS regions use particular amino acids The height of the one-letter amino acid code is proportional to the abundance of the respective acid in each data set. The actual value is the difference in occurrence with respect to the frequency observed in a sequence-unique subset of PDB:PDB. Inverted letters indicate acids that are less frequent than 'expected'. The amino acids are sorted by 'flexibility', with the more rigid ones on the left. Overall, NORS regions are as abundant in more flexible residues as loop regions in PDB. However, we found considerably more Serine (S), Glutamine (Q), and Glycine (G) and considerably fewer Arginine (R), Aspartic acid (D), Glutamic acid (E), Tryptophan (W), and Phenylalanine (F) in NORS regions than in loop regions, in general.PDB Liu, Tan, Rost, J Mol Biol (2002) 332, 53-64

51 7. Vorlesung WS 2005/06Softwarewerkzeuge51 Das Prion-Protein PrP c : ist ein normales zelluläres Glycoprotein - ist an die Plasmamembran über einen GPI-Anker angehängt - hat 209 Aminosäuren Seine genaue Funktion ist unbekannt. Cu 2+ Speicherung, Erinnerung? Struktur aus NMR-Bestimmungen bekannt: Die N-terminale Region ist sehr flexibel und meist ungeordnet. C-terminale Region enthält 3 -Helices, 2 kurze -Stränge PrP c wird schnell durch Proteinase K abgebaut Prion: ein ungeklärtes Beispiel für misgefaltete Proteine


Herunterladen ppt "7. Vorlesung WS 2005/06Softwarewerkzeuge1 V7: Aufklärung von Proteinstrukturen in der nahen Zukunft Structural genomics soll die Strukturen von 1000-10.000."

Ähnliche Präsentationen


Google-Anzeigen