Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

Genom- und Proteomanalyse

Ähnliche Präsentationen


Präsentation zum Thema: "Genom- und Proteomanalyse"—  Präsentation transkript:

1 Genom- und Proteomanalyse

2 Begriffe (1) Genom (Hans Winkler, 1920): Genomics:
Gesamtheit der vererbbaren Informationen einer Zelle Speichermedium DNA Kodiert die Ausprägungen der spezifischen Eigenschaften eines Organismus Genomics: Erforschung des Genoms Organismus Basenpaare Escherichia coli 4,7*106 Saccharomyces cerevisiae 1,2*107 Drosophila melanogaster 1,3*108 Homo sapiens sapiens 3*109 Arabidopsis thaliana 1,2*108 Hordeum vulgare 4,8*109 Triticum aestivum 1,6*1010

3 Begriffe (2) Proteom (Marc Wilkins, 1994): Proteomics:
Gesamtheit aller zu einem bestimmten Zeitpunkt exprimierten Proteine eines Organismus Proteomics: Erforschung des Proteoms

4 Genomanalyse Genomanalyse: Ermittlung von funktionellen Bereichen (Genen) von Organismen Ziel: Zuordnung von Funktionen zu genetischen Elementen Einsatz der Bioinformatik zur Identifikation und Charakterisierung genetischer Elemente z.B. Erkennung von Promotoren, Transkriptionsfaktorbindungsstellen (TFBS) etc.

5 Sequenzierung kompletter Genome
1995: 1. vollst. sequenziertes Bakteriengenom Haemophilus influenza neue Ära: alle Gene und regulatorische Bereiche 1998: erster Mehrzeller Caenorhabditis elegans Problem Größe der kodierenden Bereiche bei Eykaryoten: Mensch und Maus ca. 1,4% des Gesamtgenoms Mensch und Maus: 5% der Genome hoch konserviert aber mehr als 80% orthologe Gene bzw. Proteine Einschub (Quelle: Homologous sequences. Orthologs and Paralogs are two types of homologous sequences. Orthology describes genes in different species that derive from a common ancestor. Orthologous genes may or may not have the same function. Paralogy describes homologous genes within a single species that diverged by gene duplication.

6 Sequenzierung kompletter Genome
1995: 1. vollst. sequenziertes Bakteriengenom Haemophilus influenza neue Ära: alle Gene und regulatorische Bereiche 1998: erster Mehrzeller Caenorhabditis elegans Problem Größe der kodierenden Bereiche bei Eykaryoten: Mensch und Maus ca. 1,4% des Gesamtgenoms Mensch und Maus: 5% der Genome hoch konserviert aber mehr als 80% orthologe Gene bzw. Proteine Einschub (Quelle: Homologous sequences. Orthologs and Paralogs are two types of homologous sequences. Orthology describes genes in different species that derive from a common ancestor. Orthologous genes may or may not have the same function. Paralogy describes homologous genes within a single species that diverged by gene duplication.

7 Genomcharakterisierung mit STS
STS - Sequence Tagged Sites: Orientierungspunkte z.B. im menschlichen Genom kurze DNA-Sequenzen mit Länge von 200 – 500 Basenpaaren STS kommt nur einmal im Genom vor! Ort und Basissequenz bekannt Marker für Kartierung von Chromosomen bzw. Genom Generierung von STS durch PCR DNA-Klone können durch DB-Suche auf Existenz von passenden STS durchsucht werden und anhand dieser Information auf Chromosomen bzw. in Genomen positioniert werden. -> präzise physikalische Karte seit 1994 eigene DB am NCBI: dbSTS Name, Sequenz für Amplifikation, Größe des PCR-Produkts, Sequenz, …

8 EST = Expressed Sequence Tags
„Endeckung“ neuer Gene durch ESTs wird 1991 erkannt cDNA-Clone stammen von exprimierten Genen ab -> Name Generierung von ESTs durch Sequenzierung der cDNA von beiden Enden viele Projekte zur EST-Sequenzierung -> Hochdurchsatz aber auch Kritik: schlechte Qualität durch single Run und automatische Generierung: Substitutionen und Insertionen/Deletionen -> Frameshifts (Verschiebung von Basentripletts; Kodierung anderer Aminosäuren) schlechte Qualität in internationalen Nukleotidsequenz-DBs keine regulatorischen Elemente NCBI: dbEST und Unigene TIGR: Gene Indicies

9 EST - Sequenzierungsprojekte
Zellen, Gewebe, Organismus © P.M. Selzer, R.J. Marhöfer, A. Rohwer: Angewandte Bioinformatik – Eine Einführung. Berlin et al: Springer Verlag, 2004.

10 Qualitätsmerkmale Anwendung folgender Kriterien beim Trimming:
Mindestlänge der ESTs Anzahl von Ns im Gegensatz zu eindeutig identifizierten Nukleotiden (A/T/G/C) Quality Scores des Sequenzierautomaten Maß für Sequenzqualität jedes einzelnen Nukleotids Kontamination mit Vektor- oder Bakterien-DNA

11

12

13 Zwischenergebnisse Sammlung von ESTs mit
unterschiedlicher Länge und zufälliger Auswahl von cDNA-Sequenzen aber auch ESTs von gleichen Transkripten besonders von hoch exprimierten Genen Existenz von Redundanz Reduzierung durch Assemblierung und Alignments aus ähnlichen ESTs Ergebnis sind Konsensussequenzen bei großen EST-Projekten vorher Clustern Zusammenfassung in Gruppen von EST mit identischen Nukleotiden in einem Bereich danach stringenteres Assemblieren und Alignen

14 ESTs, Contigs und Konsensussequenzen
© P.M. Selzer, R.J. Marhöfer, A. Rohwer: Angewandte Bioinformatik – Eine Einführung. Berlin et al: Springer Verlag, 2004.

15 Beispiel für Komplett-Software StackPACK™ http://www. egenetics

16 StackPACK™: Anwendung in CR-EST

17 StackPACK™ - Ein Problemfall

18 ESTs und die Identifizierung unbekannter Gene
Annotations- und Sequenzsuchen gegen DBs BLASTX mit allen 6 Leserahmen: Achtung! Berücksichtigung von: Scores, E-Values, Identität, … Beispiel: siehe Übung zu Sequenzvergleichen weiterhin Motiv-Suche (Interpro): Unterscheidung der Sequenz aufgrund definierter Eigenschaften zusätzliche Methode: ab-initio-Verfahren: suchen nach Signalen in Sequenz: Translationsstart und -stop, Exons/Introns, Poly-Adenylierungssignal 5‘ und 3‘ UTR Analysierung der Zusammensetzung der Sequenz ORFs G/C-Gehalt

19 Coding and Non-Coding © P.M. Selzer, R.J. Marhöfer, A. Rohwer: Angewandte Bioinformatik – Eine Einführung. Berlin et al: Springer Verlag, 2004.

20 Alternatives Spleißen
© P.M. Selzer, R.J. Marhöfer, A. Rohwer: Angewandte Bioinformatik – Eine Einführung. Berlin et al: Springer Verlag, 2004.

21 Identifizierung neuer Mitglieder von Proteinfamilien
© P.M. Selzer, R.J. Marhöfer, A. Rohwer: Angewandte Bioinformatik – Eine Einführung. Berlin et al: Springer Verlag, 2004.

22 Hyperlinks zwischen Datenbanken
© Mathias Lange, Gatersleben 2005

23 DBOra: Eine integrierte Datenbank zur Annotation
integrierte relationale Datenbank Protein – Pathway – Literatur – Krankheits – Beziehungen Import basiert auf BioDataServer GUI: Suchmöglichkeiten: Text (Wortstamm, phonetisch, fuzzy, ...) AA (lokales BLASTP) NA (lokales BLASTX) Navigation verwendet Schlüssel-Fremdschlüssel-Beziehungen Erreichbarkeit ist vorberechnet © Mathias Lange, Gatersleben 2005

24 © Mathias Lange, Gatersleben 2005

25 DBOra: Technische Parameter
Datenbank-Schema: 81 Tabellen 85 Fremdschlüssel Datenbank-Import: SwissProt, TrEMBL, BRENDA, KEGG, OMIM ~ 35 Millionen Einträge ~ 6 GByte Daten Index: 381 Indizes 5 GByte Textindizes AA-Sequenzen für BLAST-Vergleiche © Mathias Lange, Gatersleben 2005

26 DBOra: Datenbank-Schema (I)
Protein-Eigenschaften Literatur-Referenzen Krankheiten Enzymatische Funktionen Datenbank-Querverweise © Mathias Lange, Gatersleben 2005

27 DBOra: Datenbank-Schema (II)
Enzymatische Funktionen © Mathias Lange, Gatersleben 2005

28 DBOra: Prozess der automatischen EST-Annotation

29 DBOra: Input CR-EST BLASTX Hit Description

30 DBOra: Result KEGG Pathway Mapping

31 DBOra: Ergebnis der automatischen EST-Annotation
© Mathias Lange, Gatersleben 2005

32 Annotationen in CR-EST

33 Proteomanalyse Messung von „mRNA“ für Aussagen zu Proteinen nicht ausreichend zum Verstehen von komplexen biologischen Systemen Beispiel: Stoffwechselwege werden durch Proteine und nicht durch Gene (des Genoms) oder mRNA (des Transkriptoms) gesteuert! auch Hochdurchsatzverfahren zur Proteom-Analyse: klassische oder quantitative Proteomics: Identifizierung und Quantifizierung der Proteine funktionelle Proteomics: Funktionen der Proteine finden

34 Klassische Proteomics
Ähnlichkeit zu Expression Profiling -> Protein Profiling exprimierte Proteine repräsentieren molekularen Fingerabdruck einer Zelle Vergleich mehrerer „Fingerabdrücke“ -> Identifizierung differentiell exprimierter Proteine (aber auch Gene) Protein Profiling erkennt: Proteine mit zellulären Funktionen Messung quantitativer Veränderungen in Proteinzusammensetzung postranslationale Veränderungen (Phosphorylierungen und Glykosylierungen) Proteinzusammensetzung von Zellkompartimenten Protein Profiling erkennt nicht: unlösliche Proteine Transmembranproteine schwach exprimierte Proteine

35 2D-Gelelektrophorese & Massenspektroskopie
Kombination der beiden ist gängiges Verfahren zum Protein Profiling 2D-Gelelektrophorese: Proteine eines Zellextrakts in Polyacrylamidgel (Trennmatrix) mit geignetem Puffer ladungsabhängig in elektrischem Feld auftrennen Nutzung von 2 Eigenschaften: Ladung Masse Bsp: Protein Cytochrom enthält viele basische Aminosäuren und ist bei neutralem pH-Wert positiv geladen Veränderung des pH-Wertes der Umgebung -> Änderung der Nettoladung des Proteins isolektrischer Punkt pI: negative und positive Ladungen eines Proteins sind gegenseitig aufgehoben wenn pH dem pI entspricht -> keine Wanderung des Proteins im elektrischen Feld

36 2D-Gelelektrophorese jedes Protein besitzt charakteristischem pI
-> Auftrennung in pH-Gradienten mit Hilfe des elektrischen Feldes -> 1. Dimension 2. Dimension: Auftrennung nach Molekulargewicht: Peptide mit geringerem Molekulargewicht wandern schneller hoch-auflösende 2D-Gele: bis zu verschiedene Proteine nach Auftrennung Anwendung spezieller Färbeverfahren zur Sichtbarmachung: Silberfärbung Fluoreszensfarbstoffe Digitalisierung der Gele und Auswertung mit bioinformatischen Methoden (z.B. mit Melanie von Expasy): Spotdetection Vergleich mehrer Gele – Identifizierung gleicher Spots und Erkennung unterschiedlicher Intensitäten Normalisierung statistische Auswertung Ergebnis: Liste mit differentiell exprimierten Proteinen (Unterscheidung nach pI und Molekulargewicht)

37 Beispiel eines 2D-Gel-Bildes
© P.M. Selzer, R.J. Marhöfer, A. Rohwer: Angewandte Bioinformatik – Eine Einführung. Berlin et al: Springer Verlag, 2004.

38 Massenspektroskopie 2D-Gelanalyse nicht ausreichend
Identifizierung eines unbekannten Proteins durch Bestimmung von Teilen der Aminosäuren-Sequenz Vergleich dieser Sequenz mit Protein-DB (aber auch DNA-DB) Anwendung bei der massenspektroskopischen Analyse von Peptiden durch Matrix-assisted Laser Desorption/Ionisation – Time of Flight (MALDI-TOF) sensitive Technik -> Proteinmengen im Pikomol-Bereich (10-12) ausreichend Vorgehensweise: Spots aus 2D-Gel ausschneiden Inkubation mit Proteasen (z.B. „Schneiden“ mit Trypsin) Ergebnis sind spezifische Peptidmuster Isolierung dieser aus Gel Analyse mittels Massenspektroskopie jedes Peptid wird durch spezifisches Massenspektrum repräsentiert

39 MALDI-TOF von Bruker

40 Identifizierung durch Vergleich von experimentell ermittelten und theoretischen Massenspektren
© P.M. Selzer, R.J. Marhöfer, A. Rohwer: Angewandte Bioinformatik – Eine Einführung. Berlin et al: Springer Verlag, 2004.

41 Weiterentwicklung der Massenspektroskopie
Nachteil bei MALDI-TOF: zur eindeutigen Identifizierung eines Proteins sind Messungen mehrerer Massenspektren notwendig Neuentwicklungen: Tandem-Massenspektroskopie: direkte Bestimmung eines Teils der Aminosäure-Sequenz partielle Sequenz reicht für eindeutige Identifizierung in Protein-DB aus Elektrospray-Ionisations-Quadruploe-TOF-Spektroskopie: sensitive und akkurate Analysen von posttranslationalen Modifikationen

42 Funktionelle Proteomics
z.B. Suche nach Protein-Protein-Interaktionen durch solche Interaktionen Vermittlung vieler zellulärer Prozesse Beispiele: Yeast Two-Hybrid System Protein-Arrays: Sandwich Assays Antigen Capture Assay direktes Assay


Herunterladen ppt "Genom- und Proteomanalyse"

Ähnliche Präsentationen


Google-Anzeigen