Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #2-1 Molekularbiologische Datenbanken QUELLEN:

Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #2-1 Molekularbiologische Datenbanken QUELLEN: http://nar.oxfordjournals.org/content/vol35/suppl_1/index.dtl Thoralf Töpel:Web-basierte Informationssysteme in der molekularen Bioinformatik, Vorlesung, SoSe 05

Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #2-2 Molekularbiologische Datenbanken Überblick I  Problem: Datenbank DATENBANK  Warum gibt es öffentlich zugängliche molekularbiologische Datenbanken?  Data Submission = Veröffentlichung  Veröffentlichung: -Austausch von Informationen und Daten -Erlangung von Reputation  Molekularbiologische Datenbanken (MDB): Veröffentlichungen, nicht Tupel  Definitionen erforderlich!!! -> Verweis auf Vorlesung

Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #2-3 Molekularbiologische Datenbanken Überblick II  Paper, Bücher, Reports  1907 / 1927: Chemical/Biological Abstracts -Sekundärliteratur: Abstracts, bibliographische Daten  1972 Medline -Publication Index (einer von vielen) -PubMed: http://www.ncbi.nlm.nih.gov/entrez -Aktuell: > 15.000.000 Artikel: http://www.ncbi.nlm.nih.gov/Literature/ > 19.000 Journals: ftp://ftp.ncbi.nih.gov/pubmed/J_Medline.txt -Online Links zu Volltextartikeln

Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #2-4 Molekularbiologische Datenbanken Überblick III  Erste Sequenzen: Proteine -Länger bekannt und untersucht, einfacher zugänglich -DNA: Zellkern, kompakte Packung, große Länge, Instabilität  Erste Proteinsequenz 1951 (Sanger & Tuppy): Seitenkette von Insulin  Sammlung ab Anfang der 1960er (Dayhoff et al. 1965) -Protein Sequence Atlas: Buchform, 1968-1978 -Motivation: Evolutionäre Untersuchungen -1980: Protein Information Resource (seit 1988: PIR-Int.) -1986: SWISS-PROT: Genf (Amos Bairoch) plus EBI

Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #2-5 Molekularbiologische Datenbanken Überblick IV Wachstum von Uni-ProtKB/ SWISS-PROT: Quelle: http://www.expasy.org

Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #2-6 Molekularbiologische Datenbanken Überblick V Proteine falten sich in komplexe Strukturen, die entscheidend für die Funktion ist Strukturaufklärung -Röntgenkristallographie (seit 50‘er Jahren: -Nuclear Magnetic Resonance (NMR) Protein Data Bank (PDB): -Seit 1971 in Brookhaven -Seit 1999: Rutger University Cambridge Structural Database: 1965

Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #2-7 Molekularbiologische Datenbanken Überblick VI Wachstum von PDB Quelle: http://www.rcsb.org

Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #2-8 Molekularbiologische Datenbanken Überblick VII: DNA-Sequenzierung  Doppelhelix der DNA: 1953 (Watson, Crick)  Entwicklung DNA Sequenzierung Beginn der 1970er (Sanger, 1972 ): „radioactive dideoxy sequencing“  Sammlungen von DNA Sequenzen -Los Alamos National Laboratory seit 1979 GenBank am NCBI (National Center f Biotech. Information) -European Molecular Biology Laboratory 1980 EMBL am EBI (European Bioinformatics Institute) -DNA DataBank of Japan: 1986 DDBJ am NIG (National Inst. of Genetics)  Int. Nuc. Sequence DB Collaboration seit ca. 1986 -Täglicher Austausch -Jeweils verantwortlich für submittete Sequenzen

Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #2-9 Molekularbiologische Datenbanken Überblick VIII Wachstum von EMBL Quelle: http://www.ebi.ac.uk

Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #2-10 Molekularbiologische Datenbanken Überblick IX  „Vernetzung“ Quelle: http://www.genome.ad.jp/dbget/dbget.links.html

Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #2-11 Molekularbiologische Datenbanken Probleme I Probleme I (Quelle: U. Leser)  Text -> Daten  Alle (großen) öffentlichen Datenbanken entstanden aus Büchern -Sammlungen bekannter Daten einer Art: DNA, Proteinsequenz, Proteinstruktur -Jährliche / Quartalsweises Erscheinen -Buch – Band – CD – FTP – WWW  Flaches, textorientiertes Datenmodell -Aufbau nach „Entries“ -Viele Beschreibungen in freier Textform -Für Menschen, nicht Computer

Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #2-12 Molekularbiologische Datenbanken Probleme II Probleme II (Quelle: U. Leser)  Schwierigkeiten -Hohe Redundanz (Literatur,...) -Keine Vergleichbarkeit freier Beschreibungen -Keine Standardparser einsetzbar (Grammatiken) -Controlled Vocabularies schwierig (keine FK) -Schlechte „Skalierbarkeit“  Vorteil -Lesbarkeit: Übersichtlich -Einfach editierbar, keine Einschränkungen  Entwicklung: Trennung von Speicherformat, Austauschformat, Benutzerinterface

Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #2-13 Molekularbiologische Datenbanken Probleme III Probleme III (Quelle: U. Leser)  Kontinuierliche Entwicklung !!!  Sukzessive Übernahme von DB Techniken

Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #2-14 Molekularbiologische Datenbanken Eigenschaften I Eigenschaften I (Quelle: U. Leser)  Passiv oder aktiv -Model 1: Alle Daten werden submittet Sinn: Archivierung, ID Vergabe und „roher“ Zugriff Verpflichtung durch Journals, Geldgeber, Gewissen Beispiele: Genbank/EMBL..., PDB,... -Model 2: Aktiv sammeln: Journals, andere Datenquellen,... Sinn: Integration, Veredlung, Vollständigkeit Ermöglicht zentralen Zugriff ohne Verpflichtung Beispiele: SWISS-PROT, PIR,... -Mischformen: GDB - Human Genome Database: The Official World-Wide Database for the Annotation of the Human Genome

Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #2-15 Molekularbiologische Datenbanken Eigenschaften I Eigenschaften I (Quelle: U. Leser)  Passiv oder aktiv ??

Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #2-16 Molekularbiologische Datenbanken Eigenschaften II Eigenschaften II (Quelle: U. Leser)  Database Curation -Curation: Verbesserung, „Heilung“ -Modell 1: Submitter/Quelle ist Datenherr Keine (inhaltlichen) Veränderungen Beispiele: Genbank, ArrayExpress,... -Modell 2: Daten werden laufend verbessert Hoher (manueller) Aufwand Beispiele: SWISS-PROT, MGD - Mouse Genome DB, MIPS,...

Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #2-17 Molekularbiologische Datenbanken Eigenschaften II - Beispiel Eigenschaften II - Beispiel (Quelle: U. Leser)

Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #2-18 Molekularbiologische Datenbanken Eigenschaften III Eigenschaften III (Quelle: U. Leser)  Redundanz -Model 1: Alles aufnehmen -Modell 2: Entfernen gleicher oder sehr ähnlicher Einträge -Was ist sehr ähnlich ? Homologes Protein in anderer Spezies ? Homologes Gen an anderer Position ? -Muss festgelegt werden ! Beispiel SP: Redundanzminimierung durch Editoren Beispiel UniGene: Redundanzminimierung durch Algorithmen

Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #2-19 Molekularbiologische Datenbanken Eigenschaften IV Eigenschaften IV (Quelle: U. Leser)  Integration -Modell 1 DB als Archiv unverbundener Objekte Problemloses Löschen / Hinzufügen von Objekten -Modell 2 Objekte als Knoten in einem komplexen Geflecht Neue „Knoten“ können Änderungskaskaden auslösen -Verschiedene Integrationstiefen Links zu anderen Quellen  DBGET  Integr8 ( web portal provides easy access to integrated information about deciphered genomes and their corresponding proteomes) automatische Integration anhand definierter Kriterien (ENSEMBL: a software system which produces and maintains automatic annotation on selected eukaryotic genomes ) Manuelle Integration anhand Wissen des Editors (SP) -DBGET / DBLINK: Datenbank aus Links

Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #2-20 Molekularbiologische Datenbanken Eigenschaften IV - Beispiel zu Modell 2 Eigenschaften IV - Beispiel zu Modell 2 (Quelle: U. Leser)

Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #2-21 Molekularbiologische Datenbanken Eigenschaften IV - Beispiel zu Modell 2 Eigenschaften IV - Beispiel zu Modell 2 (Quelle: U. Leser) Datenherkunft unklar! Integrated X-Chromosome Database

Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #2-22 Molekularbiologische Datenbanken Eigenschaften IV - Beispiel zu Modell 2 Eigenschaften IV - Beispiel zu Modell 2 (Quelle: U. Leser)

Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #2-23 Molekularbiologische Datenbanken Eigenschaften V Eigenschaften V (Quelle: U. Leser)  Fokus -Organismus, Gewebe, Chromosome,... -Datentyp: Sequenzen, Strukturen, Motive,... -„Tiefe Datenbanken“ Wenig Klassen, viele Objekte EMBL, ArrayExpress, GDB, 2D Page ( SWISS-2DPAGE Two-dimensional polyacrylamide gel electrophoresis database )... -„Breite Datenbanken“ „Viele Klassen, wenig Objekte“ Chromosom-/ Spezies-/ Krankheitsspezifisch MGD, MIPS, Genecards,...

Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #2-24 Molekularbiologische Datenbanken Eigenschaften V - Beispiel Eigenschaften V - Beispiel (Quelle: U. Leser) Genomics Unified Schema (GUS) is an extensive relational database schema and associated application framework designed to store, integrate, analyze and present functional genomics data. The GUS schema supports a wide range of data types including genomics, gene expression, transcript assemblies, proteomics and others. It emphasizes standards-based ontologies and strong- typing.

Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #2-25 Molekularbiologische Datenbanken Eigenschaften VI Eigenschaften VI (Quelle: U. Leser)  Position in „Wissensschöpfungskette“ -Primärdatenbanken Nahe am Experiment Wenig Verarbeitung (kurze Annotationspipelines) Keine „Konsensdaten“ Genbank/EMBL, PDB, UniGene -Sekundärdatenbanken Intensive Arbeit zur Datenverbesserung Reichhaltige Annotation und Verlinkung Intensive Integration und Curationüber Datentypen hinweg SWISS-PROT, MGD, OMIM,... -Tertiärdatenbanken Datenbanken von „Annotationstypen“ oder „Featuretypen“ GeneOntology, PFAM, PRINTs, InterPro, CATH,....

Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #2-26 Molekularbiologische Datenbanken Eigenschaften VI - Beispiel Eigenschaften VI - Beispiel (Quelle: U. Leser)

Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #2-27 Molekularbiologische Datenbanken Eigenschaften VII Eigenschaften VII (Quelle: U. Leser)  Zweck -Lange bestehend, international organisiert Referenzdatenbanken, öffentliches Archiv Genbank, SWISS-PROT, PIR, PDB,... -Projektbezogen, One-Shot Existieren ca. bis zur Veröffentlichung Ergebnis einer Datenanalyse Hochaktuell für kurze Zeit -Labor-Datenbanken Verzahnung mit LIMS (Laboratory Info. Mang. S.) Grundlage der Datenanalyse Speichert Rohdaten (Traces, Bilder, MS-Spektren)

Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #2-28 Molekularbiologische Datenbanken Eigenschaften VII - Beispiel Genexpressionsdaten Eigenschaften VII - Beispiel Genexpressionsdaten (Quelle: U. Leser)

Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #2-29 Molekularbiologische Datenbanken Eigenschaften VIII Eigenschaften VIII (Quelle: U. Leser)  Technik -Verwendete Technologie Relationale DBMS (Oracle, Sybase, Informix) Objektorientierte DBMS (Versant, Objectstore) XML Datenbanken (Tamino, XIS) Proprietäre Techniken (ACeDB, Icarus/SRS) Flatfiles -Zugriffsmechanismen Anfragesprachen: SQL, XQuery, OQL, Canned Queries, Webforms Indexmechanismen, Keywordsuche Navigation

Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #2-30 Molekularbiologische Datenbanken Anforderungen Datenmenge GenBank-Flatfiles 110 GB (2/2003) SWISS-PROT, TrEMBL Oracle-Export 1 GB (2/2003) Flexibilität Forschungsfragen ändern sich Design muß Wartbarkeit und Flexibilität ermöglichen Schemaänderungen, neue Datentypen, Optimierungen, Integration Offenheit Zugriff durch unterschiedliche Clients, geeignete Export-Formate Datenqualität Unscharfe, widersprüchliche Daten durch Experimente

Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #2-31 Molekularbiologische Datenbanken Klassifikation Jährliche Sonderausgabe der „Nucleic Acids Research“ (seit 1996) seit 2004 „Database Issue“ Molecular Biology Database Collection http://nar.oupjournals.org 2005 : 719 DBs 2006 : 858 DBs

Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #2-32 Molekularbiologische Datenbanken Klassifikation (2)

Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #2-33 Molekularbiologische Datenbanken Nukleotidsequenzdatenquellen Labors, Sequenzierkonsortien, Patentanmeldungen hinterlegen ihre Sequenzen GenBank (National Center for Biotechnology Information, NIH) EMBL-Bank (European Molecular Biology Laboratory, EMBL-EBI) DDBJ: DNA Database of Japan International Nucleotide Sequence Database Collaboration Täglicher Abgleich der Sequenzen Inhaltlich deckungsgleich Separate Eingabepunkte für neue Sequenzen Unterschiede im Speicherformat und Annotation Abstimmung der Datenformate

Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #2-34 Molekularbiologische Datenbanken Nukleotidsequenzdatenquellen (2) Bedingung für Veröffentlichung eines Artikels in Fachzeitschrift = Einbringung der neuen Nukleotidsequenz in DB Inhalt Daten und Annotation für eine einzige, zusammenhängende Sequenz Auch Sammlung mehrerer veröffentlichter Artikel als überlappende Fragmente Lebensgeschichte: ohne Annotation – vorläufig – ungeprüft – Standard Selten „stirbt“ ein Eintrag Eigenschaftstabelle (feature table) verweist auf Abschnitte, die bestimmte Funktionen ausführen oder beeinflussen mit anderen Molekülen in Wechselwirkung treten sich auf die Replikation auswirken an der Rekombination beteiligt sind Wiederholungseinheiten darstellen eine Sekundär- oder Tertiärstruktur besitzen überarbeitet oder korrigiert wurden

Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #2-35 Molekularbiologische Datenbanken EMBL - Database = EMBL Nucleotide Sequence Database Inhalt stieg in einem Jahr von 27,2 auf 42,3 Mill. Einträge (Sept. 2004) Verfügbare Daten: vierteljährlich komplette DB, tägliche Updates Bevorzugte Dateneingabe über WebIn Zugriff über SRS, FTP Dbfetch, EMBL Sequence Version Archive (SVA) Strukturierte Wertepaare AC X64011; S78972; Feature Table: Key Location/Qualifiers CDS 23..400 /product="alcohol dehydrogenase" /gene="adhI" The feature CDS is a coding sequence beginning at base 23 and ending at base 400, has a product called 'alcohol dehydrogenase' and is coded for by a gene called "adhI".

Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #2-36 Molekularbiologische Datenbanken EMBL: Format ID LISOD standard; genomic DNA; PRO; 756 BP. XX AC X64011; S78972; XX SV X64011.1 XX DT 28-APR-1992 (Rel. 31, Created) DT 30-JUN-1993 (Rel. 36, Last updated, Version 6) XX DE Listeria ivanovii sod gene for superoxide dismutase XX KW sod gene; superoxide dismutase. XX OS Listeria ivanovii OC Bacteria; Firmicutes; Bacillus/Clostridium group; OC Bacillus/Staphylococcus group; Listeria. XX RN [1] RX MEDLINE; 92140371. RA Haas A., Goebel W.; RT "Cloning of a superoxide dismutase gene from Listeria ivanovii by RT functional complementation in Escherichia coli and characterization of the RT gene product."; RL Mol. Gen. Genet. 231:313-322(1992). XX DR SWISS-PROT; P28763; SODM_LISIV. XX FH Key Location/Qualifiers FH FT source 1..756 FT /db_xref="taxon:1638" FT /organism="Listeria ivanovii" FT /strain="ATCC 19119" FT /mol_type="genomic DNA" FT RBS 95..100 …

Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #2-37 Molekularbiologische Datenbanken EMBL: WebIn 1. Submitter Information 2. Release Date Information 3. Sequence Data, Description and Source Information 4. Reference Citation Information 5. Feature Information (e.g. coding regions, regulatory signals etc.)

Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #2-38 Molekularbiologische Datenbanken EMBL: Dbfetch

Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #2-39 Molekularbiologische Datenbanken EMBL: SRS 4.3 | Nukleotidsequenzdatenquellen

Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #2-40 Molekularbiologische Datenbanken EMBL: XML-Unterstützung 4.3 | Nukleotidsequenzdatenquellen EMBL + XML = XEMBL CORBA-basierter WWW-Dienst Erzeugung von XML-Files aus EMBL-Flat-Files Zur Zeit Unterstützung von DTD‘S von BSML und AGAVE ( Architecture for Genomic Annotation, Visualization and Exchange) Zugriff über SOAP ( Simple Object Access Protocol vom W3-Konsortium) bzw. CGI-Aufrufe

Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #2-41 Molekularbiologische Datenbanken EMBL: Überblick 4.3 | Nukleotidsequenzdatenquellen DomäneNukleotid-Sequenzen ZugriffmöglichkeitLokale Flat-Files, WWW, XEMBL AnfrageschnittstelleWWW, SRS, XEMBL DatenformatASCII, HTML, XML SchemainformationExterne Dokumentation IdentifikationsmechanismusEindeutig über Accession Numbers (Quasi-Standard) DatenaktualitätTägliche Update Zugriffskostenkeine

Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #2-42 Molekularbiologische Datenbanken Die Genbank – Sequenzdatenbank  Anbieter: National Institutes of Health (NIH) erzeugt vom National Center for Biotechnology Information (NCBI) http://www.ncbi.nlm.nih.gov/  Inhalt: alle öffentlich verfügbaren RNA, DNA und Protein-Sequenzen mit Annotationen  täglicher Abgleich mit EMBL und DDBJ  Untergliederung in Divisionen: -phylogentisch (Verwandschaft, Abstammung) -technologisch: Wie wird Sequenz generiert?  Releases: 2x monatlich mit täglichen Updates  Nicht entwickelt für Zugriff mittels Computer!!!

Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #2-43 Molekularbiologische Datenbanken GenBank: Format Informationseinheit: GBFF (GenBank Flatfile) Header LOCUSeind. Name, Sequenzlänge, Molekültyp, Datum DEFINITIONbiologische Zusammenfassung ACCESSIONSchlüssel VERSIONAngabe der letztgültigen Version KEYWORDSnicht-standardisierte Beschreibung der Sequenz SOURCE/ORGANISMTrivialname/wiss. Name des Organismus REFERENCEBlock mit mind. einer Referenz Features SourceQuelle des verwendeten biol. Materials CDSSequenzabschnitt für Aminosäuresequenz … Nukleotidsequenz

Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #2-44 Molekularbiologische Datenbanken GenBank: Format (2) 4.3 | Nukleotidsequenzdatenquellen LOCUS LISOD 756 bp DNA linear BCT 30-JUN-1993 DEFINITION Listeria ivanovii sod gene for superoxide dismutase. ACCESSION X64011 S78972 VERSION X64011.1 GI:44010 KEYWORDS sod gene; superoxide dismutase. SOURCE Listeria ivanovii ORGANISM Listeria ivanovii Bacteria; Firmicutes; Bacillales; Listeriaceae; Listeria. REFERENCE 1 (bases 1 to 756) AUTHORS Haas,A. and Goebel,W. TITLE Cloning of a superoxide dismutase gene from Listeria ivanovii by functional complementation in Escherichia coli and characterization of the gene product JOURNAL Mol. Gen. Genet. 231 (2), 313-322 (1992) MEDLINE 92140371 REFERENCE 2 (bases 1 to 756) AUTHORS Kreft,J. TITLE Direct Submission JOURNAL Submitted (21-APR-1992) J. Kreft, Institut f. Mikrobiologie, Universitaet Wuerzburg, Biozentrum Am Hubland, 8700 Wuerzburg, FRG FEATURES Location/Qualifiers source 1..756 /organism="Listeria ivanovii" /strain="ATCC 19119" /db_xref="taxon:1638" /mol_type="genomic DNA" RBS 95..100 /gene="sod" gene 95..746 /gene="sod" CDS 109..717 /gene="sod" /EC_number="1.15.1.1" /codon_start=1 /transl_table=11 /product="superoxide dismutase" …

Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #2-45 Molekularbiologische Datenbanken GenBank: Suche

Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #2-46 Molekularbiologische Datenbanken Proteinsequenzdatenquellen Meistens aus Nukleinsäuresequenzen abgeleitet Typische Vertreter: Swiss-Prot (Schweizer Institut für Bioinformatik, EMBL) PIR (Georgetown University Washington, MIPS München, Japan) TrEMBL (EMBL) UniProt (Swiss-Prot + TrEMBL+ PIR)

Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #2-47 Molekularbiologische Datenbanken Swiss-Prot Kommentierte Proteinsequenzdatenbank Umfangreiche Bemerkungen (Annotationen), geringe Redundanz, Links zu anderen Datenquellen Entwicklung seit 1986 an der Universität Genf, Schweiz Partnerschaftlich vom EMBL-EBI und dem SIB (Swiss Institute of Bioinformatics) betrieben Aminosäurensequenz, Annotationen, Verweise, Synonyme, Literaturreferenzen, Schlüsselworte Format der Daten orientiert sich an der EMBL–Nukleotidsequenzdatenbank Umfang: Proteinsequenz, Version, Vorgänger, Autor, Datum, Länge, Methode, letzte Änderung, Organismus, Sequenzfeatures, Links, Ref. Engpässe und somit zeitliche Verzögerungen während des Annotationsverfahres 1996 Entwicklung von TrEMBL, Rechner–annotierte Einträge (Translation of EMBL nucleotide sequence database)

Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #2-48 Molekularbiologische Datenbanken Swiss-Prot: Format 4.4 | Proteinsequenzdatenquellen

Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #2-49 Molekularbiologische Datenbanken Swiss-Prot: Format (2)

Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #2-50 Molekularbiologische Datenbanken Swiss-Prot: Dienste Bildquelle: http://www.expasy.org/sitemap.html

Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #2-51 Molekularbiologische Datenbanken Swiss-Prot: Links Bildquelle: http://www.expasy.org/sprot/userman.html

Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #2-52 Molekularbiologische Datenbanken Swiss-Prot: Überblick DomäneProteine, Aminosäuresequenz ZugriffmöglichkeitLokale Flat-Files, WWW AnfrageschnittstelleWWW, SRS, Nice-Prot DatenformatASCII, HTML SchemainformationExterne Dokumentation IdentifikationsmechanismusEindeutig über Accession Numbers (Quasi-Standard) DatenaktualitätTägliche Update Zugriffskostenkeine

Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #2-53 Molekularbiologische Datenbanken TrEMBL Rechner-annotierte Übersetzungen aller kodierender Regionen in DDBJ/EMBL/GenBank + Proteinsequenzen aus Literatur und Submission, die nicht in Swiss-Prot Schnelle Publikation ohne Verzögerung durch aufwendige manuelle Annotation Vorgehen Vergabe eines TrEMBL-Eintrages Automatische Annotation: Informationstransfer von bekannten Einträgen aus Swiss-Prot zu nicht annotierten TrEMBL-Einträgen über InterPro-Gruppen Redundanzbeseitigung: Sequenzen mit gleichem Organismus, voller Länge und Identität werden zu einem Eintrag verschmolzen Herkunftsnachweis: TrEMBL enthält Daten aus unterschiedlichen Quellen, Herkunft eines Eintrages wird dokumentiert – ermöglicht Qualitätsbewertung und Aktualisierung

Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #2-54 Molekularbiologische Datenbanken UniProt Universal Protein Knowledgebase Seit 2002 Vereinigung kommentierter Proteinsequenzdatenbanken Sammlung der einzelnen Sequenzinformationen und funktionalen Daten das UniProt Archive (UniParc): nicht–redundante Sammlung von Proteinsequenzen aus verschiedenen Quellen (Swiss–Prot, TrEMBL, PIR–PSD, EMBL, Ensembl, IPI, PDB, RefSeq, FlyBase, WormBase und Patentämter zentrale UniProt Knowledgebase (UniProt): Proteinsequenzen, Annotation und funktionale Informationen aus SWISS–PROT, TrEMBL und PIR–PSD; wechselseitige Referenzen; Unterscheidung der Informationen in manuell annotierte Sequenzen, die durch eine Literaturrecherche und evaluierte Computeranalysen entstanden sind, und rechnerannotierte Sequenzen die UniProt NREF Datenbank (UniRef): nicht–redundante Verknüpfungen verfügbarer Sequenzen mit Links zu den beteiligten Sequenzen, Taxonomie, Literaturreferenzen und der resultierenden Sequenz

Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #2-55 Molekularbiologische Datenbanken UniProt: Format

Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #2-56 Molekularbiologische Datenbanken UniProt: Format (2) Bildquelle: http://www.expasy.org/sprot/userman.html

Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #2-57 Molekularbiologische Datenbanken MDB: Klassifikation (1)  Nukleotidsequenzdatenquellen  Daten und Annotation für eine einzige, zusammenhängende Sequenz  GenBank, EMBL-Bank, JJDB  Proteinsequenzdatenquellen  Meistens aus Nukleinsäuresequenzen abgeleitet  Swiss-Prot, PIR, TrEMBL, UniProt

Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #2-58 Molekularbiologische Datenbanken MDB: Klassifikation (2)

Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #2-59 Molekularbiologische Datenbanken Strukturdatenquellen  Archivierung von Gruppen aus Atomkoordinaten und Annotationen für biochemische Strukturen  Struktur  PDB  MSD (EBI), MMDB (NCBI)  Klassifikation der Proteinfaltungsmuster  SCOP  DALI

Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #2-60 Molekularbiologische Datenbanken Proteinstruktur  Von eindimensionaler (Nukleotid-/Aminosäuresequenz) zur räumlichen Welt  Proteine in vielfältigen Funktionen: Strukturproteine, Enzyme, Transport- und Speicherproteine, Hormone, Rezeptoren, Transkriptionsregulation, Immunsystem  Lokalisierung der Funktion in kleinem Teil des Proteins = aktives Zentrum  Evolution der Proteine: Strukturveränderung durch Mutationen  Dreidimensionale Struktur von ca. 15000 Proteinen bekannt  Unterscheidung in -PrimärstrukturAminosäuresequenz -SekundärstrukturWasserstoff-stabilisierte Krümmung der Hauptkette -Tertiärstruktur… -Quartärstruktur + Supersekundärstruktur, Domänen

Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #2-61 Molekularbiologische Datenbanken PDB  Protein Data Bank  Datensammlung zur Struktur biologischer Makromoleküle  Proteine, Nukleinsäuren, Kohlenhydrate  1971 gegründet an Brookhaven National Laboratories,  Pflege durch Research Collaboration for Structural Bioinformatics  Prüfungsprozeß vor Aufnahme einer neuen Struktur  Hohe Redundanz, geringer Umfang  Inhalt  Allgemeine Angaben (Protein, Publikation)  Aminosäuresequenz  Experimentelle Einzelheiten der Strukturaufklärung, ähnliche Strukturen  Koordinaten der Atome

Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #2-62 Molekularbiologische Datenbanken PDB: Dateiformat  Anordnung der 3D-Struktur des Proteins in Raumgitter  Atome, die über Bindungen in Wechselwirkung stehen  Jedes Atom besitzt bestimmte Position relativ zum Nullpunkt  Zuordnung weiterer Daten (Atomcharakter, Bindungen, Wechselwirkungen)  Verschiedene Werkzeuge zur Visualisierung (RasMol, Swiss PDB Viewer, Cn3D)  PDB-Koordinatendatei  Schlüssel-Wert-Paare  Kooperation als Worldwide Protein Data Bank (wwPDB)  PDB, EBI-MSD, PDBj  Vereinheitlichung, Transparenz

Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #2-63 Molekularbiologische Datenbanken PDB: Beispieldatei

Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #2-64 Molekularbiologische Datenbanken PDB: Beispieldatei (2) Bildquelle: http://www.rcsb.org/pdb/

Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #2-65 Molekularbiologische Datenbanken PDB: Überblick Domäne Proteinstrukturen ZugriffmöglichkeitWWW, Lokale Flat-Files AnfrageschnittstelleWWW, SRS DatenformatHTML, ASCII, PDB-Format, Spezialformate SchemainformationExterne Dokumentation Identifikationsmechanismus Eindeutig über PDB-Nummer (Quasi-Standard) DatenaktualitätRegelmäßige Updates ZugriffskostenKeine

Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #2-66 Molekularbiologische Datenbanken SCOP  Structural Classification of Proteins  Erkennung von Ordnungskriterien in der Vielfalt der Proteinstrukturen  Hierarchische Ordnung auf der Basis der PDB-Einträge in Bezug auf evolutionäre und strukturelle Ähnlichkeiten  Auch Proteine mit geringer Sequenzähnlichkeit können sehr ähnliche 3D-Strukturen besitzen  Unterteilung des Proteinmoleküls in Domänen (rel. unabhängige Faltungseinheiten)  Strukturierung aufsteigend nach Ähnlichkeit Sequenz/Struktur -ClassKlasse -FoldFaltungMajor structural similarity -SuperfamilySuperfamilieProbable common evolutionary origin -FamilyFamilieClear evolutionarily relationship -+ Protein, Spezies

Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #2-67 Molekularbiologische Datenbanken SCOP: Beispieleintrag

Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #2-68 Molekularbiologische Datenbanken SCOP: Überblick Domäne Klassifikation von Proteinstrukturen ZugriffmöglichkeitWWW, Lokale Flat-Files AnfrageschnittstelleWWW DatenformatHTML, ASCII SchemainformationExterne Dokumentation IdentifikationsmechanismusKlassifikation DatenaktualitätRegelmäßige Updates ZugriffskostenKeine

Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #2-69 Molekularbiologische Datenbanken Metabolische und Signalwege  Stoffwechsel (Metabolismus) = Chemische Prozesse in einem Biosystem (Proteinsynthese, Biosynthese, Zellkommunikation)  Vorgänge prinzipiell bei allen Lebewesen gleich  Metabolic Pathway (Stoffwechselweg) = in Wechselwirkung  stehende biochemische Reaktionen durch Enzyme reguliert  Produktion und Konsumption von Zwischenprodukten  Reaktion durch Enzyme gehemmt oder gefördert Bildquelle: http://biopath.fmi.uni-passau.de/

Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #2-70 Molekularbiologische Datenbanken Metabolische und Signalwege (2)  Signaling Pathway (Signalweg) = Signalübermittlung von Zelle zu Zelle bzw. Organ zu Organ  Signalvermittlung durch chemische Verbindungen (Signalmoleküle)  Typischer Ablauf  Extrazelluläre Signalmoleküle binden an Rezeptor (Membranproteine)  Hormon-Rezeptor-Komplex löst intrazelluläres Signalmolekül aus (Signaltransduktion, mehrstufige Signaltransduktion = Signalkaskade)

Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #2-71 Molekularbiologische Datenbanken BRENDA  Braunschweig Enzyme Database  1987 an GBF Braunschweig entwickelt  Heute Pflege an Universität zu Köln  Inhalt  Enzyme und metabolische Zusammenhänge  Biochemische und molekulare Informationen, Klassifikation und Nomenklatur, Reaktion und Spezifität, kinetische Parameter, …, Links, Referenzen  Umfang  83000 Enzyme in 9800 Organismen  Klassifiziert durch 4200 unterschiedliche EC-Nummern  Extrahiert aus 46000 Publikationen

Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #2-72 Molekularbiologische Datenbanken BRENDA: GUI

Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #2-73 Molekularbiologische Datenbanken BRENDA: Überblick Domäne Metabolische und Signalwege ZugriffmöglichkeitWWW AnfrageschnittstelleWWW, SRS DatenformatHTML SchemainformationExterne Dokumentation IdentifikationsmechanismusEindeutig über entsprechende Schlüssel DatenaktualitätRegelmäßige Updates ZugriffskostenKeine

Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #2-74 Molekularbiologische Datenbanken KEGG  Kyoto Encyclopedia of Genes and Genomes  Sammlung einzelner Genome, Genprodukte und ihre Funktion, Zusammenführung von biochemischen und genetischen Daten  1995 im Rahmen des HGP gegründet  Organisation in Graphenstruktur GraphKnotenKanten Gene universeGenbeschreiben Beziehungen Chemical universe Chemische Substanzzwischen den Knoten Protein network Protein  Gruppen besitzen verschiedene Teildatenbanken, die miteinander verknüpft sind

Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #2-75 Molekularbiologische Datenbanken KEGG: Vernetzung 4.6 | Metabolische und Signalwege Bildquelle: http://www.genome.ad.jp/dbget/

Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #2-76 Molekularbiologische Datenbanken KEGG: Pathway Bildquelle: http://www.genome.ad.jp/kegg/

Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #2-77 Molekularbiologische Datenbanken KEGG: Genes, Enzyme

Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #2-78 Molekularbiologische Datenbanken KEGG: Überblick Domäne Metabolische und Signalwege ZugriffmöglichkeitWWW, Lokale Flat-Files, SOAP AnfrageschnittstelleWWW, SRS, DBGET DatenformatHTML, XML SchemainformationExterne Dokumentation IdentifikationsmechanismusEindeutig über entsprechende Schlüssel DatenaktualitätRegelmäßige Updates ZugriffskostenKeine

Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #2-79 Molekularbiologische Datenbanken OMIM  Online Mendelian Inheritance in Man  Datenbank für Gene und genetisch bedingte Erkrankungen des Menschen  Auswertung biomedizinischer Literatur  Ursprünglich von Medizinern seit 1966 in Papierform veröffentlicht  Seit 1987 auch online verfügbar  Teil des Entrez-Systems am NCBI  Pflege durch Johns-Hopkins-Universität, Baltimore  Durchschnittlich 8500 Nutzer mit 100000 Anfragen pro Tag  Ca. 16000 Einträge

Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #2-80 Molekularbiologische Datenbanken OMIM: +261600.0001  Erste Ziffer bezeichnet die Art der Vererbung 1----- (100000- ) Autosomale Loci oder Phänotypen (vor 15. Mai 1994) 2----- (200000- ) Autosomale Loci oder Phänotypen (nach 15. Mai 1994) 3----- (300000- ) X-chromosomale Loci oder Phänotypen 4----- (400000- ) Y-chromosomale Loci oder Phänotypen 5----- (500000- ) Mitochondriale Loci oder Phänotypen 6----- (600000- ) Autosomale Loci oder Phänotypen (nach 15. Mai 1994)  Identifikation verschiedener Mutationen über nachfolgende vierstellige Nummer  261600.0001 PHENYLKETONURIA [PAH, IVS12DS, G-A, +1]  261600.0002 PHENYLKETONURIA [PAH, ARG408TRP]  Zusätzlich Präfix  * Gen einer bekannten Sequenz  # Beschreibender Eintrag (typ. Phänotyp), kein bestimmter Locus  +Gen einer bekannten Sequenz und Phänotyp  % Bestätigter vererbter Phänotyp oder Locus mit unbekannter mol. Basis  ^Gelöschter Eintrag

Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #2-81 Molekularbiologische Datenbanken OMIM: GUI

Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #2-82 Molekularbiologische Datenbanken OMIM: Überblick Domäne Gene und genetisch bedingte Erkrankungen ZugriffmöglichkeitWWW, Lokale Flat-Files AnfrageschnittstelleWWW, SRS DatenformatHTML, ASCII SchemainformationExterne Dokumentation Identifikationsmechanismus Eindeutig über MIM-Nummer (Quasi-Standard) DatenaktualitätRegelmäßige Updates ZugriffskostenKeine

Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #2-83 Molekularbiologische Datenbanken PubMed 4.8 | Weitere Quellen  Sammlung von Referenzen biomedizinischer Literatur  Teil des Entrez-Systems am NCBI  Zugriff auf  Medline (4800 Journals, 12 Mill. Referenzen, seit 1966 indexiert)  OldMedline (2 Mill. Referenzen, 1950-1966 indexiert, kein MeSH, kein Abstract)  Weitere Beiträge (z.B. außerhalb des thematischen Schwerpunktes, elektronische Übermittlung der Referenzen durch Verlag)  Suche anhand von Stichwörtern, Verknüpfung durch Boolesche Operatoren, Eingrenzung des Suchbereiches auf bestimmte Datenfelder (Title, Author, …)  MeSH (Medical Subject Headings): Annotation der Artikel mit kontrolliertem Vokabular

Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #2-84 Molekularbiologische Datenbanken PubMed (2)  Teilweise Zugriff auf Volltext-Artikel  No abstract  Abstract  Free full text  Free in PMC

Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #2-85 Molekularbiologische Datenbanken PubMed: GUI 4.8 | Weitere Quellen

Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #2-86 Molekularbiologische Datenbanken PubMed: Überblick Domäne Literaturreferenzen ZugriffmöglichkeitWWW, Lokale Flat-Files AnfrageschnittstelleWWW, SRS DatenformatHTML, ASCII, XML, ASN.1 SchemainformationExterne Dokumentation Identifikationsmechanismus Eindeutig über PubMed-ID (PMID) (Quasi-Standard) DatenaktualitätRegelmäßige Updates ZugriffskostenKeine

Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #2-87 Molekularbiologische Datenbanken Gene Ontology  „The Gene Ontology project provides a controlled vocabulary to describe gene and gene product attributes in any organism!“  What does the Gene Ontology Consortium do? „Biologists currently waste a lot of time and effort in searching for all of the available information about each small area of research. This is hampered further by the wide variations in terminology that may be common usage at any given time, and that inhibit effective searching by computers as well as people. … The use of GO terms by several collaborating databases facilitates uniform queries across them. The controlled vocabularies are structured so that you can query them at different levels: for example, you can use GO to find all the gene products in the mouse genome that are involved in signal transduction, or you can zoom in on all the receptor tyrosine kinases. This structure also allows annotators to assign properties to gene products at different levels, depending on how much is known about a gene product.“

Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #2-88 Molekularbiologische Datenbanken Gene Ontology (2) 3 Ontologien: Molecular function:  Molecular function describes activities, such as catalytic or binding activities, at the molecular level.  Bsp: pyrimidine metabolism, alpha-glucoside transport Biological process:  A biological process is series of events accomplished by one or more ordered assemblies of molecular functions  Bsp: hexose biosynthesis, hexose metabolism, monosaccharide biosynthesis Cellular component:  A cellular component is just that, a component of a cell but with the proviso that it is part of some larger object, which may be an anatomical structure or a gene product group.  Bsp: nucleus, ribosome, proteasome

Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #2-89 Molekularbiologische Datenbanken Gene Ontology - AmiGo 4.8 | Weitere Quellen

Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #2-90 Molekularbiologische Datenbanken Gene Ontology und Pflanzen-ESTs 4.8 | Weitere Quellen

Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #2-91 Molekularbiologische Datenbanken Plant Ontology  Plant Ontology Consortium (POC) aims to develop, curate and share controlled vocabularies (ontologies) that describe plant structures and growth/developmental stages providing a semantic framework for meaningful cross-species queries across database  Plant Structure: A controlled vocabulary of botanical terms describing morphological and anatomical structures representing organ, tissue and cell types and their relationships. Examples are stamen, gynoecium, petal, parenchyma, guard cell, etc.  Growth and developmental stages: A controlled vocabulary of terms describing growth and developmental stages in model plant species and their relationships. Examples are embryo development stage, seedling stage, flowering stage, etc.

Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #2-92 Molekularbiologische Datenbanken Plant Ontology - AmiGo 4.8 | Weitere Quellen

Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #2-93 Molekularbiologische Datenbanken Plant Ontology und Pflanzen cDNA-Arrays 4.8 | Weitere Quellen

Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #2-94 Molekularbiologische Datenbanken TIGR Gene Indicies  TIGR - The Institute for Genomic Research is a not-for-profit center dedicated to deciphering and analyzing genomes – the complex molecular chains that constitute each organism’s unique genetic heritage.  TIGR Gene Indices: - megablast - CAP3 - Paracel TranscriptAssembler - DNA-Protein Search program (dps) - Weitere Analysen: ORF annotation Genome mapping expression profiles of the EST Domain annotation of TCs

Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #2-95 Molekularbiologische Datenbanken TIGR Gene Indicies – 4 Kategorien

Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #2-96 Molekularbiologische Datenbanken TIGR Gene Indicies – Beispiel

Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #2-97 Molekularbiologische Datenbanken Molekularbiologische Datenquellen Es könnte noch beliebig weitergehen!!!

Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #2-1 Molekularbiologische Datenbanken QUELLEN:

Ähnliche Präsentationen

Präsentation zum Thema: "Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #2-1 Molekularbiologische Datenbanken QUELLEN:"— Präsentation transkript:

Ähnliche Präsentationen

Über Projekt

Feedback

Anmelden

Anmeldung über soziales Netzwerk:

Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #2-1 Molekularbiologische Datenbanken QUELLEN:

Ähnliche Präsentationen

Präsentation zum Thema: "Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #2-1 Molekularbiologische Datenbanken QUELLEN:"— Präsentation transkript:

Ähnliche Präsentationen

Über Projekt

Feedback