Datenbanken in der Bioinformatik Thorsten Denhard

Slides:



Advertisements
Ähnliche Präsentationen
Einführung "Datenbanksysteme"
Advertisements

Stefan Lohrum Konrad-Zuse-Zentrum für Informationstechnik Berlin (ZIB)
ER-Datenmodell und Abfragen in SQL
Heterogene Informationssysteme
Hash-Tabellen und -Funktionen Hash-Tabellen in Java
Rechnernetze und verteilte Systeme (BSRvS II)
Datenbanken Einführung.
Datenmodellierung Externe Phase Informationsstruktur
Basis-Architekturen für Web-Anwendungen
Fortgeschrittenenpraktika WS 2003/04 Database Research Group, Prof. Dr. Bernhard Seeger Department of Mathematics and Computer Science University of Marburg.
Inhaltlich orientierter Zugriff auf unstrukturierte Daten
Vorlesung: Prof. Norbert Fuhr
Datenbankzugriff im WWW (Kommerzielle Systeme)
HTML - Einführung Richard Göbel.
Colibi Bibliothekssystem der Computerlinguistik. Einführung Motivation Was braucht Colibi? Software Datenbankdesign.
DOM (Document Object Model)
MySQL Der Einstieg.
Datenbanken Christof Rumpf
© 2002 Prof. Dr. G. Hellberg 1 XML-Seminar XML-Technologie: XML in Theorie und Praxis Prof. Dr. G. Hellberg XML-Technologie: XML in Theorie und Praxis.
Delphi-Datenbankkomponenten
Oracle WebServer - Einführung. © Prof. T. Kudraß, HTWK Leipzig Oracle Web Application Server HTML WebServer ® File system Static HTML PL/SQL Packages.
SQL/XML. © Prof. T. Kudraß, HTWK Leipzig 2 2 Motivation Speicherung von XML in allen großen kommerziellen DBMS vorhanden proprietäre Lösungen für die.
Anwendungen. © Prof. T. Kudraß, HTWK Leipzig Historie des WWW Grundlage Internet – Entwickelt Ende der 60er Jahre vom US-Militär (ARPA-Net) – Technische.
Online Datenbanken für Bioinformatiker Einführung Bioinformatik Einführung Bioinformatik Oktober 2003.
MMQL – Multimedia Query Language Eine Anfragesprache für Multimedia-Ähnlichkeitsanfragen Christian Mantei.
Analyse von DNA-Sequenzen
Proteinvisualisierung auf Basis von PDB-Files Matthias Dube, Fabian Dill Bei Prof. Dr. Kurth am Lehrstuhl Grafische System Institut für Informatik BTU.
Access 2000 Datenbanken.
Einführung Dateisystem <-> Datenbanksystem
Datenmodellierung - Aufbau einer Datenbank -
Einführung und Überblick
UML Begleitdokumentation des Projekts
Biologische Datenbanken
Forschungszentrum Informatik, Karlsruhe Objektorientierte Systeme unter der Lupe Markus Bauer Oliver Ciupke.
FH-Hof HTML - Einführung Richard Göbel. FH-Hof Komponenten des World Wide Webs WWW Browser HyperText Transfer Protocol (HTTP) via Internet WWW Server.
... und alles was dazugehört
Visualisierung objektrelationaler Datenbanken
SQL PHP und MySQL Referat von Katharina Stracke und Carina Berning
Wir bauen uns eine Webapplikation!
Proseminar: „Webtechnologien für Ecommerce“
Entwicklung verteilter Anwendungen I, WS 13/14 Prof. Dr. Herrad Schmidt WS 13/14 Kapitel 5 Folie 2 ADO.NET s.a:
Sesame Florian Mayrhuber
Musterlösungen Übungsblatt 5
XML-Query. Übersicht Was ist XML-Query? Vergleich RDB XML-Dokument Syntaktisches und Use-Cases Kritik und Diskussion.
Überblick über die Datenbankproblematik
WS 2011/12 Datenbanksysteme Mi 15:15 – 16:45 R Vorlesung #9 Physische Datenorganisation.
Allgemeines zu Datenbanken
DI (FH) DI Roland J. Graf MSc (GIS) U N I V E R S I T Ä T S L E H R G A N G Geographical Information Science & Systems UNIGIS.
SPODAT - Blick nach vorn
Einführung in Datenbankmodellierung und SQL
Esprit Database Suite Eine leistungsfähige Java-Persistzenzschicht zur einfachen Programmierung von Datenbankapplikation.
00:13 Matthias Ansorg FH Gießen-Friedberg1 / 24 Multidimensionale Datenstrukturen - semantische und logische Modellierung Teilvortrag: logische Modellierung.
XML und Datenbanken © 2006 Markus Röder
Torque in Turbine Team 4 Josef Bohninger Thomas Lindenhofer
Torque robert.resch-wolfgang.schneider. uebersicht Was ist Torque Komponenten von Torque Generator Erzeugte Klassen Methoden Torque in Turbine Demobeispiel.
Institut für C omputer G raphik, TU Braunschweig BioBrowser Interaktive Molekülmodelle als zentrales Zugangs- und Dokumentationswerkzeug für biologische.
Structured Query Language
Eike Schallehn, Martin Endig
Eike Schallehn, Martin Endig
© 2001 Sven Dammann1 Aufbau Integrierter Informationssysteme XML Bearbeitung und relationale Abbildung Sven Dammann Martin-Luther-Universität Halle-Wittenberg.
Datenbanken im Web 1.
TypoScript.
1 Wolfgang Wiese, Regionales RechenZentrum Erlangen WCMS 3. August 2000 Wolfgang Wiese RRZE / Lehrstuhl für Informatik VII
Datenbank System (DBS) - Warum?
Seminar Ingenieurdatenbanken WS 04/05 Dr. Schallehn, Prof. Paul, Dipl.-Inf. Fröhlich {eike | paul | iti.cs.uni-magdeburg.de.
SS 2015 – IBB4C Datenmanagement Fr 17:00 – 18:30 R Vorlesung #1 Datenmanagement.
Biologie Cytologie GSG
1 StatiX: Making XML Count J.Freire, J.R.Haritsa, M.Ramanath, P.Roy, J.Siméon: StatiX: Making XML Count ACM SIGMOD, June 2002 Ann Früchtl
Von Wietlisbach, Lenzin und Winter
Von Wietlisbach, Lenzin und Winter
 Präsentation transkript:

Datenbanken in der Bioinformatik Thorsten Denhard Seminarvortrag im Studienschwerpunkt technisch-wissenschaftliche Anwendungen Sommersemester 2003 Prof. Dr. Klement, Prof. Dr. Kneisel FH Giessen-Friedberg, Fachbereich MNI TWA-Seminar Thorsten Denhard, SS2003

TWA-Seminar Thorsten Denhard, SS2003 Inhalt Einführung Bioinformatik Genetischer Code Proteine Einsatzgebiete für Datenbanken in der BI Sequenzdatenbanken Dynamische Prozesse, etc. Datenmodellierung und Management Konventionelle DBMS Spezielle Systeme für biologische DBn Datenbank-Retrieval WWW-Schnittstellen Meta-Suchen DB-Pflege und Qualitätssicherung Datenintegration Annotationen TWA-Seminar Thorsten Denhard, SS2003

Einführung Bioinformatik Fachgebiet im Wandel: von der „klassischen“ hin zur Molekularbiologie Heute erhobene Daten: Gensequenzen, Proteinstrukturen Scharfe, quantifizierbare Größen Große Datenmenge Algorithmen zur Analyse Methoden aus der Informatik immer stärker gefordert TWA-Seminar Thorsten Denhard, SS2003

TWA-Seminar Thorsten Denhard, SS2003 Genetischer Code DNS: linearer Doppelstrang Nucleotide: Träger der Information, eine von vier Basen (A,T,C,G) Verbinden sich paarweise Anzahl Basenpaare von ca. 0,172 * 106 (Virus) bis 3200 * 106 (Mensch) „Gen“: ein Sequenzabschnitt, der ein Protein codiert TWA-Seminar Thorsten Denhard, SS2003

TWA-Seminar Thorsten Denhard, SS2003 Proteine Aufbau Bestehen aus Aminosäuren (20 verschiedene) Lineare unverzweigte Kette Länge: 50-3000 Elemente, im Mittel etwa 200 Gene codieren Proteine Codierungsschema: 3 Nucleotide (Codon) codieren eine Aminosäure Genetischer Standardcode gleich über Artgrenzen Benennung der Aminosäuren: drei oder ein Buchstabe (Glycin: Gly / G) TWA-Seminar Thorsten Denhard, SS2003

Proteine Hierarchische Struktur Primärstruktur: Abfolge der Aminosäuren, linear Sekundärstruktur: -Helix, -Faltblatt Tertiärstruktur: Faltung d. Sekundärstruktur- elemente im Raum Maßgebend für die Funktionalität des Proteins! TWA-Seminar Thorsten Denhard, SS2003

Einsatzfelder für Datenbanken Sequenzdatenbanken Protein-Raumstrukturen Evolutionäre Entwicklungen (Phylogenetik) Genexpression (Aktivität von Genen) Stoffwechsel-Vorgänge (Metabolische Pfade) Literaturdatenbanken TWA-Seminar Thorsten Denhard, SS2003

TWA-Seminar Thorsten Denhard, SS2003 Sequenzdatenbanken Gene: Nucleotidsequenzen z.B. GenBank, Human Genome DB Proteine: Aminosäuresequenzen z.B. SWISS-PROT Sequenzierung: Codierende Sequenzen identifizieren Analyse: Sequenz-Alignment Ähnlichkeit zw. Sequenzen bestimmen In DB integriert oder separate Prog. Exponentielles Wachstum TWA-Seminar Thorsten Denhard, SS2003

TWA-Seminar Thorsten Denhard, SS2003 Proteinstrukturen Strukturdatenbanken z.B. Protein Data Bank (PDB) 3D-Koordinaten aller Atome Zuordnung v. Sekundärstrukturen Rel. wenige Moleküle untersucht Einordnung neuer Sequenzen Homologieansatz: ähnliche Sequenzen  ähnliche Struktur Vorhersage der Proteinfaltung wichtiges Forschungsthema! TWA-Seminar Thorsten Denhard, SS2003

TWA-Seminar Thorsten Denhard, SS2003 Phylogenetische DBn Verwandtschaftsbeziehungen zwischen Arten Heute auf genetischer Basis Erstellung phylogenetischer Bäume auf dieser Basis Algorithmen, Zugriff auf genetische Daten Archivieren erstellter Bäume in Datenbanken Bsp.: Tree Of Life - DB: WWW-Projekt, ca. 350 teilnehmende Wissenschaftler TWA-Seminar Thorsten Denhard, SS2003

TWA-Seminar Thorsten Denhard, SS2003 Bsp.: Tree Of Life - DB TWA-Seminar Thorsten Denhard, SS2003

Beispiel: KEGG PATHWAY-DB Metabolische Pfade Beispiel: KEGG PATHWAY-DB Stoffwechsel-Vorgänge in Zellen Codiert als XML-Dokument Über Java-Applet zugänglich Verknüpungen mit z.B. chemischer Datenbank (per Mausklick) TWA-Seminar Thorsten Denhard, SS2003

Sonstige Einsatzgebiete Genexpression Genom: statischer „Bauplan“ Aber: Gene sind unterschiedlich aktiv DNA-Chips erlauben Messungen d. Aktivität Große Datenmengen, Analyse z.B. für neue diagnostische u. therapeutische Verfahren Literaturdatenbanken Bsp.: MEDLINE-DB für Medizin und Lebenswissenschaften TWA-Seminar Thorsten Denhard, SS2003

Modellierung u. Datenmanagement Implementierungsalternativen ASCII-Dateien (Flat Files)  40 % Relationales DBMS  38% Objektorientiertes / objektrelationales DBMS  9 % ACEDB  5 % OPM (Object Protocol Model)  2 % ( Daten von 2001 aus einer Studie von Bry & Kröger ) TWA-Seminar Thorsten Denhard, SS2003

Implementierung: Flat Files ASCII-Dateien noch immer weit verbreitet Zum Datenaustausch u. Analyse de facto Standard Explizite Strukturierung: Tags, erlauben komplexe Strukturen und unvollständige Daten Bsp.: Auszug aus der SWISS-PROT-DB (Proteine) ID PILI_PSEAE STANDARD; PRT; 178 AA. AC P43502; DT 01-NOV-1995 (Rel. 32, Created) DT 01-NOV-1995 (Rel. 32, Last sequence update) DE Protein pilI. GN PILI OR PA0410. OS Pseudomonas aeruginosa. SQ SEQUENCE 178 AA; 19934 MW; 634A1A4B135A7E77 CRC64; MSDVQTPFQL LVDIDQRCRR LAAGLPAQQE AVQSWSGIGF [...] TWA-Seminar Thorsten Denhard, SS2003

Implementierung: relationale DBMS Relationale DBMS in anderen Feldern lange erprobt Für wissenschaftliche Daten nicht optimal Komplexe Struktur führt zu uneinsichtigem Tabellenverbund Administration und Abfragen daher unnötig kompliziert Effiziente Speicherung u. Suche von Sequenzdaten nicht hinreichend untersucht Trotzdem rund 38 % der DBn mit relationalem DBMS TWA-Seminar Thorsten Denhard, SS2003

Implementierung: ACEDB A C. elegans DataBase Speziell für wissenschaftliches Umfeld entworfen Objektorientiertes Datenmodell, aber: Keine Vererbung möglich Baumstruktur von Objekten u. Attributen Semistrukturierter Ansatz Erlaubt Ausnahmen i.d. Datenstruktur Query-Sprache AQL: SQL-ähnlich, Pfad-Ausdrücke TWA-Seminar Thorsten Denhard, SS2003

Implementierung: ACEDB Klassendefinition Tags, Objekte, Basistypen, Modifizierer 1:N-Beziehungen problemlos modellierbar Bsp. Abfrage: Alle Co-Autoren in allen Aufsätzen von Hr. Lesk finden ?Author Name UNIQUE Text Paper ?Paper ?Paper Title UNIQUE Text Author ?Author Abstract ?LongText select a->Paper->Author from a in class Author where a->Name like "*lesk*" TWA-Seminar Thorsten Denhard, SS2003

TWA-Seminar Thorsten Denhard, SS2003 Implementierung: OPM Object Protocol Model Objektorientiertes Modell mit spezieller Unterstützung für wissenschaftliche Daten/Prozesse Kein DBMS, nur Datenmodell Protokoll-Klassen modellieren Experimente mit Input und Output Tool-Suite zur Modellierung/Benutzung Schema Editor: Erlaubt Transformation in relationale Schemata Browse & Query: Anfragen u. Transaktionen in z.B. SQL umwandeln TWA-Seminar Thorsten Denhard, SS2003

TWA-Seminar Thorsten Denhard, SS2003 Datenbank-Retrieval Heterogenität Vielzahl existierender DBn  welche enthält relevante Daten?  unterschiedliche Abfragearten Ansatz: „Meta-Suchen“ z.B. SRS (Sequence Retrieval System)  Zugriff auf ca. 500 DBn  Folgt Hypertext-Links in Einträgen Abfrage über WWW-Standardformular oder Query-Language [swissprot-id:acha-human] > prosite > swissprot TWA-Seminar Thorsten Denhard, SS2003

TWA-Seminar Thorsten Denhard, SS2003 Datenintegration Akquisition neuer Daten aus anderen DBn Voll- oder semiautomatisch Konflikte möglich, Einteilung in semantische, deskriptive, strukturelle Forschergruppen dürfen Daten einbringen Qualität d. Daten, Validierungsprozess? Übernahme aus der Literatur Meist manuell, arbeitsintensiv TWA-Seminar Thorsten Denhard, SS2003

TWA-Seminar Thorsten Denhard, SS2003 Qualitätssicherung Annotationen Meta-Daten, z.B. Literaturreferenzen Verknüpfungen zu anderen Datensätzen Herkunft der Daten, experimentelle Methoden Feature-Tables: biol. Bedeutung v. Sequenzen Neuannotation von Einträgen Macht Datenbestand „dynamisch“ Qualität d. Einträge, Bsp. EMBL-DB ohne Annotation  vorläufig  ungeprüft  Standard Annotationen geben den Daten Bedeutung TWA-Seminar Thorsten Denhard, SS2003

TWA-Seminar Thorsten Denhard, SS2003 Zusammenfassung Molekularbiologische Daten enorme Schärfe und Quantität oft komplexe Strukturen Datenbanken bewährte DBMS bereits in Verwendung spezielle Ansätze verfügbar, aber noch nicht verbreitet Heterogenität von Datenbeständen Verteiltheit und unterschiedliche Datenhaltung Integration notwendig Informatik-Expertise bei Biologen erforderlich TWA-Seminar Thorsten Denhard, SS2003