Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

Datenbanken in der Bioinformatik Thorsten Denhard

Ähnliche Präsentationen


Präsentation zum Thema: "Datenbanken in der Bioinformatik Thorsten Denhard"—  Präsentation transkript:

1 Datenbanken in der Bioinformatik Thorsten Denhard
Seminarvortrag im Studienschwerpunkt technisch-wissenschaftliche Anwendungen Sommersemester 2003 Prof. Dr. Klement, Prof. Dr. Kneisel FH Giessen-Friedberg, Fachbereich MNI TWA-Seminar Thorsten Denhard, SS2003

2 TWA-Seminar Thorsten Denhard, SS2003
Inhalt Einführung Bioinformatik Genetischer Code Proteine Einsatzgebiete für Datenbanken in der BI Sequenzdatenbanken Dynamische Prozesse, etc. Datenmodellierung und Management Konventionelle DBMS Spezielle Systeme für biologische DBn Datenbank-Retrieval WWW-Schnittstellen Meta-Suchen DB-Pflege und Qualitätssicherung Datenintegration Annotationen TWA-Seminar Thorsten Denhard, SS2003

3 Einführung Bioinformatik
Fachgebiet im Wandel: von der „klassischen“ hin zur Molekularbiologie Heute erhobene Daten: Gensequenzen, Proteinstrukturen Scharfe, quantifizierbare Größen Große Datenmenge Algorithmen zur Analyse Methoden aus der Informatik immer stärker gefordert TWA-Seminar Thorsten Denhard, SS2003

4 TWA-Seminar Thorsten Denhard, SS2003
Genetischer Code DNS: linearer Doppelstrang Nucleotide: Träger der Information, eine von vier Basen (A,T,C,G) Verbinden sich paarweise Anzahl Basenpaare von ca. 0,172 * 106 (Virus) bis 3200 * 106 (Mensch) „Gen“: ein Sequenzabschnitt, der ein Protein codiert TWA-Seminar Thorsten Denhard, SS2003

5 TWA-Seminar Thorsten Denhard, SS2003
Proteine Aufbau Bestehen aus Aminosäuren (20 verschiedene) Lineare unverzweigte Kette Länge: Elemente, im Mittel etwa 200 Gene codieren Proteine Codierungsschema: 3 Nucleotide (Codon) codieren eine Aminosäure Genetischer Standardcode gleich über Artgrenzen Benennung der Aminosäuren: drei oder ein Buchstabe (Glycin: Gly / G) TWA-Seminar Thorsten Denhard, SS2003

6 Proteine Hierarchische Struktur
Primärstruktur: Abfolge der Aminosäuren, linear Sekundärstruktur: -Helix, -Faltblatt Tertiärstruktur: Faltung d. Sekundärstruktur elemente im Raum Maßgebend für die Funktionalität des Proteins! TWA-Seminar Thorsten Denhard, SS2003

7 Einsatzfelder für Datenbanken
Sequenzdatenbanken Protein-Raumstrukturen Evolutionäre Entwicklungen (Phylogenetik) Genexpression (Aktivität von Genen) Stoffwechsel-Vorgänge (Metabolische Pfade) Literaturdatenbanken TWA-Seminar Thorsten Denhard, SS2003

8 TWA-Seminar Thorsten Denhard, SS2003
Sequenzdatenbanken Gene: Nucleotidsequenzen z.B. GenBank, Human Genome DB Proteine: Aminosäuresequenzen z.B. SWISS-PROT Sequenzierung: Codierende Sequenzen identifizieren Analyse: Sequenz-Alignment Ähnlichkeit zw. Sequenzen bestimmen In DB integriert oder separate Prog. Exponentielles Wachstum TWA-Seminar Thorsten Denhard, SS2003

9 TWA-Seminar Thorsten Denhard, SS2003
Proteinstrukturen Strukturdatenbanken z.B. Protein Data Bank (PDB) 3D-Koordinaten aller Atome Zuordnung v. Sekundärstrukturen Rel. wenige Moleküle untersucht Einordnung neuer Sequenzen Homologieansatz: ähnliche Sequenzen  ähnliche Struktur Vorhersage der Proteinfaltung wichtiges Forschungsthema! TWA-Seminar Thorsten Denhard, SS2003

10 TWA-Seminar Thorsten Denhard, SS2003
Phylogenetische DBn Verwandtschaftsbeziehungen zwischen Arten Heute auf genetischer Basis Erstellung phylogenetischer Bäume auf dieser Basis Algorithmen, Zugriff auf genetische Daten Archivieren erstellter Bäume in Datenbanken Bsp.: Tree Of Life - DB: WWW-Projekt, ca. 350 teilnehmende Wissenschaftler TWA-Seminar Thorsten Denhard, SS2003

11 TWA-Seminar Thorsten Denhard, SS2003
Bsp.: Tree Of Life - DB TWA-Seminar Thorsten Denhard, SS2003

12 Beispiel: KEGG PATHWAY-DB
Metabolische Pfade Beispiel: KEGG PATHWAY-DB Stoffwechsel-Vorgänge in Zellen Codiert als XML-Dokument Über Java-Applet zugänglich Verknüpungen mit z.B. chemischer Datenbank (per Mausklick) TWA-Seminar Thorsten Denhard, SS2003

13 Sonstige Einsatzgebiete
Genexpression Genom: statischer „Bauplan“ Aber: Gene sind unterschiedlich aktiv DNA-Chips erlauben Messungen d. Aktivität Große Datenmengen, Analyse z.B. für neue diagnostische u. therapeutische Verfahren Literaturdatenbanken Bsp.: MEDLINE-DB für Medizin und Lebenswissenschaften TWA-Seminar Thorsten Denhard, SS2003

14 Modellierung u. Datenmanagement
Implementierungsalternativen ASCII-Dateien (Flat Files)  40 % Relationales DBMS  38% Objektorientiertes / objektrelationales DBMS  9 % ACEDB  5 % OPM (Object Protocol Model)  2 % ( Daten von 2001 aus einer Studie von Bry & Kröger ) TWA-Seminar Thorsten Denhard, SS2003

15 Implementierung: Flat Files
ASCII-Dateien noch immer weit verbreitet Zum Datenaustausch u. Analyse de facto Standard Explizite Strukturierung: Tags, erlauben komplexe Strukturen und unvollständige Daten Bsp.: Auszug aus der SWISS-PROT-DB (Proteine) ID PILI_PSEAE STANDARD; PRT; AA. AC P43502; DT 01-NOV-1995 (Rel. 32, Created) DT 01-NOV-1995 (Rel. 32, Last sequence update) DE Protein pilI. GN PILI OR PA0410. OS Pseudomonas aeruginosa. SQ SEQUENCE AA; MW; 634A1A4B135A7E77 CRC64; MSDVQTPFQL LVDIDQRCRR LAAGLPAQQE AVQSWSGIGF [...] TWA-Seminar Thorsten Denhard, SS2003

16 Implementierung: relationale DBMS
Relationale DBMS in anderen Feldern lange erprobt Für wissenschaftliche Daten nicht optimal Komplexe Struktur führt zu uneinsichtigem Tabellenverbund Administration und Abfragen daher unnötig kompliziert Effiziente Speicherung u. Suche von Sequenzdaten nicht hinreichend untersucht Trotzdem rund 38 % der DBn mit relationalem DBMS TWA-Seminar Thorsten Denhard, SS2003

17 Implementierung: ACEDB
A C. elegans DataBase Speziell für wissenschaftliches Umfeld entworfen Objektorientiertes Datenmodell, aber: Keine Vererbung möglich Baumstruktur von Objekten u. Attributen Semistrukturierter Ansatz Erlaubt Ausnahmen i.d. Datenstruktur Query-Sprache AQL: SQL-ähnlich, Pfad-Ausdrücke TWA-Seminar Thorsten Denhard, SS2003

18 Implementierung: ACEDB
Klassendefinition Tags, Objekte, Basistypen, Modifizierer 1:N-Beziehungen problemlos modellierbar Bsp. Abfrage: Alle Co-Autoren in allen Aufsätzen von Hr. Lesk finden ?Author Name UNIQUE Text Paper ?Paper ?Paper Title UNIQUE Text Author ?Author Abstract ?LongText select a->Paper->Author from a in class Author where a->Name like "*lesk*" TWA-Seminar Thorsten Denhard, SS2003

19 TWA-Seminar Thorsten Denhard, SS2003
Implementierung: OPM Object Protocol Model Objektorientiertes Modell mit spezieller Unterstützung für wissenschaftliche Daten/Prozesse Kein DBMS, nur Datenmodell Protokoll-Klassen modellieren Experimente mit Input und Output Tool-Suite zur Modellierung/Benutzung Schema Editor: Erlaubt Transformation in relationale Schemata Browse & Query: Anfragen u. Transaktionen in z.B. SQL umwandeln TWA-Seminar Thorsten Denhard, SS2003

20 TWA-Seminar Thorsten Denhard, SS2003
Datenbank-Retrieval Heterogenität Vielzahl existierender DBn  welche enthält relevante Daten?  unterschiedliche Abfragearten Ansatz: „Meta-Suchen“ z.B. SRS (Sequence Retrieval System)  Zugriff auf ca. 500 DBn  Folgt Hypertext-Links in Einträgen Abfrage über WWW-Standardformular oder Query-Language [swissprot-id:acha-human] > prosite > swissprot TWA-Seminar Thorsten Denhard, SS2003

21 TWA-Seminar Thorsten Denhard, SS2003
Datenintegration Akquisition neuer Daten aus anderen DBn Voll- oder semiautomatisch Konflikte möglich, Einteilung in semantische, deskriptive, strukturelle Forschergruppen dürfen Daten einbringen Qualität d. Daten, Validierungsprozess? Übernahme aus der Literatur Meist manuell, arbeitsintensiv TWA-Seminar Thorsten Denhard, SS2003

22 TWA-Seminar Thorsten Denhard, SS2003
Qualitätssicherung Annotationen Meta-Daten, z.B. Literaturreferenzen Verknüpfungen zu anderen Datensätzen Herkunft der Daten, experimentelle Methoden Feature-Tables: biol. Bedeutung v. Sequenzen Neuannotation von Einträgen Macht Datenbestand „dynamisch“ Qualität d. Einträge, Bsp. EMBL-DB ohne Annotation  vorläufig  ungeprüft  Standard Annotationen geben den Daten Bedeutung TWA-Seminar Thorsten Denhard, SS2003

23 TWA-Seminar Thorsten Denhard, SS2003
Zusammenfassung Molekularbiologische Daten enorme Schärfe und Quantität oft komplexe Strukturen Datenbanken bewährte DBMS bereits in Verwendung spezielle Ansätze verfügbar, aber noch nicht verbreitet Heterogenität von Datenbeständen Verteiltheit und unterschiedliche Datenhaltung Integration notwendig Informatik-Expertise bei Biologen erforderlich TWA-Seminar Thorsten Denhard, SS2003


Herunterladen ppt "Datenbanken in der Bioinformatik Thorsten Denhard"

Ähnliche Präsentationen


Google-Anzeigen