Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

Ein kleiner Exkurs in die Molekularbiologie: Vom Gen zum Phän

Ähnliche Präsentationen


Präsentation zum Thema: "Ein kleiner Exkurs in die Molekularbiologie: Vom Gen zum Phän"—  Präsentation transkript:

1 Interessierende Objekte in der Bioinformatik: Molekularbiologische Grundlagen

2 Ein kleiner Exkurs in die Molekularbiologie: Vom Gen zum Phän
DNA Pflanze (Organismus) Transkription: Ergebnis ist Boten-RNA Faltung Þ Sekundär-und Tertiär-Struktur Translation: Ergebnis ist Aminosäuresequenz Û Protein in Primärstruktur

3 Ein kleiner Exkurs in die Molekularbiologie: Vom Gen zum Phän
DNA: Pflanze (Organismus) ATGACGT GCCGTACGGTTG CAGTACGTATCA CGTACATGACATC CGGAATCTTACAA GTACATAAACAG TCTACAAGCTCC GGATCAA ADQLTEE QIAEFLFDKD KEAFSLFDLFDKDKD GDGTILFDKDTTLFD DTVMRSLGLFDKDQ NPTLFDKDEAELQD NLFDLFDKDKDEL KDDLFDKDL Protein:

4 Ein kleiner Exkurs in die Molekularbiologie: Der Genetische Code
Jeweils 3 zusammenhängende Nukleotide codieren eine Aminosäure! 4³ = 64 aber nur 20 Aminosäuren in Organismus!

5 Ein kleiner Exkurs in die Molekularbiologie: Translation

6 Ein kleiner Exkurs in die Molekularbiologie: Von der DNA bis zum Stoffwechselweg

7

8 GGTCCTCCTCTCGGCCTGCTTTATCCTGCCTCCCCCTTCTCCTCTCCACCTGCTAGATCTAGAGTAGCTCCTAAGCCCACGAAAACCCCGCCGCGAGATCTGCGCATCTCGCAACACCACCACCATGGCGGCGCCGCGCGTCCTCCTCCTCCTCGCCGCCGCGGCCCTCCTCTCCGTCTCCTCCCTCGGAGACGCTTCGGGCGATGGCCCCCGCGGGCGCAAGCTGCTGGTGCTCGTCGACGATCTGGCCGTCCGCTCCTCCCACTCGGCCTTCTTCGGCTCGCTCCAGGCCCGCGGGCTAGATCTGGAGTTCCGCCTCGCGGACGACCCCAAGCTCTCGCTCCACCGCTACGGTCAGTACCTCTACGACGGCCTCGTCCTCTTCGCCCCGTCGACCCCGCGCTTTGGCGGATCGGTGGACCAGAACGCTGTTCTGGAGTTCATCGATGCTGGGCACGACATGATTCTGGCAGCAGATCATTCGGCTTCTGATCTGATCCGCGGCATCGCAACCGAGTGTGGGGTTGATTTTGATGAGGACCCGGAAGCGATGGGTTATTGACCACATTAATTATGCCTCCAACTGGAGTCTGAAGGGGGGATCACAACCTTTTACTGCGGAAAGNACAAGGATGAGCTCATCAAGAACGCTGCCTACATTGNCACCCCTGGAAAGGGTATTCTTGCTGCTGACGAGTCCGCTACTGTCACTGACAGCCTCAGGTCACTCGAAGCAAGGTTAGCTAGCTAGCACGCAGTGAGCGATGGCGGNCGCGGCGACCATGGCGCTCTCCTCCCCGGCGATGGCCGGCACCCCGGTGAAGGCCTCCAGGGCGGCGCCCTTCGGCGAGGGCCGCATCACCATGCGCAAGACGGCGGGCAAGCCCAAGGTGGCGGCGTCCAGCANCCCGTGGTACGGCTCCGACCGCGTGCTCTACCTCGGCCCGCTCTNCGGCGACCCCCCGAGCTACCTCACCGGCGAGTTCCCCGGCGACTACGGCTGGGACACCGCGGGGCTGTCCGCCGACCCCGAGACCTTCNCCAAGAACCGTGAGCTGGAGGTCATCCACTGCCGCTGGGCCATGCTCGGCGCGCTCGGCTGCGTCTTCCCCGAGCTGCTCGCCCGCAACGGCGTCAAGTTCGGCGAGGCCGTGTGGTTCAAGGCCGGCTCCCAGATCTTCAGCGAGGGCGGCCTCGACTACCTCGGCAACCCCAGCCTCGTCCACGCCCAGAGCATCCTCGCCATCTGGGCCTGCCAGGTGGTGCTCATGGGCGCCGTCCGAGGGCTACCGCGTCGCCGGCGGCCCGCTCGGCGAAGATCGTCGACCCGGCTCTACCCCGGCGGCAAGCTTCGACCCCCTGGGCCTCGCCCGAGGGACCCCGAGGCCTTCGGGGGTGACCATCCTGGCGCCCGTCAAGTCGCCCAACACGGACGGCATCAGTCGTCTCCGGCGACGACTGCGTGGCCATCAAGAGCGGCTGGGACGAGTACGGNATCNCCGTCGGCATGCCCAGCGAGCACATCTCGGTGCGCCGCCTCACCTGCGTGTCCCCGACCAGCGCGGTGATCGCGCTCGGCAGCAGAGATGTCGGGCGGCATACGGGACGTGCGCGCCGAGGACATCACCGGGCTGACTGGACGCCCCTTCAGGGTGTTCAGCCTCGACACGGGGCGGCTGAACCCAGAGACATACCAACTCTTCGACAAGGTGGAGAAGCACTACGGTATCCACATCGAGTACATGTTCCCGGACCAAGGGCCTCTTCTCTTTCTACGAGGACGGACACCAGGAGTGCTGCAGGGTGAGGAAGGTTCGGCCATTGAGGAGGGCCCTCAAGGGCCTCAAGGCCTGGATCACCGGGCAGCGGAAGGACCAGTCCCCTGGCACCAGGGCGAGCATCCCTGTTGTTCAGGTTGATCCGTCATTTGAAGGGCTGGATGGTGGAGCTGGTAGCTTGATCAAGTGGAACCCTGTGGCTAATGTGGATGGCAAGGATATCTGGACCTTCCTCAGGACCATGGATGTCCCTGTGAACACCCTGCATGCTCAAGGCTACGTCTCCATTGGGTGCGAGCCGTGCACCAGGCCCGTGTTGCCGGGGCAGCACGAGAGGGAAGGGAGGTGGTGGTGGGAGGACGCCACGGCCAAGGAGTGCGGTCTCCACAAGGGTAACATCGACAAGGAAGGTCAAGACACCCAAGGTCNGGCGTCAACGNCAACGGCTCGGCTGAGGCCAGTGCCCCAGACATCTTCCAGAGCCAGGCAATCGTCAATCTCACCCGTCCCGGGATCGAGAACGGTGATTTGAGAATTCCAGCATCTTTCTGTGGTGTACTTGGTTTCCGGTCTTCTCATGGGGTTGTGTCTACTCTTGGGACCTTACCGAACTCACATAGCCTAGATACCATTGGATGGCTTGCACGAGATCCTCATATACTTAGTCGTGTTGGAGATGCTCTGTTACCCGTTGCTGCATGTGGACTTAAGGGGAAACTGAGGCCAGTGCCACGTTATGGCAGTA ~2000 Nukleotide

9 Genomgrößen Virus-Genom 5 * 2.000 = 10.000 Bakterien-Genom
150 * = Kleinstes Pflanzengenom (Arabidopsis Thaliana) * = menschliches Genom * = Gersten-Genom * = größtes Pflanzengenom * =

10 Grundlagen aus dem Bereich Informatik

11 Computer und Betriebsysteme
wichtigstes Werkzeug der Bioinformatik: Computer verschiedene „Kategorien“: Personalcomputer Großrechner Betriebssysteme: Windows MacOS Unix (Solaris, Linux) Frage: Was ist relevant für Bioinformatik? Plattformübergreifende Lösungen bzw. Programmiersprachen: Java Perl Python

12 Internet und WWW Internet basiert auf militärischer Entwicklung in USA
ARPANET: Ausfall eines Teils des Netzwerkes führt nicht zum Totalausfall -> Vorgänger des Internets Kommunikationsprotokolle TCP/IP Namenspaten für Internet Internet = über TCP/IP verbundene Netzwerke Entwicklung des WWW 1990/91 durch Tim Berners-Lee (CERN) WWW ist nur ein Angebot (Service) im Internet!!! Moderne Browser (IE, Netscape, Firefox) sind Programme zur Nutzung des Service WWW Primärziel bei Konzeption und Entwicklung: wissenschaftlicher Datenaustausch wichtige Rolle auch in der Bioinformatik! Parallelität zwischen modernen Methoden im Labor (z.B. DNA-Sequenzierung) und Verbreitung der Angebote im WWW zur Bereitstellung von Informationen!!!

13 Internet - Struktur Verbindung vieler Netze gemeinsames Protokoll
keine gemeinsame Steuerung jeder trägt bei stabil durch Redundanz unpolitisch

14 Vergleich: Was ist ein LAN?

15 Physikalische Anbindung an das Internet
privater Bereich: analoges Modem ISDN =Integrated Services Digital Network (asynchrones) DSL = Digital Subscriber Line „Steckdose“ oder Kabelanschluss Satellit WLAN Unternehmen bzw. Forschungseinrichtungen: Standleitungen zu DFN oder anderen Anbietern Anstieg der Übertragungs- kapazität

16 Logische Anbindung an das Internet
Serviceanbieter: Vermittlung zwischen Kunden und Internet Standleitung ans Internet 2 Gruppen mit fließendem Übergang Internet Service Provider Content Provider Beipiele: AOL T-Online Freenet Arcor 1&1 Alice

17 Internet Services Email: News FTP SSH und SCP World Wide Web !  ?
schwarzes Brett FTP textbasiert, runterladen der Dateien SSH und SCP Verschlüsselung World Wide Web kein runterladen notwendig Navigation durch Hyperlinks URL = Uniform Ressource Locator Beispiel:

18 Die Benutzung von Unix Aussage: Linux-Kenntnisse sind elementar, um moderne Bioinformatik Werkzeuge (wie z. B. BLAST) im Hochdurchsatz effizient anwenden zu können!!! Empfehlung: Teilnahme an einem Linux-Kurs oder Installation einer entsprechenden Distribution auf eigenem PC! -> Erhöhung der Chancen im Beruf!!!!

19 Daten und Informationen
Daten sind Gebilde aus Zeichen oder kontinuierliche Funktionen, die aufgrund bekannter oder unterstellter Abmachungen Information(en) darstellen, vorrangig zum Zweck der Verarbeitung oder als deren Ergebnis. ... In der Informatik versteht man beispielsweise unter Daten alles, was sich in einer für einen Computer erkennbaren Weise codieren lässt. [M. G. Zilahi-Szabó, Herausgeber. Kleines Lexikon der Informatik.München, Oldenbourg, 1995.] Informationen: Informationen sind aus Daten geschlussfolgerte Fakten bzw. deren Interpretationen.

20 Datenbanken etc. [G. Saake, I. Schmitt und C. Türker
Datenbanken etc. [G. Saake, I. Schmitt und C. Türker. Objektdatenbanken — Konzepte, Sprachen, Architekturen. International Thomson Publishing, Bonn, 1997.] Datenbank: Eine Datenbank ist eine strukturierte Sammlung von Daten, welche Fakten über spezielle Anwendungen eines modellierten Ausschnittes der Realwelt repräsentiert, die dauerhaft (persistent) und weitgehend redundanzfrei gespeichert wird. Datenbank-Management-System: Die Software, die eine Sammlung von Programmen bereitstellt, welche das anwendungsabhängige Erzeugen, Ändern und Löschen einer Datenbank ermöglicht, wird als Datenbank-Management-System (DBMS) bezeichnet. Datenbanksystem: Unter einem Datenbanksystem (DBS) wird stets die Kombination eines Datenbank-Management-Systems mit einer oder mehreren, unterscheidbaren Datenbanken verstanden.

21 Datenbanken ... ... Aufgaben: Integration Operationen Katalog
Nutzersichten Konsistenzüberwachung Datenschutz Transaktionen Synchronisation Backup und Recovery Anwendung 1 Anwendung n ... DBMS Datenbank ... [E. F. Codd. Relational Database: A Practical Foundation for Productivity. Communications of the ACM, 25(2):109–117, Februar 1982.] DBS

22 Informationssystem persistente Speicherung der Informationen
Wiedergewinnung der Informationen basierend auf verschiedenen Abfragekriterien anwendungsspezifische Auswertung und Aufbereitung der gespeicherten Informationen integritätserhaltende Änderungsoperationen Integration von zusätzlichen Informationsquellen: externe Datenquellen Informationszugriff über das WWW kooperierender Zugriff Modellierung von Nutzerschnittstellen und Nutzerführung Verteilungsaspekte Bestandteil jedes Informationssystems ist ein DBS!!!

23 Datenquelle und Flat-File
Eine Datenquelle besteht aus mindestens einem Computer (rechentechnische Einheit), auf dem Daten gespeichert sind und auf die über bestimmte Schnittstellen zugegriffen werden kann. Flat-File: Ein Flat-File ist eine Datei, die eine bestimmte, implizite Struktur besitzt. Ist ein Flat-File auf einem Rechner verfügbar, so wird diese Kombination auch als Datenquelle verstanden. Beispiel: ENTRY EC NAME Ornithine carbamoyltransferase Citrulline phospharylase Ornithine transcarbamylase CLASS Transferases Transferring one-carbon groups Carboxyl- and carbamoyltransferases SYSNAME Carbamoyl-phosphate: L-ornithine carbamoyltransferase ...

24 Datenintegration und Informationsfusion
Die Datenintegration hat das Ziel, die Redundanz zu vermeiden und sie erfordert die einheitliche Verwaltung aller von Anwendungen bzw. von Anwendern benötigten Daten. Informationsfusion: Sie charakterisiert einen Prozess, dessen Aufgabe es ist, Daten oder Informationen aus verschiedenen, zum Teil heterogenen Datenquellen zu kombinieren, zu verdichten, zu interpretieren und daraus Informationen einer neuen Qualität abzuleiten. [G. Saake und A. Heuer. Datenbanken — Implementierungstechniken. MITP-Verlag, Bonn, 1999.]

25 Datenintegration und Informationsfusion: Beispiel

26 Ansätze zur Datenintegration: Klassifikation
© Kai-Uwe Sattler, Magdeburg 2003

27 Ausgewählte Möglichkeiten zur Datenintegration
1. Hypertextnavigation [P. D. Karp. A Strategy for Database Interoperation. Journal of Computational Biology, 2(4):573–586, 1995.] 2. Föderiertes Datenbanksystem [A. P. Sheth und J. A. Larson. Federated Database Systems for Managing Distributed, Heterogeneous, and Autonomous Databases. ACM Computing Surveys, 22(3):183–236, September 1990.] [S. Conrad. Föderierte Datenbanksysteme: Konzepte der Datenintegration. Springer-Verlag, Berlin/Heidelberg, 1997.] 3. Mediator [G. Wiederhold. Mediators in the Architecture of Future Information Systems. IEEE Computer, 25(3):38–49, März 1992.] 4. Multidatenbanken 5. Data Warehouse [W. H. Inmon. Building the Data Warehouse. John Wiley & Sons, Inc., 2. Auflage, 1996.]

28 Keine echte Datenintegration!
Hypertextnavigation Keine echte Datenintegration! © Jacob Köhler, Bielefeld 2003

29 Föderiertes Datenbanksystem (FDBS)
© Höding, Türker, Janssen, Sattler, Conrad, Saake, Schmitt, Magdburg 1995

30 Föderiertes Datenbanksystem (FDBS)
Zusammenfassung von mehreren DBS Bezeichnung als Komponenten-DBS (KDBS) Aufrechterhaltung der Autonomie aller KDBS zuerst KDBS immer echtes Datenbanksystem später auch Anbindung von Dateien als Datenquellen wesentlicher Bestandteil ist Föderierungsdienst Aufgabe: Zugriffssteuerung für globale Anwendungen aber: einige Probleme!!!

31 Mediator © Wiederhold 1992

32 Mediator Einführung als Alternative zu FDBS
Grund: schwieriger Entwurf von großen föderierten Schemata Einsatz von kleinen Vermittlern Mediator: abgeschlossene Softwaremodule mit definierten Schnittstellen keine generelle Verwaltungssoftware (wie Föderierungsdienst) -> viele einzelne Module Besonderheit: kaskadierende Mediatoren Entwicklung von integrierten Schemata in jedem Mediator -> mehre kleinere Schemata -> Einbindung neuer Datenquellen einfacher

33 Multidatenbanken

34 Multidatenbanken in DB-Literatur taxonomisch über FDBS, aber in Bioinformatik gleichberechtigter Ansatz! Einsatz einer geeigneter Anfragesprache: Multidatenbankanfragesprache dadurch Definition des verteilten Zugriffs auf Datenquellen Formulierung komplexer Anfragen zur Spezifikation der Informationen und der Datenquelle Realisierung des Zugriffs durch datenquellen-spezifische Treiber Fortsetzung ...

35 Data Warehouse

36 Data Warehouse Transformation des Inhalts heterogener Datenquellen:
Überführung der Datenquellenschemata in gemeinsames Datenmodell Modellierung eines integrierten Schema (Probleme ähnlich wie bei FDBS) Einbindung neuer Datenquellen immer neue Modellierung notwendig Import dieses Resultats in die Data Warehouse Datenbank Realisierung des physischen Zugriffs über Treiber (spezifische Softwaremodule) durch Import Verlust der Autonomie des Datenquellen (KDBS) eine monolithische Datenbank Fortsetzung ...

37 Data Warehouse Arbeit auf Kopie der Originaldaten
Vorteil in Bezug auf Verfügbarkeit Nachteil bei Änderung der Originaldaten -> neuer Import laut Definition: Nicht-Flüchtigkeit Abschwächung -> Ändern oder Löschen zulassen historische Datensammlung Abschwächung -> keine Zeitreihenanalysen ein Zweck zum Aufbau eines Data Warehouses: Informationsfusion Fortsetzung ...

38 Data Warehouse: Charakteristika
Fachorientierung (subject oriented): Zweck des Systems ist nicht die Erfüllung eienr Aufgabe z.B. Personaldatenverwaltung), sondern Modellierung eines spezifischen Anwendungsziels Integrierte Datenbasis (integrated): Verarbeitung von Daten aus mehren verschiedenen Datenquellen (intern oder extern) Nichtflüchtige Datenbasis (non-volatile): Abschwächung! stabil, persistent! Daten im DW werden nicht mehr entfernt oder geändert! Historische Daten (time variant): Abschwächung! Vergleich der Daten über Zeit möglich (Zeitreihenanalysen) Speicherung über längeren Zeitraum © Eike Schallehn, Magdeburg 2003

39 Data Warehouse: Beispiel-Szenario (I)
© Eike Schallehn, Magdeburg 2003

40 Data Warehouse: Beispiel-Szenario (II)
Anfragen: Wie viele Flaschen Bier wurden letzten Monat verkauft? Wie hat sich der Verkauf von Rotwein im letzten Jahr entwickelt? Wer sind unsere Top-Kunden? Von welchen Lieferanten beziehen wir die meisten Kisten? Probleme: Nutzung externer Quellen (Kundendatenbank, Lieferantendatenbank, ...) Daten mit historischen Bezug © Eike Schallehn, Magdeburg 2003

41 Data Warehouse: Ergebnis(-Würfel)
Welche Umsätze sind in den Jahren 1998 und 1999 in den Abteilungen Kosmetik, Elektro und Haushaltwaren in den Bundesländern Sachsen-Anhalt und Thüringen angefallen? © Eike Schallehn, Magdeburg 2003

42 Data Warehouse: Ergebnis(-Bericht)
© Eike Schallehn, Magdeburg 2003

43 Plant Data Warehouse am IPK (I)

44 Plant Data Warehouse am IPK (II)
Anfragen: Wie viele Genbank-Samenproben wurden im letzten Monat verschickt? Welche Genbank-Accessions wurden im letzten Jahr erfolgreich innerhalb von IPK-Projekten eingesetzt? Wer sind unsere „Top-Kunden“ unter den Züchtungsunternehmen? Mit welchen Substanzen (z.B. Enzymen) von welchen Lieferanten wurden die meisten Marker experimentell nachgewiesen und erfolgreich kartiert? Probleme: Nutzung verschiedener Quellen (GBIS, CR-EST, MOMA, FLAREX, ...) Daten mit historischen Bezug

45 Bioinformatik in der modernen Biotechnologie
Internet

46 Relationenmodell & Entity-Relationship-Modellierung
QUELLE: Thoralf Töpel: Web-basierte Informationssysteme in der molekularen Bioinformatik, Vorlesung, SoSe 05

47

48

49

50

51

52

53

54

55

56

57

58


Herunterladen ppt "Ein kleiner Exkurs in die Molekularbiologie: Vom Gen zum Phän"

Ähnliche Präsentationen


Google-Anzeigen