Vorlesung „Einführung in die Bioinformatik“ Bioinformatik zur Unterstützung der Systembiologie
Was ist Systembiologie? Zielstellung: Umfassendes, quantitatives Verständnis der dynamischen Interaktionen zwischen den Komponenten einen biologischen Systems erlangen Verhalten des Systems als Ganzes verstehen Vorhersagen treffen
Was ist Systembiologie? Anwendung von systemtheoretischen und informationstechnischen Methoden, um die in Zellen ablaufenden Prozesse besser zu verstehen Kombination von Biologie, Informatik und Systemwissenschaften Biologie Systemwissenschaft Informatik
Aufgaben Aufklärung von Netzwerkstrukturen auf verschiedenen Ebenen (DNA, mRNA, Proteine) Erfassung zeitlicher und räumlicher Dynamik von zellulären Komponenten unter verschiedenen Umweltbedingungen Entwicklung detaillierter mathematischer Modelle Visualisierung von Netzwerken und darin stattfindender Prozesse
Warum? Hochdurchsatztechnologien Riesige Datenmengen Sehr viele Interaktionen Schwierigkeit der konventionellen Durchführung notwendiger Experimente Verständnis biologischer Prozesse als Ganzes
Systembiologie Nicht Untersuchung einzelner Teile einer Zelle oder eines Organismus zu einem bestimmten Zeitpunkt Stattdessen: Verhalten aller Elemente eines biologischen Systems wird untersucht Verhältnis der Elemente zueinander Untersuchung, während das System aktiv ist (Dynamik) Ziele: Verständnis eines biologischen Systems als Ganzes Vorhersage des quantitativen Verhaltens biologischer Prozesse
Lebenszyklus Systembiologie Hypothesis-driven research in systems biology. A cycle of research begins with the selection of contradictory issues of biological significance and the creation of a model representing the phenomenon. Models can be created either automatically or manually. The model represents a computable set of assumptions and hypotheses that need to be tested or supported experimentally. Computational "dry" experiments, such as simulation, on models reveal computational adequacy of the assumptions and hypotheses embedded in each model. Inadequate models would expose inconsistencies with established experimental facts, and thus need to be rejected or modified. Models that pass this test become subjects of a thorough system analysis where a number of predictions may be made. A set of predictions that can distinguish a correct model among competing models is selected for "wet" experiments. Successful experiments are those that eliminate inadequate models. Models that survive this cycle are deemed to be consistent with existing experimental evidence. While this is an idealized process of systems biology research, the hope is that advancement of research in computational science, analytical methods, technologies for measurements, and genomics will gradually transform biological research to fit this cycle for a more systematic and hypothesis-driven science. [Kitano, H.: Systems biology: A brief overview. Science, 295(5560):1662–1664, 2002]
Ansätze der Systembiologie I Top-down (deduktiv) Erzeugung experimenteller Daten mit Hochdurchsatztechnologien Analyse der Daten und Formulierung von Hypothesen (iterativ) Überprüfung der Hypothesen durch Experimente (iterativ) Ziel: Identifikation und Charakterisierung neuer biologischer Mechanismen und damit besseres Verständnis der komplexen biologischen Zusammenhänge einer Zelle
Ansätze der Systembiologie II Top-down (deduktiv) Analyse Hypothesen Experimente [http://www.che.udel.edu/mranton/systemsbio.html ]
Ansätze der Systembiologie III Bottom-up (induktiv) Kleine, detailliert beschriebene Netzwerke Kombination der verschiedenen Netzwerke zu einem Modell des ganzen Systems Ziel: Simulation und Vorhersage des Verhaltens des Gesamtsystems Grundlage: mathematische Modellierung der Netzwerke
Ansätze der Systembiologie IV [http://www.wikipedia.org]
Fokus auf metabolische Modelle I Stöchiometrie Tatsächliche Mengenverhältnisse (Reaktionsgleichung) und Stoffmengen von Reaktand(en) und Produkt(en) einer Reaktion A + B C + D
Fokus auf metabolische Modelle II Kinetik: Zusammenhang zwischen den Konzentrationen der Reaktanden sowie des katalysierenden Enzyms Geschwindigkeit, mit der sich die Konzentrationen der beteiligten Stoffe ändern Einflüsse: Inhibitoren Wirken auf Enzyme/Substrate und hemmen dadurch die Reaktion Z.B. irreversible/reversible Enzymhemmung (weitere Unterteilungen mgl.) Aktivatoren Aktivieren die katalytische Aktivität von Enzymen …
Fokus auf metabolische Modelle III Enzymkatalysierte Reaktion: Beschreibung der Reaktionskinetik durch Michaelis-Menten-Gleichung: V0: tatsächliche Reaktionsgeschwindigkeit Vmax: maximal mgl. Reaktionsgeschwindigkeit [S]: Substratkonzentration zum betreffenden Zeitpunkt KM: Michaelis-Menten-Konstante (Affinitätskonstante)
Begriffe Metabolisches System Metabolisches Modell Netzwerk gekoppelter, biochemischer Reaktionen Enzymkatalysiert Transportervermittelt Metabolisches Modell Liste von Reaktionen + zu diesen Reaktionen gehörende Informationen [http://www.genome.jp/kegg]
Vorgehen Ziel: Analyse von Struktur und Verhalten metabolischer Netzwerke Generieren von Wissen Aufstellen von Hypothesen Wie? Rekonstruktion von Modellen Modellaustausch Analyse/Simulation Visualisierung
Rekonstruktion von Modellen Daten über biologische Prozesse: Heterogene Ausgangslage Vielzahl Quellen Weltweit verteilt Unsicherheiten bzgl. Korrektheit Integration und persistente Verwaltung in einem Repository Manuelle Kuratierung sinnvoll (z.B. Unterscheidung von Wachstums- und Entwicklungsstadien)
Rekonstruktion von Modellen [Eva Grafahrend-Belau et al. (2013) Plant Physiol.,163:637-647]
Beispiel KEGG http://www.genome.jp/kegg Sammlung einzelner Genome, Genprodukte und ihrer Funktion Verschiedene Teildatenbanken, z.B. Pathways Statische Sammlung von Pathway-Diagrammen Daten über verschiedene Organismen Wenig Details, keine Literaturquellen [http://www.genome.jp/kegg]
Beispiel BioCyc http://www.biocyc.org Sammlung mehrerer hundert Pathwaydatenbanken Jede beschreibt die metabolischen Netzwerke eines Organismus Viele vorhergesagte Daten Durch Pathway Tools Software erstellt
Beispiel BRENDA BRaunschweig ENzyme Database http://www.brenda-enzymes.org Eine der wichtigsten und umfassendsten Datenquellen für Enzyme und Stoffwechselwege Biochemische und molekularbiologische Daten Manuell kuratierte Daten, Unterstützung durch Text Mining 4.800 Enzyme, 130.000 Publikationen Verlinkungen zu anderen Informationssystemen, z.B. KEGG, UniProt
Beispiel MetaCrop I http://metacrop.ipk-gatersleben.de Zentrales Repository für Daten über metabolische Netze in Kulturpflanzen Unterstützt Modellrekonstruktion Hierarchisch aufgebaut Taxonomie, speziesspezifische Pathways
Beispiel MetaCrop II Gene sind unter verschiedenen Bedingungen exprimiert Entwicklungsstadien Wachstumsbedingungen Funktionsorte im Organismus Kinetik Manuell kuratiert Umfangreiche Literaturquellen
Beispiel MetaCrop III
Beispiel MetaCrop IV Netzwerke Reaktionen Komponenten MetaCrop Enzyme Metabolite MetaCrop Kurationsprozess Datenbanken Literatur Bücher Journale Datenaufbereitung Datenintegration Datenextraktion Transporter
Beispiel MetaCrop V
Beispiel MetaCrop VI
Beispiel MetaCrop VII
Beispiel MetaCrop VIII
Modellaustausch Warum? Wie? Austauschformate in der Biologie, z.B.: Simulation/Analyse mit externen Werkzeugen Visualisierung von Netzwerken mit externen Werkzeugen Wie? Austauschformate Austauschformate in der Biologie, z.B.: CML: Chemical Markup Language BSML: Bioinformatic Sequence Markup Language MAGE-ML: MicroArray and Gene Expression SBML: Systems Biology Markup Language basiert auf XML
XML I Extensible Markup Language Auszeichnungssprache zur Darstellung hierarchisch strukturierter Daten in Form von Textdaten Plattform- und implementationsunabhängig Austausch von Daten zwischen Computersystemen Trennung von Daten (Inhalt) und Repräsentation (Struktur)
XML II Wichtigste Bestandteile: Verarbeitungsanweisungen (<?Ziel-Name Parameter ?>) Elemente Paar aus Start-Tag (<Tag-Name>) und End-Tag (</Tag-Name>) <reaktion>Argininosuccinat-Lyase</reaktion> Schachtelung von Elementen Attribute Zusatzinformationen über Elemente Schlüsselwort-Werte-Paare (Attribut-Name="Attribut-Wert") <reaktion enzymkatalysiert="ja">Argininosuccinat-Lyase</reaktion> Kommentare (<!-- Kommentar-Text -->)
XML III Format wird durch Grammatik definiert Wohlgeformt Gültig Dokumenttypdefinition (DTD) XML-Schema (XSD) Wohlgeformt ein Wurzelelement öffnende und schließende Tags korrekte Schachtelung Gültig muss der definierten Grammatik entsprechen
XML IV <?xml version="1.0" encoding="UTF-8" standalone="yes"?> <vorlesung> <titel>Einführung in die Bioinformatik</titel> <dozent> <vorname>Stephan</vorname> <name>Weise</name> </dozent> … </vorlesung>
SBML I Basiert auf XML Repräsentation biochemischer Modelle Beschreibt Systeme Biologische Entitäten sind beteiligt Biologische Entitäten werden durch Prozesse beeinflusst z.B. metabolische Pathways, Signaltransduktionswege, Genregulation etc.
SBML II Wichtigste Elemente: functionDefinition unitDefinition Mathematische Funktionen, die im Modell verwendet werden Z.B. Kinetic Laws (Michaelis-Menten, Iso Uni Uni, Ordered Bi Bi, Ordered Uni Bi) unitDefinition Einheiten, die im Modell verwendet werden Z.B. Liter, Mol compartment Funktionsort im Organismus Bedeutet nicht zwangsläufig auch ein Kompartiment Z.B. Plastid species Objekte, die an einem Funktionsort lokalisiert sind Nicht mit Spezies (=Art) verwechseln Z.B. ADP, ADP-glucose, maltose
SBML III Wichtigste Elemente (Fortsetzung): parameter reaction Quantitative Werte Z.B. Km, Ki, Ka, Vmax reaction (enzymkatalysierte) Reaktion Transportprozess Beschreibt, wie Reaktanden in Produkte überführt werden Unterelemente listOfReactants (Referenz auf species-Definition) listOfProducts (dito) listOfModifiers (dito) kineticLaw (Referenz auf functionDefinition) Attribute reversible name Compartment stoichiometry …
Einschub MathML (a + b)² Mathematical Markup Language <mrow> <msup> <mfenced> <mi>a</mi> <mo>+</mo> <mi>b</mi> </mrow> </mfenced> <mn>2</mn> </msup> (a + b)² Mathematical Markup Language Darstellung mathematischer Formeln und komplexer Ausdrücke Tag Beschreibung mrow Horizontal ausgerichteter Inhalt mfenced Erzeugt Klammern mi Identifikator mo Operator mn Zahl msup 1. Element: Basis; 2. Element: Exponent
Beispiel Saccharose-Abbau I
Beispiel Saccharose- Abbau II Metabolischer Pfad Reaktionskinetik
Beispiel Saccharose-Abbau III Einheiten Reaktionsorte
Beispiel Saccharose-Abbau IV Metabolite
Beispiel Saccharose-Abbau V Konstanten für Parameter in der Reaktionsgleichung Reaktionen/Enzyme
Modellsimulation/-analyse I + kinetische Informationen, Konzentrationen Metabolic Network Analysis nur Berücksichtigung der Netzwerkstruktur Detailebene Systemgröße Qualitative Modelle Quantitative Modelle Elementary Mode Analysis + stöchiometrische Constraints Flux Balance Analysis + Massebilanz, Kapazitäts-Constraints Metabolic Flux Analysis + Daten aus Markierungsexperimenten Kinetic Modelling
Modellsimulation/-analyse II Strukturelles Modell, z.B. Reaktionen und Substanzen Stöchiometrie Reversibilität? Regulationsmechanismen Enzymdaten, z.B. Umsatzraten Affinitätskonstanten Aktivator-/Inhibitorkonstanten Metabolische Daten, z.B. Metabolitkonzentrationen Enzymkonzentrationen Kinetisches Modell [nach: Liebermeister, W.: Integration of enzyme kinetic data from various sources, 2007]
Beispiel Flux Balance Analysis I Definition Constraintbasierte stöchiometrische Modellierung Vorhersage und Analyse von Stoffflüssen (Fluxes) Vorteile Keine kinetischen Parameter erforderlich Quantitative Vorhersagen Anwendbarkeit auf umfangreiche Systeme Anwendungsbereiche Vorhersage von optimalem metabolischem Ertrag und Flussverteilungen Vorhersage des Phänotyps von Knockout-Mutanten Vorhersage von Netzwerkredundanzen
Beispiel Flux Balance Analysis II
Simulationswerkzeuge I COPASI (COmplex PAthway SImulator) http://www.copasi.org Analyse biochemischer Netzwerke Kinetische Daten zur Simulation Verwendet Modelle im SBML-Format
Simulationswerkzeuge II JWS online http://jjj.biochem.sun.ac.za Simulation kinetischer Modelle Verwendet Modelle im SBML-Format
Modellvisualisierung Vereinfachte Repräsentation von Daten aus Experimenten oder Simulationen Untersuchen und Verstehen von Daten
Visualisierungswerkzeuge I VANTED (Visualisation and Analysis of Networks containing Experimental Data) Datentransformationen Visuelle Mappings Transformationen von Ansichten Einbindung von Simulationswerkzeugen per Plug-in Unterstützung verschiedener Formate, z.B. SBML
Visualisierungswerkzeuge II CellDesigner Visuelle Exploration von Netzwerken Graphische Editierung Einbindung von Simulationswerkzeugen
Beispiel-Visualisierung Abbildung metabolischer Flüsse auf Reaktionskanten
Modellrekonstruktion Vorgehen am Beispiel I Modellrekonstruktion Modellanalyse Visuelle Analyse Vorhersage von Ertrag und Flussverteilungen Speichermetabolismus im sich entwickelnden Gerstenkorn [Grafahrend-Belau, E. et al.: Flux balance analysis of barley seeds: a computational approach to study systemic properties of central metabolism, Plant Physiology, 149: 585-598, 2009.]
Vorgehen am Beispiel II Umfang 257 Reaktionen, 234 Metabolite Kompartimente Cytosol, Plastid, Mitochondrium, extrazelluläres Medium Pathways Glycolysis, Pentose Phosphate Pathway, Citrate Cycle, Oxidative Phosphorylation, Amino Acid Metabolism, Starch Metabolism u.a.
Vorgehen am Beispiel III Maximale Aufnahme-/Abgaberaten Saccharose: 8 μmol gDW−1 h−1 Sauerstoff: 0 - 30 μmol gDW−1 h−1 Modellanalyse Vorhersage von Ertrag und Flussverteilungen unter variierenden Sauerstoffbedingungen (Saccharose-/ Sauerstoff-Abreicherung) Spezifische Wachstumsrate Simuliertes Ergebnis: μ: 0.002 - 0.003 h−1 Vergleichbar mit experimentellen Ergebnissen
Vorgehen am Beispiel IV Flussverteilungen unter variierenden Sauerstoffbedingungen
Quellen Kremling, A.: Vorlesung Regulationsvorgänge in biologischen Systemen, Universität Magdeburg, 2008 http://wikipedia.org Beißbarth, T: Vorlesung Bioinformatik/System-Biologie, Georg-August-Universität Göttingen, 2009 http://sbml.org http://www.ebi.ac.uk/biomodels