Forschungsdatenmanagement am LRZ im Kontext von GeRDI

Forschungsdatenmanagement am LRZ im Kontext von GeRDI
Dieter Kranzlmüller, Tobias Weber, Hai Nguyen | ZKI Frühjahrstagung 2018, Konstanz ZKI-Frühjahrstagung 2018 | Dieter Kranzlmüller (LRZ)

Reproduzierbarkeit und Nachnutzung
Problem: Reproduzierbarkeit und Nachnutzung von Forschungs- ergebnissen Fehlende Dokumentation und Beschreibung (Metadaten) Nachprüfbarkeit wissenschaftlicher Ergebnisse Heterogenität und fehlende Standards Repetition von Forschung Kosten für Zeit und Infrastruktur Problemstellung: Forschungsergebnisse lassen sich nur schwierig reproduzieren und nachnutzen Daten sind nicht nachvollziehbar, da sie nicht ausreichend beschrieben sind Forschungsergebnisse lassen sich ohne Dokumentation nicht überprüfen Unterschiedliche Formate, Strukturen führen dazu, dass Vorwissen und spezielle Programme benötigt werden um Forschung nachzuvollziehen Wiederholen von bereits abgeschlossener Forschung anstelle von Fortsatz der Forschung Kosten auf Seiten von Fördergeldgeber, da Forschung doppelt gemacht wird, Daten werden gespeichert, die nicht abgespeichert werden ZKI-Frühjahrstagung 2018 | Dieter Kranzlmüller (LRZ)

Herausforderungen Technische Herausforderungen
Schnittstellen (Interoperabilität) Formate und Metadatenstandards Aufwand und Kosten Unklarheit bei Verantwortlichkeiten und Strukturen Speicherung von sensitiven Daten Umgang mit geistigen Eigentum Technische Herausforderungen Schnittstellen zwischen verschiedener Software & Tools fehlen oft, sodass Daten erst aufbereitet oder transformiert werden müssen Unterschiedliche Datenformate und Metadatenstandards erschweren eine Automatisierung von Abläufen Zusätzlicher Aufwand für Wissenschaftler, die Daten genau zu beschreiben. Kosten für Personal, Software, Hardware, Archivierung, Speicher, Infrastruktur Unklarheit besteht, wer antwortlich ist: Bibliotheken, Rechenzentren, Universitäten, Fördergeldgeber Sensitive Daten haben besondere Ansprüche wie Rechteverwaltung Daten sind nicht alle frei sondern oft mit Nutzungsrechten versehen, diese Rechte in Forschungsergebnissen zu berücksichtigen ist mit Hürden verbunden. ZKI-Frühjahrstagung 2018 | Dieter Kranzlmüller (LRZ)

Forschungsdatenmanagement (FDM) und Infrastrukturen
„Alle Aktivitäten, die mit der Aufbereitung, Speicherung, Archivierung und Veröffentlichung von Forschungsdaten verbunden sind“1 Aufbau und Vernetzung von Forschungsdateninfrastrukturen Personal, Dienste und Werkzeuge zur Unterstützung der FDM-Aktivitäten Definition von Forschungsdatenmanagement umfasst alle Aktivitäten die mit Forschungsdaten verbunden sind, dies fängt bei der Planung an (Stichwort Datenmanagementplan) und geht über Aufbereitung, Speicherung und Archivierung und Veröffentlichung der Forschungsdaten Eine Forschungsdateninfrastruktur unterstützt die Forschungsdatenmanagementaktivitäten mit Personal, Diensten und Werkzeugen Forschungsinfrastruktur ist eine Teilmenge der Forschungsinfrastruktur 1 Simukovic, E., Kindling, M., & Schirmbacher, P. (2013); Umfrage zum Umgang mit digitalen Forschungsdaten an der Humboldt-Universität zu Berlin ZKI-Frühjahrstagung 2018 | Dieter Kranzlmüller (LRZ)

Forschungsdaten-Lebenszyklus
Creating Data Design Research Plan Data Management (formats, storage, etc.) Plan consent for sharing Locate existing data Collect data (experiment, observe, measure, simulate) Capture and create metadata Creating Data Preserving Data Processing Data Analysing Data Re-using Data Giving Access to Data Erklären des Forschungsdatenzyklus anhand des UK Data Archive Arbeiten bezüglich Forschungsdatenmanagement und Forschungsdateninfrastrukturen richten sich am Zyklus Mündliche Vorstellung der einzelnen Prozesse oder animiertes Durchlaufen der einzelnen Prozesse UK Data archive ZKI-Frühjahrstagung 2018 | Dieter Kranzlmüller (LRZ)

Processing Data Enter data, digitise, transcribe, translate Check, validate, clean data Anonymise data where necessary Describe data Manage and store data Creating Data Preserving Data Processing Data Analysing Data Re-using Data Giving Access to Data UK Data archive ZKI-Frühjahrstagung 2018 | Dieter Kranzlmüller (LRZ)

Analysing Data Interpret data Derive data Produce research outputs Author publications Prepare data for preservation Creating Data Preserving Data Processing Data Analysing Data Re-using Data Giving Access to Data UK Data archive ZKI-Frühjahrstagung 2018 | Dieter Kranzlmüller (LRZ)

Preserving Data Migrate data to best format Migrate data to suitable medium Backup and store data Create metadata and documentation Archive data Creating Data Preserving Data Processing Data Analysing Data Re-using Data Giving Access to Data UK Data archive ZKI-Frühjahrstagung 2018 | Dieter Kranzlmüller (LRZ)

Giving access to data Distribute data Share data Control access Establish copyright Promote data Creating Data Preserving Data Processing Data Analysing Data Re-using Data Giving Access to Data UK Data archive ZKI-Frühjahrstagung 2018 | Dieter Kranzlmüller (LRZ)

Re-using data Follow-up research New research Undertake research reviews Scrutinise findings Teach and learn Creating Data Preserving Data Processing Data Analysing Data Re-using Data Giving Access to Data UK Data archive ZKI-Frühjahrstagung 2018 | Dieter Kranzlmüller (LRZ)

Das Leibniz-Rechenzentrum
Optimale Unterstützung der Wissenschaftler und Studenten mit einer hochmodernen IT-Infrastruktur bei ihrer täglichen Arbeit mit Forschungsdaten Kompetenter Partner für zuverlässige und qualitativ hochwertige Dienste Forschungsbereiche Umweltwissenschaften Angewandte Wissenschaften Digitale Geisteswissenschaften … Vorstellung des LRZ Richtet sich an Forschung und Industrie in Bayern Unterstützen in großem Umfang unsere Umweltwissenschaftler, aber auch andere Forschungsbereiche. Fokus auf ”…”, LRZ hat den Anspruch alle Wissenschaftler zu unterstützen ZKI-Frühjahrstagung 2018 | Dieter Kranzlmüller (LRZ)

Virtuelle Realität und Visualisierung
LRZ Dienste HPC Netz Speicher- lösungen Virtuelle Realität und Visualisierung Training Know-How Beratung Support Kurze Vorstellung der Hauptdienste, Produktpalette am LRZ ZKI-Frühjahrstagung 2018 | Dieter Kranzlmüller (LRZ)

Höchstleistungsrechenzentrum und Big Data Kompetenzzentrum
SuperMUC Phase 1 3.2 PFlops Spitzenleistung Sandy Bridge CPU Kerne SuperMUC Phase 2 3.6 Pflops Spitzenleistung Haswell CPU Kerne Bayerisches Big Data Kompetenzzentrum Compute Cloud DGX-1 GPU-Cloud Creating Data Preserving Data Processing Data Analysing Data Re-using Data Giving Access to Data Höchstleistungsrechner und Big Data Applikationen decken die Prozesse „Verarbeitung und Analyse von Daten“ ab Mit dem SuperMUC steht eines der effizientesten Höchstleistungsrechner auf der Welt Linux-Cluster als Einstiegspunkt für Wissenschaftler ZKI-Frühjahrstagung 2018 | Dieter Kranzlmüller (LRZ)

Speicher und Archiv System
Insgesamt 200 Petabyte Speicher HPC Cluster Dateisysteme Data Science Storage Archiv- und Backupsystem Bayern Cloud Creating Data Preserving Data Processing Data Analysing Data Re-using Data Giving Access to Data Mit den Diensten Data Science Storage, Archiv- und Backupsystem und Bayern Cloud bietet das LRZ den Wissenschaftler hochwertige Dienste für die sichere und langfristige Speicherung der Forschungsdaten an. ZKI-Frühjahrstagung 2018 | Dieter Kranzlmüller (LRZ)

Beispiel: Projekt ClimEx
High Performance Computing: Regional climate model (CRCM 5) Simulation auf Super- MUC mit 80 Millionen CPU Stunden Jahre Klimaensembles Datenauswertung mit Machine Learning >500 TB Daten Big data: Data storage, management, … Data processing model interfacing Data-Sharing Climate essembles 1 Visualisation Hydrological model (Wasim/Hydrotel) 1 Beispiel ist das Projekt ClimEx, eine Kombination aus HPC und Big Data 80 Millionen CPU Stunden auf dem SuperMUC Phase 1 gibt eine kleine Hausnummer der Rechenkapazitäten am LRZ an. Der entstehende Datensatz aus den Simulationen ist mit 500 TB relative gering. In diesem Projekt unterstützt das LRZ mit deren Fachkompetenz Postprocessing, evaluation, analysis, … Hydrological response data 1 Copyright LMU/Geo ZKI-Frühjahrstagung 2018 | Dieter Kranzlmüller (LRZ)

Generic Research Data Infrastructure
Ziel: Aufbau einer Forschungsdaten- infrastruktur in Deutschland Erste Phase: Grundlage: FAIR Prinzipien Findable | Accessible | Interoperable | Reusable Einbindung neun Communities in die Entwicklung Modellhafte Struktur und Anschlussfähigkeit an nationale und europäische Forschungs- dateninfrastrukturen Projektleitung: Klaus Tochtermann (ZBW) Wenn man sich die vorherigen Folien bezüglich Forschungsdatenzyklus angesehen hatte, so fehlen noch die Prozesse “Reuse Data” und “Create Data” Mit GeRDI versucht das LRZ diesen Kreis des Forschungsdatenzykluses zu schließen GeRDI ist ein von der DFG gefördertes Projekt und verknüpft bestehende Forschungsdatenrepositorien in Deutschland, damit Wissenschaftler die Daten finden, zugreifen, verarbeiten und weiternutzen kann (Stichwort FAIR) Erste Phase ist der Pilotbetrieb. Beginn war November 2016 und wird bis Ende Oktober 2019 andauern. Grundlage und Basis bei der Entwicklung sind die FAIR Prinzipien: Findable, Accessible, Interoperable und Reusable Findable: Persistent ID, Metadaten Accessible: Standard Protokolle für den Zugang, Metadaten bleiben zugreifbar auch wenn die Daten es nicht sind Interoperable: Nutzung weit verbreiteter Sprachen, Standardvokabular Reusable: Rich, accurate metadata, eindeutige Lizenzen, Community Standards Damit das Projekt nicht am Nutzer, in dem Fall Wissenschaftler, vorbeientwickelt, werden neun Communities an den Standorten der Projektpartner mit in dem Entwicklungsprozess miteingebunden. Das sind Sprachforscher in München, Meeresforscher in Kiel, das Sozio Ökonomische Panel etc. Das Ergebnis am Ende ist ein Modell und soll an nationale (NFDI) und europäische Forschungsdateninfrastrukturen anknüpfen. ZKI-Frühjahrstagung 2018 | Dieter Kranzlmüller (LRZ)

Architektur External Frontend Frontend Integration Harvest Harvest
Search Bookmark Store Preprocess Analyze Publish Archive UI Search UI Bookmark UI Store UI Preprocess UI Analyze UI Publish UI Archive API Harvest API Query/ Index API Bookmark API Store API Preprocess API Analyze API Publish API Aus den Interviews mit den GeRDI Communities wurden Anwendungsfälle erhoben. Aus diesen Interviews haben sich folgende Dienste ergeben. Dienst Archiv: Erlaubt das Ingestieren, das Abspeichern von neuen Daten in ein bestehendes Datenrepositorien Dienst Harvest: Bezieht die Metadaten von Datensätzen eines Forschungsdatenrepositoriums und speichert diese in den (Such-) Index Dienst Search: Die aus dem Dienst Harvest gespeicherten Metadaten lassen sich durchsuchen und die Ergebnisse lassen sich filtern Dienst Bookmark: Ähnlich wie bei einem Einkaufszettel kann man die Suchergebnisse merken oder mit anderen Wissenschaftlern teilen Dienst Store: Bezieht sich hauptsächlich auf den Download der tatsächlichen Daten oder das Stagen von Daten auf andere Systeme wie HPC Dienst Preprocess: Erlaubt die Verarbeitung der Daten, Formattieren, Umwandeln und Transformieren, Schneiden und Zusammenfügen Dienst Analyze: Erlaubt die Auswertung und Visualisierung anhand der Forschungsdaten Dienst Publish: Unterstützt die Datenpublikation am Ende der Forschung und ist gleichzeitig ein Startpunkt für andere Forschungsprozesse Archive DB Harvest DB Search DB Bookmark DB Storage Preprocess Storage Analyze Storage Publish Storage External Backend Backend Integration ZKI-Frühjahrstagung 2018 | Dieter Kranzlmüller (LRZ)

Betriebsmodell GeRDI “Core” Central GeRDI Services
Federated GeRDI Services Generic UI frontend Search API Specific user interfaces Federated Service Operator Generic Harvesters GeRDI Central Index Specific Harvesters Als Betriebsmodell sieht es GeRDI vor die generischen Komponenten zentral beim GeRDI Konsortium zu belassen. Dazu gehört der Zentrale GeRDI Index, Schnittstellen für die Suche, generische Harvester und Benutzeroberfläche. Spezifische Harvester oder Benutzeroberfläche können über die Schnittstellen auch föderiert über andere Dienstebetreiber erfolgen. Beides Bereiche zählen zu den Kerndiensten und Kernfunktionalitäten von GeRDI Das Abspeichern / Stagen von Daten, die Weiterverarbeitung oder Analyse zählt aufgrund der hohen Varietät bei den Fachbereichen zu den Erweiterten Diensten. Diese Dienste können über eine Schnittstelle mit dem Kerndiensten interagieren, müssen aber nicht vom GeRDI Konsortium betrieben warden, sondern liegen meist bei verschiedenen Dienste oder Datenbetreibern. Extended Services Service Provider Storage Data Provider Pre-process Analyse Archive/Publish (Repository) GeRDI Consortium Bookmark: Managing Data Transfer Metadaten Forschungsdaten Betreiber-Rolle ZKI-Frühjahrstagung 2018 | Dieter Kranzlmüller (LRZ)

GeRDI Metadatenschema
GeRDI Metadata Schema DataCite Generic Extension Discipline-specific extension Data Cite Identifier | Creator | Title | Publisher | Publication Year | … Existing metadata standards mappings Mapped to DDI Dublin Core OECD IDF Metadata Kernel Metadata ”Bowl” Generic Extension Specialize Wie handhabt GeRDI den generischen Ansatz bei den Metadatenschemata Nach Analyse der Metadatenschemata hat man sich bei GeRDI auf das Metadatenschema von DataCite geeignet. DataCite (Metadatenelemente: Identifikationsschlüssel, Autor, Titel, Herausgeber, Herausgebungsjahr, …) Dazu gibt es Übersetzungen sogenannte Mappings von bestehenden Metadatenstandards DDI, Dublin Core, OECD, IDF Metadata Kernel auf Datacite Da das DataCite Metadatenschema nicht alle Metadatenelemente umfasst, gibt es eine Generische Erweiterung des Metadatenschemas “Generic Extension” Hierfür wurden aus den disziplin-spezifischen Metadatenelemente gemeinsame Nenner gefunden und als generisch eingestuft. Als letztes Bestandteil gibt es noch die Disziplin-spezifischen Erweiterungen, zugeschnitte Metadatenelemente für unterschiedliche Disziplinen. Fisheries Discipline-specific Extension … Survey ZKI-Frühjahrstagung 2018 | Dieter Kranzlmüller (LRZ)

FDM mit LRZ und GeRDI Integration von Forschungsdatenrepositorien mit LRZ Diensten Verknüpfung bestehender LRZ Dienste Unterstützen von FDM Workflows Forschungsdateninfrastruktur GeRDI als Kleber für bestehende LRZ Dienste Anbindung bestehender Forschungsdatenrepositorien an LRZ Infrastruktur über GeRDI Forschungsergebnisse können FAIR gespeichert werden und sind verfügbar für wie Weiternutzung FDM Workflows sind automatisierte Abläufe von Forschungsdaten im Lebenszyklus Planung Suche Verarbeitung Auswertung Speicherung Archivierung Publikation ZKI-Frühjahrstagung 2018 | Dieter Kranzlmüller (LRZ)

Fazit FDM ist ein wesentlicher Aspekt für nachhaltige Forschung
Daten- und Rechenzentren als wichtiger Partner bei FDM FDM am LRZ als Kombination aus LRZ und GeRDI Diensten Schnittstellen ermöglichen föderiertes FDM GeRDI ergänzt bestehende LRZ Dienste un ZKI-Frühjahrstagung 2018 | Dieter Kranzlmüller (LRZ)

Ausblick GeRDI Phase 2 und Ausweiten auf ganz Deutschland
Beratung und Schulungen im Umgang mit Forschungsdaten Forschungsdatenrepositorium für eine FAIRe Datenspeicherung ZKI-Frühjahrstagung 2018 | Dieter Kranzlmüller (LRZ)

Forschungsdatenmanagement am LRZ im Kontext von GeRDI
Prof. Dr. Dieter Kranzlmüller Leibniz-Rechenzentrum der Bayerischen Akademie der Wissenschaften Boltzmannstr. 1, Garching ZKI-Frühjahrstagung 2018 | Dieter Kranzlmüller (LRZ)

Forschungsdatenmanagement am LRZ im Kontext von GeRDI

Ähnliche Präsentationen

Präsentation zum Thema: "Forschungsdatenmanagement am LRZ im Kontext von GeRDI"— Präsentation transkript:

Ähnliche Präsentationen

Über Projekt

Feedback

Anmelden

Anmeldung über soziales Netzwerk:

Forschungsdatenmanagement am LRZ im Kontext von GeRDI

Ähnliche Präsentationen

Präsentation zum Thema: "Forschungsdatenmanagement am LRZ im Kontext von GeRDI"— Präsentation transkript:

Ähnliche Präsentationen

Über Projekt

Feedback