Torsten Rathmann (DKRZ) Torsten Rathmann Deutsches Klimarechenzentrum (DKRZ) Datenmanagement am DKRZ PubFlow Workshop 18. März 2014
Torsten Rathmann (DKRZ) Schwerpunkt Klimamodelldaten Aufbereitete Daten, keine Rohdaten Datenproduzenten sind Großprojekte mit Konsortialrechnungen, Metadatenerzeugung und Qualitätskontrolle am DKRZ ‒ CMIP (Coupled Model Intercomparison Project): liefert Daten für Weltklimabericht ‒ CORDEX (Coordinated Regional Climate Downscaling Experiment): Regionalmodelle Projekte, die Archivierung benötigen/wollen (z.B. 10 Jahre) 2 Das World Data Center for Climate (WDCC)
Torsten Rathmann (DKRZ) 3 Entwicklung des Datenvolumens am WDCC
Torsten Rathmann (DKRZ) 4 Warum so viel? Experimente Historical: Representative Concentration Pathway (RCP) Anfangswerte, 3D-Gitter, Zeitreihe, Modelle
Torsten Rathmann (DKRZ) NetCDF (Network Common Data Form) Eines von 3 im WDCC erlaubten Dateiformaten Trend geht in Richtung NetCDF wegen der Großprojekte CMIP5 und CORDEX Binär, Header+Arrays CF (Climate and Forecast) Konkretisierung von NetCDF für die Klimaforschung Standardnamen für Variablen, z.B. „air_temperature“ 5 Standards
Torsten Rathmann (DKRZ) 6 Datenlebenszyklus Planung und Erstellung Pre-Ingest Ingest Speicherung Kuration Zugriff und Nutzung Portierung von Werkzeugen DOI-Vergabe (optional) Homogenisierung Formatkonvertierung Metadaten-Erzeugung Web-Portale DVD-Versand Qualitätskontrolle Einfüllen Welche Daten/Metadaten werden gebraucht? Namen für Datensätze und Dateien Durchführung von Konsortialrechnungen
Torsten Rathmann (DKRZ) 7 Ingest und Speicherung mit Arbeitsstunden Pro Auftrag Pro Experiment Pro Experiment bei gleichen Datenstrukturen Daten- und Metadatenarchivierung (Ingest) Information und Beratung4 Projekt-Spezifikation (Festlegung Datenumfang, Formate, Datenorganisation, Speicherstrategie, Weg der Daten zum WDCC, Data-Policy, Zugriffsbedingungen) 2 Erstellen eines Konzeptes (Metadatenumfang, Preprocessing, Zeitplan) und Kostenabschätzung 4 Erfassen, Einfüllen und Qualitätskontrolle der Metadaten 1053 Aufsetzen Datentransfer und Einfüllen der Daten711 Qualitätskontrolle der Daten einschl. Prüfung der Konsistenz von Metadaten und Daten 104 Freischaltung und Abschluss-Report6 insgesamt Jahre Speicherung inklusive Pflege Aktualisierung der Metadaten10 8 Pflege der Datensätze innerhalb der Datenbank 105 Anpassung der Zugriffsberechtigungen822 Laufende Anpassung an DKRZ-Infrastruktur1053 insgesamt282718
Torsten Rathmann (DKRZ) Speicherung 8 2 Brandabschnitte 7 automatische Oracle/StorageTek SL8500- Bandbibliotheken Hierarchical Storage Management (HSM) > 100 PetaByte Kapazität
Torsten Rathmann (DKRZ) Speicherung 9 8 Roboter je Bandbibliothek Ca Stellplätze für Magnetbandkassetten
Torsten Rathmann (DKRZ) 10 DOI (Digital Object Identifier) für Daten Persistenter IdentifikatorURLLandungsseiteDaten International DOI Foundation (IDF) CrossRef DataCite … GESIS TIB ZB MED ZBW … WDCC am DKRZ PANGAEA … Registrierungsagenturen Allocation Agencies Datenzentren
Torsten Rathmann (DKRZ) 11 Workflow der DOI-Vergabe am WDCC search.datacite.org DOI-Resolver CERA Metadaten CERA Wissenschaftliche Qualitätskontrolle Technische Qualitätskontrolle, Stufe 1 Technische Qualitätskontrolle, Stufe 2 Daten erzeuger World Data Centre for Climate DataCite International DOI Foundation DOI DOI/URL URL DOI
Torsten Rathmann (DKRZ) 12 Zugriff und Nutzung