CMIP6 Datenmanagement Daten-bereitstellung Qualitätsprüfung

Slides:



Advertisements
Ähnliche Präsentationen
Cadastre for the 21st Century – The German Way
Advertisements

Rechnernetze und verteilte Systeme (BSRvS II)
Daten- und Informationsdienste
Sebastian Peters TIB-Workshop zur DOI-Registrierung 3. November 2011 DataCite Technik Vertiefung.
DissOnline / Digitale Dissertationen Dr. P. Schirmbacher Offene Standards und internationale / nationale Abstimmung Gliederung: 1.Open Archive.
Objektrelationales Mapping mit JPA Getting Started Jonas Bandi Simon Martinelli.
Michael Haverbeck System Engineer
GIS Web Services mit Geoserver Oliver Archner BayCEER 2010.
SharePoint 2010 for Information Architects
7th German CDISC User Group Basel, 11. März 2010 Willkommen zum Define.xml Workshop.
Agenda 13: Begrüßung & Einführung in das Thema
Getting Started Persistente Domänenmodelle mit JPA 2.0 und Bean Validation.
WissGrid AP3: LZA Dienste
Virtuelle Forschungsumgebungen
3. Juni 2003Moritz Petersen Minimales Markup und Templates zur Erstellung von strukturierten Texten Ein Zwischenbericht zur Diplomarbeit.
M&D- Status Seminar Datenanfragen Verfügbare Datensätze Nachfrage zu den Datensätzen Metadaten Benutzer-Anfragen Information/Schulung Probleme To Do Liste.
Qualitätskontrolle der IPCC-AR5 Daten
M. Lautenschlager (M&D/MPIM) / / 1 WDC Konsortium Meeting Oberpfaffenhofen, 24/ )CERA-DB 2)WDCC Homepage 3)DLR EOWEB Zugang 4)Kostenmodell.
->Prinzip ->Systeme ->Peer – to – Peer
Oracle Portal think fast. think simple. think smart. Dieter Lorenz, Christian Witt.
SiPass standalone.
Ralf M. Schnell Technical Evangelist Microsoft Deutschland GmbH
Literary Machines, zusammengestellt für ::COLLABOR:: von H. Mittendorfer Literary MACHINES 1980 bis 1987, by Theodor Holm NELSON ISBN
Frameworks
3rd Review, Vienna, 16th of April 1999 SIT-MOON ESPRIT Project Nr Siemens AG Österreich Robotiker Technische Universität Wien Politecnico di Milano.
Collaborative Research Online: Knowledge management pilot project on Haskala Dr. Rachel Heuberger, Judaica Abteilung, Universitätsbibliothek Frankfurt.
COPSGOPD-PHASEWORLD Scientific community DFG rules for good scientific practice Maintenance of long term archive COPS/GOP/D-PHASE Common Data Policy WDCC.
Wissenschaftliche Kommunikations-Infrastruktur Workshop CIDOC CRM SIG Meeting Germanisches Nationalmuseum, Nürnberg May 19, 2015 Mark Fichtner Germanisches.
Physik multimedial Lehr- und Lernmodule für das Studium der Physik als Nebenfach Julika Mimkes: Links to e-learning content for.
Gregor Graf Oracle Portal (Part of the Oracle Application Server 9i) Gregor Graf (2001,2002)
D. Sturzebecher, Institut für Betriebssysteme und Rechnerverbund, TU-Braunschweig Tele-Teaching with MACS n Tele-Teaching Requirements and Scenarios n.
Für was, wen, wann und überhaupt? DEVOP PART IV: DSC – DESIRED STATE CONFIGURATION.
Lync and Learn mit Manfred Helber Thema heute: Überblick der Leistungserweiterungen von Windows Server 2016 Start: 9.30 Uhr 30 Minuten Vortrag & Demo 30.
Seminararbeit Release Management von Web-Systemen Minh Tran Lehrstuhl für Software Engineering RWTH Aachen
242/102/49 0/51/59 181/172/166 Primary colors 248/152/29 PMS 172 PMS 137 PMS 546 PMS /206/ /227/ /129/123 Secondary colors 114/181/204.
Tobias Weigel, Merret Buurman (DKRZ) Tobias Weigel, Merret Buurman Deutsches Klimarechenzentrum (DKRZ) RDA-Deutschland-Training: Persistente Identifikatoren.
Michael Lautenschlager (DKRZ) Michael Lautenschlager Deutsches Klimarechenzentrum (DKRZ) (1) WCRP-WGCM Infrastructure Panel (WIP) (2) DKRZ CMIP Datenpool.
Torsten Rathmann (DKRZ) Torsten Rathmann Deutsches Klimarechenzentrum (DKRZ) Datenmanagement am DKRZ PubFlow Workshop 18. März 2014.
Linde AG : Transparent data enable efficient plant engineering
SAS Backstage Biljana Gigić1, Andreas Deckert2
Christine Stohn.
CMIP6-DICAD – FU Berlin Thomas Schartner
Nationalparkverwaltung Niedersächsisches Wattenmeer
WS2016: Container von A bis Z
Web App-Entwicklung – der richtige Technologiemix macht’s
Datenaustausch und Interoperabilität
The IT–Information System
Premiere Conferencing GmbH
Software Configuration Manager (f/m)
Daten Management in COSYNA
Prof. Dr. Dieter Steinmann – Hochschule Trier
TIB-FIS-Discovery Tatiana Walther
Brainstorming model hierarchy? [ich glaube nicht, dass wir eine Hierarchie definieren können; Gruppen ja] Core Model, technology specific models, purpose.
Tv12: MDI-DE – Stand Juni Juni 2012 Christoph Wosniok.
Multimedia-Auris Projekt
Continuous Integration mit TeamCity
Chapter 5 – Dynamic programs
Metadata - Catalogues and Digitised works
IT QM Part2 Lecture 7 PSE GSC
UrMEL und Langzeitarchivierung mit KolibRi/Kopal-Dias
Basiskomponente Bibliothek Informationsveranstaltung
7th German CDISC User Group Basel, 11. März 2010
Von Oracle Reports zum BI Publisher
ESciDoc München, 4. Juli 2007.
eSciDoc als Plattform für die Wissenschaft Anwendungen und Szenarien
CSL211 Computer Architecture
OFFICE 365 FOCUS SESSION SHAREPOINT ONLINE 101:LERNE DIE BASICS 19. März 2018 Höhr-Grenzhausen.
Integrating Knowledge Discovery into Knowledge Management
Konzeption und Institutionalisierung des FDM — aus der Erfahrung eines Forschungsprojekts in den digitalen Geisteswissenschaften Teil 2: Die Perspektive.
Eine Präsentation von Heiko Gericke
 Präsentation transkript:

CMIP6 Datenmanagement Daten-bereitstellung Qualitätsprüfung Der DKRZ CMIP Datenpool ESGF Datenpublikation Demo ESGF Portal Large Scale Data Project meet RDA 5th Plenary Session RDA adoption benefits from perspective of a national service provider, embedded into a set of international climate data management e-infrastructure projects DKRZ  broader context (ESGF, EUDAT, IS-ENES, WDCs) Das DKRZ Datenmanagement Team: Stephan Kindermann, Katharina Berger, Hans Dieter Hollweg, Carsten Ehbrecht, Tobias Weigel

Einordnung in den CMIP6 Daten-Workflow ESGF replication DKRZ ESGF Langzeit- Archiv WDCC IPCC-DDC Cera DKRZ CMIP Datenpool ESMValTool CMIP Standards Errata/Annotation Neue Versionen temporärer Speicher PID-Registrierung Zitierung ESGF-Publikation Qualitätskontrolle ------ Q-A ----- Checking Metadata OK ... OK ... ... Passed! 04.04.2019

Datenqualitätskontrolle (QA) Ziel: Überprüfung der CMIP6 Daten auf „CMIP6 Konformität“ vor der Bereitstellung Konformitätskriterien: CMIP6 CVs und Konventionen (e.g. CMOR), Einhaltung des CF Standards, Konsistenzeigenschaften (z.B. temporal) Das DKRZ CMIP6 QA Werkzeug Evolution des DKRZ QA Werkzeugs für CMIP5 und CORDEX Flexible Konfiguration und einfache Installation Ergebnis: strukturierte QA reports Anwendungsbereiche: Durch Modellierungszentren vor der Datenablieferung Durch das DKRZ als „Eingangs-Kontrolle“ vor der ESGF Publikation Zum „Spot-checking“ einzelner files basiend auf DKRZ Web-Dienst 04.04.2019

Datenqualitätskontrolle (QA) NetCDF File Minimum Requirements BASH NetCDF File CF Conventions Tables area-type-table.xml cf-standard-name.table standardized-region-name.html Rules (PDF) → check-list.conf Options CF_FOLLOW_RECOMMEND. CF_NOTE_ALWAYS=L1 … Project Configuration DISABLE_INF_NAN EXCLUDE_ATTRIBUTE= comment, history, … NON_REGULAR_TIME_STEP OUTLIER_TEST= … REPLICATED_RECORD= … USE_STRICT Project Tables check-list DRS-CV→ machine read. rules experiment-table .txt Model Output Requirements time-table File Object access to file container of objects managing  input from NetCDF files. run a C++ NC-API get and hold all the meta-data   (variables’ & global attributes) run the CF Conventions checks NC-API use of the NetCDF libraries (The NetCDF C Interface Guide) by the QA C++ NC-API read meta-data and non-time-dependent variables only once Meta-Data Store Easy access to M-D of variables global attributes main basic C++ program return status and annotations  to ‘ground-control’ Embedded objects: generation is triggered by  option strings access to each other both  horizontally and vertically polymorphic inheritance Annotations gathered from two objects reported back to CF Conventions Check NetCDF Climate and Forecast (CV) Metadata Conventions Versions: 1.4 - 1.6 8-9 Chapters of rules DKRZ Quality Assurance (QA) Data Reference Syntax (DRS) Controlled Vocabulary (CV) Variable Requirements (CMIP Model Output Requir.) Time Properties Consistency between sub-temporal files (and the parent experiment) Data Checks infinity and not-a-number outlier tests replicated record detection Note: every check may be disabled main File Annotations NC-API M-D Store CF Conv. Checks QA Time Data Consistency between sub-temporal files DRS CV Variable Requirements (CMOR) Project Rules CF Conventions Tables User-modified Directives Project Configuration & Tables 04.04.2019

Datenqualitätskontrolle Ergebnis: strukturierte „QA reports“, z.B. Siehe auch: http://qa-dkrz.readthedocs.io/en/latest/userguide/results.html 04.04.2019

Datenqualitätskontrolle Das QA-DKRZ Werkzeug Sources: GitHub https://github.com/IS-ENES-Data/QA-DKRZ Binaries conda install -c birdhouse -c conda-forge qa-dkrz Documentation: ReadTheDocs.org http://qa-dkrz.readthedocs.io/en/latest 04.04.2019

CMIP6 QA „spot-checking“ Web basierte Möglichkeit um schnell einzelne files zu prüfen Erste Test-Version realisiert basierend auf dem DKRZ Web Processing System „birdhouse“: https://bovec.dkrz.de Operationalisierung während des Projektverlaufs 04.04.2019

CMIP6 QA „spot-checking“ Status: + Mehrere alternative Werkzeuge zur QA Überprüfung - Generisches, nicht spezifisch angepasste graphische Interfaces  Anpassung und Operationalisierung basierend auf Nutzer feed back während des CMIP6-DICAD Projektverlaufs 04.04.2019

Einordnung in den CMIP6 Daten-Workflow ESGF replication DKRZ ESGF Langzeit- Archiv WDCC IPCC-DDC Cera DKRZ CMIP Datenpool ESMValTool CMIP Standards Errata/Annotation Neue Versionen temporärer Speicher PID-Registrierung Zitierung ESGF-Publikation Qualitätskontrolle ------ Q-A ----- Checking Metadata OK ... OK ... ... Passed! 04.04.2019

ESGF Datenpublikation CMIP6 Daten werden über einen „ESGF Datenknoten“ bereitgestellt und über einen „ESGF Indexknoten“ in der Föderation sichtbar gemacht. Alternative 1: Nutzung des DKRZ Daten- und Index-knotens Datenübergabe an DKRZ (siehe später), ESGF Publikation am DKRZ Alternative 2: Nutzung eines eigenen Datenknotens Installations-Support durch DKRZ CMIP6 Datenpublikation auf den DKRZ Indexknoten Verantwortlicher Ansprechpartner im „CMIP6 Operations Team“ (CDNOT) Alternative 3: Nutzung eines eigenen Daten- und Indexknotens Wie Alternative 2 + Nutzung des lokalen Index-knotens für eigene (nicht CMIP6 Datenprojekte) 04.04.2019

ESGF Datenpublikation und PID Registrierung Datenqualitätsprüfung Modellauf Daten-vorbereitung Daten-verteilung Daten- Archivierung ESGF Datenpublikation IS-ENES CMIP6 files enthalten persistente Identifikatoren: „tracking_id“ netcdf Attribut Format: hdl:21.14100/<uuid> Automatisierte Registrierung als Teil der ESGF Publikation PID Registrierung DKRZ verantwortlich für CMIP6 PID Infrastruktur DKRZ agiert als Replikations-Zentrum 04.04.2019

Vorteile der PID Verwendung: File: 10876/ESGF/a9b1bfbc-4b73-4295-8ed6-6b586bf1be02 Key Value URL http://bmbf-ipcc-ar5.dkrz.de/thredds/fileServer/obs4MIPs/observations/FUB-DWD/Obs-SSMI-MERIS/obs/mon/atmos/prw/prwErr_SSMI-MERIS_L3_v1-00_200301-200812.nc DRS name prwErr_SSMI-MERIS_L3_v1-00_200301-200812.nc Publication date 2014-06-16 Checksum (MD5) F49ee38e24e819b5d04c534f6ed7b375 Size 50989760 Parent 10876/ESGF/4ee9d37b-6454-44bf-b3ef-e738b2ecedb4 Nutzer mit CMIP6 files PID Resolver Werkzeuge / Tools hdl:21.14100/<uuid> Landing page mit Kontextinformationen Neuere, frühere Versionen Replikate Kollektionen (Zeitserien, Experimente,..) Automatisierte Konsistenzprüfungen Ort, Technologie unabhängige Datenverwaltung Replikation, … Zusatzinformationen Errata, .. 04.04.2019

CMIP6 PID landing page landing page Dienst am DKRZ Obs4Mips example: http://esgf-data.dkrz.de/search/esgf-dkrz/?project=obs4MIPs&institute=FUB-DWD&source_id=SSMI-MERIS&variable=prw&time_frequency=mon landing page Dienst am DKRZ 04.04.2019

Einordnung in den CMIP6 Daten-Workflow ESGF replication DKRZ ESGF Langzeit- Archiv WDCC IPCC-DDC Cera DKRZ CMIP Datenpool ESMValTool CMIP Standards Errata/Annotation Neue Versionen temporärer Speicher PID-Registrierung Zitierung ESGF-Publikation Qualitätskontrolle ------ Q-A ----- Checking Metadata OK ... OK ... ... Passed! 04.04.2019

ESGF Publikation neuer Versionen CMIP6 Neuerung: werden Daten durch neue Versionen ersetzt ist die Angabe von „Errata“ Informationen erforderlich Die Eingabe und Verwaltung von Errata Informationen wird zentral unterstützt Errata Information sind im ESGF Datenportal sichtbar und suchbar 04.04.2019

Einordnung in den CMIP6 Daten-Workflow ESGF replication DKRZ ESGF Langzeit- Archiv WDCC IPCC-DDC Cera DKRZ CMIP Datenpool ESMValTool CMIP Standards Errata/Annotation Neue Versionen temporärer Speicher PID-Registrierung Zitierung ESGF-Publikation Qualitätskontrolle ------ Q-A ----- Checking Metadata OK ... OK ... ... Passed! 04.04.2019

Der DKRZ MIP Datenpool CMIP5 Erfahrung: Bedarf nach zentral gepflegtem Pool von oft benötigten Daten Vermeidung von unkoordinierten, inkonsistenten Kopien bei einzelnen Forscher-gruppen Beträchtlicher Zusammenführungs- und Pflege-Aufwand Schrittweise Etablierung eines DKRZ MIP Datenpools Speicherung auf zentralem Mistral Lustre File-System (initial: ~ 5 PByte) Initialbestand: CMIP5 und CORDEX Daten (~1.5 PByte) DE CMIP6 Daten + Replikation von CMIP6 Daten anderer Modelierungsgruppen Bereitstellung oft benötigter Daten zur CMIP6 Datenanalyse (z.B. Beobachtungsdaten)  Etablierung eines transparenten Verwaltungsprozesses 04.04.2019

DKRZ MIP Datenpool IS-ENES Datenföderation ESGF Datenföderation Copernicus Climate Data Store DKRZ ESGF Knoten Daten / Compute Schnittstellen Opendap ESGF search API OGC WPS …. DKRZ MIP Datenpool CMIP5 DKRZ Langzeitarchiv (WDC Climate IPCC DDC) CORDEX Gemountetes Filesystem DKRZ Mistral Rechner CMIP6 Abgeleitete Produkte Analyse Input 04.04.2019

Der DKRZ MIP Datenpool Informations-Sammlung, Sammlung von Requirements, use-cases für den MIP Datenpool initial unter https://redmine.dkrz.de/projects/dkrz_cdp/wiki DKRZ Unterstützung der CMIP6 bezogenen Datenbereitstellung: Abgabe von deutschen CMIP6 Daten zur Publikation über den DKRZ ESGF Knoten Anforderung von CMIP6 Daten anderer Modellierungszentren (Replikation) Bereitstellung von zur Analyse benötigten Daten 04.04.2019

Formulare für den Daten-Ingest Erzeugung persönlicher Formulare basierend auf vordefinierten templates Demo: https://qc.dkrz.de:8080/notebooks/Create_Submission_Form.ipynb Password: dkrz_data_2016 04.04.2019

Formulare für den Daten-Ingest Interaktive Angabe benötigter Informationen (Experimentzugehörigkeit, Variablen, QA Status, Zugriffsbeschrängungen, ..) 04.04.2019

Formulare für den Daten-Ingest Konsistenzprüfung vor der Kontaktaufnahme mit dem Datenzentrum 04.04.2019

Formulare für den Daten-Ingest: Replikation Spezifikation einer Replikations- Anforderung 04.04.2019

Organisation des Dateneintrags in den CMIP Pool Tickting System Data provider Submission form --- Informations-Sammlung CMIP6+ Data pool Daten-Einbringung Daten-Übernahme Verwaltungsinformation Qualitätsprüfung CMIP6+ Data pool ingest requestor ESGF Datenpublikation Langzeitarchivierung Nutzerkommunikation über e-mail (Ticketing System) Formular-basierte Kommunikationsunterstützung online Formulare offline Formulare Entwicklung von automatisierten Werkzeugen zur Informationsverwaltung und Darstellung 04.04.2019

Einordnung in den CMIP6 Daten-Workflow ESGF replication DKRZ ESGF Langzeit- Archiv WDCC IPCC-DDC Cera DKRZ CMIP Datenpool ESMValTool CMIP Standards Errata/Annotation Neue Versionen temporärer Speicher PID-Registrierung Zitierung ESGF-Publikation Qualitätskontrolle ------ Q-A ----- Checking Metadata OK ... OK ... ... Passed! 04.04.2019

Demo 04.04.2019

.. Danke, Fragen ? 04.04.2019