Qualitätskontrolle der IPCC-AR5 Daten Martina Stockhause, Michael Lautenschlager, Heinke Höck, Heinz-Dieter Hollweg DACH2010, 24.09.2010
Überblick CMIP5 / IPCC-AR5 CMIP5 Infrastruktur IPCC-AR5 Qualitätskontrollen Martina Stockhause et al. DACH2010 24.09.2010 2 / 20
CMIP5 / IPCC-AR5 Martina Stockhause et al. DACH2010 24.09.2010 3 / 20
CMIP5 / IPCC-AR5 in Zahlen Coupled Model Intercomparison Project (CMIP5) Teilnehmer: ca. 20 teilnehmende Modellierungszentren mit ca. 40 Modellkonfigurationen (i.W. versch. Auflösungen) Experimente: 60 Experimente mit t.w. mehreren Realisationen (Ensemble) über ca. 90 000 Modelljahre ca. 2 Mio. Datensätze von ca. 400 Experimenten Datenumfang: ca. 10 PByte output, davon ca. 2 PByte requested und ca. 1 PByte replicated : IPCC-AR5 Martina Stockhause et al. DACH2010 24.09.2010 4 / 20
Datenstruktur: Datenformat Verwendete Standards: Format: netcdf3 (selbst-beschreibend) Climate and Forecast (CF): Konvention zur Beschreibung von wiss. Parametern gridspec: Konvention zu Gitterdefinitionen Controlled Vocabulary (CMIP5): DRS (Data Reference Syntax) + digital Identifier für die File-Identifizierung CMOR2: Tool zum Eintrag/Kontrolle in Datenheadern Martina Stockhause et al. DACH2010 24.09.2010 5 / 20
Data Reference Syntax (DRS): Datenstruktur: DRS Data Reference Syntax (DRS): Bsp.: CMIP5.output.MPI-M.ECHAM6-MPIOM-LR.rcp45.mon.atmos.v1.tas.r1i1p1. tas_Amon_ECHAM6-MPIOM-LR_rcp45_r1i1p1.nc Martina Stockhause et al. DACH2010 24.09.2010 6 / 20
CMIP5 Infrastruktur Martina Stockhause et al. 24.09.2010 DACH2010 7 / 20
CMIP5 Infrastruktur: Earth System Grid Federation (ESGF) ESGF Partner - PCMDI, BADC, DKRZ : ESG Gateway Daten-Replikation des IPCC-AR5-Subsets der CMIP5-Daten Verteilte Qualitätskontrollen der Daten für Level 2 ESGF Martina Stockhause et al. DACH2010 24.09.2010 8 / 20
CMIP5 Infrastruktur: Earth System Grid Federation (ESGF) Aufgaben der ESGF-Partner: PCMDI: BADC: WDCC / DKRZ: Daten- und Sicherheits- Infrastruktur ESG Metadaten-Infrastruktur METAFOR / CIM Qualitätskontrollen und Datenpublikation (STD-DOI) Martina Stockhause et al. DACH2010 24.09.2010 9 / 20
CMIP5 Qualitätskontrollen Martina Stockhause et al. DACH2010 24.09.2010 10 / 20
Qualitätskontrollen: Überblick Statistical or Record Checks of Data STD-DOI: Double Check of Data and Metadata / Author Approval Scientific Control of Questionnaire Input Martina Stockhause et al. DACH2010 24.09.2010 11 / 20
Qualitätskontrolle: QC Level 1 QC Level 1 (automated conformance checks passed): CMOR2 checks: ESG Publisher checks: Metadata checks: DRS syntax check Axis checks Variable checks (CF standard name, unit) cross-check of file name vs. netcdf header File readable and of size>0 bytes axis and variables recognizable time is monotonic, calendar recognizable METAFOR / CIM conformance (technical validity of questionnaire entries) Martina Stockhause et al. DACH2010 24.09.2010 12 / 20 12 / 16 12 / 16
Qualitätskontrolle: Level 2 File System Data Node Metadata THREDDS Data Server MD on data Metafor / CIM Questionnaire MD on model+simulation Data in prescribed DRS Syntax MD Quality Checks L2 Data Quality Checks L2 QC DB Quality MD Data MD Information MD Metadata Repository Martina Stockhause et al. DACH2010 24.09.2010 13 / 20
Qualitätskontrolle: QC Level 2 QC Level 2 (subjective quality control passed): Performed on IPCC-AR5 subset of CMIP5 data at all ESGF partners Data checks: Check of statistical global values and additional DRS checks Record checks against predefined thresholds for data unchecked by 1. Subjective metadata control by scientist Metadata checks: Martina Stockhause et al. DACH2010 24.09.2010 14 / 20
Qualitätskontrolle: QC Level 2 Daten QC level 2 checks on data (statistical checks): Files Check against table with CMIP5 requirements: - name - unit - cf standard name - field dimensions Time Values Check: - time step ≥ 0 - no identical time points Variables Checks on global time series: statistical values: average, standard deviation, minimum, maximum - check for constant fields and filling value fields - check for runaway points Martina Stockhause et al. DACH2010 24.09.2010 15 / 20
Qualitätskontrolle: L3/STD-DOI Publication DOI Target Page access to data and metadata TIB:DOI Registration Agency STD-DOI MD Information MD STD-DOI Catalogue Filesystem Data Longterm Archive Data Node Metadata QC DB THREDDS Data Server MD on data Metafor / CIM MD on model+simulation +data+quality Quality MD Data MD Information MD Data Quality Checks L3 double checks, cross checks, author approval WDCC:DOI Publication Agency Martina Stockhause et al. DACH2010 24.09.2010 16 / 20
Qualitätskontrolle: QC Level 3 / STD-DOI QC Level 3 (approved by author): Subjective controls (double checks) of data and metadata Author check and approval of data and metadata STD-DOI publication of data: persistent identifiers DOI/URN assigned to persistent data as citation direction E.g. doi:10.1594/WDCC/CMIP5_MXELr4 Martina Stockhause et al. DACH2010 24.09.2010 17 / 20
Zusammenfassung CMIP5 Infrastruktur: Verteilte Datenhaltung in Grid Infrastruktur (ESG) Detaillierte Metadaten (Metafor – CIM) über Modelle, Simulationen und Qualität. Qualitätschecks (Level 1 bis 3) mit Einfluss auf die Zugriffsrechte Durchführung durch die drei ESGF-Partner: PCMDI, BADC, WDCC/DKRZ; Level 3 nur am WDCC Am Ende der Qualitätschecks steht die Datenpublikation nach STD- DOI (dataCite), die eine Zitiervorschrift für die Daten liefert. Metadaten des Questionnaires, aus den Datenheadern und aus den Qualitätskontrollen werden bei der STD-DOI Publikation zusammengeführt. CMIP5 Qualitätskontrollen: Martina Stockhause et al. DACH2010 24.09.2010 18 / 20
WDCC Metadata Concept Relational DB RDF XML WDCC GUI SIMULA- TION ACCESS TOPIC ENTRY MODEL PLAT- FORM WDCC GUI Scientific Portal (e.g. IS-ENES) CERA2 Data Model Information Model performant easy-to-use complete flexible 19 / 20
http://www.wdc-climate.de http://cmip-pcmdi.llnl.gov/cmip5/ http://www.wdc-climate.de http://cmip-pcmdi.llnl.gov/cmip5/ Martina Stockhause et al. DACH2010 24.09.2010 20 / 20
Technische Infrastruktur: Earth System Grid Federation (ESGF) BADC DKRZ PCMDI ESGF Partner: PCMDI, BADC, DKRZ ESG Gateway Replikation des IPCC-AR5 Subsets der CMIP5-Daten Martina Stockhause et al. DACH2010 24.09.2010
Technische Infrastruktur: Earth System Grid Federation (ESGF) Qualitätskontrolle: Workflow STD-DOI Publication 22 / 20