Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

Michael Lautenschlager (DKRZ) WissGrid AP3 Review, Potsdam 28.01.10 1.

Ähnliche Präsentationen


Präsentation zum Thema: "Michael Lautenschlager (DKRZ) WissGrid AP3 Review, Potsdam 28.01.10 1."—  Präsentation transkript:

1 Michael Lautenschlager (DKRZ) WissGrid AP3 Review, Potsdam

2 2 Inhalt: Hintergrund und Motivation Aktuelle Umsetzung Beispiel: Formatdienste in Klima-Community

3 3 Langzeitarchivierung (LZA): Sicherung der Nachnutzbarkeit Bitstream Preservation: Datenentitäten bleiben erhalten Content Preservation: Datenentitäten bleiben lesbar Data Curation: Datenentitäten bleiben interpretierbar Datenentitäten: Digitale Medien und wissenschaftliche Primärdaten WissGrid LZA Dienste

4 4 LZA-Dienste, LZA-Ebenen und Akteure WissGrid Dienste-Fokus: Content Preservation

5 5 Zentraler Aspekt in Content Preservation: Anpassung vorhandener Datenformate an sich verändernde SW-Werkzeuge Strategie: A)Veraltete Speicherformate in aktuelle Formate konvertieren (z.B. digitale Medien) B)SW-Werkzeuge zum Lesen der Speicherformate auf aktuelle Rechnerarchitekturen migrieren (z.B. hoch volumige Daten aus (Klima-)Modellierung und Erdbeobachtung) WissGrid Fokus für LZA-Dienste auf A): Transformation definierter Formate kann am ehesten automatisiert und als Grid-Dienst implementiert werden.

6 6 LZA-Dienste, die sich aus WissGrid Architektur ergeben: Repository: SW-System, das Daten mit Metadaten im Grid verwaltet Formatkonvertierung: Konvertierung in neue technische Form für dasselbe intellektuelle Objekt Formatcharakterisierung: Auslesen technischer Metadaten aus Dateien Formatvalidierung: Prüft Übereinstimmung von Objekten mit Definition bzw. Charakterisierung Provenienz-Service: Informationen um Entstehung und Modifikation von Daten sollen in LZA-Repositorien integriert werden, um Nachnutzung sicherzustellen WissGrid Dienste Framework (WDF): Stellt LZA-Dienste im Grid zur Verfügung

7 7 LZA-Dienste im OAIS-Ingest als Interface zum Forschungsdatenarchiv (LZA) Formatvalidierung: Prüfung auf Formatfehler beim Einfüllen in Forschungsdatenarchiv (OAIS quality assurance) Formatcharakterisierung: bietet Provenienzinformation. Übergang zu Data Curation und inhaltlichen Metadaten fließend (OAIS general descriptve information) Formatkonvertierung: unterschieden nach migration on ingest, migration on access und migration on obsolence (verschiedene OAIS Referenzen, hier generate AIP) Provenienz-Service: Speicherung der Prozeßinformation, enthalten in OAIS Informationspaketen.

8 8 Formatcharakterisierung und –validierung Funktionaler Ablauf: Identifikation des Datenformats Identifikation des richtigen Formatmoduls Formatmodul parst Daten Anwendung der Validierungskriterien Serialisierung der gewonnenen Metadaten in Zielformat Technische Umsetzung: JHOVE2 wurde entwickelt für Standard- Medienformate, Erweiterung auf NetCDF in Klima-Community im Rahmen von C3-Grid (Details AWI, Bremerhaven) Umsetzung

9 9 Formatkonvertierung Funktionaler Ablauf: Identifikation des Datenformats (z.B. JHOVE) Evaluation der Abhängigkeiten und Entscheidung zur Aggregation in LZA Identifikation des richtigen Konvertermoduls Ausführung des Konvertermoduls und Validierung des Zielformats Generierung von Provenienzmetadaten Technische Umsetzung: CriB und kopal Migration Manager sind Frameworks zur Formatkonvertierung (Prototypen), eigentliche Konvertierung durch externe Dienste Klima-Community: Aggregation von Einzelfiles in Container-Format (tar) CMOR-2: Konvertierung von Modelloutput in NetCDF4 CDOs (Climate Data Operators): Konvertierung in NetCDF, GRIB, ASCII WDCC des DKRZ: Konvertierung NetCDF oder GRIB in ASCII

10 10 Provenienzdienst Funktionaler Ablauf: Metadaten aus Formatcharakterisierung und –validierung werden in XML-Contianer (z.B.OGF-Usage-Record) gespeichert und mit XSLT- Mapping auf Metadaten in LZA Repositorien der Forschungsdatenarchive abgebildet (z.B. PREMIS-Standard für preservation metadata, CERA-2 im WDCC/DKRZ, ISO19115 im C3- Grid)). Technische Umsetzung: (Graphik aus AeroGrid) C3-Grid: Metadaten werden in den einzelnen Datenbearbeitungsschritten der Workflows angepasst

11 11 WissGrid Dienst Framework (WDF) Ablauf einer LZA Aufgabe: 1. Submit: Annahme der LZA- Aufgabe (z.B. Konvertiere TIFF Daten, die älter als zwei Jahre sind, in JPEG 2000) 2. Extract: Filterung der gefragten Daten aus Repository 3. Identify: Auswahl einer verfügbaren CE (computing element), auf der der gefragte Dienst installiert ist 4. Stage-In: Transfer der Daten auf das CE 5. Stage-Out: Annahme der konvertierten Daten, nach Ablauf des Jobs 6. Re-Ingest: Rückführung der Daten in das Repository und Aktualisierung der Metadaten

12 12 Formatdienste in Klima-Community Klimadaten: Hoch volumige, homogene Datensätze von numerischen Modellen und Satelliten, aber auch heterogene Daten aus Instrumentenbeobachtungen Eintrag in Forschungsdatenarchive (LZA): Charakterisierung/Dokumentation (Metadaten) und Konvertierung in LZA-konformes Standardformat Selbstbeschreibendes Standardformat: NetCDF/CF enthält Metadaten zur Formatcharakterisierung und in Ansätzen zur Dateninterpretation Dienste in C3-Grid: Entwicklung von Werkzeugen zur automatischen Metadatenerzeugung aus NetCDF (JHOVE-2), CDO zur Formatvalidierung und –Konvertierung, DB des WDCC/DKRZ zur Formatkonvertierung beim Datenzugriff Dienste IPCC AR5: CMOR-2 (C-Programm) als LZA Schnittstelle zur Formatvalidierung, Charakterisierung und Konvertierung (Modelldatenformat in NetCDF4) und zur Extraktion von Metadaten für den Provenienz-Service


Herunterladen ppt "Michael Lautenschlager (DKRZ) WissGrid AP3 Review, Potsdam 28.01.10 1."

Ähnliche Präsentationen


Google-Anzeigen