Langzeitarchivierung am DKRZ Langzeitarchivierung am D K R Z Workshop Archivierung sozial- und wirtschaftswissenschaftlicher Datenbestände Deutsche.

Slides:



Advertisements
Ähnliche Präsentationen
Primary Data for Chemistry
Advertisements

DataCite Jan Brase, TIB & DataCite 3. November 2011 TIB-Workshop zur DOI-Registrierung Hannover.
MIRAKEL Die Klimadatenbank des DWD
Prof. Dr. Günter Törner Dipl-Math. Thorsten Bahne
Sebastian Peters TIB-Workshop zur DOI-Registrierung 3. November 2011 DataCite Technik Vertiefung.
CLRC - Daresbury Laboratory, Kerstin Kleese - van Dam CLRC e-Science Centre Klimadatenarchive im United Kingdom Kerstin Kleese -van Dam
Methods Fuzzy- Logic enables the modeling of rule based knowledge by the use of fuzzy criteria instead of exact measurement values or threshold values.
Nestor Workshop im Rahmen der GES 2007 Digitale Langzeitarchivierung und Grid: Gemeinsam sind wir stärker? Anforderungen von eScience und Grid-Technologie.
Nicolas Frings Maximilian Bernd Stefan Piernikarcyk
Archival and Discovery
WissGrid AP3: LZA Dienste
FME Server als multidimensionale Rasterdatendrehscheibe
Virtuelle Forschungsumgebungen
3rd Review, Vienna, 16th of April 1999 SIT-MOON ESPRIT Project Nr Siemens AG Österreich Robotiker Technische Universität Wien Politecnico di Milano.
M&D- Status Seminar Datenanfragen Verfügbare Datensätze Nachfrage zu den Datensätzen Metadaten Benutzer-Anfragen Information/Schulung Probleme To Do Liste.
Technische Implementation von CERA Hannes Thiemann Max-Planck-Institut für Meteorologie Modelle und Daten zmaw.de Jena, 24. Januar 2007.
M.Lautenschlager (WDCC, Hamburg) / / 1 HLRE ( 1 ) und Langzeitdatenarchivierung Michael Lautenschlager World Data Center for Climate (M&D/MPIMET,
Michael Lautenschlager World Data Center for Climate
M. Lautenschlager (M&D/MPIM) / / 1 WDC Konsortium Meeting Oberpfaffenhofen, 24/ )CERA-DB 2)WDCC Homepage 3)DLR EOWEB Zugang 4)Kostenmodell.
CLM Konsortialrechnungen bei Modelle und Daten (M&D) Martina Schubert CLM-Community Assembly 2007 (Langen)
Integration existierender digitaler Bibliotheken in Lernumgebungen LEBONED (Learning Environment Based On Non Educational Digital Libraries) Dipl.-Inform.
M. Lautenschlager (M&D/MPIM)1 Beständige Indikatoren und Langzeitarchivierung Michael Lautenschlager Modelle und Daten Max-Planck-Institut für.
Daten- wo bleiben sie? Bernd Richter.
Literary Machines, zusammengestellt für ::COLLABOR:: von H. Mittendorfer Literary MACHINES 1980 bis 1987, by Theodor Holm NELSON ISBN
? What is Open PS? SAP Open PS based on EPS 4.0
1 Linked Open Data Klaus Tochtermann ZBW – Leibniz Information Centre for Economics Hamburg/Kiel Christian-Albrechts-University Kiel Sept. 7, 2011.
COPSGOPD-PHASEWORLD Scientific community DFG rules for good scientific practice Maintenance of long term archive COPS/GOP/D-PHASE Common Data Policy WDCC.
Physik multimedial Lehr- und Lernmodule für das Studium der Physik als Nebenfach Julika Mimkes: Links to e-learning content for.
Gregor Graf Oracle Portal (Part of the Oracle Application Server 9i) Gregor Graf (2001,2002)
Der AUDITOR Der Rohstoffinformationsdienst The commodity information service.
Geographisches Institut – Bibliothek Seite 1 Library Lunchtime Learning Wissenschaftliche Suchmaschinen Barbara Grossmann & Gary Seitz.
Basic Scientific Knowledge Climate Change CLIM-CAP Training Pilot Module 1: Basic scientific knowledge - Climate change scenarios - "With the support of.
Ralf Stockmann, Stefan Schmunk SUB Göttingen, Abteilung Forschung & Entwicklung Forschungsdaten in Raum und Zeit.
Dr. Michalis Tzatzanis FFG – Austrian Research Promotion Agency 17 Feb OPEN CALLS IN HORIZON 2020.
Dedizierte Systeme - Anna Job Universität zu Köln – IT-Zertifikat – WS 08/09 Digital library software Greenstone.
BPE- Veröffentlich zur Solarenergie1 Result in Energy –Production 2008 – ,5 kWp.
Monitoring System in the federal state of Saxony-Anhalt, Germany Meeting on monitoring systems , May 2012, Prague Christine Makiol,
Torsten Rathmann (DKRZ) Torsten Rathmann Deutsches Klimarechenzentrum (DKRZ) Datenmanagement am DKRZ PubFlow Workshop 18. März 2014.
Daniel Opitz Dr. Elmar Haake
Google & Co.: Forschungsdaten
Datenaustausch und Interoperabilität
Das „Volltextsymbol“ - Ein Service der Datenbankanbieter
BLok – Das Online-Berichtsheft Referent Andreas Ueberschaer (BPS GmbH)
Neue Entwicklungen im GeoPortal.rlp
© ISY Informationssysteme GmbH
Informationsveranstaltung Forschungsdatenmanagement
Investitionen sichern - wachse mit Forms in die neue Welt
University for Health Sciences, Medical Informatics and Technology
Tv12: MDI-DE – Stand Juni Juni 2012 Christoph Wosniok.
Sabrina Kistner, nestor-Geschäftsstelle Deutsche Nationalbibliothek
UrMEL und Langzeitarchivierung mit KolibRi/Kopal-Dias
Web-Kartografie in der amtlichen Statistik Deutschlands − Regionale Statistik, Bundes- und Europawahlen, zukünftige Aktivitäten − Arbeitsgruppentreffen.
Open Educational Ressources - eine sehr kurze Definition
Langzeitarchivierung in der MPG eSciDoc
Friederike Kleinfercher Abteilung Forschung und Entwicklung
Fleet Management.
eSciDoc eScience Infrastruktur fuer digitale Assets
Primärdaten Malte Dreyer Bonn,
eSciDoc in der MPG: Wohin geht die Reise?
eSciDoc als Plattform für die Wissenschaft Anwendungen und Szenarien
PI Infrastruktur in der Max-Planck-Gesellschaft
Official Statistics Web Cartography in Germany − Regional Statistics, Federal and European Elections, Future Activities − Joint Working Party meeting.
Abschluss-Keynote Captain Future
Integrating Knowledge Discovery into Knowledge Management
Konzeption und Institutionalisierung des FDM — aus der Erfahrung eines Forschungsprojekts in den digitalen Geisteswissenschaften Teil 2: Die Perspektive.
Weiterentwicklung der Eingliederungshilfe
Forschungsdatenmanagement in den Regionalwissenschaften am Beispiel des GIGA German Institute of Global and Area Studies Dr. Birte Pfeiffer GIGA German.
SOFTWARE- UND WEB-LÖSUNGEN
Open Access und Open Educational Resources in den Ingenieurwissenschaften Untersuchung rechtlicher, organisatorischer, finanzieller und reputationsbezogener.
Die Messung der Zunahme der Meeresspiegels
 Präsentation transkript:

Langzeitarchivierung am DKRZ Langzeitarchivierung am D K R Z Workshop Archivierung sozial- und wirtschaftswissenschaftlicher Datenbestände Deutsche Nationalbibliothek Frankfurt 15./16. Sept Hans Luthardt DKRZ/DM

Langzeitarchivierung am DKRZ Introduction to DKRZ DKRZ Mission Deutsches Klimarechenzentrum: höchste Rechenleistung, ausgereiftes Management größter Datenmengen und kompetenter Service garantieren erstklassige Klimaforschung.

Langzeitarchivierung am DKRZ Rechnerhardware 158 TeraFlops (158 * Gleitkommaoperationen / Sekunde) 264 IBM Power6-Rechnerknoten 16 Dual-Core-Prozessoren pro Knoten (insgesamt Kerne) Mehr als 20 TeraByte Hauptspeicher 7 PetaByte Festplattenspeicher (7 * Byte) Infiniband-Netzwerk mit 7,6 TeraByte/s aggregierter Übertragungsrate grün = Festplatten des Höchstleistungsrechner „Blizzard“ orange = Höchstleistungsrechner „Blizzard“ rot = Schaltzentrale (Infiniband) des Höchstleistungsrechners „Blizzard“

Langzeitarchivierung am DKRZ Entwicklung der Rechenleistung

Langzeitarchivierung am DKRZ Datenspeicher 7 automatische Sun StorageTek SL8500-Bandbibliotheken ‏ 8 Roboter je Bibliothek mehr als Stellplätze für Bänder mit Gesamtkapazität von ca. 100 Petabyte 88 Bandlaufwerke bidirektionale Bandbreite von 5 GigaByte/s

Langzeitarchivierung am DKRZ Entwicklung der Datenspeicherung

Langzeitarchivierung am DKRZ Datenspeicherung : Filesbasiert

Langzeitarchivierung am DKRZ WDCC – Word Data Center on Climate Start: Approved in January 2003 Maintenance: Model and Data (M&D/MPIMET) and German Climate Computing Centre (DKRZ) Mission: Data for climate research are collected, stored and disseminated ICSU Policy: long-term archiving and unrestricted data access for scientists Restriction: Only climate data products in CERA DB, no raw data storage. Content: Emphasis is spent on climate modelling and related data products. Co-operation: with thematically corresponding data centres like WDC- MARE (Bremen) and WDC-RSAT (Oberpfaffenhofen) URL:

Langzeitarchivierung am DKRZ WDCC – Word Data Center on Climate Approved in 2003 Hosts several projects and Data Centres WDCC operates as a long-term data archive (10years +) WDCC is implemented within the CERA data and information system. Data are stored in conjunction with metadata. WDCC offers the publication service for primary data. (DOI) Approximately 5 person staff and 500 TB of data. Increase of a 1 PB/year starting in year 2011 CERA: General Statistics at :00:18 Internal data Database Size (TByte): 434 Number of container: Number of blobs:

Langzeitarchivierung am DKRZ Klimadaten Climate model results from global and regional climate models from different climate modelling centres CCCma, CCSR/NIES, CSIRO, GFDL, HADLEY, MPIfM, NCAR based on IPCC-emission scenarios Data from scientific projects HOAPS (satellite data), CARIBIC (civil aircraft data), GOP, COPS, CEOP Model like Observations Reanalyses data

Langzeitarchivierung am DKRZ Aufbereitung der Datensätze - Benutzerbedürfniss - Reduzierung der herunterzuladenden Datensatzvolumen - Verkleinerung der Transfervolumens

Langzeitarchivierung am DKRZ Das CERA (Climate and Environmental Retrieval and Archikving) Metadaten-Modell stellt die Basis der WDCC dar. 12 CERA-2 als Basis der WDCC Datenspeicherung

Langzeitarchivierung am DKRZ CERA-2 Modell

Langzeitarchivierung am DKRZ Datenstruktur – Datengranularität Climate Model Raw Data Application-oriented Data Storage (Interface level 2) Primary Data Processing

Langzeitarchivierung am DKRZ WDCC Datenzugriff

Langzeitarchivierung am DKRZ Web Portal der CERA- Datenbank : Suchen und Download

Langzeitarchivierung am DKRZ Datenspeicherung : S emantisch-Datenhaltung CERA: General Statistics at :00:18 Metadata Number of projects: 80 Number of experiments: 1439 Number of ds groups: 280 Number of datasets: Number of add_info: 237 Internal data Database Size (TByte): 434 Number of container: Number of blobs:

Langzeitarchivierung am DKRZ Downloads aus dem WDCC

Langzeitarchivierung am DKRZ Datenvolumen 10-fache Rechenzeit! >6-fache Datenmenge!

Langzeitarchivierung am DKRZ Langzeitarchivierung am DKRZ Service wird angeboten für: Nutzer des DKRZ : - aus den Einrichtungen der Gesellschafter entsprechend ihren Anteil - aus dem BMBF-Anteil geförderten Nutzen Externe Nutzen : gegen Kostenerstattung Geplante Speicherkapazität pro Jahr : 2 PetaByte

Langzeitarchivierung am DKRZ DFG-Request zur Archivierung von Forschungsdaten Empfehlungen zur gesicherten Aufbewahrung und Bereitstellung digitaler Forschungsprimärdaten Stand Forschungsprimärdaten bilden einen wertvollen Fundus an Informationen, die mit hohem finanziellem Aufwand erhoben werden. Je nach Fachgebiet und Methode sind sie replizierbar oder basieren auf nicht wiederholbaren Beobachtungen oder Messungen. In jedem Fall sollten die erhobenen Daten nach Abschluss der Forschungen öffentlich zugänglich und frei verfügbar sein. Dieses ist die wesentliche Voraussetzung dafür, dass Daten im Rahmen neuer Fragestellungen wieder genutzt werden können sowie dafür, dass im Falle von Zweifeln an der Publikation die Daten für die Überprüfung der publizierten Ergebnisse herangezogen werden können veröffentlichte die DFG „Vorschläge zur Sicherung guter wissenschaftlicher Praxis“ mit 16 Empfehlungen. Die Empfehlung 7 lautet „Primärdaten als Grundlagen für Veröffentlichungen sollen auf haltbaren und gesicherten Trägern in der Institution, wo sie entstanden sind, für zehn Jahre aufbewahrt werden.“ …

Langzeitarchivierung am DKRZ Datenvolumen Horizontalauflösung des Klimamodells – T42: 128 * 64 = 8192 Punkte pro Globalfeld – T106: 160 * 320 = Punkte pro Globalfeld Erforderliche Speichereinheiten (GRIB Format) – Horizontalfeld (Zugriffseinheit): 17.1 kB (T42) kB (T106) – Unix Filegröße für monatsweise akkumulierte Ergebnisse mit 6 Std. Speicherintervall und 300 2d Variablen (Physikalische Einheit): 616 MB (T42) 3500 MB (T106) – 240 Jahre Modellintegration (Logische Einheit): 1.7 TB (T42) 10 TB (T106)

Langzeitarchivierung am DKRZ Kostenfaktoren Kostenfaktoren bei der Langzeitarchivierung: Arbeitsaufwand bei Beratung, Einrichtung, Erstellung und Prüfung er Metadaten, ggf. Preprocessing, Einfüllen Rechenzeit Datenträger (für 10 Jahr) Betriebskosten: Datenarchiv, Internetzugang,...

Langzeitarchivierung am DKRZ Workflow

Langzeitarchivierung am DKRZ Erzeugungstools für Metadaten

Langzeitarchivierung am DKRZ Qualitätskontrolle - Durch den Datenerzeuger :  wissenschaftliche Korrektheit  Richtigkeit und Vollständigkeit der Metadaten  Konsistenz von Daten/ und Metadaten im Langzeitarchiv - Durch Datenmanagement :  Korrektheit des Postprozessrings/Dateneinfüllens  Konsistenz und Vollständigkeit der Datensätze  Überprüfung der Zugriffs/Download-Machanismen

Langzeitarchivierung am DKRZ DOI - Vergabe

Langzeitarchivierung am DKRZ WDC-Climate hosted data in the catalogue at TIB Hannover

Langzeitarchivierung am DKRZ Climate Model  Earth System Model

Langzeitarchivierung am DKRZ Viele Dank für die Aufmerksamkeit

Langzeitarchivierung am DKRZ Gesellschafter Betriebskosten (10-12 Mio. € /Jahr) Investitionen durch BMBF: 34 Mio. € für aktuelle Rechnersysteme 4 Abteilungen: Anwendung, Systeme, Datenmanagement, Verwaltung ca. 65 Mitarbeiter