Langzeitarchivierung von Klimamodelldaten am Beispiel WDC Climate und DKRZ Michael Lautenschlager (WDCC / MPI-M, Hamburg) Wolfgang Stahl (DKRZ, Hamburg)

Slides:



Advertisements
Ähnliche Präsentationen
Empfehlungen Kurzfristig Mittelfristig Langfristig Prozesse
Advertisements

- Einführung eines PACS am USZ -
2. November 2004 Iomega Corporation André Armstrong Product Marketing Manager - New Technologies EMEA.
Monitoring - Wärmepumpen im Gebäudebestand
Daten - Sicherung Begriffsdefinition Arten der Datensicherung
Organisations- und Geschäftsmodelle
„Ansicht Arbeitsbereich“ ist die nutzerspezifische Ansicht, in der alle Dokumente aufgelistet sind, die dem angemeldeten Benutzer zugeordnet sind. D.h.
PADLR Submodul Modular Content Archives Ein Content Browser für Lehr- materialien aus der Elektrotechnik Dipl.-Ing. Mark Painter Institut für Nachrichtentechnik.
Dr. Klaus-Rainer Brintzinger, Universität Tübingen
Digitale Bibliotheken
Vizepräsident für Personal und Finanzen
ATHOS Benutzertreffen 12. November Archivierung Glashütten, 12. November 2008 HighQSoft GmbH, Karst Schaap
Klimawandel CO2 (ppm) WS 05/06 Joachim Curtius
Vorlesung: 1 Betriebliche Informationssysteme 2003 Prof. Dr. G. Hellberg Studiengang Informatik FHDW Vorlesung: Betriebliche Informationssysteme Teil2.
Introducing the .NET Framework
Methodenmodul MT1 im WS 2008/2009
Access 2000 Datenbanken.
Ausblick: Rekonstruktionen und Szenarien Hans von Storch Institut für Küstenforschung GKSS Forschungszentrum Coastdat Workshop, Hamburg, 5-6 Oktober 2006.
Intelligentes Crawling im WWW mit Hilfe intuitiver Suchbedingungen
Die Wechselwirkungen Charakteristische räumliche und zeitliche Skalen.
Humboldt-Universität zu Berlin Computer- und Medienservice Softwareportal an der HU Bereitstellung von Software für Lizenzinhaber an der HU.
Medien für unsere Zukunft 26. Sept Johannes Philipp Datenbank Bildungsmedien Download 1 Herunterladen von Datensätzen aus der Datenbank Bildungsmedien.
Gliederung Litsearch Litsearch+ V.1 Litsearch+ V.2 Freigabe/Versionisierung Litsearch+ Ressourcenverwendung.
Ordner- und Dateistrukturen in Windows 7 (Teil 1)
Datagrid in Earth System Sciences (DGESS) - Integration und Erweiterungen - Projektreffen am Max-Planck-Institut für Meteorologie Heinrich Widmann 28.
Evaluierung des ITU-T.124 Telekonferenzstandards
Marc Weiß externer Datenschutzbeauftragter Datenschutzauditor (TÜV)
Problematik von Großprojekten
Datenverteilung in Ad-hoc Netzen 1/24 Adaptive Datenverteilung in mobilen Ad-hoc Netzen unter Verwendung des Area Graph basierten Bewegungsmodells S. Bittner,
SKALIERBARE HARDWARE UNABHÄNGIGE LÖSUNGEN FÜR HSM, ARCHIVIERUNG UND SICHEREN DATENAUSTAUSCH YOUR DATA. YOUR CONTROL.
Nestor Workshop im Rahmen der GES 2007 Digitale Langzeitarchivierung und Grid: Gemeinsam sind wir stärker? Anforderungen von eScience und Grid-Technologie.
Formular- und Dokumentenarchivierung
Backup Warum Datensicherung? Löschen von Daten durch den Benutzer
Warum brauche ich ein CMS – Content Management System?
Workflow - Diagnosetool -
Ergebnisse und Wirkungen der Politik: Ein Überblick
UND NOCH EIN PAAR BEGRIFFE…
Universität Zürich Informatikdienste GoKoordinatorenmeeting 27. April UZH Global Storage Projekt.
.. Zusammenfassung & Diskussion. Projekt ist abgeschlossen Die Aufgaben lt Projektsauftrag wurden vollständig und fachlich entsprechend bearbeitet: Danke.
Allgemeines zu Datenbanken
Publikation auf Knopfdruck Judith Riegelnig Michael Grüebler 19. Oktober 2010 / Statistiktage Neuenburg.
Archival and Discovery
OJAD offene Jugendarbeit Dornbirn
NDK Enterprise Technologien Informationen Infrastruktur und Fallstudie Daniel Nydegger Studienleiter Enterprise System Entwicklung.
WissGrid AP3: LZA Dienste
Virtuelle Forschungsumgebungen
Flexible Datensicherung für kleine und mittlere Unternehmen
SPODAT - Blick nach vorn
Agenda Rückblick 2. Aufbau der Software Benutzeroberfläche 4. Ausblick
Zauberwort Metadaten Elementares Handwerkszeug des Content- und Wissensmanagement.
Konsortialrechnungen: IPCC AR4 Unterstützung durch M&D Antriebsdaten Koppelungsumgebung Modelläufe Datenspeicherung Anpassung von ECHAM 4 MPI-M UBonn.
M. Lautenschlager (M&D/MPIM) / / 1 WDC Konsortium Meeting Oberpfaffenhofen, 24/ )CERA-DB 2)WDCC Homepage 3)DLR EOWEB Zugang 4)Kostenmodell.
M. Lautenschlager (M&D/MPIM)1 Beständige Indikatoren und Langzeitarchivierung Michael Lautenschlager Modelle und Daten Max-Planck-Institut für.
CLM Konsortialrechnungen bei Modelle und Daten (M&D) Martina Schubert CLM-Community Assembly 2007 (Langen)
Folie 1, Seite x von yProjektentscheidungsprozess (P. Wölfl) 8. November 2006, P. Wölfl Nutzenfaktor IT – eine Spurensuche P. Wölfl Wr. Krankenanstaltenverbund.
M. Lautenschlager (M&D/MPIM)1 Beständige Indikatoren und Langzeitarchivierung Michael Lautenschlager Modelle und Daten Max-Planck-Institut für.
Eike Schallehn, Martin Endig
Klimawandel – weltweit und in Hessen Wo stehen wir?
Contentmanagement mit der OpenSourceLösung TYPO3
Herzlich Willkommen! Deutschlands großes CD & DVD Presswerk.
Die Geschichte der Entwicklung der Informations-Technologie
Folgen des globalen Klimawandels in Baden-Württemberg
An Approach to the Preservation of Digital Records National Archives of Australia Universität zu Köln Institut für Historisch-Kulturwissenschaftliche Informationsverarbeitung.
Herzlich willkommen! besser gemeinsam lernen.
Monatsbericht Ausgleichsenergiemarkt Gas – Oktober
E-Archiv Durch die Präsentation führt sie: Jack Kraus ScanView ist ein Produkt der Allgeier IT GmbH (Feb 2010)
242/102/49 0/51/59 181/172/166 Primary colors 248/152/29 PMS 172 PMS 137 PMS 546 PMS /206/ /227/ /129/123 Secondary colors 114/181/204.
Wissensnetzwerk „Digitale Langzeitarchivierung“: 3. Arbeitssitzung , Österreichische Nationalbibliothek 1 Österreich Von der rechtlichen.
Gesellschaft für wissenschaftliche Datenverarbeitung mbH Göttingen Am Fassberg, Göttingen Fon: Fax:
 Präsentation transkript:

Langzeitarchivierung von Klimamodelldaten am Beispiel WDC Climate und DKRZ Michael Lautenschlager (WDCC / MPI-M, Hamburg) Wolfgang Stahl (DKRZ, Hamburg) Workshop: Speicherkonzepte digitaler Langzeitarchivierung November 2006 Niedersächsische Staats- und Universitätsbibliothek, Göttingen

Inhalt Einführung Klimamodellierung Datenzuwachs und Probleme Lösungen: Datenmanagement Lösungen: Technische Umsetzung Zusammenfassung

Schematische Darstellung Klimasystem Einführung

Schematische Darstellung des Hamburger IPCC-Klimamodells ECHAM5/MPI-OM Einführung

Schematische Darstellung signifikanter Prozesse im Atmosphären- modell Einführung

Antrieb Klimaprojektionen IPCC AR4 Einführung

Temperatur- änderungen in Erdbodennähe in den Szenarien A1B und B1. Gezeigt ist die Differenz der 30-Jahresmittel minus Einführung

Änderung des Meeresspiegels (m) im Jahr 2100 relativ zum Zustand des Jahres 2000 für das A1B-Szenario. Einführung

Vergleich der heutigen Meereisbedeckung im März und September (oben) mit den Projektionen für das Szenario A1B (unten) im Jahr Ebenfalls dargestellt ist die Schneebedeckung über Land. Einführung

URL: /fileadmin/grafik/presse/Kli maprojektionen2006.pdf Einführung

Räumliche Auflösung des Nordatlantischen Sektors Datenzuwachs und Probleme

Datenvolumina in Klimaprognosen: IPCC AR4: ECHAM5[T63L19]/MPI-OM produziert 23 TB/Jahr Klimaprognose 240 Jahre ( ): 5,5 TB und ca. 2 Mon. Maschinenzeit Ausblick: ECHAM5[T106L31] produziert 44 GB/Jahr Klimaprognose 240 Jahre ( ): 106 TB, d.h. Aufwand ist ca. 20 * T63

Datenzuwachs und Probleme Aktueller Bestand: 5 Billiarden Byte Auf Bändern Medienverteilung: Kapazität

Datenzuwachs und Probleme lokale Systeme CS DS NW entfernte Systeme GFS Systemübersicht

Datenzuwachs und Probleme x 32 LAN x 16x 35 UCFM Cache 17 TB 9840C x B x 18 T10000 x 8 LTO2 x 2 x 16 GFS Disk 70 TB x 32 x 48 DBMS Disk 30 TB x 20 x 112 x 36 x 24 x 12SX-6SX-6SX-6SX-6SX-6SX-6SX-6SX-6SX-6SX-6SX-6SX-6SX-6SX-6 IXS 24 nodes x 2 DXUL-DB Oracle9i 6 * 4/8 3 * 16/32-48 x 12 x 6 GFS/UVDM UDSN UCFM 3 * 4/8 SUN ApplSrv x 6 x 8 x 6 DS test 8/16 UDSN 2 * 16/32 UCFM GFS/UVDM HSM DBMS 8/16 Az archive backup X compile user appl x 2 x 12 2 * 8/16 GFS x 4 x 12 System, Detailansicht

Datenzuwachs und Probleme

Betrieb: Bandwartezeiten 2004/2006

Datenzuwachs und Probleme Medienverteilung: Dateien

Datenzuwachs und Probleme Datenverteilung: Nutzungsklassen

Datenzuwachs und Probleme HLREC90C2 SX4T3D Datenbestand: Historie

Datenzuwachs und Probleme HLREC90C2 T3DSX4 Datenbestand: jährl. Wachstum

Datenzuwachs und Probleme HLRE2HLREC90 MPP Datenbestand: zukünftiges Wachstum

Datenzuwachs und Probleme HLRE2HLREC90 MPP Datenbestand: zukünftige Datenmenge

Datenzuwachs und Probleme Medien-Kostenexplosion trotz sinkender Bandpreise /9 2006/7

Datenzuwachs und Probleme Anforderungen an Daten-Service: Sicherstellung der Langzeitarchivierung Kostenverschiebung in Richtung Daten-Service stoppen bzw. umkehren zu Gunsten Compute-Service Es ist nicht mehr finanzierbar, alle Daten dauerhaft zu archivieren. Welche Daten werden ausgewählt? ( Datenmanagement) Wie erfolgt die Datensicherung? ( Technische Umsetzung)

Lösungen: Datenmanagement Bisher: Alle Daten werden dauerhaft archiviert. Zukünftig: Nur ausgewählte Daten mit Dokumentation werden dauerhaft archiviert, Alle anderen besitzen nur begrenzten Lebensdauer (Zeitfenster bestimmt durch Projektlaufzeit) Umsetzung: Projektorientiertes Datenmanagement am DKRZ mit wissenschaftlicher Entscheidung für Langzeitarchivierung

Lösungen: Datenmanagement Grundlage des neuen Konzeptes bildet die Umstellung der bisher nutzerbezogenen Datenhaltung auf eine projektbezogene Datenhaltung in einer mehrstufigen Speicherhierarchie: docu arch work temp Diese neue Hierarchie spiegelt die Qualität und die erwartete Lebensdauer der Daten wieder. Langzeitarchivierung in dieser Hierarchie setzt eine bewußte und sorgfältige Entscheidung des projekt- / datenverantwortlichen Wissenschaftlers voraus und erfordert die vollständige Dokumentation der Daten.

Lösungen: Datenmanagement Datenverteilung: Archivklassen

Lösungen: Datenmanagement Hierarchieebene "docu" (Magnetband) Daten werden mit einer vereinheitlichten XML- Dokumentation (CERA Metadaten) versehen und im Rahmen des WDC Climate (WDCC) mit Zweitkopie gespeichert. Sie sind nicht mehr änderbar und stehen für Referenzuntersuchungen zur allgemeinen Verfügung. Daten von allgemeinem Interesse können im Rahmen des Primärdatenpublikationskonzeptes des WDCC als eigenständige Datenentitäten veröffentlicht werden. Diese Daten durchlaufen im Rahmen der Publikation einen Review- und Qualitätssicherungsprozess. Publizierte Daten sind derzeit über den Katalog der Technischen Informationsbibliothek in Hannover allgemein such- und zugreifbar Lebensdauer: Entsprechend dokumentierte und nicht mehr veränderbare Daten können im Sinne der Unterstützung der Benutzer bis 10 Jahre nach Projektende gespeichert bleiben, publizierte Daten im Rahmen der Bibliotheksrichtlinien auch länger.

Lösungen: Datenmanagement Hierachieebene "arch" (Magnetband): Dies ist der Archivbereich für Referenzdaten eines Projektes, für die zwar nicht die doppelte Sicherung erforderlich ist, die aber für die gesamte Projektlaufzeit aufbewahrt werden sollen und für die der zur Verfügung stehende Plattenplatz nicht reicht. Diese Daten werden in einfacher Kopie auf Bändern gehalten. Lebensdauer Die normale Lebensdauer dieser Daten ist die Projektlaufzeit plus 1 Jahr. Nach Erreichen dieser Zeitmarke werden die Daten nach rechtzeitiger Ankündigung automatisch gelöscht.

Lösungen: Datenmanagement Hierarchieebene "work" (in Zukunft Platte): Hier sollen Daten gehalten werden, auf die während der Projektzeit häufig zugegriffen werden muss. Angestrebt ist ein plattenresidenter Bereich, in dem der überwiegende Teil der Interimsprojektdaten bearbeitet werden kann, ohne auf Bänder zugreifen zu müssen. Lebensdauer Jedem Projekt steht hier ein festes selbst zu verwaltendes Kontingent zu. Die hier abgelegten Daten werden bei Projektende gelöscht. Hierarchieebene "temp" (Platte): Diese Daten sind rein plattenresident und haben nur eine kurze Lebensdauer. Die Daten liegen auf schnellen, maschinennahen Plattenbereichen.

Lösungen: Technologische Umsetzung Datensicherung Vermeidung von Medienfehlern Zweitkopien auf unabhängigen Bändern in der Ebene "doku Zweitkopien auf Technologie eines anderen Herstellers Zweitkopien an getrenntem Standort Umkopieren auf neue Bändern nach max. Anzahl von Bandaufrufen Gewährleistung der Zugriffssicherheit Wechsel zu neuer Technologie muss abwärts kompatibel sein Transfer der Datenleseprogramme auf neue Plattform

Zusammenfassung Datensicherheit durch Doppelte Kopien auf unabhängigen Medien + Technologien Medienverwaltung Abwärts kompatiblen Technologiewechsel Begrenzung des Datenwachstums Langzeitarchiv Begrenzung des Datenwachstums im Langzeitarchiv Langzeitarchivierung als wissenschaftliche Entscheidung Daten werden a priori nur noch zeitlich befristet gespeichert Auf Antrag und mit Dokumentation ist ein Langzeitarchivierung im Rahmen des WDCC möglich