Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

Langzeitarchivierung von Klimamodelldaten am Beispiel WDC Climate und DKRZ Michael Lautenschlager (WDCC / MPI-M, Hamburg) Wolfgang Stahl (DKRZ, Hamburg)

Ähnliche Präsentationen


Präsentation zum Thema: "Langzeitarchivierung von Klimamodelldaten am Beispiel WDC Climate und DKRZ Michael Lautenschlager (WDCC / MPI-M, Hamburg) Wolfgang Stahl (DKRZ, Hamburg)"—  Präsentation transkript:

1 Langzeitarchivierung von Klimamodelldaten am Beispiel WDC Climate und DKRZ Michael Lautenschlager (WDCC / MPI-M, Hamburg) Wolfgang Stahl (DKRZ, Hamburg) Workshop: Speicherkonzepte digitaler Langzeitarchivierung 27. - 29. November 2006 Niedersächsische Staats- und Universitätsbibliothek, Göttingen

2 Inhalt Einführung Klimamodellierung Datenzuwachs und Probleme Lösungen: Datenmanagement Lösungen: Technische Umsetzung Zusammenfassung

3 Schematische Darstellung Klimasystem Einführung

4 Schematische Darstellung des Hamburger IPCC-Klimamodells ECHAM5/MPI-OM Einführung

5 Schematische Darstellung signifikanter Prozesse im Atmosphären- modell Einführung

6 Antrieb Klimaprojektionen IPCC AR4 Einführung

7 Temperatur- änderungen in Erdbodennähe in den Szenarien A1B und B1. Gezeigt ist die Differenz der 30-Jahresmittel 2071-2100 minus 1961-1990. Einführung

8 Änderung des Meeresspiegels (m) im Jahr 2100 relativ zum Zustand des Jahres 2000 für das A1B-Szenario. Einführung

9 Vergleich der heutigen Meereisbedeckung im März und September (oben) mit den Projektionen für das Szenario A1B (unten) im Jahr 2100. Ebenfalls dargestellt ist die Schneebedeckung über Land. Einführung

10 URL: http://www.mpimet.mpg.de /fileadmin/grafik/presse/Kli maprojektionen2006.pdf Einführung

11 Räumliche Auflösung des Nordatlantischen Sektors Datenzuwachs und Probleme

12 Datenvolumina in Klimaprognosen: IPCC AR4: ECHAM5[T63L19]/MPI-OM produziert 23 TB/Jahr Klimaprognose 240 Jahre (1860-2100): 5,5 TB und ca. 2 Mon. Maschinenzeit Ausblick: ECHAM5[T106L31] produziert 44 GB/Jahr Klimaprognose 240 Jahre (1860-2100): 106 TB, d.h. Aufwand ist ca. 20 * T63

13 Datenzuwachs und Probleme Aktueller Bestand: 5 Billiarden Byte Auf 30000 Bändern Medienverteilung: Kapazität 03.0211.06

14 Datenzuwachs und Probleme lokale Systeme CS DS NW entfernte Systeme GFS Systemübersicht

15 Datenzuwachs und Probleme x 32 LAN x 16x 35 UCFM Cache 17 TB 9840C x 7 9940B x 18 T10000 x 8 LTO2 x 2 x 16 GFS Disk 70 TB x 32 x 48 DBMS Disk 30 TB x 20 x 112 x 36 x 24 x 12SX-6SX-6SX-6SX-6SX-6SX-6SX-6SX-6SX-6SX-6SX-6SX-6SX-6SX-6 IXS 24 nodes x 2 DXUL-DB Oracle9i 6 * 4/8 3 * 16/32-48 x 12 x 6 GFS/UVDM UDSN UCFM 3 * 4/8 SUN ApplSrv x 6 x 8 x 6 DS test 8/16 UDSN 2 * 16/32 UCFM GFS/UVDM HSM DBMS 8/16 Az archive backup X compile user appl x 2 x 12 2 * 8/16 GFS x 4 x 12 System, Detailansicht

16 Datenzuwachs und Probleme

17 Betrieb: Bandwartezeiten 2004/2006

18 Datenzuwachs und Probleme Medienverteilung: Dateien

19 Datenzuwachs und Probleme Datenverteilung: Nutzungsklassen

20 Datenzuwachs und Probleme HLREC90C2 SX4T3D Datenbestand: Historie

21 Datenzuwachs und Probleme HLREC90C2 T3DSX4 Datenbestand: jährl. Wachstum

22 Datenzuwachs und Probleme HLRE2HLREC90 MPP Datenbestand: zukünftiges Wachstum

23 Datenzuwachs und Probleme HLRE2HLREC90 MPP Datenbestand: zukünftige Datenmenge

24 Datenzuwachs und Probleme Medien-Kostenexplosion trotz sinkender Bandpreise 2002 2003 2008/9 2006/7

25 Datenzuwachs und Probleme Anforderungen an Daten-Service: Sicherstellung der Langzeitarchivierung Kostenverschiebung in Richtung Daten-Service stoppen bzw. umkehren zu Gunsten Compute-Service Es ist nicht mehr finanzierbar, alle Daten dauerhaft zu archivieren. Welche Daten werden ausgewählt? ( Datenmanagement) Wie erfolgt die Datensicherung? ( Technische Umsetzung)

26 Lösungen: Datenmanagement Bisher: Alle Daten werden dauerhaft archiviert. Zukünftig: Nur ausgewählte Daten mit Dokumentation werden dauerhaft archiviert, Alle anderen besitzen nur begrenzten Lebensdauer (Zeitfenster bestimmt durch Projektlaufzeit) Umsetzung: Projektorientiertes Datenmanagement am DKRZ mit wissenschaftlicher Entscheidung für Langzeitarchivierung

27 Lösungen: Datenmanagement Grundlage des neuen Konzeptes bildet die Umstellung der bisher nutzerbezogenen Datenhaltung auf eine projektbezogene Datenhaltung in einer mehrstufigen Speicherhierarchie: docu arch work temp Diese neue Hierarchie spiegelt die Qualität und die erwartete Lebensdauer der Daten wieder. Langzeitarchivierung in dieser Hierarchie setzt eine bewußte und sorgfältige Entscheidung des projekt- / datenverantwortlichen Wissenschaftlers voraus und erfordert die vollständige Dokumentation der Daten.

28 Lösungen: Datenmanagement Datenverteilung: Archivklassen

29 Lösungen: Datenmanagement Hierarchieebene "docu" (Magnetband) Daten werden mit einer vereinheitlichten XML- Dokumentation (CERA Metadaten) versehen und im Rahmen des WDC Climate (WDCC) mit Zweitkopie gespeichert. Sie sind nicht mehr änderbar und stehen für Referenzuntersuchungen zur allgemeinen Verfügung. Daten von allgemeinem Interesse können im Rahmen des Primärdatenpublikationskonzeptes des WDCC als eigenständige Datenentitäten veröffentlicht werden. Diese Daten durchlaufen im Rahmen der Publikation einen Review- und Qualitätssicherungsprozess. Publizierte Daten sind derzeit über den Katalog der Technischen Informationsbibliothek in Hannover allgemein such- und zugreifbar Lebensdauer: Entsprechend dokumentierte und nicht mehr veränderbare Daten können im Sinne der Unterstützung der Benutzer bis 10 Jahre nach Projektende gespeichert bleiben, publizierte Daten im Rahmen der Bibliotheksrichtlinien auch länger.

30 Lösungen: Datenmanagement Hierachieebene "arch" (Magnetband): Dies ist der Archivbereich für Referenzdaten eines Projektes, für die zwar nicht die doppelte Sicherung erforderlich ist, die aber für die gesamte Projektlaufzeit aufbewahrt werden sollen und für die der zur Verfügung stehende Plattenplatz nicht reicht. Diese Daten werden in einfacher Kopie auf Bändern gehalten. Lebensdauer Die normale Lebensdauer dieser Daten ist die Projektlaufzeit plus 1 Jahr. Nach Erreichen dieser Zeitmarke werden die Daten nach rechtzeitiger Ankündigung automatisch gelöscht.

31 Lösungen: Datenmanagement Hierarchieebene "work" (in Zukunft Platte): Hier sollen Daten gehalten werden, auf die während der Projektzeit häufig zugegriffen werden muss. Angestrebt ist ein plattenresidenter Bereich, in dem der überwiegende Teil der Interimsprojektdaten bearbeitet werden kann, ohne auf Bänder zugreifen zu müssen. Lebensdauer Jedem Projekt steht hier ein festes selbst zu verwaltendes Kontingent zu. Die hier abgelegten Daten werden bei Projektende gelöscht. Hierarchieebene "temp" (Platte): Diese Daten sind rein plattenresident und haben nur eine kurze Lebensdauer. Die Daten liegen auf schnellen, maschinennahen Plattenbereichen.

32 Lösungen: Technologische Umsetzung Datensicherung Vermeidung von Medienfehlern Zweitkopien auf unabhängigen Bändern in der Ebene "doku Zweitkopien auf Technologie eines anderen Herstellers Zweitkopien an getrenntem Standort Umkopieren auf neue Bändern nach max. Anzahl von Bandaufrufen Gewährleistung der Zugriffssicherheit Wechsel zu neuer Technologie muss abwärts kompatibel sein Transfer der Datenleseprogramme auf neue Plattform

33 Zusammenfassung Datensicherheit durch Doppelte Kopien auf unabhängigen Medien + Technologien Medienverwaltung Abwärts kompatiblen Technologiewechsel Begrenzung des Datenwachstums Langzeitarchiv Begrenzung des Datenwachstums im Langzeitarchiv Langzeitarchivierung als wissenschaftliche Entscheidung Daten werden a priori nur noch zeitlich befristet gespeichert Auf Antrag und mit Dokumentation ist ein Langzeitarchivierung im Rahmen des WDCC möglich


Herunterladen ppt "Langzeitarchivierung von Klimamodelldaten am Beispiel WDC Climate und DKRZ Michael Lautenschlager (WDCC / MPI-M, Hamburg) Wolfgang Stahl (DKRZ, Hamburg)"

Ähnliche Präsentationen


Google-Anzeigen