Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

M.Lautenschlager (WDCC, Hamburg) / 19.01.05 / 1 Wissenschaftliches Datenmanagement Probleme in PByte-Klimadatenarchiven Michael Lautenschlager World Data.

Ähnliche Präsentationen


Präsentation zum Thema: "M.Lautenschlager (WDCC, Hamburg) / 19.01.05 / 1 Wissenschaftliches Datenmanagement Probleme in PByte-Klimadatenarchiven Michael Lautenschlager World Data."—  Präsentation transkript:

1 M.Lautenschlager (WDCC, Hamburg) / / 1 Wissenschaftliches Datenmanagement Probleme in PByte-Klimadatenarchiven Michael Lautenschlager World Data Center for Climate Max-Planck-Institut für Meteorologie / Modelle und Daten, Hamburg Jena,

2 M.Lautenschlager (WDCC, Hamburg) / / 2 Inhalt: Klimasystem und Modellierung Architektur am DKRZ CERA Datenmodell IMDI und AFP Integrated Model and Data Infrastructure und Automatic Fill Process

3 M.Lautenschlager (WDCC, Hamburg) / / 3 Data Group maintaining the WDCC Michael Kurtz Hans Luthardt Michael Lautenschlager Heinke Höck Hannes Thiemann Hermann Winter Jörg Wegner Frank Toussaint Peter Lenzen (Order: from left to right)

4 M.Lautenschlager (WDCC, Hamburg) / / 4 Klimasystem

5 M.Lautenschlager (WDCC, Hamburg) / / 5 Modellgleichungen Grundprinzip Erhaltung von Masse, Energie und Impuls Beispiel: Gleichungen für Impuls, Temperatur und Feuchte im ECHAM-Modell

6 M.Lautenschlager (WDCC, Hamburg) / / 6 Flussdiagramm Globales Atmosphären- Modell ECHAM

7 M.Lautenschlager (WDCC, Hamburg) / / 7 Diskretisierung Das Gitternetz im Atmosphärenmodell

8 M.Lautenschlager (WDCC, Hamburg) / / 8 Nordeuropa im Klimamodell T42 (300 km) T106 (120 km)

9 M.Lautenschlager (WDCC, Hamburg) / / 9 Datenmengen Horizontalauflösung des Klimamodells T42: 128 * 64 = 8192 Punkte pro Globalfeld T106: 160 * 320 = Punkte pro Globalfeld Erforderliche Speichereinheiten (GRIB Format 1 ) Horizontalfeld (Zugriffseinheit): 17.1 kB (T42) / kB (T106) Unix Filegröße für monatsweise akkumulierte Ergebnisse mit 12 Std. Speicherintervall (Physikalische Einheit): 120 MB (T42) / 750 MB (T106) 240 Jahre Modellintegration (Logische Einheit): 1/3 TB (T42) / 2 TB (T106) 1 ) machine independent, self-descriptive and compressive

10 M.Lautenschlager (WDCC, Hamburg) / / 10 Oktober 1991 Anwendung der WDCC Daten

11 M.Lautenschlager (WDCC, Hamburg) / / , 12:00 Druckdifferenz: 60 hPa ECMWF-ERA40

12 M.Lautenschlager (WDCC, Hamburg) / / 12

13 M.Lautenschlager (WDCC, Hamburg) / / 13 Der HLRE Compute-Server besteht aus 24 NEC SX-6 Knoten. Die technischen Daten eines enzelnen Knotens sind in der folgenden Tabelle zusammengefasst. CPUs8 Taktfrequenz Speicher und CPU (MHz)500 Vektor Pipelines pro CU8 Funktionen der Vektoreinheitadd/shift, multiply, divide, logical Vektor-Register pro Pipeline72 Länge der Vektor-Register (words)256 GFLOP/s pro CPU8 Hauptspeicher (GB)64 Gesamte Bandbreite des Speichers (GB/s)256 Speicherbandbreite pro CPU (GB/s)32 DKRZ Compute-Server

14 M.Lautenschlager (WDCC, Hamburg) / / 14 DKRZ Compute-Server Die 24 Knoten unserer Installation sind über den IXS (Inter-node Crossbar Switch) verbunden. Der IXS schaltet zwischen beliebigen Knoten Verbindungen mit einer Bandbreite von jeweils 8 GB/s. Die Gleitkomma-Leistung des Gesamtsystems in GFLOP/s ist in der untenstehenden Tabelle dargestellt. Peak (R peak )1536 LINPACK R max 1484 Dauerhafte Leistung eines am DKRZ eingesetzten typischen Klimamodelles ca. 500

15 M.Lautenschlager (WDCC, Hamburg) / / 15 TOP500 HPC-List (June 2004) DKRZ: Platz 148 mit 192 Proz. NEC-SX6 Earth Simulator, Japan: Platz 1 mit 5120 Proz. NEC-SX6 ES = 25 * DKRZ DKRZ – Earth Simulator (Japan)

16 M.Lautenschlager (WDCC, Hamburg) / / 16

17 M.Lautenschlager (WDCC, Hamburg) / / 17 DKRZ Datenservice ProzessorenIntel Itanium2 Taktfrequenz1 GHz Cache3 MB (on-chip L3) Max. Anzahl CPUs32 Max. Speicher128 GB LINPACK R max (32 CPUs) GFLOP/s Einige Daten des gesamten Datenservers sind in der untenstehenden Tabelle zusammengefasst. Kapazität des Bandarchivs (TB)>3500 Festplattenkapazität (TB)ca 70 Bandbreite zwischen Compute-Server und Data-Server (MB/s)450

18 M.Lautenschlager (WDCC, Hamburg) / / 18 DKRZ Bandarchiv

19 M.Lautenschlager (WDCC, Hamburg) / / 19 HSM Archive Content: End of 2003: 1.3 PB End of 2004: 2.6 PB Prognose 2001:

20 M.Lautenschlager (WDCC, Hamburg) / / 20 CERA Konzept Datenkatalog Die Gelben Seiten des Massenspeicherarchivs Metadaten in Tabellen des Datenmodells Automatisierte Klimadatenspeicherung Primärdaten-Processing synchron zum Modelllauf Anwendungsorientierte Speicherung erlaubt schnellen Zugriff Speicherung als BLOB-Tabelleneinträge Rohdaten als Zeiger ins Datenarchiv Transparenter Rohdatenzugriff Zeiger auf Unix-Files als B-File-Einträge in Tabelle (Oracle)

21 M.Lautenschlager (WDCC, Hamburg) / / 21 Metadata Entry This is the central CERA Block, providing information on the entry's title type and relation to other entries the project the data belong to a summary of the entry a list of general keywords related to data creation and review dates of the metadata Additionally: Modules and Local Extensions Module DATA_ORGANIZATION (grid structure) Module DATA_ACCESS (physical storage) Local extension for specific information on (e.g.) data usage data access and data administration Coverage Information on the volume of space-time covered by the data Reference Any publication related to the data togehter with the publication form Status Status information like data quality, processing steps, etc. Distribution Distribution information including access restrictions, data format and fees if necessary Contact Data related to contact persons and institutes like distributor, investigator, and owner of copyright Parameter Block describes data topic, variable and unit Spatial Reference Information on the coordinate system used CERA-2 Data Model Blocks

22 M.Lautenschlager (WDCC, Hamburg) / / 22

23 M.Lautenschlager (WDCC, Hamburg) / / 23 Produktion (4D) und Zugriff (2D)

24 M.Lautenschlager (WDCC, Hamburg) / / 24 Primäres Daten- Processing

25 M.Lautenschlager (WDCC, Hamburg) / / 25 Level 1 - Interface: Metadata entries (XML, ASCII) + Data Files Level 2 – Interf.: Separate files containing BLOB table data in application adapted structure (time series of single variables) Experiment Description Unix-Files Table / Pointer Dataset 1 Description Dataset n Description BLOB Data Table BLOB Data Table CERA Data Structure

26 M.Lautenschlager (WDCC, Hamburg) / / 26 Experiments: 400 Datensets: BLOBs: ca. 3.8 * 10 9 BLOB sizes GCMs: 10 – 100 kB DB-Accounts: 500 Data retrievals: 1500 – / month Data volume: 250 – 2200 GB / month CERA DB: Backbone of WDCC Web access to entire CERA DB content Web-Based User Interface Catalogue Inspection Climate Data Retrieval CERA Database: 133 TB ( ) *Data Catalogue *Processed Climate Data *Pointer to Raw Data files Mass Storage Archive 2.6 PB ( ) Internet Access CERA Database System DKRZ Mass Storage Archive

27 M.Lautenschlager (WDCC, Hamburg) / / 27 Modell-Computer-Matrix Codeverwaltung Userinterface: GUI + Scripting Laufumgebung: Jobskripten & Dateihandling Datenprocessing + Grafik Datenimport: Assimilation und Antrieb Randbedingungen Nutzerinterface: Datensuche und Download Processing und Grafik DKRZ-Archiv WDC Climate: CERA DB mit Katalog Datenprocessing Modellkomponenten Kopplungsumgebung: Modellintegration PRISM Modellanwendungen Archivföderation BADC (UK) WDC-Netzwerk Automatisiertes Füllen DB-Füllen: API und Scripten M&D Integrated Model and Data Infrastructure AFP

28 M.Lautenschlager (WDCC, Hamburg) / / 28 Creation of application-oriented data storage must be automatic !!! Automatic Fill Process (AFP)

29 M.Lautenschlager (WDCC, Hamburg) / / 29 Archive Data Flow per month Compute Server Global File System Mass Storage Archive CERA DB System 60 TB/month 2004: 1 TB/day (peak) Unix-Files Application Oriented Data Hierarchy Application Oriented Data Hierarchy Unix-Files Metadata Initialisation Important: Automatic fill process has to be performed before corresponding files migrate to mass storage archive.

30 M.Lautenschlager (WDCC, Hamburg) / / 30 Automatic Fill Process Steps and Relations DB-Server: 1.Initialisation of CERA DB Metadata and BLOB data tables are created Compute Server: 1.Climate model calculation starts with 1. month 2.Next model month starts and primary data processing of previous month BLOB table input is produced and stored in the dynamic DB fill cache 3.Step 2 repeated until end of model experiment DB Server: 2.BLOB data table input accessed from DB fill cache 3.BLOB table injection and update of metadata 4.Step 2 repeated until table partition is filled (BLOB table fill cache) 5.Close partition, write corresponding DB files to HSM archive, open new partition and continue with 2) 6.Close entire table and update metadata after end of model experiment

31 M.Lautenschlager (WDCC, Hamburg) / / 31 WDCC User Access Pattern

32 M.Lautenschlager (WDCC, Hamburg) / / 32 Bewertung nach Vortrag: Allgemeinen Teil kürzer und Schwerpunkt auf CERA Architektur: a)CERA-2 Datenmodell (Constraints + Trigger) und XML Interface b)BLOB Tabellen und HSM Anschluß c)Indexverwaltung BLOB Tabellen und Speicherbedarf d)B-Files als Pointer auf UNIX-Files (soweit realisiert) Sehr interessierte Zuhörer, Zeitbedarf war 70 min, also 2,2 min/Folie


Herunterladen ppt "M.Lautenschlager (WDCC, Hamburg) / 19.01.05 / 1 Wissenschaftliches Datenmanagement Probleme in PByte-Klimadatenarchiven Michael Lautenschlager World Data."

Ähnliche Präsentationen


Google-Anzeigen