Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

CERA Eine Oracle Datenbank in der Klimaforschung Hannes Thiemann Gruppe Modelle und Daten (M&D) am Max-Planck- Institut für Meteorologie, Hamburg Arne.

Ähnliche Präsentationen


Präsentation zum Thema: "CERA Eine Oracle Datenbank in der Klimaforschung Hannes Thiemann Gruppe Modelle und Daten (M&D) am Max-Planck- Institut für Meteorologie, Hamburg Arne."—  Präsentation transkript:

1 CERA Eine Oracle Datenbank in der Klimaforschung Hannes Thiemann Gruppe Modelle und Daten (M&D) am Max-Planck- Institut für Meteorologie, Hamburg Arne Brüning Server Technologies Competence Center Oracle Deutschland GmbH, Hamburg

2 H. Thiemann (M&D), A. Brüning (Oracle) / / 2 Überblick Vorstellung M&D & Cera Was sind Klimamodelle Die Daten Die Lösung Die Hardware Die Anwendung Wohin mit 1 PB? Ausblick

3 H. Thiemann (M&D), A. Brüning (Oracle) / / 3 Modelle und Daten (M&D) und Deutsches Klimarechenzentrum (DKRZ)

4 H. Thiemann (M&D), A. Brüning (Oracle) / / 4 Modelle und Daten (M&D) und Deutsches Klimarechenzentrum (DKRZ) Die Hauptaufgabe von M&D sowie DKRZ besteht darin, die deutsche und europäische Erdsystemforschung in ihrer Arbeit zu unterstützen. Der Schwerpunkt von M&D liegt bei der Anwendung von Klimamodellen und dem Zugang zu Klimadaten Der Schwerpunkt vom DKRZ liegt im Betrieb modernster Höchstleistungsrechner und Datenserver sowie der damit verbundenen Dienste.

5 H. Thiemann (M&D), A. Brüning (Oracle) / / 5 Die Aufgabe

6 H. Thiemann (M&D), A. Brüning (Oracle) / / 6 Phänomene und Prozesse im Klimamodell Nono

7 H. Thiemann (M&D), A. Brüning (Oracle) / / 7 Numerische Klimamodelle (I) Klimamodelle simulieren das Klimasystem und seine Veränderungen. Das Klimasystem setzt sich aus den Subsystemen Atmosphäre, Ozean, Biosphäre und Kryosphäre (Eis und Schnee) zusammen. Die Komponenten des Klimasystems variieren in typischer Weise auf unterschiedlichen Zeitskalen, die von Stunden (Wettererscheinungen) über Monate (Oberflächenströmungen der Ozeane) bis zu Jahrtausenden (Landeismassen) reichen. Klimamodelle versuchen, dieses komplexe dynamische System in mathematischen Gleichungen zu beschreiben, die auf physikalischen Gesetzen beruhen. Auf diese Weise entsteht ein "Modellklima", in dem z.B. für die Atmosphäre die dreidimensionale Zirkulation, der Wasserdampfgehalt, Wolken und Strahlungshaushalt sowie die Wärmeflüsse simuliert werden.

8 H. Thiemann (M&D), A. Brüning (Oracle) / / 8 Numerische Klimamodelle (II) In numerischen Klimamodellen wird die Erde mit einem dreidimensionalen Gitter überzogen, und für die Dynamik an den Gitterpunkten werden Gleichungen erstellt. Wie gut auf diese Weise das wirkliche Klima simuliert wird, hängt von der Maschenweite des Gitternetzes ab, die wiederum eine Folge der verfügbaren Computerleistung ist.

9 H. Thiemann (M&D), A. Brüning (Oracle) / / 9 Beispiel eines 3D Gitters in einem Atmosphärenmodell

10 H. Thiemann (M&D), A. Brüning (Oracle) / / 10 Datenentstehung Für jeden Punkt des verwendeten Gitters speichert das Klimamodell in diskreten Zeitabständen den kompletten Zustand des physikalischen Systems ab. Im Normalfall sind dies einige Dutzend Variablen, so z.B. Temperatur, Niederschlag, Luftdruck. Die Abspeicherung der Daten erfolgt in der Regel in einem Datenblock in dem alle diese Variablen auf allen Gitterpunkten zusammengefasst sind

11 H. Thiemann (M&D), A. Brüning (Oracle) / / 11 Beispiele verschiedener Gitterauflösungen 600km400km 300km110km

12 H. Thiemann (M&D), A. Brüning (Oracle) / / 12 Typische Auswertung Quelle: IPCC

13 H. Thiemann (M&D), A. Brüning (Oracle) / / 13 Typische Datenmengen Modell Datenmenge (einzelne Variable, einzelnes Höhenlevel) pro Zeitschritt Datenmenge (gesamtes Modell) pro Modellmonat Datenmenge (gesamtes Modell) pro 500 Jahreslauf T42L19 (300 km) 16 KB650 MB3.7 TB T106L31 (110 km) 100 KB5.2 GB30 TB

14 H. Thiemann (M&D), A. Brüning (Oracle) / / 14 Die Anwendung Cera

15 H. Thiemann (M&D), A. Brüning (Oracle) / / 15 Allgemeine Topologie

16 H. Thiemann (M&D), A. Brüning (Oracle) / / 16 CERA CERA – Climate and Environmental Climate and Archive Um Benutzern den Zugang zu am DKRZ erzeugten bzw. verwendeten Daten zu erleichtern, implementierte M&D eine Oracle Datenbank Enthält vornehmlich Daten aus Vorhersagen numerischer Klimamodelle, die dazu dienen Klimarisiken der Erde abzuschätzen. Den Datenproduzenten bietet sich hierdurch die Möglichkeit, Ihre Daten langfristig zu speichern und zu dokumentieren. Die Benutzer können aufgrund der Dokumentation für sie relevante Daten suchen, finden und extrahieren. Der Zugriff erfolgt über Intra- und Internet Gegenwärtige Größe der Datenbank: ca. 22 Terabyte in ca Datenfiles Projektierte Größe der Datenbank in ca. 4 Jahren: 0.5 Petabyte

17 H. Thiemann (M&D), A. Brüning (Oracle) / / 17 Umsetzung in Oracle Jede Zeitserie einer einzelnen 2-dimensionalen Variable wird in einer Tabelle als BLOB abgespeichert. Damit entsprechen einem typischen Experiment je nach Konfiguration etwa 200 bis 450 Tabellen. Eine einzelne Tabelle kann bei einem 500 Jahres-Experiment somit eine Größe von bis zu 70 GB erreichen. Die Daten werden, während das Modell läuft, bereits in die Klimadatenbank eingefüllt. Einfüll-Programme (OCI, Oracle Call Interface) bearbeiten den Rohdatenblock, der von den Klimamodellen erzeugt wird.

18 H. Thiemann (M&D), A. Brüning (Oracle) / / 18 Umsetzung in Oracle (I) Jede Zeitserie einer einzelnen 2-dimensionalen Variable wird in einer Tabelle abgespeichert. Damit entsprechen einem typischen Experiment je nach Konfiguration etwa 200 bis 450 Tabellen. Für jede 2-dimensionale Variable werden die Daten jedes Speicherzeitpunktes in einem einzelnen Blob in dieser Tabelle abgespeichert. Eine einzelne Tabelle kann bei einem 500 Jahres- Experiment somit eine Größe von bis zu 70 GB erreichen.

19 H. Thiemann (M&D), A. Brüning (Oracle) / / 19 Umsetzung in Oracle (II) Die Daten werden, während das Modell läuft, bereits in die Klimadatenbank eingefüllt. Zu diesem Zweck gibt es einen Satz von Einfüll- Programmen, die auf der Basis von OCI (Oracle Call Interface) arbeiten. Diese Programme bearbeiten den Rohdatenblock, der von den Klimamodellen erzeugt wird. Die Einfüll-Programme sind noch nicht synchron an den Modelllauf gekoppelt. Vielmehr werden die Daten zwischengespeichert.

20 H. Thiemann (M&D), A. Brüning (Oracle) / / 20 Benutzeroberfläche Der Benutzerzugriff erfolgt über ein Java Applet.

21 Die Hardware

22 H. Thiemann (M&D), A. Brüning (Oracle) / / 22 Hardware Die vom DKRZ betriebene NEC SX-6/192M24/ 192 mit einer theoretischen Peak Performance von 1536 Gflops steht auf Platz 33 der 21. Top500 Liste der schnellsten Rechner weltweit. (www.top500.org)

23 H. Thiemann (M&D), A. Brüning (Oracle) / / 23 Storage Am DKRZ werden derzeit 4 Silos des Typs Storage Tek betrieben. Bei insgesamt ca nutzbaren Stellplätzen pro Silo ergibt sich bei 200 Gbyte pro Cartridge somit eine nutzbare Gesamtkapazität von ca. 4 Petabyte.

24 H. Thiemann (M&D), A. Brüning (Oracle) / / 24 Datenserver Für den Datenservice werden verschiedene Rechner verwendet Sun (E12k und 4800) NEC TX7 (Linux 64 bit)

25 Die Probleme & die Lösungen

26 H. Thiemann (M&D), A. Brüning (Oracle) / / 26 Problem: Migration auf iA64 Linux mit 24 CPUs NEC TX-7 Intel Itanium2 24 CPU 4 CPUs HW-Partitionierbar Oracle9iDB für iA64-Linux druckfrisch NEC-Linux unterstützt 24 CPUs, aber Oracle unterstützt nur United Linux und Red Hat... die wiederum weder NUMA, noch 24 CPUs unterstützen

27 H. Thiemann (M&D), A. Brüning (Oracle) / / 27 Problem: Nur Datafiles Datenfiles die gegenwärtig befüllt werden, können noch nicht read only gesetzt werden Plattenplatz reicht nicht aus, um neue Modellläufe komplett zu speichern, ohne daß bereits Daten ausgelagert werden müssen Aus Handling-Gründen ca. 10 GB/File = max TB Benötigt wird aber min. 1 PB!!!

28 H. Thiemann (M&D), A. Brüning (Oracle) / / 28 Problem: Datenverlust bei langlaufenden Simulationen Eine Klimasimulation kann mehrere Monate dauern Damit wären im Falles eines Datenverlustes auch die Ergebnisse mehrerer Monate verloren. Lösung: Partitioning Option (Range Partitioning) Vermindertes Risiko durch R/O-Setzen der einzelnen Partitionen und Auslagerung

29 H. Thiemann (M&D), A. Brüning (Oracle) / / 29 Problem: Wie migriert man 30 TB von Sun nach Linux online? Nur ca. 9 TB Daten auf Disk, der Rest im StorageTek Silo Grössere Down-Zeiten nicht akzeptabel

30 H. Thiemann (M&D), A. Brüning (Oracle) / / 30 Die Lösung HW-Partitioning und separate Datenbanken NEC TX-7

31 H. Thiemann (M&D), A. Brüning (Oracle) / / 31 Die Lösung HW-Partitioning und separate Datenbanken MetadatenDaten SUNSUN Enterprise User Security OID DB-Link

32 H. Thiemann (M&D), A. Brüning (Oracle) / / 32 Problem: Wie bekommt man ein Petabyte in eine Oracle-DB Nur 9 TB Platte Daten nur Read-Only => Tablespace Read-Only Nologging! Problem beim Crash, dafür nur einmal sichern Alte Lösung (Erklärung Offline nehmen, per ftp-schicken, init.ora-Parameter) Lösung: EMC/Legato DiskExternder

33 H. Thiemann (M&D), A. Brüning (Oracle) / / 33 EMC DiskXtender (I) EMC DiskXtender Data Manager ist eine Anwendung, die lokale Filesysteme verwaltet. Sie ist speziell ausgerichtet auf Filesysteme die Dateien von Oracle Datenbanken enthalten. Dateien werden automatisch auf ein Backend Speichersystem kopiert. Bei Bedarf werden Dateien von der lokalen Disk gepurged. Lediglich ein Stub von 256k bleibt von jeder Datei auf Platte. Bei Zugriff werden lediglich benötigte Segmente der Dateien zurückgeladen.

34 H. Thiemann (M&D), A. Brüning (Oracle) / / 34 EMC DiskXtender (II) Durch die Verwendung von dxdb verringert sich der Plattenbedarf enorm. Zur Zeit wird die Datenbank mit einem Gesamtplattenplatz von ca. 9 TeraByte betrieben. Alle Datenfiles sind ständig online. Der Zugriff ist jedoch durch die Einbindung des HSM – Systems verlangsamt. Die Lösung ist nur für Read Only Tablespaces geeignet, da von Read Write Tablespaces ansonsten ständig neue Versionen auf Band gesichert werden müssten.

35 H. Thiemann (M&D), A. Brüning (Oracle) / / 35 Ausblick Mega, Giga, Tera, Peta, Exa, Zetta, Yotta MetadatenDaten Enterprise User Security OID MetadatenDaten Real Application Clusters

36 H. Thiemann (M&D), A. Brüning (Oracle) / / 36 Kontakt Hannes Thiemann Modelle und Daten Max-Planck-Institut für Meteorologie Bundesstrasse Hamburg Arne Brüning Server Technologies Competence Center Oracle Deutschland GmbH Niederlassung Hamburg

37 H. Thiemann (M&D), A. Brüning (Oracle) / / 37


Herunterladen ppt "CERA Eine Oracle Datenbank in der Klimaforschung Hannes Thiemann Gruppe Modelle und Daten (M&D) am Max-Planck- Institut für Meteorologie, Hamburg Arne."

Ähnliche Präsentationen


Google-Anzeigen