Präsentation herunterladen
Die Präsentation wird geladen. Bitte warten
1
Technische Implementation von CERA
Hannes Thiemann Max-Planck-Institut für Meteorologie Modelle und Daten zmaw.de ULDB Wiesbaden, 28. Mai 2008
2
Inhalt Aufgabe und Motivation Umsetzung Datenbanken Anbindung an das HSM Ausblick
3
Klimasystem
4
Klimamodell: Grid
5
Klimamodell: Auflösung
T42 (300 km) T106 (120 km)
6
Horizontalauflösung des Klimamodells
Datenmengen Horizontalauflösung des Klimamodells T42: 128 * 64 = 8192 Punkte pro Globalfeld T106: 160 * 320 = Punkte pro Globalfeld Erforderliche Speichereinheiten (GRIB Format) Horizontalfeld (Zugriffseinheit): 17.1 kB (T42) / 100.1 kB (T106) Unix Filegröße für monatsweise akkumulierte Ergebnisse mit 6 Std. Speicherintervall und 300 2d Variablen (Physikalische Einheit): 616 MB (T42) / 3500 MB (T106) 240 Jahre Modellintegration (Logische Einheit): 1.7 TB (T42) / 10 TB (T106)
10
Umsetzung Datenbanken
11
WDCC's CERA DB has been identified as the largest Linux DB.
The Winter TopTen Program identifies the world’s largest and most heavily used databases. ….. Congratulations on achieving Grand Prize award winner status (1) in Database Size, Other, All and TopTen Winner status Database Size, Other, Linux;Workload, Other, Linux in Winter Corp.'s 2005 TopTen Program! (1) Grand prizes are awarded for first place winners in the All Environments categories only. WDCC's CERA DB has been identified as the largest Linux DB.
12
Wintercorp (2005) - DB Size: Scientific, Archive, and other
Company Size (TB) DBMS Platform System Vendor Max-Planck 222 Oracle Federated/SMP NEC USGS/EROS 17 Centralized/SMP Sun HP 1 NonStop SQL Centralized/MPP T-Systems Oracle RAC Centralized/Cluster See:
13
Wintercorp (2005) - DB Size: Data Warehouse
Company Size (TB) DBMS Platform System Vendor Yahoo 100 Oracle Centralized/SMP Fujitsu Siemens AT&T 1) 94 Daytona Federated/SMP HP KT IT-Group 50 DB2 Centralized/Cluster IBM LGR 25 Amazon Oracle RAC 1) 330 GB Norm. Data Volume See:
14
Oracle 9.2 single instance running on TX7
CERA: Some Facts Oracle 9.2 single instance running on TX7 Enterprise Edition Partitioning Option Advanced Security 24 Tbyte disk attached to database nodes Database size ~450 Tbyte Database nodes connected to HSM system Data accessible on the internet 800 named users worldwide Daily access 800 GB/Day (average) New data 400 GB/Day (average)
15
Datenbanken: Aufteilung
OID 1 2 31 4 9 10 Metadaten Daten Enterprise User Security
16
100.000 Tabellen 800 GB Entry Reference Status Distribution Contact
Coverage Parameter Spatial Local Adm. Data Access Data Org Tabellen 800 GB Ca Tabellen Ca. 800 GB
17
Structure of metadata tables
Tabellen 800 GB Informationen um Einfache Anfragen ohne Zugriff auf Daten selbst zu beantworten. Konsistenz zu den Daten selbst überprüfen zu können. Qualitätskontrollen durchzuführen. Liegen auf Disk
18
Wichtige Datenbankfeatures
Nologging : Reduktion der Redo-Log Informationen => Gegenwärtig ca. 5 GB/day pro Datenbankinstanz Partitioning Read Only Tablespaces => Verringerung des Backup Nicht verwendet: Komprimierung in der Datenbank => Verwendete Datenformate sind bereits hochkomprimierend
19
Backup 3 Typen: “reguläre” Datenbankdateien mit konventionellem Datenbankbackup , kein „nologging“. Datenbankdateien mit „nologging“ geschrieben. Backup auf Tape nach „read only“ setzen. Datenbankdateien mit nologging geschrieben. Noch „read write“ und daher keine Sicherung. Daten müßen nach Korruption neu eingefüllt werden.
20
Range Partitioning Table Partition 1 Partition 2 Partition n …
Structure of blob tables Range Partitioning Table Partition 1 Partition 2 Partition n … Datafile 1 Datafile 2 Datafile n … blob_id n blob_id n m blob_id m k … Time t0 .. tn Time tn+1 .. tm Time tm+1 .. tk … BLOB Data Table blob_id blob_data
21
Umsetzung: HSM Anbindung an das HSM
22
All tablespaces are moved “at once” to dxdb
Migout Migin TBS - RW Tbl Partition 1 dxdb TBS - RO Tbl Partition 1 All tablespaces are moved “at once” to dxdb TBS - RW Tbl Partition 2
23
Migout takes place after files haven’t been modified for x minutes
Migout / Migin Migout takes place after files haven’t been modified for x minutes Only one migout process per dxdb-filesystem Migin takes place immediately after a file is requested. Only parts accessed are retrieved from the backend storage. One migin process per requested file.
24
Purging dxdb HWM LWM
25
Except: “small” datafiles can stay on disk
Criteria for purging Size of datafiles doesn’t matter Except: “small” datafiles can stay on disk Time not modified (easy for read only tablespaces) Time not touched Oracle has the tendency to touch data files quite often Oracle parameter read_only_open_delayed could be an option Prerequisite: 2 copies on tape
26
Inside the datafile Header 128k Primary Key Lob Index Table Blob data
27
Frontend versus Backend
Filesystem Frontend HSM Backend Header 128k Header 128k Part 1 = 512 MB Part 2 = 512 MB
28
Retrieving data Header 128k 3 1 2 5 4 Tape Request
29
Usage: Downloads
30
Statistics: Size
31
Ausblick: Globalmodell T213 (Atmosphäre)
Horizontalauflösung des Klimamodells T213: 640 * 320 = Punkte pro Globalfeld T106: 160 * 320 = Punkte pro Globalfeld Erforderliche Speichereinheiten (GRIB Format) Horizontalfeld (Zugriffseinheit): 400.1 kB (T213) / 100.1 kB (T106) Unix Filegröße für monatsweise akkumulierte Ergebnisse mit 6 Std. Speicherintervall und 300 2d Variablen (Physikalische Einheit): 14000MB (T213) / 3500 MB (T106) 240 Jahre Modellintegration (Logische Einheit): 40 TB (T213) / 10 TB (T106)
32
Ausblick: Regionalmodell Auflösung und Datenmengen
REMO-UBA-Modellgebiet Auslösung: 10x10 km Datenmenge: 5 TB / 100 Jahre (nur Bodenfelder) Orography
33
Vielen Dank!
Ähnliche Präsentationen
© 2024 SlidePlayer.org Inc.
All rights reserved.