Datagrid in Earth System Sciences (DGESS) - Status und Projektplan - Projektreffen am Max-Planck-Institut für Meteorologie Heinrich Widmann 28. November.

Datagrid in Earth System Sciences (DGESS) - Status und Projektplan - Projektreffen am Max-Planck-Institut für Meteorologie Heinrich Widmann 28. November 2005

Überblick Kooperationsprojekt DGESS : Motivation und Ziele Projektplan, Status und Entwicklung Die ersten drei Arbeitspakete im Detail Nächste Schritte

DataGrid in Earth System Sciences (DGESS) Forschungskooperation zwischen Sun GmbH und MPI-M Laufzeit : April 2005 – April 2007 Grid-Technologie ist Neuland für die Erdsystemforschung Ziele des Projekts : Erforschung und Entwicklung von Grid-Technologien für die datenintensive Erdsystemforschung Gemeinsame und effektive Nutzung der vorhandenen Ressourcen innerhalb der 'climate community' Integration in größere Grid-Initiativen wie C3Grid, EGEE

Zentrale Motivation : Exponentiell ansteigende Datenvolumen =>... Quelle: M. Böttinger / DKRZ

... => Lösungsansätze Daten (= Metadaten + Phys. Daten) direkt, gefiltert, reduziert, automatisch und strukturiert in Datenbank schreiben Postprozessing und Workflows standardisieren und vereinfachen Auslastung von vorhandener, brachliegender Ressourcen GRIDtechnologien einsetzen !?

Anforderungen und Probleme in der ESS => mögliche Grid-Lösungen Große, verteilte Datenvolumina Kostendruck Unstrukturiertes, ineffizientes Datenmanagment Vorhandene IT-Infrastruktur Benutzerspezifische Workflows und Tools Wissenschaftler mit technischen Problemen konfrontiert Interdisziplinäre, komplexe Forschungsumgebung Datenfluß optimieren, standardiseren und automatisieren Ressourcen besser nutzen Metadatenbank An Grid anpassen Standardisierung und Automatisierung der Prozesse Weniger manuelles Arbeiten, benutzerfreundliche 'Wrapperskripte' Synergien aus gruppen- und institutsübergreifender Zusammenarbeit nutzen

Projektplan Projektplan als Diskussionsgrundlage Projektplan ist überambitioniert und eher zu optimistisch Hier nur Arbeitspakete der 'Phase I' diskutieren Viele offene Baustellen Nach Prioritäten, Machbarkeit und Zuständigkeiten ordnen Konzentration auf das Machbare !! Konkrete Arbeitsaufteilung : Wer kann/macht was ? Institutionen : ZMAW (MPI-M (CIS), IfM, Uni HH), Sun, DKRZ, M&D Projekte : DGESS, C3 (Colaborative Climate -Grid, EGEE (Enable Grid E E-Science)

Projektplan – Planung Kickoff 05/05

Projektplan – Planung Status und 'Deltas' 12/05

AP I.1 Installation der N1GE6 und Testumgebung Sun Grid Engine (N1GE6) ist Job management System / Distributed Resource Management seit Oktober volle Lizenz mit Accounting (ArCO) und Monitoringsystem (GEMM) Master : yoda.zmaw.de SUNW, UltraAX-i2, Solaris 9 Execution hosts : Kursrechner kursNN.zmaw.de Meist 'idle', typische workstations, Kurszeiten => Kalenderfunktion, queues,... Shadow master : gallia.zmaw.de SUNW, Ultra-60, Solaris 10

AP I.1 Verzeichnisstruktur, NFS und NIS Sgeroot = Installations- und Software-Verzeichnis = yoda:/opt/sge per NFS ueber alle gridhosts gemounted Später aufgeteilt in Gridware = yoda:/opt/gridware : read only gemounted Gridspool = yoda:/opt/gridspool : read and write gemounted seit Oktober volle Lizenz mit Accounting (ArCO) und Monitoringsystem (GEMM) ArCO installiert, aber noch nicht eingesetzt (Accounting ueber LDAP?) GEMM nicht installiert, -> Ganglia

AP I.1 : Installation und Testumgebung : Basissystem N1GE6

AP I.1 : Installation und Testumgebung : Fail-Over+Fileserver

AP I.1 : Installation und Testumgebung : + SunFire 15k (MPI-Jobs und Parallel environement)

AP I.1 : Installation und Testumgebung : + Fileserver und 'Gridshares' auf zentralem NFS-Server

AP I.2 : Benutzer integrieren – Grid anbieten Website www.cis.zmaw.dewww.cis.zmaw.de Anmeldeformular vorhanden Links auch an zentraler Stelle (ZMAW-site) Grid bekannt machen und Nutzen aufzeigen !! Usermanual fortsetzen, 'Feedbacks' einbauen GUI ('QMON') und Wrapper-Skripte zur Verf. stellen Tutorials anbieten, Bekanntgabe in Usermmeeting Testanwendungen anbieten (einfach und intuitiv) Kritische Szenarien testen und abfangen => 'Freigabe', wenn : Support und stabiles System gewährleistet ist !

AP I.2 : Benutzer integrieren - Testanwendungen Computeanwendungen CCDAS : CPU-intensive, unabhängige Berechnungen BETHY : Domaindecomposition Postprozessing : Afterburner : aus Fill-Skript von M&D CDOs : erste Tests, verteile monatliche Dateien Jblob-Skript : aus die Datenbank lesen Problem : Wie kommen Daten auf die worker nodes ?

AP I.2 : Benutzer integrieren - Strategien S1 : Step by step und nach Usertyp 'Poweruser' : Erfahrene Benutzer, Anwendungen vorhanden, ohne Berührungsängste CIS-Admins koennen Stabilität, Ausfallsicherheit und Belastbarkeit testen Testuser : neue C3-Kollegen (testen generische Workflows !) Neulinge : IMPRS-Studenten -> Tutorials S2 : Zuerst hoch verfügbares System schaffen => Institutsweite Freigabe Nachteil : dauert zu lange S3 : Kombination aus S1 und S2 !!

API.3 : Prozesse analysieren - Generischen Workflow abbilden 1. Datenproduktion Modelläufe auf HPC-Rechnern (hurikan) erzeugen Monatliche Output-Dateien (Rohdaten) in verschiedenen Datenformaten und Modellgittern Größenordnung von GB/Datei bzw. TB/Experiment 2. Datenreduktion und -speicherung Selektion einzelner Parameter, Regriden,... (after) Berechnung von Monatsmitteln und Integration in Zeitreihen (CDOs -> Uwe Schulzweida) Abspeichern in Archiv und Datenbank (jblob -> Hannes Thiemann) 3. Datenanalyse Statistische und sonstige Auswertung (CDOs, andere Tools) Visualisierung : Plotten, Animation etc. Schritte 2 und 3 können auf dem Grid durchgeführt werden !

AP I.3 : Prozesse analysieren - C3-Grid-Vorgabe : Generischer Workflow Collaborative Climate Community Grid Quelle : C3-Grid, R. Budich

AP I.3 : Prozesse analysieren - Workflowtabelle – aus Anwenderbefragung Metadaten !

AP I.3 : Prozesse analysieren - Workflowtabelle –> Metadaten Allgemeines Institut, Project Experiment Durchführung/ System Model : Versionskontrolle, Modelgrid, Resolution, Zeitintegration Rechenzeit, Datenformat(e) Preprocessing und Set up Input, Initialisierung, Forcing, Restart Postprocessing Ablauf, verwendete Tools Output (Size, Format): von Roh-, Basis-, Anw.- und Ergebnisdaten Datenspeicherung

Zu AP I.3 : Generischer Workflow (WF) am ZMAW - Steuerung durch den Benutzer 2. Daten- Reduktion und - Speicherung 1. Daten- produktion 3. Daten- Analyse und Diagnose Select, map, regrid and store data Wissenschaf tler Hole Daten, fuehre Experiment durch,... Analyse und Diagnose der Daten WF-Steuerung WF-Schritte 01000000110110 10010100111011 00000000000101 10010010100011 11101010100100 10001001010010 11111101001010 01000000110110 10010100111011 00000000000101 10010010100011 11101010100100 10001001010010 11111101001010 CERA DB CERA DB 01000000110110 10010100111011 00000000000101 10010010100011 11101010100100 10001001010010 11111101001010 Simulation 01000000110110 10010100111011 00000000000101 10010010100011 11101010100100 10001001010010 11111101001010 01000000110110 10010100111011 00000000000101 10010010100011 11101010100100 10001001010010 11111101001010 Rohdaten bis zu 10 GB / Datei 01000000110110 10010100111011 00000000000101 10010010100011 11101010100100 10001001010010 11111101001010 Anwendungsdaten 20 MB - 2 GB / Datei 01000000110110 10010100111011 00000000000101 10010010100011 11101010100100 10001001010010 11111101001010 01000000110110 10010100111011 00000000000101 10010010100011 11101010100100 10001001010010 11111101001010 Datenflu ß Basisdaten bis zu 1 GB / Datei

AP I.3 : Generischer Workflow (WF) am ZMAW - Steuerung durch das Grid 1. Daten- produktion 2. Daten- Reduktion und - Speicherung 3. Daten- Analyse und Diagnose CERA DB CERA DB 01000000110110 10010100111011 00000000000101 10010010100011 11101010100100 10001001010010 11111101001010 01000000110110 10010100111011 00000000000101 10010010100011 11101010100100 10001001010010 11111101001010 Simulation 01000000110110 10010100111011 00000000000101 10010010100011 11101010100100 10001001010010 11111101001010 01000000110110 10010100111011 00000000000101 10010010100011 11101010100100 10001001010010 11111101001010 Rohdaten bis zu 10 GB / Datei 01000000110110 10010100111011 00000000000101 10010010100011 11101010100100 10001001010010 11111101001010 01000000110110 10010100111011 00000000000101 10010010100011 11101010100100 10001001010010 11111101001010 01000000110110 10010100111011 00000000000101 10010010100011 11101010100100 10001001010010 11111101001010 01000000110110 10010100111011 00000000000101 10010010100011 11101010100100 10001001010010 11111101001010 Basisdaten bis zu 1 GB / Datei WF-Steuerung WF-Schritte Datenflu ß Benutzer gibt - Metadaten - Parameter ein (GUI ?) qsub jobscript Anwendungsdaten 20 MB - 2 GB / Datei

Die nächsten vier Schritte (Prio 1) Shadowmaster installieren, Failover-Szenarien Jobskript für generisches C3-Grid-Workflow erstellen MPI jobs, Pasrallel environment (yin und yang) Website, Usermanual, Tutorien, Anwendungen wrappen

Datagrid in Earth System Sciences (DGESS) - Status und Projektplan - Projektreffen am Max-Planck-Institut für Meteorologie Heinrich Widmann 28. November.

Ähnliche Präsentationen

Präsentation zum Thema: "Datagrid in Earth System Sciences (DGESS) - Status und Projektplan - Projektreffen am Max-Planck-Institut für Meteorologie Heinrich Widmann 28. November."— Präsentation transkript:

Ähnliche Präsentationen

Über Projekt

Feedback

Anmelden

Anmeldung über soziales Netzwerk:

Datagrid in Earth System Sciences (DGESS) - Status und Projektplan - Projektreffen am Max-Planck-Institut für Meteorologie Heinrich Widmann 28. November.

Ähnliche Präsentationen

Präsentation zum Thema: "Datagrid in Earth System Sciences (DGESS) - Status und Projektplan - Projektreffen am Max-Planck-Institut für Meteorologie Heinrich Widmann 28. November."— Präsentation transkript:

Ähnliche Präsentationen

Über Projekt

Feedback