Workflow - Diagnosetool - IGMK und ZAIK Universität zu Köln IfM Freie Universität Berlin
Workflow Intention Wissenschaftliche Zielsetzung, die Workflow erfordert: Interpretation und Vergleich von Modellexperimenten und „Beobachtungsdaten“ hinsichtlich bestimmter wiss. Fragestellungen. Dazu Standard-Berechnungen von Parametern für die Basisdaten durch Diagnosetools. Problematik der Workflows - gewöhnlich sehr große Menge an Daten, von der nur ein Teil gebraucht wird. - räumliche Datenverteilung oft unklar (gibt es Kopien, etc) - Zwischenprodukte werden nach Plattenplatz und „Gefühl“ der Bearbeiter aufgehoben. - Anforderungen und Zeit für Workflow-Abarbeitung passen nicht notwendig zu einander – Optimierung auf Basis Erfahrung.
Workflow Intention Vorstellung, wie C3-Ergebnis aussehen könnte - Benutzeroberfläche, die auf Bedürfnisse der Anwender abgestimmt ist, - Automatisierte Erkennung der Verfügbarkeit geeigneter Datensätze (auch: 90%) - Abschätzung der Realisierbarkeit und des Aufwands vor Auftragsvergabe - Automatisierte Abarbeitung, mit Möglichkeit, Replikate / Kopien / Zwischenergebnisse und bestimmte Plattformen zu erzwingen. - Eignung nicht nur für Beispielworkflows, Verfahren verallgemeinerbar!!
Beispiel: Workflow I (Baroklinitätsberechnung) Diagnosecluster Datenfluss am Beispiel eines der Diagnose-Tools (Baroklinität) Beispiel: Workflow I (Baroklinitätsberechnung) Als Berechnungsgrundlage für angegebenen Speicherplatzbedarf dient ein Konsortiallauf des Klimamodells ECHAM5: ECHAM5 A1B 1 Auflösung: horizontal: T63 (entspricht Gauss-Gitter: 192 x 96) vertikal: 13 (troposphärische) p-Level zeitlich: 4 x täglich (6h) Zeitraum: 200 Jahre für die Berechnung des Eady-Parameters werden aus zwei Niveaus je 4 Parameter verwendet.
WDC Climate / DKRZ RRZK IGM K / FU B Diagnosecluster Datenfluss am Beispiel eines der Diagnose-Tools (Baroklinität) WDC Climate / DKRZ RRZK IGM K / FU B CERA 1 DKRZ (UTF) 2 RRZK (SAN) 3 RRZK (SAN) 4 K / B (home) Speicherplatz: Monthly mean: 700 MB 1400 MB 180 MB Daily mean: 21 GB 42 GB 5,4 GB 6 hourly: 84 GB 168 GB 21,6 GB GRIB-Format GRIB-Format LOLA-Format LOLA-Format Aktueller Beispiel-Workflow (globale Daten als Ergebnis) 1 Datentransfer per jblob von der CERA-Datenbank auf die UTF-Platte des DKRZ. 2 Datentransfer per ftp vom DKRZ auf die SAN-Festplatte des RRZK. 3 Datenkonvertierung mit PINGO / CDO: vom GRIB- zum LOLA-Format. 4 Eady-Programm liest 8 Parameter ein und gibt den berechneten EADY-Parameter ins home-Verzeichnis des IGMK aus.
Bei Berechnung für eine Region (hier Atlantik-Europa 90W-50E, 80N-20N) Diagnosecluster Datenfluss am Beispiel eines der Diagnose-Tools (Baroklinität) WDC Climate / DKRZ CERA 1 DKRZ (UTF) 2 RRZK (SAN) 3 RRZK (SAN) 4 K / B (home) Speicherplatz: Monthly mean: 700 MB 1400 MB 180 MB Daily mean: 21 GB 42 GB 5,4 GB 6 hourly: 84 GB 168 GB 21,6 GB Bei Berechnung für eine Region (hier Atlantik-Europa 90W-50E, 80N-20N) deutlich reduzierte Datenmenge (57x25=1425 Gitterpunkte) Speicherplatz: reduzierter Speicherplatz Monthly mean: 700 MB 100 MB 13 MB Daily mean: 21 GB 3 GB 0,4 GB 6 hourly: 84 GB 12 GB 1,6 GB
Diagnosecluster Datenfluss für weitere Diagnose-Tools Feuchteflüsse Dateninput: Wind (zonal, meridional), spezifische Feuchte (berechnet aus rel. Feuchte, daher auch Temperatur benötigt) Druckniveaus auswählen oder integriert (falls ab Boden: Bodendruck und bodennahe Wind- und Feuchtefelder benötigt) CAPE Dateninput: Temperatur, relative Feuchte, integriert über variable Höhenbereiche Bodendruck, falls ab Boden (Evtl Flüssigwasser in einzelnen Niveaus) Stormtracks Dateninput: Geopotenzial in einem Niveau Zeitserien (tägliche oder noch höher aufgelöste Daten) Berechnungen der Stromfunktion, meridionale Ableitungen (Gradienten) besser aus KFFK statt aus Gitterpunktsdaten!
Workflow Diagnosetool -alt- CERA long term storage WORK- SHARE scratch IGMK (IGMK) b a c d d‘ e Extraktion der Daten aus Datenbank Konvertierung der Daten in anderes Datenformat Transfer der Daten ins IGMK Berechnung der gewünschten Daten mit Hilfe des Diagnosetools d‘: ggf. Statistische Analyse der Ausgangsdaten Grafische Aufbereitung der Ergebnisdaten
Workflow Diagnosetool -neu- (RRZK / IGMK) WORK- SHARE d‘ e b a c d scratch RRZK scratch IGMK CERA scratch RRZK scratch RRZK e b Extraktion der Daten aus Datenbank Transfer der Daten ins IGMK Konvertierung der Daten in anderes Datenformat Berechnung der gewünschten Daten mit Hilfe des Diagnosetools d‘: ggf. Statistische Analyse der Ausgangsdaten Grafische Aufbereitung der Ergebnisdaten long term storage
Workflow - neu - Extraktion von Daten aus dem Datenarchiv / Datenpool in Hamburg Transfer der Daten nach Köln Konvertierung / Aufbereitung der Daten für das Diagnosetool am ZAIK Berechnung der atmosphärischen Parameter mit Hilfe des Diagnosetools Ggf. weitere Datenverarbeitung / Statistische Analysen Visualisierung des Datensatzes
Workflow - aktuelle Arbeiten - Transfer des Konvertierungstools marion (Fortran-Program) von NEC SX-6 ► SUN-Opteron Cluster Transfer des Diagnosetools incl. Job-Umgebung von SUN-Workstation ► SUN-Opteron Cluster Später: Erweiterung des Diagnosetools für netCDF und Grib Daten, damit ggf. keine weitere Konvertierung mehr notwendig ist und weniger Plattenplatz benötigt wird ► weiterhin ein direkter, effektiver Nutzen der cdo‘s möglich
Workflow - alt - Extraktion von Daten aus dem Datenarchiv / Datenpool in Hamburg (long-term storage) Konvertierung und Aufbereitung der Daten für das Diagnosetool am DKRZ ► Vergrößerung des Datenvolumens Transfer der Daten nach Köln Berechnung der atmosphärischen Parameter mit Hilfe des Diagnosetools Ggf. weitere Datenverarbeitung / Statistische Analysen Visualisierung des Datensatzes