Scientific Workflow Systems
Ausblick Drei Scientific Workflow Management Systeme DryadLINQ Trident Scientific Data Management Center (SDMC) Untersuchung und Bewertung nach herausgearbeiteten Kriterien im Hinblick auf: Datenmanagement (als zentralen Aspekt) Eignung zur Modellierung und Ausführung wissenschaftlicher Prozesse Fähigkeit zur Stromdatenverarbeitung
Agenda Vorstellung der Systeme Vorstellung des Bewertungssystems Untersuchung und Bewertung nach: Allgemeinen Kriterien Data-Management-Kriterien Workflow-Lebenszyklus-Kriterien Auswertung der Ergebnisse und Faszit
DryadLINQ
Übersicht: DryadLINQ Microsoft Entwicklungs- und Ausführungsumgebung Schwerpunkt auf Entwicklung skalierbarer und paralleler Rechensysteme auf großen Cluster Voraussetzungen: HPC-Cluster, Windows Server zwei Hauptkomponenten: Dryad verteilte Execution Engine parallele Ausführung von Applikationen auf großen Cluster- Systemen Ausführungsmodell basiert auf einem gerichteten, azyklischen Graphen LINQ (Language Integrated Query) Verwendung von Visual Studio ermöglicht es Applikationen in einem SQL-ähnlichen Syntax zu schreiben
Technische Umsetzung Applikation in .Net Sprache und LINQ mit Dryad Extesions .Net Konstrukte zur Manipulation der Datenmengen und Sequenzen Abfrage: Ausdruck bestehend aus Operanden (Datenmengen) und LINQ-Operatoren Deployment DryadLINQ-Objekt wird erzeugt Ausdruck wird an das DryadLINQ übergeben LINQ-Ausdruck Kompilieren Verteilter Ausführungsplan Vorbereitung zur Ausführung Programmverteilung und Parallelisierung Generierung d. Ausführungscodes einzelner Teilprogramme
Technische Umsetzung (2) Anstoßen der Rechnung Job-Manager (JM) wird aufgerufen erhält den Ausführungsplan erstellt einen Job-Graph und weist die physischen Ressourcen den Knoten zu Ausführung der Rechnung Ausgaben in die Output-Tabellen Terminierung JM terminiert Output-Tabellen an DryadLINQ Umwandlung der Tabellen in die .Net DryadTable-Objekte .Net Programm läuft weiter
Trident 8
Trident Open Source Scientific WFMS Ziel: Verarbeitung großer Datenmengen Domänenunabhängig Verwendung: Pan-STARRS- Panoramic Survey Telescope & Rapid Response System Project Neptune COVE Oceanographic Visualization Workbench 9 9
Pan-STARRS [http://pan-starrs.ifa.hawaii.edu/] 10 10
Neptune 11 [http://www.interactiveoceans.washington.edu/] explore newly recognized linkages among processes in the ocean, the seafloor, and microbial communities that live in the rocks beneath. The basic premise is that when seafloor rocks deform, the nutrient-rich fluids set in motion are capable of supporting microbial blooms at the seafloor or within the overlying ocean. [http://www.interactiveoceans.washington.edu/] 11 11
COVE [http://www.interactiveoceans.washington.edu/] 12 12
Architektur [http://research.microsoft.com/en-us/collaboration/tools/trident_workbench.doc] 13 13
Trident Composer 14 14
Trident Management Studio 15 15
Trident Management Studio 16 16
Domänenunabhängigkeit Aktivitäten Domänen-unabhängige IF-THEN-ELSE / WHILE Aufbau einer DB Verbindung Datei Lesen/Schreiben Domänen-spezifische z.B. Berechnung der Masse eines Sternes 17 17
Scientific Data Management Center (SDMC)
Scientific Data Management Center(SDMC) Projekt von SciDAC (Scientific Discovery trough Advanced Computing) des U.S. Department of Energy Kombiniert Technologien kooperierender Anbieter Derzeit kein eigenes System Hier wird eine verwendete Systemkonfiguration vorgestellt, die veröffentlicht werden soll
SDMC – Ebenenprinzip
SDMC - Systemkombination Storage Efficient Access Layer ADIOS (Adaptable IO System) Bibliotheken für C und Fortran Schnittstellen zum Ein- und Auslesen von Daten Variable Verarbeitungsstrategien der Daten möglich Bestimmen der Strategie über XML-Datei (kein Compiling)
SDMC - Systemkombination Data Mining and Analysis Layer Kepler 2.0 Stellt grafische Oberfläche bereit Engine zum Erstellen und Ausführen von Workflows Modellierung der Aktivitäten in Java verschiedene Berechnungsmodelle möglich Daten-gesteuert Ereignis-gesteuert
SDMC - Kepler Oberfläche
SDMC - Systemkombination Scientific Process Automation Layer ESimMon (Electronic Simulation Monitoring) Dashboard Webbasierte Anwendung zum verteilen von Daten Anzeigen und analysieren von Workflows Derzeit in Alpha-Phase und nicht frei erhältlich Konnte daher hier nicht berücksichtigt werden!
Bewertungssystem
Bewertungssystem Vergabe von Punkten je Kriterium Kategoriebewertung 0 bis 10 Punkte pro Kriterium Bei Nichtbewertung neutrale 5 Punkte Kategoriebewertung Mittelwert der Bewertungen einer Kategorie Gewichtung Gewichte: Allgemeine Kriterien: 0,2 Workflow Lebenszyklus: 0,3 Datenmanagement: 0,5 Gesamtbewertung Addieren der gewichteten Kategoriebewertungen
Allgemeine Kriterien
Übersicht: Allgemeine Kriterien Usability Zuverlässigkeit Erweiterbarkeit Flexibilität und Portabilität
Usability
Zuverlässigkeit
Erweiterbarkeit
Flexibilität und Portabilität
Kategoriebewertung - Allgemeine Kriterien
Datamanagement
Übersicht: Datamanagementkriterien internes Datenformat Workflowmodellierungssprachen Stromdatenverarbeitung Datentypen im WF-Modell Datentransformation
Internes Datenformat
Workflowmodellierungssprachen
Stromdatenverarbeitung
Datentypen im WF-Modell
Datentransformation
Kategoriebewertung - Datenmanagement
Vergabe von Punkten je Kriterium Workflow Lebenszyklus 42
Design und Zusammensetzung 43 43
Erweiterbarkeit des Workflow-Modells 44 44
Ressourcenplanung 45 45
Prozessausführung 46 46
Adoption-Änderparkeit v.Proz. zur Laufzeit 47 47
Result- und Workflow-Sharing 48 48
Analyse von ausgeführten Prozessen 49 49
Kategoriebewertung - Workflow Lebenszyklus 50 50
Auswertung 51
Gewichtung und Gesamtbewertung 52 52
Fazit SDMC erreicht den höchsten Nutzwert Ist jedoch noch in der Entwicklung Trident alle notwendigen Komponenten und Funktionalitäten vorhanden. Wird bereits eingesetzt DryadLINQ Umgebung für hochskalierbare verteilte Berechnungen Kein Scientific WFMS im klassischen Sinne 53 53
End Of Document