Präsentation herunterladen
Die Präsentation wird geladen. Bitte warten
1
Scientific Workflow Systems
2
Ausblick Drei Scientific Workflow Management Systeme
DryadLINQ Trident Scientific Data Management Center (SDMC) Untersuchung und Bewertung nach herausgearbeiteten Kriterien im Hinblick auf: Datenmanagement (als zentralen Aspekt) Eignung zur Modellierung und Ausführung wissenschaftlicher Prozesse Fähigkeit zur Stromdatenverarbeitung
3
Agenda Vorstellung der Systeme Vorstellung des Bewertungssystems
Untersuchung und Bewertung nach: Allgemeinen Kriterien Data-Management-Kriterien Workflow-Lebenszyklus-Kriterien Auswertung der Ergebnisse und Faszit
4
DryadLINQ
5
Übersicht: DryadLINQ Microsoft Entwicklungs- und Ausführungsumgebung
Schwerpunkt auf Entwicklung skalierbarer und paralleler Rechensysteme auf großen Cluster Voraussetzungen: HPC-Cluster, Windows Server zwei Hauptkomponenten: Dryad verteilte Execution Engine parallele Ausführung von Applikationen auf großen Cluster- Systemen Ausführungsmodell basiert auf einem gerichteten, azyklischen Graphen LINQ (Language Integrated Query) Verwendung von Visual Studio ermöglicht es Applikationen in einem SQL-ähnlichen Syntax zu schreiben
6
Technische Umsetzung Applikation in .Net Sprache und
LINQ mit Dryad Extesions .Net Konstrukte zur Manipulation der Datenmengen und Sequenzen Abfrage: Ausdruck bestehend aus Operanden (Datenmengen) und LINQ-Operatoren Deployment DryadLINQ-Objekt wird erzeugt Ausdruck wird an das DryadLINQ übergeben LINQ-Ausdruck Kompilieren Verteilter Ausführungsplan Vorbereitung zur Ausführung Programmverteilung und Parallelisierung Generierung d. Ausführungscodes einzelner Teilprogramme
7
Technische Umsetzung (2)
Anstoßen der Rechnung Job-Manager (JM) wird aufgerufen erhält den Ausführungsplan erstellt einen Job-Graph und weist die physischen Ressourcen den Knoten zu Ausführung der Rechnung Ausgaben in die Output-Tabellen Terminierung JM terminiert Output-Tabellen an DryadLINQ Umwandlung der Tabellen in die .Net DryadTable-Objekte .Net Programm läuft weiter
8
Trident 8
9
Trident Open Source Scientific WFMS
Ziel: Verarbeitung großer Datenmengen Domänenunabhängig Verwendung: Pan-STARRS- Panoramic Survey Telescope & Rapid Response System Project Neptune COVE Oceanographic Visualization Workbench 9 9
10
Pan-STARRS [ 10 10
11
Neptune 11 [http://www.interactiveoceans.washington.edu/]
explore newly recognized linkages among processes in the ocean, the seafloor, and microbial communities that live in the rocks beneath. The basic premise is that when seafloor rocks deform, the nutrient-rich fluids set in motion are capable of supporting microbial blooms at the seafloor or within the overlying ocean. [ 11 11
12
COVE [ 12 12
13
Architektur [ 13 13
14
Trident Composer 14 14
15
Trident Management Studio
15 15
16
Trident Management Studio
16 16
17
Domänenunabhängigkeit
Aktivitäten Domänen-unabhängige IF-THEN-ELSE / WHILE Aufbau einer DB Verbindung Datei Lesen/Schreiben Domänen-spezifische z.B. Berechnung der Masse eines Sternes 17 17
18
Scientific Data Management Center (SDMC)
19
Scientific Data Management Center(SDMC)
Projekt von SciDAC (Scientific Discovery trough Advanced Computing) des U.S. Department of Energy Kombiniert Technologien kooperierender Anbieter Derzeit kein eigenes System Hier wird eine verwendete Systemkonfiguration vorgestellt, die veröffentlicht werden soll
20
SDMC – Ebenenprinzip
21
SDMC - Systemkombination
Storage Efficient Access Layer ADIOS (Adaptable IO System) Bibliotheken für C und Fortran Schnittstellen zum Ein- und Auslesen von Daten Variable Verarbeitungsstrategien der Daten möglich Bestimmen der Strategie über XML-Datei (kein Compiling)
22
SDMC - Systemkombination
Data Mining and Analysis Layer Kepler 2.0 Stellt grafische Oberfläche bereit Engine zum Erstellen und Ausführen von Workflows Modellierung der Aktivitäten in Java verschiedene Berechnungsmodelle möglich Daten-gesteuert Ereignis-gesteuert
23
SDMC - Kepler Oberfläche
24
SDMC - Systemkombination
Scientific Process Automation Layer ESimMon (Electronic Simulation Monitoring) Dashboard Webbasierte Anwendung zum verteilen von Daten Anzeigen und analysieren von Workflows Derzeit in Alpha-Phase und nicht frei erhältlich Konnte daher hier nicht berücksichtigt werden!
25
Bewertungssystem
26
Bewertungssystem Vergabe von Punkten je Kriterium Kategoriebewertung
0 bis 10 Punkte pro Kriterium Bei Nichtbewertung neutrale 5 Punkte Kategoriebewertung Mittelwert der Bewertungen einer Kategorie Gewichtung Gewichte: Allgemeine Kriterien: 0,2 Workflow Lebenszyklus: 0,3 Datenmanagement: 0,5 Gesamtbewertung Addieren der gewichteten Kategoriebewertungen
27
Allgemeine Kriterien
28
Übersicht: Allgemeine Kriterien
Usability Zuverlässigkeit Erweiterbarkeit Flexibilität und Portabilität
29
Usability
30
Zuverlässigkeit
31
Erweiterbarkeit
32
Flexibilität und Portabilität
33
Kategoriebewertung - Allgemeine Kriterien
34
Datamanagement
35
Übersicht: Datamanagementkriterien
internes Datenformat Workflowmodellierungssprachen Stromdatenverarbeitung Datentypen im WF-Modell Datentransformation
36
Internes Datenformat
37
Workflowmodellierungssprachen
38
Stromdatenverarbeitung
39
Datentypen im WF-Modell
40
Datentransformation
41
Kategoriebewertung - Datenmanagement
42
Vergabe von Punkten je Kriterium Workflow Lebenszyklus
42
43
Design und Zusammensetzung
43 43
44
Erweiterbarkeit des Workflow-Modells
44 44
45
Ressourcenplanung 45 45
46
Prozessausführung 46 46
47
Adoption-Änderparkeit v.Proz. zur Laufzeit
47 47
48
Result- und Workflow-Sharing
48 48
49
Analyse von ausgeführten Prozessen
49 49
50
Kategoriebewertung - Workflow Lebenszyklus
50 50
51
Auswertung 51
52
Gewichtung und Gesamtbewertung
52 52
53
Fazit SDMC erreicht den höchsten Nutzwert
Ist jedoch noch in der Entwicklung Trident alle notwendigen Komponenten und Funktionalitäten vorhanden. Wird bereits eingesetzt DryadLINQ Umgebung für hochskalierbare verteilte Berechnungen Kein Scientific WFMS im klassischen Sinne 53 53
54
End Of Document
Ähnliche Präsentationen
© 2024 SlidePlayer.org Inc.
All rights reserved.