Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

Scientific Workflow Systems

Ähnliche Präsentationen


Präsentation zum Thema: "Scientific Workflow Systems"—  Präsentation transkript:

1 Scientific Workflow Systems

2 Ausblick Drei Scientific Workflow Management Systeme
DryadLINQ Trident Scientific Data Management Center (SDMC) Untersuchung und Bewertung nach herausgearbeiteten Kriterien im Hinblick auf: Datenmanagement (als zentralen Aspekt) Eignung zur Modellierung und Ausführung wissenschaftlicher Prozesse Fähigkeit zur Stromdatenverarbeitung

3 Agenda Vorstellung der Systeme Vorstellung des Bewertungssystems
Untersuchung und Bewertung nach: Allgemeinen Kriterien Data-Management-Kriterien Workflow-Lebenszyklus-Kriterien Auswertung der Ergebnisse und Faszit

4 DryadLINQ

5 Übersicht: DryadLINQ Microsoft Entwicklungs- und Ausführungsumgebung
Schwerpunkt auf Entwicklung skalierbarer und paralleler Rechensysteme auf großen Cluster Voraussetzungen: HPC-Cluster, Windows Server zwei Hauptkomponenten: Dryad verteilte Execution Engine parallele Ausführung von Applikationen auf großen Cluster- Systemen Ausführungsmodell basiert auf einem gerichteten, azyklischen Graphen LINQ (Language Integrated Query) Verwendung von Visual Studio ermöglicht es Applikationen in einem SQL-ähnlichen Syntax zu schreiben

6 Technische Umsetzung Applikation in .Net Sprache und
LINQ mit Dryad Extesions .Net Konstrukte zur Manipulation der Datenmengen und Sequenzen Abfrage: Ausdruck bestehend aus Operanden (Datenmengen) und LINQ-Operatoren Deployment DryadLINQ-Objekt wird erzeugt Ausdruck wird an das DryadLINQ übergeben LINQ-Ausdruck Kompilieren Verteilter Ausführungsplan Vorbereitung zur Ausführung Programmverteilung und Parallelisierung Generierung d. Ausführungscodes einzelner Teilprogramme

7 Technische Umsetzung (2)
Anstoßen der Rechnung Job-Manager (JM) wird aufgerufen erhält den Ausführungsplan erstellt einen Job-Graph und weist die physischen Ressourcen den Knoten zu Ausführung der Rechnung Ausgaben in die Output-Tabellen Terminierung JM terminiert Output-Tabellen an DryadLINQ Umwandlung der Tabellen in die .Net DryadTable-Objekte .Net Programm läuft weiter

8 Trident 8

9 Trident Open Source Scientific WFMS
Ziel: Verarbeitung großer Datenmengen Domänenunabhängig Verwendung: Pan-STARRS- Panoramic Survey Telescope & Rapid Response System Project Neptune COVE Oceanographic Visualization Workbench 9 9

10 Pan-STARRS [http://pan-starrs.ifa.hawaii.edu/] 10 10

11 Neptune 11 [http://www.interactiveoceans.washington.edu/]
explore newly recognized linkages among processes in the ocean, the seafloor, and microbial communities that live in the rocks beneath. The basic premise is that when seafloor rocks deform, the nutrient-rich fluids set in motion are capable of supporting microbial blooms at the seafloor or within the overlying ocean. [http://www.interactiveoceans.washington.edu/] 11 11

12 COVE [http://www.interactiveoceans.washington.edu/] 12 12

13 Architektur [http://research.microsoft.com/en-us/collaboration/tools/trident_workbench.doc] 13 13

14 Trident Composer 14 14

15 Trident Management Studio
15 15

16 Trident Management Studio
16 16

17 Domänenunabhängigkeit
Aktivitäten Domänen-unabhängige IF-THEN-ELSE / WHILE Aufbau einer DB Verbindung Datei Lesen/Schreiben Domänen-spezifische z.B. Berechnung der Masse eines Sternes 17 17

18 Scientific Data Management Center (SDMC)

19 Scientific Data Management Center(SDMC)
Projekt von SciDAC (Scientific Discovery trough Advanced Computing) des U.S. Department of Energy Kombiniert Technologien kooperierender Anbieter Derzeit kein eigenes System Hier wird eine verwendete Systemkonfiguration vorgestellt, die veröffentlicht werden soll

20 SDMC – Ebenenprinzip

21 SDMC - Systemkombination
Storage Efficient Access Layer ADIOS (Adaptable IO System) Bibliotheken für C und Fortran Schnittstellen zum Ein- und Auslesen von Daten Variable Verarbeitungsstrategien der Daten möglich Bestimmen der Strategie über XML-Datei (kein Compiling)

22 SDMC - Systemkombination
Data Mining and Analysis Layer Kepler 2.0 Stellt grafische Oberfläche bereit Engine zum Erstellen und Ausführen von Workflows Modellierung der Aktivitäten in Java verschiedene Berechnungsmodelle möglich Daten-gesteuert Ereignis-gesteuert

23 SDMC - Kepler Oberfläche

24 SDMC - Systemkombination
Scientific Process Automation Layer ESimMon (Electronic Simulation Monitoring) Dashboard Webbasierte Anwendung zum verteilen von Daten Anzeigen und analysieren von Workflows Derzeit in Alpha-Phase und nicht frei erhältlich Konnte daher hier nicht berücksichtigt werden!

25 Bewertungssystem

26 Bewertungssystem Vergabe von Punkten je Kriterium Kategoriebewertung
0 bis 10 Punkte pro Kriterium Bei Nichtbewertung neutrale 5 Punkte Kategoriebewertung Mittelwert der Bewertungen einer Kategorie Gewichtung Gewichte: Allgemeine Kriterien: 0,2 Workflow Lebenszyklus: 0,3 Datenmanagement: 0,5 Gesamtbewertung Addieren der gewichteten Kategoriebewertungen

27 Allgemeine Kriterien

28 Übersicht: Allgemeine Kriterien
Usability Zuverlässigkeit Erweiterbarkeit Flexibilität und Portabilität

29 Usability

30 Zuverlässigkeit

31 Erweiterbarkeit

32 Flexibilität und Portabilität

33 Kategoriebewertung - Allgemeine Kriterien

34 Datamanagement

35 Übersicht: Datamanagementkriterien
internes Datenformat Workflowmodellierungssprachen Stromdatenverarbeitung Datentypen im WF-Modell Datentransformation

36 Internes Datenformat

37 Workflowmodellierungssprachen

38 Stromdatenverarbeitung

39 Datentypen im WF-Modell

40 Datentransformation

41 Kategoriebewertung - Datenmanagement

42 Vergabe von Punkten je Kriterium Workflow Lebenszyklus
42

43 Design und Zusammensetzung
43 43

44 Erweiterbarkeit des Workflow-Modells
44 44

45 Ressourcenplanung 45 45

46 Prozessausführung 46 46

47 Adoption-Änderparkeit v.Proz. zur Laufzeit
47 47

48 Result- und Workflow-Sharing
48 48

49 Analyse von ausgeführten Prozessen
49 49

50 Kategoriebewertung - Workflow Lebenszyklus
50 50

51 Auswertung 51

52 Gewichtung und Gesamtbewertung
52 52

53 Fazit SDMC erreicht den höchsten Nutzwert
Ist jedoch noch in der Entwicklung Trident alle notwendigen Komponenten und Funktionalitäten vorhanden. Wird bereits eingesetzt DryadLINQ Umgebung für hochskalierbare verteilte Berechnungen Kein Scientific WFMS im klassischen Sinne 53 53

54 End Of Document


Herunterladen ppt "Scientific Workflow Systems"

Ähnliche Präsentationen


Google-Anzeigen