Sicherung von Dienstgüten in Grid Systemen

Slides:

Advertisements

Ähnliche Präsentationen

FlashCopy Lösungen für mySAP™ Business Hugo Boss

Advertisements

Programmieren im Großen von Markus Schmidt und Benno Kröger.

PG Air Seminararbeit März 2002 Jürgen Wieners

Routing – Routing Protokolle

Rechnernetze und verteilte Systeme (BSRvS II)

Network-on-Chip basierende Laufzeitsysteme für dynamisch rekonfigurierbare Hardware Ronald Hecht Institut für Mikroelektrotechnik und Datentechnik Universität.

1 Allgemeine Fragestellung Suche nach wissenschaftlicher Information im Internet Quelle wird gefunden, aber… …Zugang nur gegen Passwort oder Zahlung Wiss.

Ulrich Kähler, DFN-Verein

On a Buzzword: Hierachical Structure David Parnas.

Stefanie Selzer - Pascal Busch - Michael Kropiwoda

Pascal Busch, WWI00B – Vergleich CORBA vs. Web Services hinsichtlich der Applikationsintegration Web Services vs CORBA Web Services vs CORBA Ein Vergleich.

Lehrstuhl Informatik III: Datenbanksysteme Achim Landschoof 28. April 2009 Strukturierte P2P Systeme 1 Achim Landschoof Betreuerin: Dipl.-Inf. Jessica.

Java: Objektorientierte Programmierung

Komplexpraktikum Laufzeitumgebung für Komponenten mit QoS - Anforderungen Brit Engel.

Vorlesung: 1 Betriebssysteme 2007 Prof. Dr. G. Hellberg Studiengang Informatik FHDW Vorlesung: Betriebssysteme Hochverfügbarkeit (Einführung) 3. Quartal.

Vorlesung: 1 Betriebssysteme 2008 Prof. Dr. G. Hellberg Studiengang Mechatronik FHDW Vorlesung: Betriebssysteme Hochverfügbarkeit (Einführung) 2. Quartal.

PKJ 2005/1 Stefan Dissmann Zusammenfassung Vorwoche Methoden sind mit einem Namen versehene Programmabschnitte besitzen Rückgabetyp, Namen, Parameterliste.

ROUTINGVERFAHREN ZUR LASTVERTEILUNG IN CONTENT-DELIVERY-NETWORKS

Datenmanagement in Sensornetzen PRESTO - Feedback gesteuertes Datenmanagement - SS 2007 Sören Wenzlaff.

Die Bank von morgen - eine neue Welt für IT und Kunden? 23. Oktober 2001.

Vorlesung Gestaltung von soziotechnischen Informationssystemen - RequirementsEngineering und Contextual Design- Thomas Herrmann, Lehrstuhl Informations-

Diplomarbeit Thema: Untersuchungen zur Spezifikation und Realisierung von Interoperabilitätskonzepten (hauptsächlich) CORBA-basierter Multiagentensysteme.

Datenmodelle, Datenbanksprachen und Datenbankmanagementsysteme

Distanzbasierte Sprachkommunikation für Peer-to-Peer-Spiele

Chat System – Gruppe B Tim Braun, Andre Ester, Florian Müller und

Datagrid in Earth System Sciences (DGESS) - Integration und Erweiterungen - Projektreffen am Max-Planck-Institut für Meteorologie Heinrich Widmann 28.

Evaluierung des ITU-T.124 Telekonferenzstandards

Open Services Gateway Initiative

Entwicklung verteilter eingebetteter Systeme - Einführung

Spezifikation von Anforderungen

Bewertung von Cloud-Anbietern aus Sicht eines Start-ups

Nestor Workshop im Rahmen der GES 2007 Digitale Langzeitarchivierung und Grid: Gemeinsam sind wir stärker? Anforderungen von eScience und Grid-Technologie.

Netzwerke | Serversysteme | Client-Service | Groupware Darmstadt The Game Changer Microsofts Hyper-V v3 & HPs Insight Online Thorsten Podzimek,

TWS/Graph HORIZONT Produkt-Präsentation Software für Rechenzentren

1 Alexander Arimond, University of Kaiserslautern, Germany Entwicklung und Evaluation eines Raytracing-Dienstes für das Venice Service Grid Alexander Arimond.

Systemaufbau / Komponenten

Arbeitsgruppen-administration

Grundlagen: Client-Server-Modell

Generalisierung/Spezialisierung Subtypisierung/Vererbung

Service Computing Prof. Dr. Ramin Yahyapour IT & Medien Centrum 19. Januar 2010.

| Basel Wege in die Cloud: Office 365 Dennis Hobmaier, Technical Solutions

HORIZONT 1 XINFO ® Das IT - Informationssystem HORIZONT Software für Rechenzentren Garmischer Str. 8 D München Tel ++49(0)89 /

HORIZONT 1 XINFO ® Das IT - Informationssystem HORIZONT Software für Rechenzentren Garmischer Str. 8 D München Tel ++49(0)89 /

Publikation auf Knopfdruck Judith Riegelnig Michael Grüebler 19. Oktober 2010 / Statistiktage Neuenburg.

Microsoft Student Partners

NDK Enterprise Technologien Informationen Infrastruktur und Fallstudie Daniel Nydegger Studienleiter Enterprise System Entwicklung.

Management- und Web Services- Architekturen

Arne Tornieporth Freitag, 31. März 2017 Hannover

Analyseprodukte numerischer Modelle

Informationsdienste Torsten Rathmann (Deutsches Klimarechenzentrum, Hamburg) Workshop: Virtuelle Forschungsumgebungen aufbauen – mit D-Grid Abstract: Thema.

Arbeitsbereich „Rechnernetze und verteilte Systeme“

Untersuchungen zur Erstellung eines

xRM1 Pilot Implementierung

Proseminar: Technologien des Internets

H.J. Strübig, Worblaufen, xx.xx.xx

Grundlagen, Prinzipien und Aufgaben eines Betriebssystems

->Prinzip ->Systeme ->Peer – to – Peer

Clustering Clustering mit openMosix von Christian Wiese Stefan Krause.

7.2.4 Klassifikation mobilen Codes Nicht vergessen:  Sowohl das Fernkopieren als auch die Migration von Objekten setzt voraus, daß der Code entweder am.

Vortrag - Diplomarbeiten (HS I)

Exploiting Web Applications

LVM - Logical Volume Management unter Linux

Distributed Database Systems Parallele Datenbanksysteme von Stefan Schneider.

Hadoop-as-a-Service (HDaaS)

SAN & NAS © Nicole Waibel Index NAS SAN Quellen

Rechen- und Kommunikationszentrum (RZ) TSM vs. inSync Seminarvortrag am von Nicole Temminghoff Betreut von: Prof. Dr. Andreas Terstegge Dr.

Das Software Defined Datacenter Rüdiger Melzer Senior Systems Engineer, Alliance Management VMware

Microsoft Exchange Storage Recovery und Automatic Database Reseed Repariert sich Exchange wirklich alleine?! Herzlich Willkommen zum Webinar Referent:

Präsentation transkript:

Sicherung von Dienstgüten in Grid Systemen Matthias Hovestadt Odej Kao 20. DFN Arbeitstagung 6.-9. Juni 2006 Heilbronn

Architektur eines SLA-fähigen RMS Operationsphasen SLA-Scheduling Agenda Motivation Architektur eines SLA-fähigen RMS Operationsphasen SLA-Scheduling Cross-border Migration Zusammenfassung Matthias Hovestadt: 20. DFN Arbeitstagung

Grid Computing Today Grid Computing Zentrale Probleme Grids werden genutzt, aber… … kaum kommerzielle Nutzung von Grids Einsatz nur für kleine isolierte Anwendungsfelder … Haupteinsatz im akademischen Umfeld Testbeds von Forschungsprojekten Zentrale Probleme Ressource-Provider: Eingriff in lokale Autonomie Nutzer: Keine vertraglich gesicherten Dienstgüten Sicherung von Deadlines bei geschäftskritischen Jobs Matthias Hovestadt: 20. DFN Arbeitstagung

Was ist ein Service Level Agreement? Service Level Agreement (SLA) Vertrag zwischen Kunde und Provider Beschreibt alle Erwartungen und Verpflichtungen Flexible Formulierung für jeden Anwendungsfall Service Level Agreement Terms R-Type: HW, OS, Compiler, Software Packages, … R-Quantity: Number CPUs, main memory, … R-Quality: CPU>2GHz, Network Bandwidth, … Deadline: Date, Time,… Policies: Demands on Security and Privacy, … Price for Resource Consumtion (fulfilled SLA) Penalty Fee in case of SLA violation Contract Parties, Responsible Persons ID or Description of SLA Name Context SLA bereits im Fokus von Grid Middleware Matthias Hovestadt: 20. DFN Arbeitstagung

Die Lücke zwischen Grid und RMS User fragt nach einem Service Level Agreement Grid Middleware nutzt lokale RMS zur Job-Abarbeitung ABER: Lokale RMS bieten nur Best Effort Dienste! Ziel: SLA-fähiges RMS Laufzeitüberwachung Zuverlässigkeit Fehlertoleranz grid middleware user request Reliability? Quality of Service? SLA RMS M1 M2 M3 Guaranteed! Best Effort! Matthias Hovestadt: 20. DFN Arbeitstagung

Anforderungen an ein SLA-fähiges RMS Aushandlung SLA-Negotiation mit Grid Middleware Neuen Job nur akzeptieren, wenn SLA erfüllt werden kann System Management Beachtung der Anforderungen geschlossener SLAs Zuweisung von System-Ressourcen gemäß SLA Fehlertoleranz SLAs müssen auch im Fehlerfall erfüllt werden Notwendig: Mechanismen zur Fehlerbehandlung Matthias Hovestadt: 20. DFN Arbeitstagung

Architektur eines SLA-fähigen RMS Operationsphasen SLA-Scheduling Agenda Motivation Architektur eines SLA-fähigen RMS Operationsphasen SLA-Scheduling Cross-border Migration Zusammenfassung Matthias Hovestadt: 20. DFN Arbeitstagung

SLA-fähiges Resource Management System Zentrale Komponente des Systems Schnittstelle zu Grid-Middleware: SLA-Aushandlung Schnittstellen zu Subsystemen: Realisierung der Fehlertoleranz Aufgaben Aushandlung neuer SLAs Durchsetzung von Policies Sicherheit, Zugriff, … Systemüberwachung Fehlertoleranz Erstellung v. Checkpoints Migration auf kompatible freie Ressourcen Offene Schnittstellen Integration in standardkonforme Grid-Middleware Systeme Austausch der Subsysteme gegen andere Lösungen Matthias Hovestadt: 20. DFN Arbeitstagung

Process Subsystem Konzept: “Virtuelle Blase” Virtualisierung von Ressourcen Virtuelles Netzwerk, Virt. Prozess-IDs, … Applikation läuft in virtueller Umgebung kaum Auswirkung auf Geschwindigkeit Checkpoint der gesamten “virtuellen Blase” Keine re-compilierung oder re-linking notwendig Checkpoint kommerzieller Applikationen (ohne Source) Im Fehlerfall: Fortführung einer “virtuellen Blase” Hauptproblem: Kompatibilität der Ressourcen Applikation bemerkt nicht den Restart Matthias Hovestadt: 20. DFN Arbeitstagung

Network Subsystem HPC4U zielt auf parallele Applikationen Kommunikation zwischen Knoten Checkpoint des Netzwerk-Zustands notwendig Sicherung der Konsistenz zwischen Netzwerk und Applikation beim Fortführen eines Checkpoints Netzwerk-Checkpointing Checkpoint der Netzwerk-Protokoll-Queues Checkpoint der „In-Transit“ Pakete Cooperative Checkpoint Protocol (CCP) direkte Abstimmung zwischen Checkpoint- und Netzwerk-Ss. notwendig, da Netzwerk-Checkpoint sehr zeitkritisch Matthias Hovestadt: 20. DFN Arbeitstagung

Storage Subsystem Aufgabe Erbringung der Dienstgüte bzgl. Storage-Speicher Checkpointing von Partitionen des Storage-Speichers Konsistentes Umfeld des Prozesses im Checkpoint Wiederherstellung des kompletten Umfelds beim Re-Start Checkpoint = Prozeß + Netzwerk + Storage Storage Checkpoint kann sehr groß werden Problem: Verzögerung beim Start auf entfernter Ressource Grid-Migration über “langsame” WAN-Verbindungen Lösung: Daten-Replikation mittels COW (copy on write) Vorsorglicher Datentransfer zur entfernten Ressource Matthias Hovestadt: 20. DFN Arbeitstagung

Erzeugung eines neuen Checkpoints 8. Migration from last checkpoint 7. Job running again RMS 5. Link to Snapshot 1. CP job +halt 3. Return: “Checkpoint completed!” 6. Resume job 4. Snap- shot ! CP Network Storage 2. In- Transit Packets Matthias Hovestadt: 20. DFN Arbeitstagung

Checkpointing Erzeugung eines konsistenten Job-Abbildes laufender Prozeß Zustand des Netzwerks (parallele Jobs) Storage-Speicher Checkpointing führt zu Verzögerung der Job-Fertigstellung abhängig von Anzahl Knoten, Netzwerk, Speichernutzung, … Verzögerung muß bei Scheduling beachtet werden Länge = Geschätze Laufzeit + Checkpointing Overhead Matthias Hovestadt: 20. DFN Arbeitstagung

Architektur eines SLA-fähigen RMS Operationsphasen SLA-Scheduling Agenda Motivation Architektur eines SLA-fähigen RMS Operationsphasen SLA-Scheduling Cross-border Migration Zusammenfassung Matthias Hovestadt: 20. DFN Arbeitstagung

Laufzeitphasen Aushandlung einer neuen SLA Pre-Runtime: Konfiguration und Initialisierung der Ressourcen z.B. Clusterknoten, Netzwerk, Storage, … Runtime: Stage-In, Ausführung, Stage-Out Post-Runtime: Re-konfiguration Matthias Hovestadt: 20. DFN Arbeitstagung

Phase 1: SLA-Aushandlung Ressource-Anbieter und Kunde versuchen sich auf en Service Level Agreement zu einigen Welche Ressourcen müssen bereitgestellt werden? Wird eine besondere Dienstgüte gefordert? Spezifikation einer Deadline, … RMS in zentraler Position Steuerung des Aushandlungsprozesses Beachtung statischer und dynamischer Daten Matthias Hovestadt: 20. DFN Arbeitstagung

Konfiguration betrifft alle Komponenten Phase 2: Pre-Runtime Aufgabe Konfiguration aller genutzten Ressourcen Ziel: Erfüllung der Anforderungen der SLA Konfiguration betrifft alle Komponenten Resource Management System z.B. Konfiguration von Rechenknoten Storage Subsystem z.B. Initialisierung neuer Partitionen z.B. Vorbereitung der Datenreplikation Network Subsystem z.B. Konfiguration des Netzwerks Matthias Hovestadt: 20. DFN Arbeitstagung

Phase 3: Laufzeit der Applikation Runtime Phase Lebenszeit des Jobs im System Inhalte der SLA erfüllen Nutzung der FT-Mechanismen Drei aufeinanderfolgende Schritte Stage-In Übertragung von Eingabedaten von Grid-User auf Compute Ressource Berechnung Ausführung der Applikation Stage-Out Transfer der Ausgabedaten von der Compute Ressource zum Grid-User Matthias Hovestadt: 20. DFN Arbeitstagung

Belegung der Ressourcen endet Phase 4: Post-Runtime Aufgabe Re-konfiguration aller Ressourcen z.B. Rekonfiguration des Netzwerks z.B. Löschung von Checkpoint-Daten z.B. Löschung temporärer Daten Gegenstück zu Pre-Runtime Phase Belegung der Ressourcen endet Schedules im System können aktualisiert werden Ressourcen sind für neue Jobs verfügbar Matthias Hovestadt: 20. DFN Arbeitstagung

Architektur eines SLA-fähigen RMS Operationsphasen SLA-Scheduling Agenda Motivation Architektur eines SLA-fähigen RMS Operationsphasen SLA-Scheduling Cross-border Migration Zusammenfassung Matthias Hovestadt: 20. DFN Arbeitstagung

Aushandlung neuer SLAs Eingehender SLA-Request 3 Knoten, 7h Laufzeit, Frühester Start: 20:00, Deadline 6:00 Request kann akzeptiert werden, Buffer 2h Reguläres Checkpointing Neuen Checkpoint alle 60 Minutes erzeugen Checkpointing verursacht Verzögerung der Job-Fertigstellung Ausmaß der Verzögerung von vielen Faktoren abhängig 12am 6pm 12pm 6am Matthias Hovestadt: 20. DFN Arbeitstagung

Aussetzung der Jobausführung Blockierung von Ressourcen durch Nicht-SLA Jobs 23:00: SLA-Request: 3 Knoten, 7 Stunden, Deadline 6:00 Fehlende Ressourcen: Ablehnung des neuen SLA-Requests Checkpoint+Suspend des Nicht-SLA Jobs (best effort only) Annahme und Ausführung des SLA-Requests Fortführung des ausgesetzten Jobs Fertigstellung v. Best-Effort Job, Erfüllung der SLA 12am 6pm 12pm 6am Matthias Hovestadt: 20. DFN Arbeitstagung

Erhöhung der Systemauslastung Jobs belegen System-Ressourcen User richten Requests nicht nach freien Kapazitäten aus Reservierungen müssen erfüllt werden Lücken zu klein zur Ausführung anderer Jobs Partielle Job-Ausführung in Lücken mittels Job-Suspend Realisierung von „Hintergrund-Jobs“ Matthias Hovestadt: 20. DFN Arbeitstagung

Runtime of SLA job Pre-runtime phase Runtime phase Post-runtime phase configuration of network, storage, and nodes Runtime phase Monitoring of system Regular checkpointing Post-runtime phase 12am 6pm 12pm 6am Matthias Hovestadt: 20. DFN Arbeitstagung

Behandlung von Ressource-Ausfällen Ausfall einer Ressource innerhalb einer Job-Partition Job bricht üblicherweise sofort ab Letzter Checkpoint nach 4h Laufzeit Berechnung seit letztem Checkpoint ist verloren Belegung einer Partition mit 3h Laufzeit Aufsetzen auf letztem Checkpoint Scheduling der Checkpoint-Erzeugung Fortführung der Berechnung 12am 6pm 12pm 6am Matthias Hovestadt: 20. DFN Arbeitstagung

Verfügbarkeit von Ausweich-Ressourcen Migration setzt Verfügbarkeit anderer Ressourcen voraus aber: Ressourcen können durch andere Jobs belegt sein Lösung: Aussetzung anderer Jobs Problem: Alle Ressourcen können durch SLAs belegt sein SLA-Job können nur ausgesetzt werden, wenn Buffer vorh. Buffer Knoten: Ausschließlich Ausführung von Nicht-SLAs 12am 6pm 12pm 6am Matthias Hovestadt: 20. DFN Arbeitstagung

Architektur eines SLA-fähigen RMS Operationsphasen SLA-Scheduling Agenda Motivation Architektur eines SLA-fähigen RMS Operationsphasen SLA-Scheduling Cross-border Migration Zusammenfassung Matthias Hovestadt: 20. DFN Arbeitstagung

Cross-Border Migration Ziel: Erfolgreiche Ausführung von SLA-Jobs Behandlung von Ausfällen hängt von lokaler Last ab Ziel des Providers: Auslastung seiner Ressourcen Hohe Last + Ausfall → Keine Migration → SLA Verletzung Ansatz: Cross-Border Migration Nutzung von Ressourcen auf anderen Clustern lokal meist mehrere Cluster verfügbar Transfer des Checkpoints zum externen Cluster Fortführung der Job-Ausführung von letzten Checkpoint RMS Matthias Hovestadt: 20. DFN Arbeitstagung

Grid Migration Cross-Border Migration Schritt in richtige Richtung zusätzliche Alternativen für den Migrations-Prozeß Erhöhung der Fehlertoleranz Grid Migration = Nutzung von Grid Ressourcen f. Migration Aushandlung von SLAs mit Grid Ressourcen Migrationsprozeß Anfrage an Grid nach Ausweich-Ressourcen Transfer des Checkpoints Fortführung von letztem Checkpoint auf Grid Ressource Transparent für den User Benutzer nur an Erfüllung seiner SLA interessiert Problem: Kompatibilität von Ressourcen und Checkpoints Matthias Hovestadt: 20. DFN Arbeitstagung

Kompatibilitätsprofile Kompatibilität zwischen Checkpoint und Ressourcen Prozessor Architektur Haupt- und Festplattenspeicher Interconnect Bibliotheken Exakte Übereinstimmung für bereits geladene Bibliotheken Kompatible Bibliotheken für noch nicht geladene Bib. Pfade Profil mit Kompatibilitätsaspekten Beschreibung der Anforderungen des Jobs für Restart Anfrage nach Grid-Ressourcen, gemäß dieses Profils Matthias Hovestadt: 20. DFN Arbeitstagung

Zusammenfassung Neue Anforderungen durch Next Generation Grids Transparenz, Fehlertoleranz, SLA Aushandlung SLA-fähige Resource Management Systeme koordinierte Nutzung der Subsysteme für Process, Storage, and Network Integration von SLA Scheduling in RMS Cross-border Migration erhöht FT Level Stand der Dinge Unterstützung nicht-paralleler Anwendungen Unterstützung paralleler Anwendungen aktuell: Cross-border Migration Matthias Hovestadt: 20. DFN Arbeitstagung