Recovery-Oriented Computing Mario Eckhardt Aspekte und Werkzeuge der Datenbankadministration und deren Automatisierung.

Slides:

Advertisements

Ähnliche Präsentationen

Migration von Feldbussen zu PROFINET

Advertisements

FlashCopy Lösungen für mySAP™ Business Hugo Boss

Persistente Domänenmodelle mit JPA 2.0 und Bean Validation

E-Commerce Shop System

Das „Vorgehensmodell“

<<Presentation Title>>

Qualitätssicherung von Software Prof. Dr. Holger Schlingloff Humboldt-Universität zu Berlin und Fraunhofer FIRST.

On a Buzzword: Hierachical Structure David Parnas.

Microsoft Windows 2000 Terminal Services

Erfahrungen aus Tests komplexer Systeme

Universität Stuttgart Institut für Kernenergetik und Energiesysteme Aufgaben des Testens Vergleich des Verhaltens einer Software mit den an sie gestellten.

Beispiel: Wasserfallmodell als einfaches Phasenmodell

Vorlesung: 1 Betriebssysteme 2007 Prof. Dr. G. Hellberg Studiengang Informatik FHDW Vorlesung: Betriebssysteme Hochverfügbarkeit (Einführung) 3. Quartal.

Vorlesung: 1 Betriebssysteme 2008 Prof. Dr. G. Hellberg Studiengang Mechatronik FHDW Vorlesung: Betriebssysteme Hochverfügbarkeit (Einführung) 2. Quartal.

Webstreaming Grundlagen

n4 Streaming Media System

Synchronisation paralleler Transaktionen AIFB SS Konzept der Transaktion 4.2 Konzept der Transaktion (1/4) Eine Transaktion ist ein in sich geschlossener,

M A P K I T Management eines J2EE basierten eCommerce Systems am Beispiel des ATG Dynamo Applikationsservers und BMC Patrol als Managementframework.

Beschleunigung Virtueller Privater Netze durch Netzwerkprozessoren

Evaluierung des ITU-T.124 Telekonferenzstandards

INSTITUT FÜR DATENTECHNIK UND KOMMUNIKATIONS- NETZE 1 Harald Schrom ViEWcon08.

Nestor Workshop im Rahmen der GES 2007 Digitale Langzeitarchivierung und Grid: Gemeinsam sind wir stärker? Anforderungen von eScience und Grid-Technologie.

Copyright © 2013 DataCore Software Corp. – All Rights Reserved.. Mit Speichervirtualisierung mehr Effizienz, Performance und Kostenreduktion erreichen.

Michael Haverbeck System Engineer

Web-HMI einbinden SPS-Technik mit Video, Multimedia und Entertainmentsystemen kombinieren I Peter Steib.

Timo Brueggemann Director Business Development EMEA Stratus Technologies Die Lösung für Hochverfügbarkeit unkompliziert sicher bezahlbar.

Präsentation von Alexander Schönfeld

„Buy and Make“ anstelle von „Make or Buy“

MDM Systeme im Test Udo Bredemeier

Copyright 2010 LB-systems Meßgeräte GmbHSeite 2 Workshops & Schulungen Powered by.

Dienstattribute für service-orientierte Workflows

Vorgehen bei der Entwicklung mobiler Lösungen

Universität zu Köln Historisch-Kulturwissenschaftliche Informationsverarbeitung Softwaretechnologie II (Teil I): Simulation und 3D Programmierung Prof.

Service Computing Prof. Dr. Ramin Yahyapour IT & Medien Centrum 19. Januar 2010.

Dariusz Parys Developer Evangelist Microsoft Deutschland GmbH Christian Weyer Solutions Architect thinktecture.

| Basel Wege in die Cloud: Office 365 Dennis Hobmaier, Technical Solutions

1 Peer to Peer – GNUTELLA Seminar Innovative Netztechnologien Christophe LE ROQUAIS, den 17. Juni 2002.

Copyright 2009 FUJITSU TECHNOLOGY SOLUTIONS Virtual Workplace Elevator Pitch Gernot Fels Mai 2009.

ESRI EUROPEAN USER CONFERENCE

Präsentation von Lukas Sulzer

Maximale Sicherheit für PC-Systeme. Was ist der PC-Sheriff 2000? Wie funktioniert der PC-Sheriff 2000? Warum PC-Sheriff 2000? Desktop-Probleme Vorteile.

Historian CONNECT ALARM

Vorteile durch intelligente Netzwerklösungen in der industriellen Applikation Uwe Eisenmann Yello Marketing & Vertrieb GmbH & Co. KG.

Arbeitsbereich „Rechnernetze und verteilte Systeme“

Maximale Sicherheit für PC-Systeme.

WIR LÖSEN DAS PROBLEM FÜR SIE

Forschungsinstitut für Rationalisierung

Mit IT IS enbex Hand in Hand Zeitgemäße Unternehmen sind auf schnellen und sicheren Datenaustausch angewiesen IT IS AG.

Software Architektur für on-premise und die Cloud Lösungen

Partner Präsentation Interaktives Planen in der Fertigung.

System Center 2012 Automatisierung von IT-Prozessen Sinja Herbertz Education Support Centre Deutschland.

Universität zu Köln Historisch-Kulturwissenschaftliche Informationsverarbeitung Softwaretechnologie II (Teil I): Simulation und 3D Programmierung Prof.

Datenbanken im Web 1.

Dedizierte Systeme SoSe 2009 IT-Zertifikat der Philosophischen Fakultät der Universität zu Köln Dozentin: MA Susanne Kurz 20. März 2009Betriebssystem Mac.

Analyse und Umsetzung einer Filter-basierten Paketverarbeitungsmaschine für IP-Netzwerke Lehrstuhl für Systemarchitektur und Betriebssysteme Forschungs-

OOSE nach Jacobson Sebastian Pohl/ST7 Betreuer: Prof. Dr. Kahlbrandt.

WINDOWS 2003 Server. Standart Varianten für 32 Bit: Web Edition: Unterstützt Single(1)- oder Dual(2)-Prozessor-Systeme und bis zu 2 GB RAM 32-Bit Standard.

LVM - Logical Volume Management unter Linux

XML Seminar: XP und XML 1 XP and XML Gregor Zeitlinger.

Web Services als Remote Content Provider in Portalumgebungen Vorstellung und Diskussion des Themas Präsentation des Prototypen Konzeption und prototypische.

Distributed Database Systems Parallele Datenbanksysteme von Stefan Schneider.

© 2003 Marc Dörflinger Spontane Vernetzung - Salutation 9. Jänner 2004 Spontane Vernetzung Salutation Marc Dörflinger.

Artiso solutions GmbH | Oberer Wiesenweg 25 | Blaustein | Advanced UI-Testing für WPF.

Seminararbeit Release Management von Web-Systemen Minh Tran Lehrstuhl für Software Engineering RWTH Aachen

Technologietag Baugruppentest Wege der Standardisierung im Funktions- und EOL-Test Markus Koetterl National Instruments Germany GmbH.

Rechen- und Kommunikationszentrum (RZ) Strukturierte Datensammlung in verteilten Systemen für den DHCP-Service Tim Becker Seminararbeit / /

Das Software Defined Datacenter Rüdiger Melzer Senior Systems Engineer, Alliance Management VMware

Studiengang Informatik FHDW

Transaktionsabbruch, System Crash, Media Failure

Präsentation transkript:

Recovery-Oriented Computing Mario Eckhardt Aspekte und Werkzeuge der Datenbankadministration und deren Automatisierung

Einleitung Motivation Ziele des Recovery-Oriented Computing Peres` Gesetz Techniken des Recovery-Oriented Computing Redundanz und Isolation Rekursive Neustarts Selbsttest und Verifikation im laufenden Betrieb Unterstützung zur Problemdiagnose Reversible Systeme ROC in Forschungs- und Anwendungssystemen ROC-Techniken in DBMS Mercury Satellitensystem Pinpoint ROC-1: ROC auf Hardwareebene Undofähiges -System Zusammenfassung

Einleitung Motivation Ziele des Recovery-Oriented Computing Peres` Gesetz Techniken des Recovery-Oriented Computing Redundanz und Isolation Rekursive Neustarts Selbsttest und Verifikation im laufenden Betrieb Unterstützung zur Problemdiagnose Reversible Systeme ROC in Forschungs- und Anwendungssystemen ROC-Techniken in DBMS Mercury Satellitensystem Pinpoint ROC-1: ROC auf Hardwareebene Undofähiges -System Zusammenfassung

Motivation Downtime Kosten (pro Stunde) Brokerage operations$6,450,000 Credit card authorization$2,600,000 Ebay$225,000 Amazon.com$180,000 Package shipping services$150,000 Home shopping channel$113,000 Catalog sales center$90,000 Airline reservation center$89,000 Quellen: T. Sweeney. No Time for DOWNTIME – IT Managers feel the heat to prevent outages that can cost millions of dollars. Internet Week, n. 807, 3 April 2000 Kembel, R. Fibre Channel: A Comprehensive Introduction, p.8, 2000.

Motivation MTTF ______ MTBF MTTF ____________ MTTF + MTTR MTTFMTTR MTBF MTBF: Mean Time between Failure MTTF: Mean Time to Failure MTTR: Mean Time to Repair == Verfügbarkeit Fehler Verfügbar Downtime ? > %

Fehler sind unvermeidbar Wachsende Komplexität und zunehmende Verknüpfungen in modernen Systemen Zeitdruck durch rasche Innovationen, kurze Entwicklungs- und Testzeiten Zwang zur Kostenreduktion Skaleneffekt Irren ist menschlich

Ironie der Automation Automation kein Gegenmittel bei menschlichen Fehlern Anforderung an Fehlerfreiheit vom Operator zum Programmierer verschoben Automatisierte Systeme vermeiden Interaktion mit Operator Weiterhin manuelle Bearbeitung komplexer, seltener Aufgaben Operator überfordert, wegen fehlender Praxis im komplexen System

Ziele des ROC MTTF ______ MTBF MTTF ____________ MTTF + MTTR == Verfügbarkeit MTTR Verfügbarkeit steigern durch Verkürzung der durchschnittlichen Reparaturdauer Total Costs of Ownership (Kosten für Anschaffung und laufenden Betrieb) verringern

If a problem has no solution, it may not be a problem, but a fact, not to be solved, but to be coped with over time – Shimon Peres

Konsequenz aus Peres` Gesetz Fehler als Fakten akzeptieren Mentalität für Fehlerbehebung statt Fehlervermeidung Entwicklung von Techniken zur schnelleren Fehlererkennung und -behebung, um Fehlern gewachsen zu sein If a problem has no solution, it may not be a problem, but a fact, not to be solved, but to be coped with over time

Einleitung Motivation Ziele des Recovery-Oriented Computing Peres` Gesetz Techniken des Recovery-Oriented Computing Redundanz und Isolation Rekursive Neustarts Selbsttest und Verifikation im laufenden Betrieb Unterstützung zur Problemdiagnose Reversible Systeme ROC in Forschungs- und Anwendungssystemen ROC-Techniken in DBMS Mercury Satellitensystem Pinpoint ROC-1: ROC auf Hardwareebene Undofähiges -System Zusammenfassung

Redundanz und Isolation Redundanz Zusätzliche Software- und Hardwarekomponenten, sowie zusätzliche Verbindungen zwischen den Komponenten Datenkopien Vermeidung eines single point of failure

Redundanz und Isolation Isolation Partitionierung im System, mehrere Komponenten bilden Partition Partitionen beeinflussen sich nicht untereinander Fehler auf Partition begrenzen, Verbreitung verhindern Inkrementeller Systemupgrade, Komponentenaustausch ohne System herunterzufahren, Trainings- und Testsystem auf eigener Partition

Rekursive Neustarts Vorteile von Neustarts: Behebung von Heisenbugs Rückführung in bekannten und ausgiebig getesteten Zustand Vorteile von Neustarts auf mehreren Ebenen (Rekursive Neustarts), feine Partitionierung vorausgesetzt: Erhöhte Fehlertoleranz Verringerung der MTTR des Systems Zwei Ansätze: Wiederbelebung: Neustart fehlerhafter Komponenten Verjüngung: prophylaktischer Neustart funktionierender Komponenten

Selbsttest und Verifikation im laufenden Betrieb Erkennen latenter Soft- und Hardwarefehler Test der Fehlerbehandlungs- und Recoveryprozeduren Test der konkreten Zusammenstellung von Anwendungen, Betriebssystem, Treibern und Hardware beim Benutzer vor Ort Fehlerinjektion zur Operatorschulung

Unterstützung zur Problemdiagnose Fehler nicht verbergen Interfaces für Fehlerberichte an allen Komponenten Fehlerinformationen im ganzen System bekannt machen Logging von Fehlern Früherkennung von Fehlern Unterstützung der Fehleranalyse ex post

Reversible Systeme Umsetzung des Undo-Konzepts auf Systemebene Unterstützung menschlichen Vorgehens bei Fehlerbehebung Trial & Error Retroaktive Reparatur (3R Undo)

3R Undo: Rewind, Repair, Replay Rewind Systemzustand (Benutzer-, Anwendungs- und Betriebssystemdaten) auf früheren Zeitpunkt zurücksetzen Repair Änderungen am System durch den Operator oder Unterlassen einer Aktion Replay Undo-System führt alle Endbenutzer-Interaktionen, im übersprungenen Zeitraum, nochmals aus

3R Undo: Rewind, Repair, Replay Tracking Erfassung der Intention bei Benutzerinteraktionen, kein Tracking der Reparaturschritte über verbenbasierte Protokolle Externe Inkonsistenzen Kompensation Undo über Systemgrenzen ausdehnen Ignorieren Feingliederung des Undo Verschiedene Zeitlinien Abhängigkeiten zwischen zu trackenden Daten (shared state)

3R Undo Systemarchitektur Undo Proxy User Undo Manager Control UI Timeline Log Time-travel Storage Service Application user state application OS verbs control Verben-Fluss Verbenfluss beim Replay

Aktueller Forschungs- und Entwicklungsstand Prototypen auf Soft- und Hardwareebene Viele Ansätze mit Teilen der ROC-Philosophie bereits existent Weitere anwendungsbezogene Forschung nötig Erfolg von recovery-oriented Soft- und Hardware auf dem Markt bleibt abzuwarten

Einleitung Motivation Ziele des Recovery-Oriented Computing Peres` Gesetz Techniken des Recovery-Oriented Computing Redundanz und Isolation Rekursive Neustarts Selbsttest und Verifikation im laufenden Betrieb Unterstützung zur Problemdiagnose Reversible Systeme ROC in Forschungs- und Anwendungssystemen ROC-Techniken in DBMS Mercury Satellitensystem Pinpoint ROC-1: ROC auf Hardwareebene Undofähiges -System Zusammenfassung

ROC-Techniken in DBMS Transaktionen mit ACID-Eigenschaften Logging Sicherungspunkte Backups

Mercury Satellitensystem Bodenstation der Universität von Stanford zur Kommunikation mit Forschungssatelliten COTS-Technologie (commercial off-the-shelf), Programmiersprache Java, jede Komponente läuft in eigener Java Virtual Machine Architektur: fedrcomsesstrrtu mbus RECFD Communication (TCP/IP) Fehlererkennung (liveness pings) Neustarts

Pinpoint Anwendungsbereich: große komplexe dynamische Systeme Zwei automatisierte Phasen Live Tracing Data Clustering

ROC-1: ROC auf Hardwareebene Hoch verfügbares Clustersystem für Internet Server Anwendungen Aufbau: 64 Knoten (bricks) Pentium-II-Mobile-Prozessor (266MHz) 18 GB Festplatte 256 MB fehler korrigierendes DRAM 4 redundante 100 Mb/s-Netzwerkkarten 18MHz-Motorola-Diagnoseprozessor 16 First-Level-Switches 2 Gigabit-Switches

ROC-1: ROC auf Hardwareebene Höheres Prozessor/Festplatte-Verhältnis Diagnose Subsystem Angewandte ROC-Techniken: Redundanz und Isolation Selbsttest und Verifikation im laufenden Betrieb Unterstützung zur Problemdiagnose Design für Interaktion mit Mensch

Undo-fähiges -System Prototyp der Universität von Berkeley SMTP und erweitertes IMAP-Protokoll Overhead Geringfügig längere Sessions Zusätzlicher Speicherbedarf Performance Rewind: etwa 590 Sekunden für System mit Benutzern Replay: 8,8 Verben pro Sekunde

Einleitung Motivation Ziele des Recovery-Oriented Computing Peres` Gesetz Techniken des Recovery-Oriented Computing Redundanz und Isolation Rekursive Neustarts Selbsttest und Verifikation im laufenden Betrieb Unterstützung zur Problemdiagnose Reversible Systeme ROC in Forschungs- und Anwendungssystemen ROC-Techniken in DBMS Mercury Satellitensystem Pinpoint ROC-1: ROC auf Hardwareebene Undofähiges -System Zusammenfassung

Integration des Menschen in den Recovery-Prozess? ROC als neuer Grundsatz für die Entwicklung von Anwendungssystemen? Schnelle Reparatur – (k)ein Freibrief für fehlerhafte Software?