Fehlertoleranz und Robustheit Präsentation von Thomas Schlögl 1125213.

Slides:

Advertisements

Ähnliche Präsentationen

Phasen und ihre Workflows

Advertisements

Motivation Bisher: Codes mit möglichst kurzer Codelänge.

Modellbasierte Software-Entwicklung eingebetteter Systeme

Eingebettete Systeme Qualität und Produktivität

Übersicht RAID-Verfahren Labor für Betriebsdatenverarbeitung

Das „Vorgehensmodell“

Software in sicherheitsrelevanten Systemen

Hauptseminar Modellüberprüfung Kathrin Ott

SIMATIC ET 200M Systemredundanz

FMEA Fehler-Möglichkeits- und Einfluß-Analyse Design- und Prozeß-FMEA

Objektorientierter Entwurf (OOD) Teil 3: Qualitätsmodell

Modellbasierte Software-Entwicklung eingebetteter Systeme

Qualitätssicherung von Software

Prof. Dr. Holger Schlingloff

Qualitätssicherung von Software Prof. Dr. Holger Schlingloff Humboldt-Universität zu Berlin und Fraunhofer FIRST.

Erfahrungen aus Tests komplexer Systeme

Universität Stuttgart Institut für Kernenergetik und Energiesysteme Einzeltests im Rahmen des V-Modelles Aufgaben Überprüfung des Programmcodes mit Hilfe.

Universität Stuttgart Institut für Kernenergetik und Energiesysteme Aufgaben des Testens Vergleich des Verhaltens einer Software mit den an sie gestellten.

FH-Hof Deadlocks Richard Göbel. FH-Hof Deadlock - Definition Menge von Prozessen ist an einem Deadlock beteiligt: wenn jeder Prozess in dieser Menge auf.

Fehlererkennende Codes

Vortrag im Rahmen des Seminars

Deklaratives Debugging (Seminar Software Engineering) Tim Sender Deklaratives Debugging Seminar Software Engineering.

Lokale und globale Netzwerke

Technische Informatik I

Sicherheit von mobilem Code Hauptseminar: Sicherheit in vernetzten Systemen Sicherheit von mobilem Code Oliver Grassow.

Recovery AIFB SS (1/8) Sicherungspunkte (Checkpoints) (1/8) (1) Transaktions-Orientierte Sicherungspunkte Transaction-Oriented Checkpoint.

Tino Reindanz - FSU Jena Seminar Aktive Datenbanken – SS 2007 Folie 1 Seminar Aktive Datenbanken Rule Development Rule Development for Active Database.

Kontrollfragen zu Kapitel 1

Spezifikation von Anforderungen

Präsentation von: Lukas kaltenegger

Synergieeffekte durch softwaregestützte Prozessmodelle

Copyright © 2013 DataCore Software Corp. – All Rights Reserved.. Mit Speichervirtualisierung mehr Effizienz, Performance und Kostenreduktion erreichen.

Fehler in Rechnernetzen

Hardware / Software Codesign Hardware versus Software.

1 Kap. 2 - Aufbau von Prozessoren ComputerarchitekturBéat HirsbrunnerS Oktober Primäre Speicher Fehlerkorrekturcodes.

Testaktivitäten Komponenten- / Integrationstest

Präsentation von Lukas Sulzer

Replikation und Synchronisation

Hardware / Software Codesign Hardware vs. Software: Maßnahmen zur Erreichung der Design-Ziele.

Arne Vater Sommersemester Vorlesungswoche

Christian Schindelhauer Sommersemester Vorlesung

1 Albert-Ludwigs-Universität Freiburg Rechnernetze und Telematik Prof. Dr. Christian Schindelhauer Systeme II Christian Schindelhauer Sommersemester 2006.

Systeme II Christian Schindelhauer Sommersemester 2007

LANiS Modul Desaster & Recovery. Desaster & Recovery-Techniken = hohe Verfügbarkeit durch weitgehend automatisiertes Sichern und Wiederherstellen eines.

SIMATIC ET 200M / MP Systemredundanz

Proseminar: Technologien des Internets

Echtzeitsimulation einer Gasturbine Real-Time-Simulation of a Gas-Turbine Till Hoffmann -Diplomarbeit - September 2000.

Modellbasierte Software- Entwicklung eingebetteter Systeme Prof. Dr. Holger Schlingloff Institut für Informatik der Humboldt Universität und Fraunhofer.

Vs51 5 Verteilte Datenverwaltung. vs52 Situation:Zusammengehöriger Datenbestand ist über mehrere Stationen verteilt, z.B. Fragmentierung: in mehrere Fragmente.

SETS, March 2006Institut für Elektrotechnik und Informationstechnik Test hochintegrierter Schaltungen November 07 Test hochintegrierter Schaltungen Übung.

Proseminar Präsentation

Diskrete Mathematik Angelika Steger Institut für Theoretische Informatik TexPoint fonts used in EMF. Read the TexPoint manual before.

Vs61 6 Fehlertoleranz. vs62 Zuverlässigkeit (reliability) Sicherheit vor FehlernSicherheit vor Angriffen (safety)(security) WS/SS xySystemsicherheit SS.

Distributed Database Systems Parallele Datenbanksysteme von Stefan Schneider.

Interoperabilität in Digitalen

Aktueller Stand der Technik. Auf dem Markt sind heute bereits 64-Bit Mikrocontroller. Die meiste Verwendung finden allerdings noch immer die 8-Bit Modelle.

Meine Themen: Entwicklung der EDV EDV-Möglichkeiten PC-Komponenten

IrDA Infrared Data Association von Halastar Mustafa.

Florian Hutter & Nicole Waibel

Sükün_Karatas Grundlagen der Codes Sükün_Karatas 3aFD.

Faltungscodes Vorteile

RAID-Systeme - Standards - Leistungsmerkmal - Redundanz - Datensicherheit eine Präsentation von Jochen Throm an der Berufsakademie Mosbach.

RAID Level. RAID 0 (Striping)  RAID 0 (Stripeset; “Streifensatz”) Mehrere HDDs zusammenfassen und gleichzeitig darauf zugreifen. Hohe Transferraten bei.

A. Steininger TU Vienna 1 Multicore eleganter Work-Around um die Design-Crisis Problemverschiebung in die SW (= auf höhere Ebene) ABER: hohe Parallelität.

Hardware / Software Codesign Hardware versus Software.

Resilience Die Fähigkeit um zur Ausgangsform, -position zurückzukehren, nachdem es gebogen, verformt oder komprimiert wurde. Die Fähigkeit sich von einer.

Systeme II 3. Die Datensicherungsschicht

Präsentation transkript:

Fehlertoleranz und Robustheit Präsentation von Thomas Schlögl

Fehlertoleranz Definition: Die Fähigkeit eines Systems sich mit einer begrenzten Anzahl fehlerhafter Subsysteme gemäß Spezifikation zu verhalten. Vor allem in Bezug auf die Umgebung Eher auf HW-Ebene

Robustheit Definition: Die Eigenschaft eines Systems oder Verfahrens auch unter ungünstigen und unvorhersehbaren Bedingungen noch zuverlässig zu funktionieren. Vor allem in Bezug auf Eingaben (inkonsistent, unvollständig, …) Eher auf SW-Ebene

Wobei entstehen Fehler/Ausfälle? Datenübertragung Überlagerung des übertragenen Signals mit Rauschen Datenspeicherung Bitflips durch Umwelteinflüsse (Temperatur, Strahlung, Feuchtigkeit, …) Berechnung Ausfall von Komponenten aufgrund von Design-/Fertigungsfehlern und/oder Umwelteinflüssen

Phasen der Fehlertoleranz Fehlererkennung Error Detecting Codes Reasonableness Check State Estimation Fehlereinschätzung Fehlerkorrektur (Recovery) Error Correcting Codes Wiederaufnahme des normalen Betriebs

Ausfallsverhalten Fail-Safe Nach Ausfall  sicherer, unproduktiver Zustand Sicherheit und Zuverlässigkeit sind nicht gekoppelt Fail-Operational Nach Ausfall  System muss weiterarbeiten um Sicherheit zu gewährleisten Sicherheit und Zuverlässigkeit sind gekoppelt

Fehler-/Ausfallstypen „Ausfallshierarchie“ Byzantine Failure Performance Failure Omission Failure Crash Failure Fail-Stop Failure Assumption Coverage?! Soft Error Verursacht durch transiente Fehler Hard Error Verursacht durch permanenten Fehler

Maßnahmen zur Fehlertoleranz auf HW-Ebene Redundanz TMR (Triple Modular Redundancy) Passive Redundancy Active Redundancy Wartung Preventive Maintenance

Probleme und Grenzen Maskieren von Fehlern Spare Exhaustion Single Point of Failure (SPoF) Bei TMR: Voter Bei Active Redundancy: Switch Common Cause Failure Ausfall aufgrund gemeinsamer äußeren Ursache Ausfall aufgrund gemeinsamer innewohnender Ursache Geringe Assumption Coverage

Saturn Launch Vehicle Digital Computer (LVDC) Autopilot für Saturn V Rakete Redundante Stromversorgung 2 Hauptspeichermodule Duplex mode – hohe Zuverlässigkeit Simplex mode - hohe Speicherkapazität Einsatz eines TMR Für jede der 7 Pipelinestufen Auch Voter werden dreifach ausgeführt  Verhinderung eines Single Point of Failure Zusätzlicher Disagreement Detector  ermöglicht Wartung (Austausch)

MTMRDD

Maßnahmen zur Fehlertoleranz auf HW/SW-Ebene Design Diversität Parallele/mehrfache Ausführung verschiedener Implementierungen eines Algorithmus Daten Diversität Daten werden mehrmals bearbeitet, aber immer leicht modifiziert Temporale Diversität Mehrfache Ausführung desselben Algorithmus  lediglich verwendbar gegen transiente HW-Fehler Error Correcting Codes Hamming Code Turbo Code

Maßnahmen zur Fehlertoleranz auf SW-Ebene Verwendung robuster Datenstrukturen z.B. zyklische doppelt verkettete Liste Duplizieren von Instruktionen ACCE (Automatic Correction of Control- flow Errors)

Hamming Code Hamming Distanz 3  Korrektur eines Bitfehlers möglich Gebildet durch Einfügen redundanter Bits an Position 1,2,4, … 2 k Even/Odd Parity b 1 = b 3 xor b 5 xor b 7 xor b 9 xor b 11 b 2 = b 3 xor b 6 xor b 7 xor b 10 xor b 11 b 4 = b 5 xor b 6 xor b 7 xor b 12 b 8 = b 9 xor b 10 xor b 11

Instruction Duplication Programmcode dupliziert in 2. Thread ausgeführt Periodische Synchronisierung zwischen den beiden Threads (Checkpoints) Erkennung von transienten HW-Fehlern möglich  Behebung durch Neuausführung

Automatic Correction of Control-flow Errors Statisches Einfügen von Zusatzinstruktionen zur Überprüfung von Control-flow Errors Checkpoints (Recovery) Behebung transienter Fehler

COTS Commercial Off-The-Shelf Seriengefertige Produkte Große Stückzahl Meist billiger Preis Für allgemeine Anwendungsszenarien entworfen

Vorteile und Nachteile von COTS in Fehlertoleranten Systemen Vorteile Günstig  Kostenreduktion Kürzere Time-to-Market aufgrund entfallender Entwicklung In hoher Stückzahl vorhanden (Ersatz) Weitverbreitet im Einsatz  Test- und Erfahrungsberichte Nachteile Lebensdauer - Zuverlässigkeit Suboptimales Worst-Case Verhalten Abhängig vom jeweiligen Unternehmen Einführung zusätzlicher Verfahren zur Erhöhung der Zuverlässigkeit notwendig  Erhöhung der Systemkomplexität

Quellen Quellenangaben: dortmund.de/Teaching/WS2012/SFt/Downloads/ausarbeitungen/Julian_Kuerby.pdf dortmund.de/Teaching/WS2012/SFt/Downloads/ausarbeitungen/Julian_Kuerby.pdf Volume1-GeneralDescriptionAndTheory.pdf Volume1-GeneralDescriptionAndTheory.pdf ing_Voter_Replication_and_Disagreement_Detection ing_Voter_Replication_and_Disagreement_Detection Bilder: figure 1-7. of Volume1-GeneralDescriptionAndTheory.pdf Volume1-GeneralDescriptionAndTheory.pdf figure 3 of ing_Voter_Replication_and_Disagreement_Detection ing_Voter_Replication_and_Disagreement_Detection