Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

Fehlertoleranz und Robustheit Präsentation von Thomas Schlögl 1125213.

Ähnliche Präsentationen


Präsentation zum Thema: "Fehlertoleranz und Robustheit Präsentation von Thomas Schlögl 1125213."—  Präsentation transkript:

1 Fehlertoleranz und Robustheit Präsentation von Thomas Schlögl 1125213

2 Fehlertoleranz Definition: Die Fähigkeit eines Systems sich mit einer begrenzten Anzahl fehlerhafter Subsysteme gemäß Spezifikation zu verhalten. Vor allem in Bezug auf die Umgebung Eher auf HW-Ebene

3 Robustheit Definition: Die Eigenschaft eines Systems oder Verfahrens auch unter ungünstigen und unvorhersehbaren Bedingungen noch zuverlässig zu funktionieren. Vor allem in Bezug auf Eingaben (inkonsistent, unvollständig, …) Eher auf SW-Ebene

4 Wobei entstehen Fehler/Ausfälle? Datenübertragung Überlagerung des übertragenen Signals mit Rauschen Datenspeicherung Bitflips durch Umwelteinflüsse (Temperatur, Strahlung, Feuchtigkeit, …) Berechnung Ausfall von Komponenten aufgrund von Design-/Fertigungsfehlern und/oder Umwelteinflüssen

5 Phasen der Fehlertoleranz Fehlererkennung Error Detecting Codes Reasonableness Check State Estimation Fehlereinschätzung Fehlerkorrektur (Recovery) Error Correcting Codes Wiederaufnahme des normalen Betriebs

6 Ausfallsverhalten Fail-Safe Nach Ausfall  sicherer, unproduktiver Zustand Sicherheit und Zuverlässigkeit sind nicht gekoppelt Fail-Operational Nach Ausfall  System muss weiterarbeiten um Sicherheit zu gewährleisten Sicherheit und Zuverlässigkeit sind gekoppelt

7 Fehler-/Ausfallstypen „Ausfallshierarchie“ Byzantine Failure Performance Failure Omission Failure Crash Failure Fail-Stop Failure Assumption Coverage?! Soft Error Verursacht durch transiente Fehler Hard Error Verursacht durch permanenten Fehler

8 Maßnahmen zur Fehlertoleranz auf HW-Ebene Redundanz TMR (Triple Modular Redundancy) Passive Redundancy Active Redundancy Wartung Preventive Maintenance

9 Probleme und Grenzen Maskieren von Fehlern Spare Exhaustion Single Point of Failure (SPoF) Bei TMR: Voter Bei Active Redundancy: Switch Common Cause Failure Ausfall aufgrund gemeinsamer äußeren Ursache Ausfall aufgrund gemeinsamer innewohnender Ursache Geringe Assumption Coverage

10 Saturn Launch Vehicle Digital Computer (LVDC) Autopilot für Saturn V Rakete Redundante Stromversorgung 2 Hauptspeichermodule Duplex mode – hohe Zuverlässigkeit Simplex mode - hohe Speicherkapazität Einsatz eines TMR Für jede der 7 Pipelinestufen Auch Voter werden dreifach ausgeführt  Verhinderung eines Single Point of Failure Zusätzlicher Disagreement Detector  ermöglicht Wartung (Austausch)

11 MTMRDD

12 Maßnahmen zur Fehlertoleranz auf HW/SW-Ebene Design Diversität Parallele/mehrfache Ausführung verschiedener Implementierungen eines Algorithmus Daten Diversität Daten werden mehrmals bearbeitet, aber immer leicht modifiziert Temporale Diversität Mehrfache Ausführung desselben Algorithmus  lediglich verwendbar gegen transiente HW-Fehler Error Correcting Codes Hamming Code Turbo Code

13 Maßnahmen zur Fehlertoleranz auf SW-Ebene Verwendung robuster Datenstrukturen z.B. zyklische doppelt verkettete Liste Duplizieren von Instruktionen ACCE (Automatic Correction of Control- flow Errors)

14 Hamming Code Hamming Distanz 3  Korrektur eines Bitfehlers möglich Gebildet durch Einfügen redundanter Bits an Position 1,2,4, … 2 k Even/Odd Parity b 1 = b 3 xor b 5 xor b 7 xor b 9 xor b 11 b 2 = b 3 xor b 6 xor b 7 xor b 10 xor b 11 b 4 = b 5 xor b 6 xor b 7 xor b 12 b 8 = b 9 xor b 10 xor b 11

15 Instruction Duplication Programmcode dupliziert in 2. Thread ausgeführt Periodische Synchronisierung zwischen den beiden Threads (Checkpoints) Erkennung von transienten HW-Fehlern möglich  Behebung durch Neuausführung

16 Automatic Correction of Control-flow Errors Statisches Einfügen von Zusatzinstruktionen zur Überprüfung von Control-flow Errors Checkpoints (Recovery) Behebung transienter Fehler

17 COTS Commercial Off-The-Shelf Seriengefertige Produkte Große Stückzahl Meist billiger Preis Für allgemeine Anwendungsszenarien entworfen

18 Vorteile und Nachteile von COTS in Fehlertoleranten Systemen Vorteile Günstig  Kostenreduktion Kürzere Time-to-Market aufgrund entfallender Entwicklung In hoher Stückzahl vorhanden (Ersatz) Weitverbreitet im Einsatz  Test- und Erfahrungsberichte Nachteile Lebensdauer - Zuverlässigkeit Suboptimales Worst-Case Verhalten Abhängig vom jeweiligen Unternehmen Einführung zusätzlicher Verfahren zur Erhöhung der Zuverlässigkeit notwendig  Erhöhung der Systemkomplexität

19 Quellen Quellenangaben: www.itwissen.info/definition/lexikon/Fehlertoleranz-FT-fault-tolerance.html http://ira.informatik.uni-freiburg.de/teaching/ppp-2002/Spoeri-Ausarbeitung.pdf https://ess.cs.tu- dortmund.de/Teaching/WS2012/SFt/Downloads/ausarbeitungen/Julian_Kuerby.pdf https://ess.cs.tu- dortmund.de/Teaching/WS2012/SFt/Downloads/ausarbeitungen/Julian_Kuerby.pdf https://de.wikipedia.org/wiki/Fehlertoleranz https://de.wikipedia.org/wiki/Hamming-Code http://people.csail.mit.edu/grishac/papers/allerton.pdf http://www.webopedia.com/TERM/S/soft_error.html http://www.webopedia.com/TERM/H/hard_error.html http://www.ibiblio.org/apollo/Documents/LaboratoryMaintenanceInstructionsForLVDC- Volume1-GeneralDescriptionAndTheory.pdf http://www.ibiblio.org/apollo/Documents/LaboratoryMaintenanceInstructionsForLVDC- Volume1-GeneralDescriptionAndTheory.pdf https://en.wikipedia.org/wiki/Saturn_V http://iom.invensys.com/EN/Pages/triconex_tricon.aspx http://www.researchgate.net/publication/220716583_A_Solution_to_Single_Point_of_Failure_Us ing_Voter_Replication_and_Disagreement_Detection http://www.researchgate.net/publication/220716583_A_Solution_to_Single_Point_of_Failure_Us ing_Voter_Replication_and_Disagreement_Detection http://liberty.cs.princeton.edu/Publications/cgo3_swift.pdf http://liberty.princeton.edu/Publications/taco05_ft.pdf Bilder: http://www.cin.ufpe.br/~jvob/images/nmr.png https://upload.wikimedia.org/wikipedia/commons/1/13/Apollo_17_The_Last_Moon_Shot_Edit1.jpg https://upload.wikimedia.org/wikipedia/commons/1/13/Apollo_17_The_Last_Moon_Shot_Edit1.jpg figure 1-7. of http://www.ibiblio.org/apollo/Documents/LaboratoryMaintenanceInstructionsForLVDC- Volume1-GeneralDescriptionAndTheory.pdf http://www.ibiblio.org/apollo/Documents/LaboratoryMaintenanceInstructionsForLVDC- Volume1-GeneralDescriptionAndTheory.pdf figure 3 of http://www.researchgate.net/publication/220716583_A_Solution_to_Single_Point_of_Failure_Us ing_Voter_Replication_and_Disagreement_Detection http://www.researchgate.net/publication/220716583_A_Solution_to_Single_Point_of_Failure_Us ing_Voter_Replication_and_Disagreement_Detection http://slopjong.de/wp-content/2011/06/correcting_bit_error.png


Herunterladen ppt "Fehlertoleranz und Robustheit Präsentation von Thomas Schlögl 1125213."

Ähnliche Präsentationen


Google-Anzeigen