Präsentation herunterladen
Die Präsentation wird geladen. Bitte warten
Veröffentlicht von:Erica Fleischer Geändert vor über 8 Jahren
1
Fehlertoleranz und Robustheit Präsentation von Thomas Schlögl 1125213
2
Fehlertoleranz Definition: Die Fähigkeit eines Systems sich mit einer begrenzten Anzahl fehlerhafter Subsysteme gemäß Spezifikation zu verhalten. Vor allem in Bezug auf die Umgebung Eher auf HW-Ebene
3
Robustheit Definition: Die Eigenschaft eines Systems oder Verfahrens auch unter ungünstigen und unvorhersehbaren Bedingungen noch zuverlässig zu funktionieren. Vor allem in Bezug auf Eingaben (inkonsistent, unvollständig, …) Eher auf SW-Ebene
4
Wobei entstehen Fehler/Ausfälle? Datenübertragung Überlagerung des übertragenen Signals mit Rauschen Datenspeicherung Bitflips durch Umwelteinflüsse (Temperatur, Strahlung, Feuchtigkeit, …) Berechnung Ausfall von Komponenten aufgrund von Design-/Fertigungsfehlern und/oder Umwelteinflüssen
5
Phasen der Fehlertoleranz Fehlererkennung Error Detecting Codes Reasonableness Check State Estimation Fehlereinschätzung Fehlerkorrektur (Recovery) Error Correcting Codes Wiederaufnahme des normalen Betriebs
6
Ausfallsverhalten Fail-Safe Nach Ausfall sicherer, unproduktiver Zustand Sicherheit und Zuverlässigkeit sind nicht gekoppelt Fail-Operational Nach Ausfall System muss weiterarbeiten um Sicherheit zu gewährleisten Sicherheit und Zuverlässigkeit sind gekoppelt
7
Fehler-/Ausfallstypen „Ausfallshierarchie“ Byzantine Failure Performance Failure Omission Failure Crash Failure Fail-Stop Failure Assumption Coverage?! Soft Error Verursacht durch transiente Fehler Hard Error Verursacht durch permanenten Fehler
8
Maßnahmen zur Fehlertoleranz auf HW-Ebene Redundanz TMR (Triple Modular Redundancy) Passive Redundancy Active Redundancy Wartung Preventive Maintenance
9
Probleme und Grenzen Maskieren von Fehlern Spare Exhaustion Single Point of Failure (SPoF) Bei TMR: Voter Bei Active Redundancy: Switch Common Cause Failure Ausfall aufgrund gemeinsamer äußeren Ursache Ausfall aufgrund gemeinsamer innewohnender Ursache Geringe Assumption Coverage
10
Saturn Launch Vehicle Digital Computer (LVDC) Autopilot für Saturn V Rakete Redundante Stromversorgung 2 Hauptspeichermodule Duplex mode – hohe Zuverlässigkeit Simplex mode - hohe Speicherkapazität Einsatz eines TMR Für jede der 7 Pipelinestufen Auch Voter werden dreifach ausgeführt Verhinderung eines Single Point of Failure Zusätzlicher Disagreement Detector ermöglicht Wartung (Austausch)
11
MTMRDD
12
Maßnahmen zur Fehlertoleranz auf HW/SW-Ebene Design Diversität Parallele/mehrfache Ausführung verschiedener Implementierungen eines Algorithmus Daten Diversität Daten werden mehrmals bearbeitet, aber immer leicht modifiziert Temporale Diversität Mehrfache Ausführung desselben Algorithmus lediglich verwendbar gegen transiente HW-Fehler Error Correcting Codes Hamming Code Turbo Code
13
Maßnahmen zur Fehlertoleranz auf SW-Ebene Verwendung robuster Datenstrukturen z.B. zyklische doppelt verkettete Liste Duplizieren von Instruktionen ACCE (Automatic Correction of Control- flow Errors)
14
Hamming Code Hamming Distanz 3 Korrektur eines Bitfehlers möglich Gebildet durch Einfügen redundanter Bits an Position 1,2,4, … 2 k Even/Odd Parity b 1 = b 3 xor b 5 xor b 7 xor b 9 xor b 11 b 2 = b 3 xor b 6 xor b 7 xor b 10 xor b 11 b 4 = b 5 xor b 6 xor b 7 xor b 12 b 8 = b 9 xor b 10 xor b 11
15
Instruction Duplication Programmcode dupliziert in 2. Thread ausgeführt Periodische Synchronisierung zwischen den beiden Threads (Checkpoints) Erkennung von transienten HW-Fehlern möglich Behebung durch Neuausführung
16
Automatic Correction of Control-flow Errors Statisches Einfügen von Zusatzinstruktionen zur Überprüfung von Control-flow Errors Checkpoints (Recovery) Behebung transienter Fehler
17
COTS Commercial Off-The-Shelf Seriengefertige Produkte Große Stückzahl Meist billiger Preis Für allgemeine Anwendungsszenarien entworfen
18
Vorteile und Nachteile von COTS in Fehlertoleranten Systemen Vorteile Günstig Kostenreduktion Kürzere Time-to-Market aufgrund entfallender Entwicklung In hoher Stückzahl vorhanden (Ersatz) Weitverbreitet im Einsatz Test- und Erfahrungsberichte Nachteile Lebensdauer - Zuverlässigkeit Suboptimales Worst-Case Verhalten Abhängig vom jeweiligen Unternehmen Einführung zusätzlicher Verfahren zur Erhöhung der Zuverlässigkeit notwendig Erhöhung der Systemkomplexität
19
Quellen Quellenangaben: www.itwissen.info/definition/lexikon/Fehlertoleranz-FT-fault-tolerance.html http://ira.informatik.uni-freiburg.de/teaching/ppp-2002/Spoeri-Ausarbeitung.pdf https://ess.cs.tu- dortmund.de/Teaching/WS2012/SFt/Downloads/ausarbeitungen/Julian_Kuerby.pdf https://ess.cs.tu- dortmund.de/Teaching/WS2012/SFt/Downloads/ausarbeitungen/Julian_Kuerby.pdf https://de.wikipedia.org/wiki/Fehlertoleranz https://de.wikipedia.org/wiki/Hamming-Code http://people.csail.mit.edu/grishac/papers/allerton.pdf http://www.webopedia.com/TERM/S/soft_error.html http://www.webopedia.com/TERM/H/hard_error.html http://www.ibiblio.org/apollo/Documents/LaboratoryMaintenanceInstructionsForLVDC- Volume1-GeneralDescriptionAndTheory.pdf http://www.ibiblio.org/apollo/Documents/LaboratoryMaintenanceInstructionsForLVDC- Volume1-GeneralDescriptionAndTheory.pdf https://en.wikipedia.org/wiki/Saturn_V http://iom.invensys.com/EN/Pages/triconex_tricon.aspx http://www.researchgate.net/publication/220716583_A_Solution_to_Single_Point_of_Failure_Us ing_Voter_Replication_and_Disagreement_Detection http://www.researchgate.net/publication/220716583_A_Solution_to_Single_Point_of_Failure_Us ing_Voter_Replication_and_Disagreement_Detection http://liberty.cs.princeton.edu/Publications/cgo3_swift.pdf http://liberty.princeton.edu/Publications/taco05_ft.pdf Bilder: http://www.cin.ufpe.br/~jvob/images/nmr.png https://upload.wikimedia.org/wikipedia/commons/1/13/Apollo_17_The_Last_Moon_Shot_Edit1.jpg https://upload.wikimedia.org/wikipedia/commons/1/13/Apollo_17_The_Last_Moon_Shot_Edit1.jpg figure 1-7. of http://www.ibiblio.org/apollo/Documents/LaboratoryMaintenanceInstructionsForLVDC- Volume1-GeneralDescriptionAndTheory.pdf http://www.ibiblio.org/apollo/Documents/LaboratoryMaintenanceInstructionsForLVDC- Volume1-GeneralDescriptionAndTheory.pdf figure 3 of http://www.researchgate.net/publication/220716583_A_Solution_to_Single_Point_of_Failure_Us ing_Voter_Replication_and_Disagreement_Detection http://www.researchgate.net/publication/220716583_A_Solution_to_Single_Point_of_Failure_Us ing_Voter_Replication_and_Disagreement_Detection http://slopjong.de/wp-content/2011/06/correcting_bit_error.png
Ähnliche Präsentationen
© 2024 SlidePlayer.org Inc.
All rights reserved.