Fehlertoleranz und Robustheit Präsentation von Thomas Schlögl 1125213.

Slides:



Advertisements
Ähnliche Präsentationen
Phasen und ihre Workflows
Advertisements

Motivation Bisher: Codes mit möglichst kurzer Codelänge.
Modellbasierte Software-Entwicklung eingebetteter Systeme
Eingebettete Systeme Qualität und Produktivität
Übersicht RAID-Verfahren Labor für Betriebsdatenverarbeitung
Das „Vorgehensmodell“
Software in sicherheitsrelevanten Systemen
Hauptseminar Modellüberprüfung Kathrin Ott
SIMATIC ET 200M Systemredundanz
FMEA Fehler-Möglichkeits- und Einfluß-Analyse Design- und Prozeß-FMEA
Objektorientierter Entwurf (OOD) Teil 3: Qualitätsmodell
Modellbasierte Software-Entwicklung eingebetteter Systeme
Qualitätssicherung von Software
Prof. Dr. Holger Schlingloff
Qualitätssicherung von Software Prof. Dr. Holger Schlingloff Humboldt-Universität zu Berlin und Fraunhofer FIRST.
Erfahrungen aus Tests komplexer Systeme
Universität Stuttgart Institut für Kernenergetik und Energiesysteme Einzeltests im Rahmen des V-Modelles Aufgaben Überprüfung des Programmcodes mit Hilfe.
Universität Stuttgart Institut für Kernenergetik und Energiesysteme Aufgaben des Testens Vergleich des Verhaltens einer Software mit den an sie gestellten.
FH-Hof Deadlocks Richard Göbel. FH-Hof Deadlock - Definition Menge von Prozessen ist an einem Deadlock beteiligt: wenn jeder Prozess in dieser Menge auf.
Fehlererkennende Codes
Vortrag im Rahmen des Seminars
Deklaratives Debugging (Seminar Software Engineering) Tim Sender Deklaratives Debugging Seminar Software Engineering.
Lokale und globale Netzwerke
Technische Informatik I
Sicherheit von mobilem Code Hauptseminar: Sicherheit in vernetzten Systemen Sicherheit von mobilem Code Oliver Grassow.
Recovery AIFB SS (1/8) Sicherungspunkte (Checkpoints) (1/8) (1) Transaktions-Orientierte Sicherungspunkte Transaction-Oriented Checkpoint.
Tino Reindanz - FSU Jena Seminar Aktive Datenbanken – SS 2007 Folie 1 Seminar Aktive Datenbanken Rule Development Rule Development for Active Database.
Kontrollfragen zu Kapitel 1
Spezifikation von Anforderungen
Präsentation von: Lukas kaltenegger
Synergieeffekte durch softwaregestützte Prozessmodelle
Aus.
Copyright © 2013 DataCore Software Corp. – All Rights Reserved.. Mit Speichervirtualisierung mehr Effizienz, Performance und Kostenreduktion erreichen.
Fehler in Rechnernetzen
Hardware / Software Codesign Hardware versus Software.
1 Kap. 2 - Aufbau von Prozessoren ComputerarchitekturBéat HirsbrunnerS Oktober Primäre Speicher Fehlerkorrekturcodes.
Testaktivitäten Komponenten- / Integrationstest
Präsentation von Lukas Sulzer
Replikation und Synchronisation
Hardware / Software Codesign Hardware vs. Software: Maßnahmen zur Erreichung der Design-Ziele.
Arne Vater Sommersemester Vorlesungswoche
Christian Schindelhauer Sommersemester Vorlesung
1 Albert-Ludwigs-Universität Freiburg Rechnernetze und Telematik Prof. Dr. Christian Schindelhauer Systeme II Christian Schindelhauer Sommersemester 2006.
Systeme II Christian Schindelhauer Sommersemester 2007
LANiS Modul Desaster & Recovery. Desaster & Recovery-Techniken = hohe Verfügbarkeit durch weitgehend automatisiertes Sichern und Wiederherstellen eines.
SIMATIC ET 200M / MP Systemredundanz
Proseminar: Technologien des Internets
Echtzeitsimulation einer Gasturbine Real-Time-Simulation of a Gas-Turbine Till Hoffmann -Diplomarbeit - September 2000.
Modellbasierte Software- Entwicklung eingebetteter Systeme Prof. Dr. Holger Schlingloff Institut für Informatik der Humboldt Universität und Fraunhofer.
Lokale Netze.
Vs51 5 Verteilte Datenverwaltung. vs52 Situation:Zusammengehöriger Datenbestand ist über mehrere Stationen verteilt, z.B. Fragmentierung: in mehrere Fragmente.
SETS, March 2006Institut für Elektrotechnik und Informationstechnik Test hochintegrierter Schaltungen November 07 Test hochintegrierter Schaltungen Übung.
Proseminar Präsentation
Diskrete Mathematik Angelika Steger Institut für Theoretische Informatik TexPoint fonts used in EMF. Read the TexPoint manual before.
Vs61 6 Fehlertoleranz. vs62 Zuverlässigkeit (reliability) Sicherheit vor FehlernSicherheit vor Angriffen (safety)(security) WS/SS xySystemsicherheit SS.
Distributed Database Systems Parallele Datenbanksysteme von Stefan Schneider.
Interoperabilität in Digitalen
Aktueller Stand der Technik. Auf dem Markt sind heute bereits 64-Bit Mikrocontroller. Die meiste Verwendung finden allerdings noch immer die 8-Bit Modelle.
Meine Themen: Entwicklung der EDV EDV-Möglichkeiten PC-Komponenten
IrDA Infrared Data Association von Halastar Mustafa.
Florian Hutter & Nicole Waibel
Sükün_Karatas Grundlagen der Codes Sükün_Karatas 3aFD.
Faltungscodes Vorteile
RAID-Systeme - Standards - Leistungsmerkmal - Redundanz - Datensicherheit eine Präsentation von Jochen Throm an der Berufsakademie Mosbach.
RAID Level. RAID 0 (Striping)  RAID 0 (Stripeset; “Streifensatz”) Mehrere HDDs zusammenfassen und gleichzeitig darauf zugreifen. Hohe Transferraten bei.
A. Steininger TU Vienna 1 Multicore eleganter Work-Around um die Design-Crisis Problemverschiebung in die SW (= auf höhere Ebene) ABER: hohe Parallelität.
Hardware / Software Codesign Hardware versus Software.
Resilience Die Fähigkeit um zur Ausgangsform, -position zurückzukehren, nachdem es gebogen, verformt oder komprimiert wurde. Die Fähigkeit sich von einer.
Systeme II 3. Die Datensicherungsschicht
 Präsentation transkript:

Fehlertoleranz und Robustheit Präsentation von Thomas Schlögl

Fehlertoleranz Definition: Die Fähigkeit eines Systems sich mit einer begrenzten Anzahl fehlerhafter Subsysteme gemäß Spezifikation zu verhalten. Vor allem in Bezug auf die Umgebung Eher auf HW-Ebene

Robustheit Definition: Die Eigenschaft eines Systems oder Verfahrens auch unter ungünstigen und unvorhersehbaren Bedingungen noch zuverlässig zu funktionieren. Vor allem in Bezug auf Eingaben (inkonsistent, unvollständig, …) Eher auf SW-Ebene

Wobei entstehen Fehler/Ausfälle? Datenübertragung Überlagerung des übertragenen Signals mit Rauschen Datenspeicherung Bitflips durch Umwelteinflüsse (Temperatur, Strahlung, Feuchtigkeit, …) Berechnung Ausfall von Komponenten aufgrund von Design-/Fertigungsfehlern und/oder Umwelteinflüssen

Phasen der Fehlertoleranz Fehlererkennung Error Detecting Codes Reasonableness Check State Estimation Fehlereinschätzung Fehlerkorrektur (Recovery) Error Correcting Codes Wiederaufnahme des normalen Betriebs

Ausfallsverhalten Fail-Safe Nach Ausfall  sicherer, unproduktiver Zustand Sicherheit und Zuverlässigkeit sind nicht gekoppelt Fail-Operational Nach Ausfall  System muss weiterarbeiten um Sicherheit zu gewährleisten Sicherheit und Zuverlässigkeit sind gekoppelt

Fehler-/Ausfallstypen „Ausfallshierarchie“ Byzantine Failure Performance Failure Omission Failure Crash Failure Fail-Stop Failure Assumption Coverage?! Soft Error Verursacht durch transiente Fehler Hard Error Verursacht durch permanenten Fehler

Maßnahmen zur Fehlertoleranz auf HW-Ebene Redundanz TMR (Triple Modular Redundancy) Passive Redundancy Active Redundancy Wartung Preventive Maintenance

Probleme und Grenzen Maskieren von Fehlern Spare Exhaustion Single Point of Failure (SPoF) Bei TMR: Voter Bei Active Redundancy: Switch Common Cause Failure Ausfall aufgrund gemeinsamer äußeren Ursache Ausfall aufgrund gemeinsamer innewohnender Ursache Geringe Assumption Coverage

Saturn Launch Vehicle Digital Computer (LVDC) Autopilot für Saturn V Rakete Redundante Stromversorgung 2 Hauptspeichermodule Duplex mode – hohe Zuverlässigkeit Simplex mode - hohe Speicherkapazität Einsatz eines TMR Für jede der 7 Pipelinestufen Auch Voter werden dreifach ausgeführt  Verhinderung eines Single Point of Failure Zusätzlicher Disagreement Detector  ermöglicht Wartung (Austausch)

MTMRDD

Maßnahmen zur Fehlertoleranz auf HW/SW-Ebene Design Diversität Parallele/mehrfache Ausführung verschiedener Implementierungen eines Algorithmus Daten Diversität Daten werden mehrmals bearbeitet, aber immer leicht modifiziert Temporale Diversität Mehrfache Ausführung desselben Algorithmus  lediglich verwendbar gegen transiente HW-Fehler Error Correcting Codes Hamming Code Turbo Code

Maßnahmen zur Fehlertoleranz auf SW-Ebene Verwendung robuster Datenstrukturen z.B. zyklische doppelt verkettete Liste Duplizieren von Instruktionen ACCE (Automatic Correction of Control- flow Errors)

Hamming Code Hamming Distanz 3  Korrektur eines Bitfehlers möglich Gebildet durch Einfügen redundanter Bits an Position 1,2,4, … 2 k Even/Odd Parity b 1 = b 3 xor b 5 xor b 7 xor b 9 xor b 11 b 2 = b 3 xor b 6 xor b 7 xor b 10 xor b 11 b 4 = b 5 xor b 6 xor b 7 xor b 12 b 8 = b 9 xor b 10 xor b 11

Instruction Duplication Programmcode dupliziert in 2. Thread ausgeführt Periodische Synchronisierung zwischen den beiden Threads (Checkpoints) Erkennung von transienten HW-Fehlern möglich  Behebung durch Neuausführung

Automatic Correction of Control-flow Errors Statisches Einfügen von Zusatzinstruktionen zur Überprüfung von Control-flow Errors Checkpoints (Recovery) Behebung transienter Fehler

COTS Commercial Off-The-Shelf Seriengefertige Produkte Große Stückzahl Meist billiger Preis Für allgemeine Anwendungsszenarien entworfen

Vorteile und Nachteile von COTS in Fehlertoleranten Systemen Vorteile Günstig  Kostenreduktion Kürzere Time-to-Market aufgrund entfallender Entwicklung In hoher Stückzahl vorhanden (Ersatz) Weitverbreitet im Einsatz  Test- und Erfahrungsberichte Nachteile Lebensdauer - Zuverlässigkeit Suboptimales Worst-Case Verhalten Abhängig vom jeweiligen Unternehmen Einführung zusätzlicher Verfahren zur Erhöhung der Zuverlässigkeit notwendig  Erhöhung der Systemkomplexität

Quellen Quellenangaben: dortmund.de/Teaching/WS2012/SFt/Downloads/ausarbeitungen/Julian_Kuerby.pdf dortmund.de/Teaching/WS2012/SFt/Downloads/ausarbeitungen/Julian_Kuerby.pdf Volume1-GeneralDescriptionAndTheory.pdf Volume1-GeneralDescriptionAndTheory.pdf ing_Voter_Replication_and_Disagreement_Detection ing_Voter_Replication_and_Disagreement_Detection Bilder: figure 1-7. of Volume1-GeneralDescriptionAndTheory.pdf Volume1-GeneralDescriptionAndTheory.pdf figure 3 of ing_Voter_Replication_and_Disagreement_Detection ing_Voter_Replication_and_Disagreement_Detection