Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

Hochverfügbarkeit. Gliederung ● Einführung ● Prozessor ● Kryptographischer Koprozessor ● Speicher ● Ein-/Ausgabe ● Weitere Hardware ● Parallel Sysplex.

Ähnliche Präsentationen


Präsentation zum Thema: "Hochverfügbarkeit. Gliederung ● Einführung ● Prozessor ● Kryptographischer Koprozessor ● Speicher ● Ein-/Ausgabe ● Weitere Hardware ● Parallel Sysplex."—  Präsentation transkript:

1 Hochverfügbarkeit

2 Gliederung ● Einführung ● Prozessor ● Kryptographischer Koprozessor ● Speicher ● Ein-/Ausgabe ● Weitere Hardware ● Parallel Sysplex ● Sysplex Failure Management ● Automatic Restart Manager ● Workload Balancing ● Software

3 Einführung ● Verfügbarkeit = Zeitanteil, zu dem das System seine Funktion wie spezifiziert erfüllt ● Hochverfügbarkeit ab 99,999% => 5 Min. Ausfallzeit/Jahr ● erreicht durch hohes Maß an Redundanz an allen möglichen Fehlerstellen ● Redundanz = Vorhandensein von Mitteln, die für die Funktionserfüllung nicht notwendig sind

4 Prozessor

5 ● jede PU (Processor Unit) der zSeries 900 enthält doppelte Instruction/Execution Units, die simultan arbeiten ● Ergebnisse werden verglichen, bei Abweichung Instruction Retry ● bei weiterem Fehler Speichern des Zustands und Umschalten auf Reserve-PU ● falls keine freie PU vorhanden, wird der Zustand an eine andere aktive PU übergeben ● bei Fehler eines SAP und keiner Reserve-PU wird ein aktiver CP (Central Processor) als SAP eingeteilt

6 Kryptographischer Koprozessor ● 2 Cryptographic Coprocessor Elements (CCE) pro System ● Betriebssystem wiederholt fehlgeschlagene Instruktion auf dem anderen CCE ● pro CCE ein Pfad zu einer primären PU sowie zu alternativer PU (immer nur 1 Pfad aktiv) ● Alternativ-PUs werden als letztes als Reserve- PUs benutzt

7 Speicher ● L1 Cache Parity protected ● L1 und L2: Löschen/Austauschen von Zeilen ● L2 und Memory: Error Correcting Codes (Single Error Correction/Double Error Detection) ● bei Parity/ECC-Fehler neuer Versuch, danach löschen der Cache-Zeile ● ECC auch für Daten- und Status/Kommando- Busse ● Speicherkarten sind mit Reservechips ausgerüstet

8 Ein-/Ausgabe CPU Channel Subsystem E/A Control Unit Control Unit Haupt- speicher Channel Path Subchannel

9 Ein-/Ausgabe ● mehrere Channel Paths zur gleichen Control Unit ● ein E/A-Gerät kann mit mehr als einer Kontrolleinheit verbunden sein ● Verbindung einer CU mit mehr als einem System im Parallel Sysplex möglich ● dynamische I/O-Konfiguration ● ESCON 16-Port I/O-Card beinhaltet 1 Reserve- Port ● bei Versagen eines MBA partieller Neustart ohne entsprechende I/O-Verbindungen möglich

10 Weitere Hardware zur höheren Verfügbarkeit ● redundante Stromzufuhr, interne Batterie verfügbar ● redundante Kühlsysteme ● je System zwei External Time Reference-Karten und redundante Pfade zu den Clustern ● RAID (Redundant Array of Inexpensive Disks): verschiedene Level der Redundanz für Plattenspeicher (Hamming-Code, Parity) ● Disk Mirroring

11 Cluster-Typen ● Cluster = lose gekoppelte Anordnung mehrerer SMPs (Knoten) ● High Availability Cluster: Heartbeat-Monitoring- Prozess überträgt die Verarbeitung bei Ausfall des primären Servers auf einen Backup-Server, der sonst beschäftigungslos ist ● Parallel Cluster: manuelle Aufteilung der anfallenden Arbeit auf die Knoten ● Shared Cluster: WLM verteilt Arbeit dynamisch auf die einzelnen Knoten

12 Unterscheidung nach Zugriff auf Plattenspeicher ● Shared Nothing: nur ein Knoten kann auf einen bestimmten Plattenspeicher zugreifen => statische Aufteilung des Workloads ● Shared Disk: jeder Knoten kann auf alle Plattenspeicher zugreifen =>Datenkohärenzsteuerung nötig ● Parallel Sysplex implementiert Shared Disk(Data)

13 Parallel Sysplex

14 Sysplex Failure Management ● integriert in OS/390 ● erlaubt Definition einer sysplex-weiten Policy ● Policy legt Fehlererkennungsintervalle und Wiederherstellungsaktionen für den Ausfall eines Systems im Sysplex fest ● Fehlerarten: Ausfall der Signalverbindung zwischen Systemen, Status Update Missing Condition ● Status Update Missing Condition: System erneuert nicht seinen Status innerhalb eines bestimmten Zeitintervalls =>z.B.System-Isolation

15 Automatic Restart Manager ● Teil von OS/390 ● ausgefallene Anwendungen können automatisch auf gesunden Systemen im Parallel Sysplex neu gestartet werden oder auf dem selben System, falls dies nicht ausgefallen ist ● kennt Zustände aller Prozesse auf allen Systemen, bemerkt sofort alle Systemausfälle, benutzt WLM um geeignetes System für Restart zu finden ● Prozesse können in Restart Groups zusammengefasst werden

16 ● Reihenfolge der Restart-Aktivitäten kann festgelegt werden ● in hot-standby-Umgebungen (Backup-Server) kann der Restart des ausgefallenen Servers unterdrückt werden ● Prozesse registrieren sich zum Start beim ARM, melden sich beim Herunterfahren ab

17 Workload Balancing ● nötig, um die eingehende Arbeit im Sysplex zu verteilen oder im Fehlerfall umzuleiten ● dabei muss der ganze Sysplex nach außen eine einzige Identität haben (Host Name oder IP- Adresse) ● 2 Kategorien von Lastverteilungslösungen: DNS mapping solutions, Connection dispatching

18 Domain Name Server mapping solutions ● dynamisches Wechseln der DNS-Einträge, um einem Hostnamen versch. IPs (und damit Server) zuzuordnen ● Round-Robin: DNS kreist durch Liste mit IP- Adressen => Workload auf Server unbetrachtet ● Connection Optimization: DNS betrachtet Arbeitslast der einzelnen Server, Messergebnisse vom Workload Manager ● Nachteil: Auswahl des Servers nur bei Verbindungsaufbau

19 Connection dispatching solutions ● Client hat Verbindung mit Verteilerknoten, dieser leitet die Daten an entspr. Server weiter, der dann direkt dem Kunden antworten kann ● alle Systeme im Cluster liefern Informationen über ihre aktuelle Arbeitslast an den Distribution Manager ● Backup-Verteilerknoten überwacht Zustand des primären Verteilers und übernimmt die Arbeit bei Ausfall ● Verteilerknoten in PC, im Sysplex oder im Router

20 Softwarefeatures ● MQSeries, DB2 usw. benutzen ARM ● MQSeries: automatic rerouting of messages if target machine is unavailable ● Fehlerbehandlungsmaßnahmen der Datenbanksysteme


Herunterladen ppt "Hochverfügbarkeit. Gliederung ● Einführung ● Prozessor ● Kryptographischer Koprozessor ● Speicher ● Ein-/Ausgabe ● Weitere Hardware ● Parallel Sysplex."

Ähnliche Präsentationen


Google-Anzeigen