Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

ALICE T2 KPI Status 14.9.2015. GSI ALICE T2 KPI Woche KPI SE Availability Job Efficiency Wall Time Delivered Error Rate GSIReferenceRel. Diff GSIReferenceRel.

Ähnliche Präsentationen


Präsentation zum Thema: "ALICE T2 KPI Status 14.9.2015. GSI ALICE T2 KPI Woche KPI SE Availability Job Efficiency Wall Time Delivered Error Rate GSIReferenceRel. Diff GSIReferenceRel."—  Präsentation transkript:

1 ALICE T2 KPI Status

2 GSI ALICE T2 KPI Woche KPI SE Availability Job Efficiency Wall Time Delivered Error Rate GSIReferenceRel. Diff GSIReferenceRel. Diff 32100%92%74%24%113%29%22%-32% 33100%93%76%22%106%38%28%-36% 3498%74%86%-14%104%46%17%-171% 35100%77%86%-10%98%56%16%-250% 3698%72%87%-17%102%26%6%-333% 3767%61%66%-8%100%23%9%-156% 3887%75%85%-12%97%35%18%-94% 3999%88%89%-1%99%31%17%-82%

3 ALICE T2 KPI - Vergleich direkter Vergleich der KPI-Werte – Wall time delivered: KW39: 99%, KW38: 97%, KW37: 100% – Job Error Rate: KW39: 31%, KW38: 35%, KW37: 23% immer höher als Referenzzentren – KW39: 17%, KS38: 18%, KW37: 9% – Storage Element Verfügbarkeit: KW39: 99%, KW38: 87%, KW37: 67% – Compute Efficiency: KW39: 88%, KW38: 75%, KW37: 61% Referenz: – KW39: 89%, KW38: 85%, KW37: 66%

4 wall time delivered status: green still a bit bumpy, but last month 1502 jobs in average (14.9.: 1407 jobs) queued JA issue still needs to be addressed

5 compute efficiency compared with reference site (Straßburg) the difference to GSI is „improving“ – current ratio (81:75) – 14.9.: ratio was (81::72) – SE-Ausfälle am 8.9., 11.9., klar mit reduzierter Job-Efficiency korreliert. – Seit SE – Server: weniger Test-Ausfälle Ausfälle am und am keinen so starken Effekt auf Efficiency ???

6 xrd monitoring issue fixed GSI::SE is actually „used“ since then for writing. ApMon sends now to external interface of lxalird1, since then xrd usage data appear in alimonitor.cern.ch manual fix needs to be addressed by „Chef“ in order to be sustainable

7 lxalise3 – monitoring info Gründe für die Abstürze von xrootd/lxalise1/lxalise3:  Maßnahmen: Inbetriebnahme von zweiter SE-Maschine -Features: -unter manchen Bedingungen: -load/CPU-Peaks -xrd stürzt ab -lxalise1 überlebt -lxalise3 stirbt dabei manchmal -xrd auto restart: -se1: ok (?) -se3: muss repariert werden

8 lxalise1/3 – monitoring info -bytes in/out pretty much in sync when comparing both SE servers -SE3 ist bei gleicher Leistung CPU- technisch wesentlich stärker gefordert -SE1 ist hier allerdings besser ausgestattet, was der Grund sein dürfte

9 ALICE T2 – Error Rate last week – GSI (DONE/ERROR): / : 74000/46000 ERROR_V und ERROR_E noch keine Auto-Info von ERROR-Analyse-Skript – Straßburg (DONE/ERROR): 69000/10000

10 wöchentliche KPI-Analyse Trends: - Wall-time-Delivered: konstant gut - Error Rate: kein klarer Trend, zu hoch - Compute Efficiency: wieder zunehmend – vermutlich wegen SE-Stabilität - SE-Verfügbarkeit: konstant gut, mit Problemen zwischendurch Woche KPI SE Availabilit y Job Efficiency Wall Time Delivered Error Rate GSIReferenceRel. Diff GSIReferenceRel. Diff 32100%92%74%24%113%29%22%-32% 33100%93%76%22%106%38%28%-36% 3498%74%86%-14%104%46%17%-171% 35100%77%86%-10%98%56%16%-250% 3698%72%87%-17%102%26%6%-333% 3767%61%66%-8%100%23%9%-156% 3887%75%85%-12%97%35%18%-94% 3999%88%89%-1%99%31%17%-82%

11 wöchentliche KPI-Analyse Dokumentierte Ausfälle: – 19.8.: Lustre-Ausfall – 01.09: Lustre-Ausfall – SE-Ausfälle: 19.8., 1.9., 8.9., 11.9., für die letzten 3 Ausfälle muss der Grund noch gefunden werden – 13.9.: xrd.sh down, Neustart fehl geschlagen – 11.9.: lxalise3 down – 8.9.: lxalise3 down, fehlgeschlagener Neustart – neue SE-Ausfälle: 18.9., – 18.9.: /hera/mds down – 23.9.: lxalise3 down


Herunterladen ppt "ALICE T2 KPI Status 14.9.2015. GSI ALICE T2 KPI Woche KPI SE Availability Job Efficiency Wall Time Delivered Error Rate GSIReferenceRel. Diff GSIReferenceRel."

Ähnliche Präsentationen


Google-Anzeigen