Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

ALICE GSI identified TOdos. ALICE T2 TODOs - Skript zur automatischen Fehlersuche – in Arbeit (S. Fleischer) – MasterJobs in Vergleich zu anderen.

Ähnliche Präsentationen


Präsentation zum Thema: "ALICE GSI identified TOdos. ALICE T2 TODOs - Skript zur automatischen Fehlersuche – in Arbeit (S. Fleischer) – MasterJobs in Vergleich zu anderen."—  Präsentation transkript:

1 ALICE T2 @ GSI identified TOdos

2 ALICE T2 TODOs - Skript zur automatischen Fehlersuche – in Arbeit (S. Fleischer) – MasterJobs in Vergleich zu anderen Sites können investigiert werden – Scraping funktioniert, auch stdout/stderr/sim.log, – main loop muss zwecks Optimierung upgedated werden – Visualisierung (Jona) Workflow aller Softwarekomponenten inklusive aller verwendeten Ports verstehen und dokumentieren – identisch mit „Chefisierung“ - ALICE T2-Dienste müssen gemonitort werden (inklusive History) (R. Grosso) - Methode: MonaLisa - SE-Maschinen sind in Monitoring, Info, wenn Maschine ausfällt kann verschickt werden - /hera /nyx wird überwacht - Muss noch in Chef eingebaut werden (start/stop – Daemon in Python muss implementiert werden)

3 ALICE T2- Todos ALICE T2 – Umzug auf das neue Cluster alien RunAgent muss noch getestet werden, DONE, erste Jobs liefen in Kronos neue vobox wurde beantragt. Implementieren und Testen bis 16.10.2015, ca. 100 Jobs ==> DONE, 50 Jobs laufen stabil. 100 Jobs wurden noch nicht eingestellt, weil sie über selben Proxy wie GSI-Jobs laufen und Fehler in gleicher Rate und in etwa zeitgleich wie bei GSI auftauchen vobox wurde in LDAP konfiguriert, installiert, Chef-Rezepte stehen ==> DONE sync /hera - /nyx zur Vorbereitung von neuem SE RUNNING ==> alle Daten kopiert, nun in sync halten -kurz vor fertig SE auf readonly setzen, nochmal rsyncen. Am Ende Auschalten und rysncen, dann neues SE auf Nyx einschalten, wenn alles in Sync -neue SE-Frontend – Kisten bei HPC beantragen, stehen im GreenCube, GreenCube hat noch kein Netz, in Betrieb nehmen und testen Job Submission von lxcealice03 auf Kronos ==> DONE seit 9.12. 2015 laufen Jobs erfolgreich auf Kronos - AliEn Job laufen lassen und Netzverbindungen protokollieren, unter Annahme, dass ev. kein NAT im GreenCube. Welche Verbindungen baut ein Job auf und was kann man proxien ?  strace –e connect

4 ALICE T2- Todos ALICE T2 – Umzug auf das neue Cluster -Slurm.pm anpassen -getNumberRunning, getNumberQueued -hardcoded Directories durch Umgebungsvariablen ersetzen -nur aufräumen was gewünscht -korrektes Submit-Kommando -Testen in lokaler Umgebung  KS

5 ALICE T2 TODOs - ALICE T3 – transfers – Transfer – Einstellung, Wiki, configs, etc. automatisieren – Action Items: (gemäß Meeting mit ALICE) – lxalitransfer6: direkter Transfer auf Kronos » Transfers laufen erfolgreich – Größe des Datensatzes vorher abschätzen und dokumentieren » funktioniert, ist aber zeitfressend, kann daher ausgeschaltet werden geplant: find XML – automatischer Aufruf von Listenerzeugungsskript von J. Wiechula – automatische E-Mail-Notifkation nach Ende des Transfers einbauen – Option einbauen, den selben Transfer mehrfach auszuführen – zusätzlichen Check, dass transferierte Dateien ungleich null einbauen » zu löschende Files via E-Mail verschicken – Dokumentation zur Bedienung und Erstellung der Transfer Config – Files erstellen – 25.1. Meeting mit P. Malzacher zur Post-Processing der Daten fand statt

6 ALICE T2 TODOs - ALICE T3 – transfers – 25.1. Meeting mit P. Malzacher zur Post-Processing der Daten fand statt – Todo-Liste: – email-notification – cron-job sollen nicht nach alice-data schicken – Info bei Start und Stop von Transfer – statistische Info: – Jobs sollen sagen, wieviel Prozent transferiert wurde – nicht gewollte MC-Directories sollen nicht kopiert werden – nur root_archive.zip unter numerischen Directories – abschließender Datencheck – Vergleich mit korrespondierendem XML-File – leere Directories und Files sowie korrupte Files sollen nach Transfer entfernt werden – ID zu jedem Transfer auf Wiki – Seite hinzufügen – trainlists sollen nach hera/nyx gehen – SE to SE transfers könnten wieder getestet werden – symlinks – SE to SE Transfer – local processing – hera to nyx SE migration – time stamps kommen von AliEn oder vom Kopieren auf SE ? – ev. nur Files mit bestimmten Timestamps synchronisieren ?

7 ALICE T2 todos KPI Performance – Begründung – Ausfälle pro Woche dokumentieren und warum ? – Am besten via Monitoring-Tool, z.B. MonaLisa ? HPC-Chef-Rezepte müssen noch getestet und übergeben werden – lustre_mount, ulimit, mlocate – Meeting mit V. Penso und D. Klein ist geplant 27.11. 14:00 Uhr im Schulungsraum IT – Meeting mit HPC fand statt (CH, VP, DK) ExSys soll für eigene Kisten entsprechend der zugehörigen Rollen vollen Zugriff auf Chef bekommen, Rezepte etc. werden geteilt mit HPC Verantwortlichkeiten von HPC und EXSys bleiben wie gehabt Nächstes Treffen zur technischen Realisierung am 15.1. 16 verschoben auf unbekannt  D. Klein – S. Fleischer und D. Klein haben erste Tests gemacht.

8 Todos vom 28.9. 2015 Error Rate: – ist eventuell die Referenz falsch ? erhalten GSI und die Referenz-Zentren die gleichen Jobs ? Job-Verteilung muss überprüft werden (Sören/Jona) doppelte SE-Kapazität wird berichtet in MonaLisa. Muss investigiert werden. – vermutlich Bug in xrootd, Andy investigiert alles muss dokumentiert werden: wo ? Wiki ? Gridamin ? – mit Dokumentation ist begonnen worden – Dokumentation muss weiter geführt werden

9 non ALICE T2 - Todos Fertigstellung der Umgebung für verteilte Optimierung via Geneva, MPI, Scallapack, etc. (J. Knedlik) – funktionierende Testumgebung existiert – Aktuell: Test im Produktionsbetrieb – Performance-Tests mit eigenem http-Server durchgeführt – Abstract eingereicht (ISGC 2016)

10 xrootd Todos: -Plugin, um bei lokalem Zugriff direkt von Lustre oder bei Remote Zugriff, die Proxy-URL davor schalten zu können, ist in Arbeit -mit eigenem Client funktioniert es bereits -xrdcp und xrd stat funktionieren mit Proxy URL und Client Plugin -xrdcp funktioniert noch nicht mit Lustre URL (Protokoll muss überschrieben werden) -von ROOT aus gibt es noch ein API-Problem. -Tfile, TXNetFile verwendet das falsche API, bei dem das Plugin nicht aufgerufen wird

11 todos vom 26.10. Liste mit ALICE-T2-Rechnern zum Hochfahren für HPC erstellen mit Abhängigkeiten xrd – log – Löschskript (S. Fleischer) – Info beim nächsten Meeting in 2 Wochen – R. Grosso hat ein Löschskript geschrieben Wurde in Chef eingebaut und funktioniert PANDAGrid – Installation FairRoot und PandaRoot in CVMFS-Server – Muss noch auf Wns verteilt werden

12 Todos vom 25.01.2016 -logwatch: vnstat zeigt bei SE-Kisten größere Zeiträume ohne Datenübertragung. -ev. Artefakt ? Reboot der Kisten mag helfen -logwatch: -plugin schreiben: parser für xrootd log files (Werkstudent ?) -ERROR_V – Bekämpfung -proxy load balancer -Job-Zahl reduzieren und Effekt untersuchen (26.1.16 auf 1500) (2-3 Tage Warten und Effekt studieren) -Proxy-Server auf neuste xrootd-Version upgraden (2-3 Tage warten und Effekt studieren) -aktuell: Libraries können nicht geladen werden -train jobs at GSI fail to load AliRoot/v5-07-20-4/lib/libAliPythia6.so undefined symbol: pyqpar_ manually error reproduced root [0] gSystem->Load("libAliPythia6.so") dlopen error: /cvmfs/alice.cern.ch/x86_64-2.6-gnu-4.1.2/Packages/AliRoot/v5-07-20-4/lib/libAliPythia6.so: undefined symbol: pyqpar_ Load Error: Failed to load Dynamic link library /cvmfs/alice.cern.ch/x86_64-2.6-gnu-4.1.2/Packages/AliRoot/v5-07-20- 4/lib/libAliPythia6.so In order to fix the problem I had to load libpythia6.so first. root [1] gSystem->Load("libpythia6.so") (int)0 root [2] gSystem->Load("libAliPythia6.so") (int)0 On the other hand at other sites the same job seems to work fine: Feb 7 10:05:44 info The job 616051023 is in status: DONE It has the following subjobs: Subjobs in ERROR_V (ALICE::GSI::GSI): 2 Subjobs in DONE (ALICE::CERN::CERN-AURORA): 8 Subjobs in DONE (ALICE::CERN::CERN-SIRIUS): 34 Subjobs in DONE (ALICE::CERN::CERN-TRITON): 7 Subjobs in DONE (ALICE::CERN::CERN-ZENITH): 22


Herunterladen ppt "ALICE GSI identified TOdos. ALICE T2 TODOs - Skript zur automatischen Fehlersuche – in Arbeit (S. Fleischer) – MasterJobs in Vergleich zu anderen."

Ähnliche Präsentationen


Google-Anzeigen