Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

ALICE GSI 24.07.2016 identified TOdos. ALICE T2 TODOs - Skript zur automatischen Fehlersuche – in Arbeit (S. Fleischer) – MasterJobs in Vergleich.

Ähnliche Präsentationen


Präsentation zum Thema: "ALICE GSI 24.07.2016 identified TOdos. ALICE T2 TODOs - Skript zur automatischen Fehlersuche – in Arbeit (S. Fleischer) – MasterJobs in Vergleich."—  Präsentation transkript:

1 ALICE T2 @ GSI 24.07.2016 identified TOdos

2 ALICE T2 TODOs - Skript zur automatischen Fehlersuche – in Arbeit (S. Fleischer) – MasterJobs in Vergleich zu anderen Sites können investigiert werden – Scraping funktioniert, auch stdout/stderr/sim.log, – Visualisierung (Jona) – Workflow aller Softwarekomponenten inklusive aller verwendeten Ports verstehen und dokumentieren – identisch mit „Chefisierung“

3 ALICE T2- Todos ALICE T2 – Umzug auf das neue Cluster seit 9.12. 2015 laufen Jobs erfolgreich auf Kronos, seit ca. 23.3. 2016 auf Kronos im GC !!! - AliEn Job laufen lassen und Netzverbindungen protokollieren, unter Annahme, dass ev. kein NAT im GreenCube. Welche Verbindungen baut ein Job auf und was kann man proxien ?  strace –e connect

4 ALICE T2- Todos ALICE T2 – Umzug auf das neue Cluster -Slurm.pm anpassen -getNumberRunning, getNumberQueued -hardcoded Directories durch Umgebungsvariablen ersetzen -nur aufräumen was gewünscht -korrektes Submit-Kommando -Testen in lokaler Umgebung  KS

5 ALICE T2 – Umzug in GC * -Grober md5-Vergleich SE content /hera vs /nyx (finaler Vergleich steht aus) -Aufsetzen Data Mover (HPC) (noch 1 Woche, wenn Thomas wieder da) -xrootd (latest) für Jessie kompilieren -10 Gb Ethernet für se2, se4, proxy2, pandase2 -se2, se4, proxy2 Hardware bis OS-Ebene partitionieren & installieren (FAI & Chef) -lxalise2, lxalise4 sind installiert und sind pingbar -/nyx verfügbar (noch ein paar Bugs im Rezept  Thomas) -software Raid vs. hardware Raid -se2 und se4 mit Chef (eigenen Rezepten) hochziehen ohne Produktivbetrieb -lxalise2, lxalise4, lxaliproxy2/int, lxpandase2 in ONA eintragen -Firewall-Regeln für se2, se4, proxy2, pandase2 -proxy2 mit Chef hochziehen -Storage Downtime abschätzen und an ALICE kommunizieren -Grobe funktionale xrootd-Tests mit se2 und se4 und proxy2 -se1 & se3 abschalten -lxaliproxy2 bei ALICE eintragen lassen -finaler rsync /hera => /nyx (Data mover notwendig) -lxalise2, lxalise4, lxaliproxy2 produktiv gehen lassen -Jobszahl GSI_2 langsam erhöhen -lxalise1 umziehen und produktiv gehen lassen

6 ALICE T3 TODOs - ALICE T3 – transfers (I) – Transfer – Einstellung, Wiki, configs, etc. automatisieren, auch via GUI – Action Items: (gemäß Meeting mit ALICE) – lxalitransfer6: direkter Transfer auf Kronos » Transfers laufen erfolgreich – Größe des Datensatzes vorher abschätzen und dokumentieren » funktioniert, ist aber zeitfressend, kann daher ausgeschaltet werden geplant: find XML – automatischer Aufruf von Listenerzeugungsskript von J. Wiechula – automatische E-Mail-Notifkation nach Ende des Transfers einbauen – Option einbauen, den selben Transfer mehrfach auszuführen  nicht mehr benötigt – zusätzlichen Check, dass transferierte Dateien ungleich null einbauen » zu löschende Files via E-Mail verschicken – Dokumentation zur Bedienung und Erstellung der Transfer Config – Files erstellen – 25.1. Meeting mit P. Malzacher zur Post-Processing der Daten fand statt

7 ALICE T3 TODOs - ALICE T3 – transfers (II) – 25.1. Meeting mit P. Malzacher zur Post-Processing der Daten fand statt – Todo-Liste: – email-notification – cron-job sollen nicht nach alice-data schicken – Info bei Start und Stop von Transfer – statistische Info: – Jobs sollen sagen, wieviel Prozent transferiert wurde – nicht gewollte MC-Directories sollen nicht kopiert werden – nur root_archive.zip unter numerischen Directories – abschließender Datencheck – Vergleich mit korrespondierendem XML-File – leere Directories und Files sowie korrupte Files sollen nach Transfer entfernt werden – ID zu jedem Transfer auf Wiki – Seite hinzufügen – trainlists sollen nach hera/nyx gehen – SE to SE transfers könnten wieder getestet werden  symlinks zu existierenden Datensätzen können von T3 gemacht und getestet werden – symlinks – SE to SE Transfer – local processing – hera to nyx SE migration – time stamps kommen von AliEn oder vom Kopieren auf SE ? – ev. nur Files mit bestimmten Timestamps synchronisieren ?

8 ALICE T2 todos KPI Performance – Begründung – Ausfälle pro Woche dokumentieren und warum ? – Am besten via Monitoring-Tool, z.B. MonaLisa ? HPC-Chef-Rezepte müssen noch getestet und übergeben werden – lustre_mount, (obsolet, funktioniert auch so) – ulimit, mlocate – Meeting mit V. Penso und D. Klein ist geplant 27.11. 14:00 Uhr im Schulungsraum IT – Meeting mit HPC fand statt (CH, VP, DK) ExSys soll für eigene Kisten entsprechend der zugehörigen Rollen vollen Zugriff auf Chef bekommen, Rezepte etc. werden geteilt mit HPC Verantwortlichkeiten von HPC und EXSys bleiben wie gehabt NächsteTreffen zur technischen Realisierung mit D. Klein und V. Penso fanden im Rahmen der Installation des ALICE –T2-Umzugs in den GC und der anstehenden Rechner – Installation statt. Work in Progress.

9 Todos vom 28.9. 2015 * Error Rate: – ist eventuell die Referenz falsch ? erhalten GSI und die Referenz-Zentren die gleichen Jobs ? Job-Verteilung muss überprüft werden (Sören/Jona) doppelte SE-Kapazität wird berichtet in MonaLisa. Muss investigiert werden. – vermutlich Bug in xrootd, Jan Knedlik investigiert – Grund gefunden, Topic in Github/xrootd aufgemacht – Patch wurde implementiert. Nun wird richtig gezählt alles muss dokumentiert werden: wo ? Wiki ? Gridamin ? – mit Dokumentation ist begonnen worden – Dokumentation muss weiter geführt werden

10 non ALICE T2 – Todos * Fertigstellung der Umgebung für verteilte Optimierung via Geneva, MPI, Scallapack, etc. (J. Knedlik) – funktionierende Testumgebung existiert – Aktuell: Test im Produktionsbetrieb – Skalierungsprobleme von Geneva werden untersucht – neue Implementierung des Consumer-Teils vom Broker – Besuch von Rüdiger Berlich im Oktober bei GSI

11 xrootd Todos: -Plugin, um bei lokalem Zugriff direkt von Lustre oder bei Remote Zugriff, die Proxy- URL davor schalten zu können, ist in Arbeit -mit eigenem Client funktioniert es bereits -xrdcp und xrd stat funktionieren mit Proxy URL und Client Plugin -xrdcp funktioniert noch nicht mit Lustre URL (Protokoll muss überschrieben werden) -von ROOT aus gibt es noch ein API-Problem. -Tfile, TXNetFile verwendet das falsche API, bei dem das Plugin nicht aufgerufen wird -aktueller Status: -xrd Plugin funktioniert jetzt in ROOT und mit xrdcp/xrdcopy! -Proxy Plugin funktioniert jetzt in ROOT mit TnetXNGfile -kurzer Code Review soll statt finden (TK, JK) -Frage: wie geht es nun weiter ? -Problem mit Garbage-Collector von ROOT -Plugin Library wird entladen bevor Tfile deleted wird -Funktioniert mit ROOT6, nicht mit ROOT5 -Diskussion in xroot und ROOT – Foren fand statt -wird nicht mehr in ROOT 5 behoben, ev. nun doch ?

12 todos vom 26.10. Liste mit ALICE-T2-Rechnern zum Hochfahren für HPC erstellen mit Abhängigkeiten PANDAGrid – Installation FairRoot und PandaRoot in CVMFS-Server – Muss noch auf Wns verteilt werden – Stefano Spataro hätte gerne eine Integration von Kronos in PandaGrid – SE, Proxy in GC bauen aus neuen existierenden Kisten – neues CE als VM einrichten, welches nach Kronos in GC submittiert – Kilian fährt nächste Woche nach Wien um an PandaGrid weiter zu arbeiten – PandaGrid-Jobs laufen via AliEn RunAgent in GC, PandaDaten können via xrootd Client Plugin und lxaliproxy2 in GC gelesen werden

13 Todos vom 25.01.2016 * -logwatch: -plugin schreiben: parser für xrootd log files (Werkstudent ?) -ERROR_V – Bekämpfung -proxy load balancer -Job-Zahl reduzieren und Effekt untersuchen (26.1.16 auf 1500) (2-3 Tage Warten und Effekt studieren) -Proxy-Server auf neuste xrootd-Version upgraden (2-3 Tage warten und Effekt studieren) -alle xrootd Instanzen wurden auf v4.2.3 upgegraded -alle xrootd – Instanzen wurden auf v4.3.0 upgegraded -Proxy Cache erhöhen

14 Schülerpraktikanten * -Workflow zur gemeinsamen Betreuung mit BIT und HPC wurde eingerichtet -vom 11.4. – 22.4. kamen 2 Praktikanten nur zu uns -nächster Schülerpraktikant: Jonas Imhof, 6.-8.7. -Nebelkammer, Linux/C++-Tutorial -Sommerstudent aus Jülich via Chinorat Kobdaj/Jim Ritman/M. Lutz -25.7. – 25.9. -Plan: Simplex-Algorithmus in Geneva implementieren -Betreuer: J. Knedlik, R. Grosso, K. Schwarz -Student Reception heute 16:00 Uhr -initialer Betreuungsplan (R. Grosso)

15 Workshops * -xrootd: -workshop mit Andy Hanushewsky @ GSI -9.-13.7. 2016 -was zu diskutieren ? -Proxy Performanz -Client/Server Plugins -alternative xrootd Setups -HEP IT Strategie: -14.-15.7. 2016 in Wuppertal -Ergebnis: Workshop - Protokoll

16 XROOTD WORKSHOP THEMEN * - schnelles Client-Sterben bei abwesendem Proxy - https://github.com/xrootd/xrootd https://github.com/xrootd/xrootd - Umgebungsvariablen XRD_RECONNECTWAIT & XRD_FIRSTCONNECTMAXCNT können die Situation verbessern - xrootd & logrotate - Lösung wurde implementiert – funktioniert sie ? - erfolgreiche 0-Byte-Transfers - Problem ist alter xrdcp-Client. Neue Version sollte das Problem nicht mehr haben. In Transfer-Skript testen - xrd-Client-Plugin in ROOT5 - https://github.com/xrootd/xrootd/issues/338 https://github.com/xrootd/xrootd/issues/338 - dies wird nur mit ROOT6 funktionieren - Proxy-Mem-Cache erhöhen - Patch wurde zur Verfügung gestellt. Eingebaut in Proxy ? Proxy-Mem-Cache wurde erhöht

17 XROOTD WORKSHOP THEMEN 2 * - Proxy-Stabilität - aktuelles Limit bei ca. 2000 Jobs. Patch wurde zur Verfügung gestellt, der Stabilität bis 3000 Jobs garantiert. In xrd v4.4 schon beinhaltet. - Patch-Code in Proxy ? - Testen mit 3000 Jobs - alternative xrootd-Setups, Vermeidung von single point of failures - setup mit mehreren Redirectoren und Proxy-Servern - Testsetup soll auf Testkisten im GC aufgebaut werden (Michael, Jan, Sören) - Client-Plugin-Funktionalität als Server-Plugin - Beispiel von Andy zur Verfügung gestellt. Muss für direkten Lustre-Zugriff implementiert und getestet werden - für Proxy-URL vermutlich keine Lösung - GridKa-Themen: - GPFS-Integration - handling of lost file systems - http://xrootd.org/doc/dev44/cms_config.htm#_Toc454223062 http://xrootd.org/doc/dev44/cms_config.htm#_Toc454223062 - HPSS-Integration

18 SONSTIGE ALICE T2-THEMEN * - Job-Statistik der Fehlerverteilung über die WNs (Request Carsten) - lxb888 DONE 20, ERROR_V 5, EXECUTION 2... - lxb889........


Herunterladen ppt "ALICE GSI 24.07.2016 identified TOdos. ALICE T2 TODOs - Skript zur automatischen Fehlersuche – in Arbeit (S. Fleischer) – MasterJobs in Vergleich."

Ähnliche Präsentationen


Google-Anzeigen