ALICE GSI identified TOdos
ALICE T2 TODOs Skript zur automatischen Fehlersuche – in Arbeit (S. Fleischer) Info in 2 Wochen beim nächsten Meeting MasterJobs in Vergleich zu anderen Sites können investigiert werden – Scraping funktioniert, stdout/stderr/sim.log noch nicht in DB – ebenso Visualisierung (Jona) Workflow aller Softwarekomponenten inklusive aller verwendeten Ports verstehen und dokumentieren – identisch mit „Chefisierung“ alte Maschinen aus ML entfernen (lxgrid6, lxgrid9,...) – Costin wurde kontaktiert – Ticket zum Upgrade von CMFS auf lxcealice03 wurde geschrieben (lxcealice03) remaining issue: CVMFS on GSI: old catalogue revision detected ALICE T2-Dienste müssen gemonitort werden (inklusive History) (R. Grosso) Kandidat: MonaLisa SE-Maschinen sind in Monitoring, Info, wenn Maschine ausfällt kann verschickt werden /hera /nyx wird überwacht OSTs noch nicht Muss noch in Chef eingebaut werden ALICE T2 – Umzug auf das neue Cluster – alien RunAgent muss noch getestet werden, DONE, erste Jobs liefen in Kronos – neue vobox wurde beantragt. Implementieren und Testen bis , ca. 100 Jobs vobox wurde in LDAP konfiguriert, installiert, Chef-Rezepte stehen, lediglich Test steht aus. – sync /hera - /nyx zur Vorbereitung von neuem SE RUNNING – Job Submission von lxcealice03 auf Kronos Problem, die richtigen Umgebungsvariablen auf die Jobumgebung zu übertragen, aktuell: TCL ERROR JOBAGENT_ID gelöst via SBATCH_EXPORT und.alien/Environment Reihenfolge der Umgebungsvariablen ? Definition der Variablen ? seit laufen Jobs erfolgreich auf Kronos
ALICE T2 TODOs ALICE T3 – transfers – Transfer – Einstellung, Wiki, configs, etc. automatisieren – Action Items : (gemäß Meeting mit ALICE) – lxalitransfer6: direkter Transfer auf Kronos (Port 80 nach AliEn muss aufgemacht werden Ticket existiert » AliEn via CVMFS gemounted, API Port geöffnet » Transfers laufen erfolgreich – Größe des Datensatzes vorher abschätzen und dokumentieren » funktioniert, ist aber zeitfressend, kann daher ausgeschaltet werden geplant: find XML – automatischer Aufruf von Listenerzeugungsskript von J. Wiechula – Marcus Skript automatisch aufrufen ??? (niedrige Priorität, checked zahl der transferierten Files) – automatische -Notifkation nach Ende des Transfers einbauen – Option einbauen, den selben Transfer mehrfach auszuführen – zusätzlichen Check, dass transferierte Dateien ungleich null einbauen » zu löschende Files via verschicken – Dokumentation zur Bedienung und Erstellung der Transfer Config – Files erstellen
ALICE T2 todos KPI Performance – Begründung – Ausfälle pro Woche dokumentieren und warum ? – Am besten via Monitoring-Tool, z.B. MonaLisa ? HPC-Chef-Rezepte müssen noch getestet und übergeben werden – lustre_mount, ulimit, mlocate – Meeting mit V. Penso und D. Klein ist geplant :00 Uhr im Schulungsraum IT – Meeting mit HPC fand statt (CH, VP, DK) ExSys soll für eigene Kisten entsprechend der zugehörigen Rollen vollen Zugriff auf Chef bekommen, Rezepte etc. werden geteilt mit HPC Verantwortlichkeiten von HPC und EXSys bleiben wie gehabt Nächstes Treffen zur technischen Realisierung am
Todos vom Error Rate: – ist eventuell die Referenz falsch ? erhalten GSI und die Referenz-Zentren die gleichen Jobs ? Job-Verteilung muss überprüft werden (Sören/Jona) doppelte SE-Kapazität wird berichtet in MonaLisa. Muss investigiert werden. – vermutlich Bug in xrootd, Andy investigiert alles muss dokumentiert werden: wo ? Wiki ? Gridamin ? – mit Dokumentation ist begonnen worden
non ALICE T2 - Todos Fertigstellung der Umgebung für verteilte Optimierung via Geneva, MPI, Scallapack, etc. (J. Knedlik) – funktionierende Testumgebung existiert – großer Test mit neuer Theoriesoftware steht aus noch ein Bug im Vektor-Distributor wird vermutet – Performance-Tests mit eigenem http-Server durchgeführt
todos vom Liste mit ALICE-T2-Rechnern zum Hochfahren für HPC erstellen mit Abhängigkeiten xrd – log – Löschskript (S. Fleischer) – Info beim nächsten Meeting in 2 Wochen – R. Grosso hat ein Löschskript geschrieben dieses muss noch in Chef eingebaut werden PANDAGrid – Installation FairRoot und PandaRoot in CVMFS – ROOT scheitert an libfreetype. beantragen auf Build-Server oder Florian fragen, wie man die Lib vermeiden kann – Ticket geschrieben, freetype wurde installiert