ALICE GSI 12.09.2016 identified TOdos. ALICE T2 TODOs* - Skript zur automatischen Fehlersuche – in Arbeit (S. Fleischer) – MasterJobs in Vergleich.

Slides:



Advertisements
Ähnliche Präsentationen
Vorgehensweise Website Besprechung am 11. Februar 2008 Gründung und Partnerunternehmen der Wirtschaftsuniversität Wien.
Advertisements

Informationen ü ber den Umbau des Schulnetzes Aufgrund der Umstellung unseres Schulnetzes auf ein neues Serversystem wird Ende Juni 2010 der Zugriff auf.
ALICE GSI identified TOdos. ALICE T2 TODOs * - Skript zur automatischen Fehlersuche – in Arbeit (S. Fleischer) – MasterJobs in Vergleich.
Bewerbungs- eingang Bewerbungs- bearbeitung Stellenangebote VermittlungKommunikationZusatzleistungen.
Seite 1 Erasmus-Informationsveranstaltung für HispanistInnen für das Studienjahr 2016/17.
ALICE T2 KPI Status GSI ALICE T2 KPI Woche KPI SE Availability Job Efficiency Wall Time Delivered Error Rate GSIReferenceRel. Diff GSIReferenceRel.
Auftragserfassungssystem für Drehmomentaufnehmer Datenbank und Software Dennis Rollesbroich 1.
ALICE GSI identified TOdos. ALICE T2 TODOs - Skript zur automatischen Fehlersuche – in Arbeit (S. Fleischer) – MasterJobs in Vergleich.
Webdeployment auf Cluster Seminarvortrag von Lukas Bonzelett.
Funktionsweise eines Funambolservers Natascha Graf Aachen, 01. Februar 2010.
ALICE GSI identified TOdos. ALICE T2 TODOs - Skript zur automatischen Fehlersuche – in Arbeit (S. Fleischer) – MasterJobs in Vergleich zu anderen.
Structura limbii Verbalphrase Konjunktiv II Dr. Ileana-Maria Ratcu Sose 2016.
ALICE GSI identified TOdos. ALICE T2 TODOs Skript zur automatischen Fehlersuche – in Arbeit (S. Fleischer)  Info in 2 Wochen beim nächsten Meeting.
ALICE GSI identified TOdos. ALICE T2 TODOs Skript zur automatischen Fehlersuche – in Arbeit (S. Fleischer)  Info in 2 Wochen beim nächsten Meeting.
ALICE T2 Performance 08/02/2016 Kilian Schwarz. KPI -Compute Efficiency und SE- Verfügbarkeit: ok -seit letztem Meeting: -DONE: ERROR: RUNNING:
Topic Page No Eine Grandioser Roulette Trick – Hohe Gewinne Nebenbei Verdienen 3 Bombastischer Roulette Trick 4 Immer Beim Roulette Gewinnen – Heute Ist.
ALICE GSI identified TOdos. ALICE T2 TODOs alle T2 Services „chefisieren“ – alle SE – Dienste wurden mit Chef und Überwachung versehen – Vobox-Dienste.
ALICE GSI identified TOdos. ALICE T2 TODOs * - Skript zur automatischen Fehlersuche – in Arbeit (S. Fleischer) – MasterJobs in Vergleich.
Uwe Habermann VFP Advanced auch als 64 bit Version.
Zehn Schritte zu Linux Der Weg in eine andere Welt...
ALICE GSI identified TOdos. ALICE T2 TODOs - Skript zur automatischen Fehlersuche – in Arbeit (S. Fleischer) – MasterJobs in Vergleich.
LINUX II Samba Verbindung mit Windows. Samba Übersicht ● Samba dient zur Verbindung von Linux-Clients mit Windows Rechnern ( samba-client ) sowie von.
ALICE T2 KPI Status GSI ALICE T2 KPI ALICE T2 KPI - Vergleich direkter Vergleich der KPI-Werte mit – Wall time delivered: nun konstant.
Wechsel von Oracle Cloud Control 12c zu 13c
NetApp Alliance ProLion CEO Robert Graf
Gruppen Finden Sie sich zurecht Die ersten Schritte in Ihrer Gruppe
Anforderungen an die neue Datenstruktur
Indico Meeting Dennis Klein
Rettungspunkte in der Gemeinde Simmerath
Verwendung des Datenloggers Dostmann LOG 32 TH
Präsentationen im alten Design
Wsl schon abgeschaltet Idee dahinter ist interessant und revolutionär
Camil Bartkowiak Serhat Cinar Leonardo Di Lella Jan Finsel
Vom Stereotyp zur Diskriminierung
Praxisseminar Wie man ein Thema für seine Bachelorarbeit findet
POINT POWER Um ohne lange Umschweife zu erklären, was eine POWERPOINT-Präsentation ist, werde ich die folgende Einführung in das Thema Präsentationen bereits.
Schulungsdokument für den Reporterverantwortlichen Club‘s Regio League
Allgemeine Befehle für die allgemeine Liste
Erste Schritte mit Personio
Meine erste eigene Homepage mit Blogger
Start Verben und Adjektive lernen Mit Vera und Ali
Sport, Entspannung und Gesundheit flexibel vereint!
Anleitung für Lehrer*innen – Verwendung des Materials
“STK-Protokolle scannen”
I ni sini Koordinator Etienne war am 1. März
das Routing Information Protocol
Routing … … die Suche nach dem Weg..
KAMAGRA Halten Sie Ihre Hände
Vollständig beantwortet: 93
IBO‘S TAG AUF DEM MARKT weiter.
Geschäftsregeln in XÖV-Standards XÖV-Konferenz 2018
START-BRAINSTORMING Was wollen wir eigentlich? Ideen sammeln
PI Infrastruktur in der Max-Planck-Gesellschaft
Datensicherung.
Online-Schulung Wordpress bei Konradin
1. Die rekursive Datenstruktur Liste 1.3 Rekursive Funktionen
START-BRAINSTORMING Was wollen wir eigentlich? Ideen sammeln
Der 30-Sekunden Elevator Pitch
Komplexität und Berechenbarkeit
Pflichtteil 2016 Aufgabe 6: Gegeben ist die Gerade
Radium E & I Check E & I Check
Practical Exercises and Theory
1. Die rekursive Datenstruktur Liste 1.6 Die Datenstruktur Stapel
IBM Software Cincom Systems Erwartete 20-prozentige Verkürzung der Markteinführungszeit mit dem IBM WebSphere Liberty-Profil Die Anforderung: Das für.
Instalieren des Programm Updates mit dem Namen "Liebe"
Wir hoffen hiermit eine kleine Hilfestellung zu leisten.
Instalieren des Programm Updates mit dem Namen "Liebe"
Zusammengesetzte Ereignisse
Cloudlösungen für die Landesgeschäftsstelle
Informatik II – Übung 4 Gruppe 3
 Präsentation transkript:

ALICE GSI identified TOdos

ALICE T2 TODOs* - Skript zur automatischen Fehlersuche – in Arbeit (S. Fleischer) – MasterJobs in Vergleich zu anderen Sites können investigiert werden – Scraping funktioniert, auch stdout/stderr/sim.log,  funktioniert es wirklich ? Aktueller Stand ? – Visualisierung (Jona) – Workflow aller Softwarekomponenten inklusive aller verwendeten Ports verstehen und dokumentieren – identisch mit „Chefisierung“

ALICE T2- Todos * ALICE T2 – Umzug auf das neue Cluster seit laufen Jobs erfolgreich auf Kronos, seit ca auf Kronos im GC !!! - AliEn Job laufen lassen und Netzverbindungen protokollieren, unter Annahme, dass ev. kein NAT im GreenCube. Welche Verbindungen baut ein Job auf und was kann man proxien ?  strace –e connect

ALICE T2- Todos ALICE T2 – Umzug auf das neue Cluster -Slurm.pm anpassen -getNumberRunning, getNumberQueued -hardcoded Directories durch Umgebungsvariablen ersetzen -nur aufräumen was gewünscht -korrektes Submit-Kommando -Testen in lokaler Umgebung  KS

ALICE T3 TODOs - ALICE T3 – transfers (I) – Transfer – Einstellung, Wiki, configs, etc. automatisieren, auch via GUI – Action Items: (gemäß Meeting mit ALICE) – lxalitransfer6: direkter Transfer auf Kronos » Transfers laufen erfolgreich – Größe des Datensatzes vorher abschätzen und dokumentieren » funktioniert, ist aber zeitfressend, kann daher ausgeschaltet werden geplant: find XML – automatischer Aufruf von Listenerzeugungsskript von J. Wiechula – automatische -Notifkation nach Ende des Transfers einbauen – Option einbauen, den selben Transfer mehrfach auszuführen  nicht mehr benötigt – zusätzlichen Check, dass transferierte Dateien ungleich null einbauen » zu löschende Files via verschicken – Dokumentation zur Bedienung und Erstellung der Transfer Config – Files erstellen – Meeting mit P. Malzacher zur Post-Processing der Daten fand statt

ALICE T3 TODOs - ALICE T3 – transfers (II) – Meeting mit P. Malzacher zur Post-Processing der Daten fand statt – Todo-Liste: – -notification – cron-job sollen nicht nach alice-data schicken – Info bei Start und Stop von Transfer – statistische Info: – Jobs sollen sagen, wieviel Prozent transferiert wurde – nicht gewollte MC-Directories sollen nicht kopiert werden – nur root_archive.zip unter numerischen Directories – abschließender Datencheck – Vergleich mit korrespondierendem XML-File – leere Directories und Files sowie korrupte Files sollen nach Transfer entfernt werden – ID zu jedem Transfer auf Wiki – Seite hinzufügen – trainlists sollen nach hera/nyx gehen – SE to SE transfers könnten wieder getestet werden  symlinks zu existierenden Datensätzen können von T3 gemacht und getestet werden – symlinks – SE to SE Transfer – local processing – hera to nyx SE migration – time stamps kommen von AliEn oder vom Kopieren auf SE ? – ev. nur Files mit bestimmten Timestamps synchronisieren ?

ALICE T2 todos* KPI Performance – Begründung – Ausfälle pro Woche dokumentieren und warum ? – Am besten via Monitoring-Tool, z.B. MonaLisa ? HPC-Chef-Rezepte müssen noch getestet und übergeben werden – lustre_mount, (obsolet, funktioniert auch so) – ulimit (in init-script für xrd-sh-wrapper/xrootd-proxy), mlocate (./production/grid/alicet2/nyx_client.rb) -Meeting mit V. Penso und D. Klein ist geplant :00 Uhr im Schulungsraum IT – Meeting mit HPC fand statt (CH, VP, DK) ExSys soll für eigene Kisten entsprechend der zugehörigen Rollen vollen Zugriff auf Chef bekommen, Rezepte etc. werden geteilt mit HPC Verantwortlichkeiten von HPC und EXSys bleiben wie gehabt NächsteTreffen zur technischen Realisierung mit D. Klein und V. Penso fanden im Rahmen der Installation des ALICE –T2-Umzugs in den GC und der anstehenden Rechner – Installation statt. Work in Progress.

Todos vom Error Rate: – ist eventuell die Referenz falsch ? erhalten GSI und die Referenz-Zentren die gleichen Jobs ? Job-Verteilung muss überprüft werden (Sören/Jona) doppelte SE-Kapazität wird berichtet in MonaLisa. Muss investigiert werden. – vermutlich Bug in xrootd, Jan Knedlik investigiert – Grund gefunden, Topic in Github/xrootd aufgemacht – Patch wurde implementiert. Nun wird richtig gezählt alles muss dokumentiert werden: wo ? Wiki ? Gridamin ? – mit Dokumentation ist begonnen worden – Dokumentation muss weiter geführt werden

non ALICE T2 – Todos Fertigstellung der Umgebung für verteilte Optimierung via Geneva, MPI, Scallapack, etc. (J. Knedlik) – funktionierende Testumgebung existiert – Aktuell: Test im Produktionsbetrieb – Skalierungsprobleme von Geneva werden untersucht – neue Implementierung eines Consumer-Teils vom Broker – Besuch von Rüdiger Berlich im Oktober bei GSI

todos vom * Liste mit ALICE-T2-Rechnern zum Hochfahren für HPC erstellen mit Abhängigkeiten PANDAGrid – Installation FairRoot und PandaRoot in CVMFS-Server – Muss noch auf Wns verteilt werden – Stefano Spataro hätte gerne eine Integration von Kronos in PandaGrid – SE, Proxy in GC bauen aus neuen existierenden Kisten – neues CE als VM einrichten, welches nach Kronos in GC submittiert – Kilian fährt nächste Woche nach Wien um an PandaGrid weiter zu arbeiten – PandaGrid-Jobs laufen via AliEn RunAgent in GC, PandaDaten können via xrootd Client Plugin und lxaliproxy2 in GC gelesen werden

Todos vom logwatch: -plugin schreiben: parser für xrootd log files (Werkstudent ?) -ERROR_V – Bekämpfung -proxy load balancer -Job-Zahl reduzieren und Effekt untersuchen ( auf 1500) (2-3 Tage Warten und Effekt studieren) -Proxy-Server auf neuste xrootd-Version upgraden (2-3 Tage warten und Effekt studieren) -alle xrootd Instanzen wurden auf v4.2.3 upgegraded -alle xrootd – Instanzen wurden auf v4.3.0 upgegraded -Proxy Cache erhöhen

Schülerpraktikanten * -Workflow zur gemeinsamen Betreuung mit BIT und HPC wurde eingerichtet -vom – kamen 2 Praktikanten nur zu uns -nächster Schülerpraktikant: Jonas Imhof, Nebelkammer, Linux/C++-Tutorial -Sommerstudent aus Jülich via Chinorat Kobdaj/Jim Ritman/M. Lutz – Plan: Simplex-Algorithmus in Geneva implementieren -Betreuer: J. Knedlik, R. Grosso, K. Schwarz -Student Reception heute 16:00 Uhr -initialer Betreuungsplan (R. Grosso) -Simplex und parallele Adaptierung wurde implementiert und mit einfachen mehrdimensionalen Funktionen getestet -Schnittstelle zu MathCode -Schnittstelle zu Geneva

Workshops * -xrootd: -workshop mit Andy GSI was zu diskutieren ? -Proxy Performanz -Client/Server Plugins -alternative xrootd Setups -HEP IT Strategie: in Wuppertal -Ergebnis: Workshop – Protokoll -Protokoll wurde geschrieben und mit Workshop-Teilnehmern abgeglichen -soll diese Woche an GridKa OB geschickt werden

XROOTD WORKSHOP THEMEN * - schnelles Client-Sterben bei abwesendem Proxy* Umgebungsvariablen XRD_RECONNECTWAIT & XRD_FIRSTCONNECTMAXCNT können die Situation verbessern - xrootd & logrotate - Lösung wurde implementiert – funktioniert sie ? Ja. Wo läuft sie bereits ? - erfolgreiche 0-Byte-Transfers - Problem ist alter xrdcp-Client. Neue Version sollte das Problem nicht mehr haben. In Transfer-Skript testen - xrd-Client-Plugin in ROOT dies wird nur mit ROOT6 funktionieren - Proxy-Mem-Cache erhöhen - Patch wurde zur Verfügung gestellt. Eingebaut in Proxy ? Proxy-Mem-Cache wurde erhöht

XROOTD WORKSHOP THEMEN 2 - Proxy-Stabilität - aktuelles Limit bei ca Jobs. Patch wurde zur Verfügung gestellt, der Stabilität bis 3000 Jobs garantiert. In xrd v4.4 schon beinhaltet. - Patch-Code in Proxy ? - Testen mit 3000 Jobs - alternative xrootd-Setups, Vermeidung von single point of failures - setup mit mehreren Redirectoren und Proxy-Servern - Testsetup soll auf Testkisten im GC aufgebaut werden (Michael, Jan, Sören) - Client-Plugin-Funktionalität als Server-Plugin - Beispiel von Andy zur Verfügung gestellt. Muss für direkten Lustre-Zugriff implementiert und getestet werden - für Proxy-URL vermutlich keine Lösung - GridKa-Themen: - GPFS-Integration - handling of lost file systems HPSS-Integration

SONSTIGE ALICE T2-THEMEN * - Job-Statistik der Fehlerverteilung über die WNs (Request Carsten) - lxb888 DONE 20, ERROR_V 5, EXECUTION lxb Scraper muss wieder in Gang gebracht werden regelmäßiges Scraping, Einbau in Webfrontend - Hyperthreading – Interface für AliEn (rgrosso) - Entkoppeln der ALICE T2-Jobs von Lustre - Umziehen das awk-Patches auf CVMFS - Löschen von aliprod $HOME auf Lustre - Testbetrieb ohne redundante Variablen-Info auf alirprod $HOME - Umzug auf non shared $HOME ohne Lustre - Schreiben des LSDMA DLCL ALICE-T2-Berichts für CHEP