ALICE GSI identified TOdos. ALICE T2 TODOs - Skript zur automatischen Fehlersuche – in Arbeit (S. Fleischer) – MasterJobs in Vergleich zu anderen.

Slides:



Advertisements
Ähnliche Präsentationen
Software Distribution Platform Bernhard M. Wiedemann Problem Statement Current State of the Art Design.
Advertisements

Vorgehensweise Website Besprechung am 11. Februar 2008 Gründung und Partnerunternehmen der Wirtschaftsuniversität Wien.
Linux-HA-Cluster – Heartbeat mit DRBD
Ehrenmedaillen ermitteln
Der VFP Debugger - Coverage und Profiling. © 1999 TMN-Systemberatung GmbH Der VFP Debugger n Neues Aussehen, eigene Task n Erweiterte Möglichkeiten n.
Kurzanleitung für Laptop-Zugang 1. WICHTIG: Bringen Sie Ihr Betriebssystem möglichst "offline" auf den aktuellsten Stand. Entsprechende CDs finden Sie.
GIT und Redmine Übung.
TWS/Graph HORIZONT Produkt-Präsentation Software für Rechenzentren
Test-Checker: Lehrer Version Manual Programm von Martin Schügerl.
OMDS-Einspielung in den KundenManager. Der Import beginnt im chegg.net-Kundenmanager. (Links oben über das Pulldown-Menu erreichbar).
Autor: Peter Pfeiffer Seite: Peter Pfeiffer Memeler Str Bad Oeynhausen Datentransfer Zwischen dem Eingabemodul und den mitgelieferten.
PC Club 29. November
Ehrennadeln ermitteln Wenn Sie diese Präsentation im Internet-Explorer ablaufen lassen wollen, so klicken Sie bitte auf das Leinwandsymbol unten rechts.
Mein Arbeitspraktikum
Backup der FTP-Daten mit BYSU (Back Your Space Up von George Ruinelli) Eine mögliche Variante, um FTP- Daten bei dem Provider „All-Inkl“ zu sichern.
Übung Informatik I exercise01. 2 Inhaltsübersicht Nachbesprechung Übung 1 Individuelle Fragen/Bemerkungen.
Die Gestaltung einer Präsentation
Drei Möglichkeiten zum Betrieb von DPV über das Internet Dr. Matthias Grabert und Walter Geiselmann Uni Ulm.
Eindeutige Personenzuordnung mit lokalen Identifiern via ODATA/LDAP
ALICE GSI identified TOdos. ALICE T2 TODOs * - Skript zur automatischen Fehlersuche – in Arbeit (S. Fleischer) – MasterJobs in Vergleich.
DNS Grundlagen Wer soll sich das merken !!! Wer soll sich das merken !!!
Bewerbungs- eingang Bewerbungs- bearbeitung Stellenangebote VermittlungKommunikationZusatzleistungen.
Seite 1 Erasmus-Informationsveranstaltung für HispanistInnen für das Studienjahr 2016/17.
RSS-Feed: Unser neuer Nachrichtendienst im Netz Dr. Ilona Rohde
ALICE T2 KPI Status GSI ALICE T2 KPI Woche KPI SE Availability Job Efficiency Wall Time Delivered Error Rate GSIReferenceRel. Diff GSIReferenceRel.
By Thorsten Zisler 1 SQL Datenbank Anbindung an den Supervisor.
IIS The microsoft way. © Windows NT Option pack optionale Server Komponenten IIS (Internet Information Server) Webserver von Microsoft.
Installation und Nutzung des Eyeblaster Workshops und Hochladen in MediaMind.
ALICE GSI identified TOdos. ALICE T2 TODOs - Skript zur automatischen Fehlersuche – in Arbeit (S. Fleischer) – MasterJobs in Vergleich.
Webdeployment auf Cluster Seminarvortrag von Lukas Bonzelett.
Effektives Delta Laden DOAG SID Data Warehouse. Ziele Welche CDC Methoden gibt es? Typische Fallen Verschiedene Lösungsansätze praktische Beispiele.
1 Simulation einer Ladesäule für Elektrofahrzeuge nach dem Open Charge Point Protocol Felix Batke 3. Lehrjahr.
Erstellung von Standard Ads. © 2008 Eyeblaster. All rights reserved Installation MXP Extension Kit Hallo liebe Kreativen, Wir freuen uns, dass Sie mit.
Indico Meeting Dennis Klein 4. August Übersicht  Korrespondenz CERN  Trouble Ticket Queue  Integration GSI-Accounts  Subversion & Wiki  Todo.
Anmeldung zu den AGs Strafrecht Via Stud.IP : Login mit Benutzerkennung und Netzpasswort (siehe.
ALICE GSI identified TOdos. ALICE T2 TODOs Skript zur automatischen Fehlersuche – in Arbeit (S. Fleischer)  Info in 2 Wochen beim nächsten Meeting.
Papierbelege und digitale Belege übertragen. Öffnen Sie Ihren Webbrowser und rufen die DIGI-BEL Webapp mit der Adresse demo.digi-bel.de* 1 auf * 1 Die.
ALICE GSI identified TOdos. ALICE T2 TODOs Skript zur automatischen Fehlersuche – in Arbeit (S. Fleischer)  Info in 2 Wochen beim nächsten Meeting.
ALICE T2 Performance 08/02/2016 Kilian Schwarz. KPI -Compute Efficiency und SE- Verfügbarkeit: ok -seit letztem Meeting: -DONE: ERROR: RUNNING:
Auswirkungen des Hostings auf die Systembetreuung Mehr Arbeit und höhere Anforderungen hieran Abstimmungsbedarf / Prozesse Notwendigkeit zu internem Wissenstransfer.
ALICE GSI identified TOdos. ALICE T2 TODOs alle T2 Services „chefisieren“ – alle SE – Dienste wurden mit Chef und Überwachung versehen – Vobox-Dienste.
Eine Arbeitsgenehmigung ausfüllen Kursus „Sicher arbeiten mit einer Arbeitsgenehmigung”
Weiter durch Mausklick Bernhard Nauli kirchenweb.ch gmbh Veranstaltungszentrale von kirchenweb.ch Veranstaltungszentrale.
ALICE GSI identified TOdos. ALICE T2 TODOs * - Skript zur automatischen Fehlersuche – in Arbeit (S. Fleischer) – MasterJobs in Vergleich.
Funktionen (Zweck und Eigenschaften) Funktionen sind Unterprogramme, die einen bestimmten Zweck erfüllen Sie zerlegen Probleme in kleine, abgeschlossene.
Der Einsatz von stunnel in den Verbund- Bibliotheken Seite 1 Der Einsatz von stunnel in den Verbund- Bibliotheken Von Frank Dietz (BVB/A)
MONITOR - Materialverfolgung...vom Lieferanten über den Wareneingang bis zum Kunden... weiter.
DA- und WO- Verbindungen Wie gut verstehst du sie?
J Walk/GUI400 für Einsteiger Data Access Installationsvorgang © NewServ AG, Uitikon.
Einstellungen in Skype sind unter “Aktionen” in der Navigation zu finden. >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>
SE Virtualisierung von Universitäten Zwischenbericht Liebe KollegInnen, Anbei finden Sie eine PowerPoint-Vorlage zur Erarbeitung eines kurzen Zwischenberichts.
Lernen durch Musik Artenkenntnis einheimischer Bäume einmal anders.
ALICE GSI identified TOdos. ALICE T2 TODOs - Skript zur automatischen Fehlersuche – in Arbeit (S. Fleischer) – MasterJobs in Vergleich.
LINUX II Unit 9 Network File Server NFS. NFS Überblick ● Zugriff von lokalen Rechner über Netzwerk auf Dateien oder Ordnern auf entfernten Servern ● Entwickelt.
ALICE GSI identified TOdos. ALICE T2 TODOs* - Skript zur automatischen Fehlersuche – in Arbeit (S. Fleischer) – MasterJobs in Vergleich.
ALICE T2 KPI Status GSI ALICE T2 KPI ALICE T2 KPI - Vergleich direkter Vergleich der KPI-Werte mit – Wall time delivered: nun konstant.
1 Grundstruktur von Linux Manuel Blechschmidt & Volker Grabsch CdE Sommerakademie 2006 Kirchheim.
IT-Struktur an Schulen © Zentrale Planungsgruppe Netze am Kultusministerium Baden-Württemberg Richtlinien für Arbeitsstationen Automatisches Herunterfahren.
Indico Meeting Dennis Klein
Verwendung des Datenloggers Dostmann LOG 32 TH
Präsentationen im alten Design
Modell der vollständigen Handlung aus Wikipedia
Referenzen In c kennen wir gewöhnliche Variablen und Pointer.
Schulungsdokument für den Reporterverantwortlichen Club‘s Regio League
Anleitung für Lehrer*innen – Verwendung des Materials
Routing … … die Suche nach dem Weg..
ITWO Antrag in iMAN DB Netz AG | Nadine Krawietz | I.NFP (23) | Berlin |
Datensicherung.
1. Die rekursive Datenstruktur Liste 1.3 Rekursive Funktionen
1. Die rekursive Datenstruktur Liste 1.6 Die Datenstruktur Stapel
 Präsentation transkript:

ALICE GSI identified TOdos

ALICE T2 TODOs - Skript zur automatischen Fehlersuche – in Arbeit (S. Fleischer) – MasterJobs in Vergleich zu anderen Sites können investigiert werden – Scraping funktioniert, auch stdout/stderr/sim.log, – main loop muss zwecks Optimierung upgedated werden – Visualisierung (Jona) Workflow aller Softwarekomponenten inklusive aller verwendeten Ports verstehen und dokumentieren – identisch mit „Chefisierung“ - ALICE T2-Dienste müssen gemonitort werden (inklusive History) (R. Grosso) - Methode: MonaLisa - SE-Maschinen sind in Monitoring, Info, wenn Maschine ausfällt kann verschickt werden - /hera /nyx wird überwacht - Muss noch in Chef eingebaut werden (start/stop – Daemon in Python muss implementiert werden)

ALICE T2- Todos ALICE T2 – Umzug auf das neue Cluster alien RunAgent muss noch getestet werden, DONE, erste Jobs liefen in Kronos neue vobox wurde beantragt. Implementieren und Testen bis , ca. 100 Jobs ==> DONE, 50 Jobs laufen stabil. 100 Jobs wurden noch nicht eingestellt, weil sie über selben Proxy wie GSI-Jobs laufen und Fehler in gleicher Rate und in etwa zeitgleich wie bei GSI auftauchen vobox wurde in LDAP konfiguriert, installiert, Chef-Rezepte stehen ==> DONE sync /hera - /nyx zur Vorbereitung von neuem SE RUNNING ==> alle Daten kopiert, nun in sync halten -kurz vor fertig SE auf readonly setzen, nochmal rsyncen. Am Ende Auschalten und rysncen, dann neues SE auf Nyx einschalten, wenn alles in Sync -neue SE-Frontend – Kisten bei HPC beantragen, stehen im GreenCube, GreenCube hat noch kein Netz, in Betrieb nehmen und testen Job Submission von lxcealice03 auf Kronos ==> DONE seit laufen Jobs erfolgreich auf Kronos - AliEn Job laufen lassen und Netzverbindungen protokollieren, unter Annahme, dass ev. kein NAT im GreenCube. Welche Verbindungen baut ein Job auf und was kann man proxien ?  strace –e connect

ALICE T2- Todos ALICE T2 – Umzug auf das neue Cluster -Slurm.pm anpassen -getNumberRunning, getNumberQueued -hardcoded Directories durch Umgebungsvariablen ersetzen -nur aufräumen was gewünscht -korrektes Submit-Kommando -Testen in lokaler Umgebung  KS

ALICE T2 TODOs - ALICE T3 – transfers – Transfer – Einstellung, Wiki, configs, etc. automatisieren – Action Items: (gemäß Meeting mit ALICE) – lxalitransfer6: direkter Transfer auf Kronos » Transfers laufen erfolgreich – Größe des Datensatzes vorher abschätzen und dokumentieren » funktioniert, ist aber zeitfressend, kann daher ausgeschaltet werden geplant: find XML – automatischer Aufruf von Listenerzeugungsskript von J. Wiechula – automatische -Notifkation nach Ende des Transfers einbauen – Option einbauen, den selben Transfer mehrfach auszuführen – zusätzlichen Check, dass transferierte Dateien ungleich null einbauen » zu löschende Files via verschicken – Dokumentation zur Bedienung und Erstellung der Transfer Config – Files erstellen – Meeting mit P. Malzacher zur Post-Processing der Daten fand statt

ALICE T2 TODOs - ALICE T3 – transfers – Meeting mit P. Malzacher zur Post-Processing der Daten fand statt – Todo-Liste: – -notification – cron-job sollen nicht nach alice-data schicken – Info bei Start und Stop von Transfer – statistische Info: – Jobs sollen sagen, wieviel Prozent transferiert wurde – nicht gewollte MC-Directories sollen nicht kopiert werden – nur root_archive.zip unter numerischen Directories – abschließender Datencheck – Vergleich mit korrespondierendem XML-File – leere Directories und Files sowie korrupte Files sollen nach Transfer entfernt werden – ID zu jedem Transfer auf Wiki – Seite hinzufügen – trainlists sollen nach hera/nyx gehen – SE to SE transfers könnten wieder getestet werden – symlinks – SE to SE Transfer – local processing – hera to nyx SE migration – time stamps kommen von AliEn oder vom Kopieren auf SE ? – ev. nur Files mit bestimmten Timestamps synchronisieren ?

ALICE T2 todos KPI Performance – Begründung – Ausfälle pro Woche dokumentieren und warum ? – Am besten via Monitoring-Tool, z.B. MonaLisa ? HPC-Chef-Rezepte müssen noch getestet und übergeben werden – lustre_mount, ulimit, mlocate – Meeting mit V. Penso und D. Klein ist geplant :00 Uhr im Schulungsraum IT – Meeting mit HPC fand statt (CH, VP, DK) ExSys soll für eigene Kisten entsprechend der zugehörigen Rollen vollen Zugriff auf Chef bekommen, Rezepte etc. werden geteilt mit HPC Verantwortlichkeiten von HPC und EXSys bleiben wie gehabt Nächstes Treffen zur technischen Realisierung am verschoben auf unbekannt  D. Klein – S. Fleischer und D. Klein haben erste Tests gemacht.

Todos vom Error Rate: – ist eventuell die Referenz falsch ? erhalten GSI und die Referenz-Zentren die gleichen Jobs ? Job-Verteilung muss überprüft werden (Sören/Jona) doppelte SE-Kapazität wird berichtet in MonaLisa. Muss investigiert werden. – vermutlich Bug in xrootd, Andy investigiert alles muss dokumentiert werden: wo ? Wiki ? Gridamin ? – mit Dokumentation ist begonnen worden – Dokumentation muss weiter geführt werden

non ALICE T2 - Todos Fertigstellung der Umgebung für verteilte Optimierung via Geneva, MPI, Scallapack, etc. (J. Knedlik) – funktionierende Testumgebung existiert – Aktuell: Test im Produktionsbetrieb – Performance-Tests mit eigenem http-Server durchgeführt – Abstract eingereicht (ISGC 2016)

xrootd Todos: -Plugin, um bei lokalem Zugriff direkt von Lustre oder bei Remote Zugriff, die Proxy-URL davor schalten zu können, ist in Arbeit -mit eigenem Client funktioniert es bereits -xrdcp und xrd stat funktionieren mit Proxy URL und Client Plugin -xrdcp funktioniert noch nicht mit Lustre URL (Protokoll muss überschrieben werden) -von ROOT aus gibt es noch ein API-Problem. -Tfile, TXNetFile verwendet das falsche API, bei dem das Plugin nicht aufgerufen wird

todos vom Liste mit ALICE-T2-Rechnern zum Hochfahren für HPC erstellen mit Abhängigkeiten xrd – log – Löschskript (S. Fleischer) – Info beim nächsten Meeting in 2 Wochen – R. Grosso hat ein Löschskript geschrieben Wurde in Chef eingebaut und funktioniert PANDAGrid – Installation FairRoot und PandaRoot in CVMFS-Server – Muss noch auf Wns verteilt werden

Todos vom logwatch: vnstat zeigt bei SE-Kisten größere Zeiträume ohne Datenübertragung. -ev. Artefakt ? Reboot der Kisten mag helfen -logwatch: -plugin schreiben: parser für xrootd log files (Werkstudent ?) -ERROR_V – Bekämpfung -proxy load balancer -Job-Zahl reduzieren und Effekt untersuchen ( auf 1500) (2-3 Tage Warten und Effekt studieren) -Proxy-Server auf neuste xrootd-Version upgraden (2-3 Tage warten und Effekt studieren) -aktuell: Libraries können nicht geladen werden -train jobs at GSI fail to load AliRoot/v /lib/libAliPythia6.so undefined symbol: pyqpar_ manually error reproduced root [0] gSystem->Load("libAliPythia6.so") dlopen error: /cvmfs/alice.cern.ch/x86_ gnu-4.1.2/Packages/AliRoot/v /lib/libAliPythia6.so: undefined symbol: pyqpar_ Load Error: Failed to load Dynamic link library /cvmfs/alice.cern.ch/x86_ gnu-4.1.2/Packages/AliRoot/v /lib/libAliPythia6.so In order to fix the problem I had to load libpythia6.so first. root [1] gSystem->Load("libpythia6.so") (int)0 root [2] gSystem->Load("libAliPythia6.so") (int)0 On the other hand at other sites the same job seems to work fine: Feb 7 10:05:44 info The job is in status: DONE It has the following subjobs: Subjobs in ERROR_V (ALICE::GSI::GSI): 2 Subjobs in DONE (ALICE::CERN::CERN-AURORA): 8 Subjobs in DONE (ALICE::CERN::CERN-SIRIUS): 34 Subjobs in DONE (ALICE::CERN::CERN-TRITON): 7 Subjobs in DONE (ALICE::CERN::CERN-ZENITH): 22