ALICE GSI 22.02.2016 identified TOdos. ALICE T2 TODOs - Skript zur automatischen Fehlersuche – in Arbeit (S. Fleischer) – MasterJobs in Vergleich.

Slides:



Advertisements
Ähnliche Präsentationen
Starke and Unregelmäßige Verben: haben bis laufen By.
Advertisements

Von der Kamera in den PC mit Windows 7
Überwachung des Nagios-Servers
Vorgehensweise Website Besprechung am 11. Februar 2008 Gründung und Partnerunternehmen der Wirtschaftsuniversität Wien.
Anleitungen zum Umgang mit Computerprogrammen erstellen
Java: Dynamische Datentypen
Komponentenbasierter Taschenrechner mit CORBA
SoundManager oe, ab, rpn awp.sound.* Klassen-Konzept SoundXXXRoom SoundFxProcessor SoundCommonRoom Seite 1 SoundDistributor SoundA3D a3dtools.
Vorlesung 2 Rechnerarchitektur Universität Bielefeld – Technische Fakultät AG Rechnernetze und verteilte Systeme Peter B. Ladkin
Linux-HA-Cluster – Heartbeat mit DRBD
Daten auf den Server Wie bekomme ich die Daten zum ersten Mal auf den Server, wenn ich für meine Anwender die Vereinsdaten zum gemeinsamen Arbeiten bereitstellen.
Ehrenmedaillen ermitteln
Verdienstmedaillen Wenn Sie diese Präsentation im Internet-Explorer ablaufen lassen wollen, so klicken Sie bitte auf das Leinwandsymbol unten rechts. Mit.
Bidirektionales VFX-XML-Interface für Daten-Import/Export Visual Extend Anwendertreffen 2009 Rainer Becker, Frank Kropp deutschsprachige FoxPro User Group.
Der VFP Debugger - Coverage und Profiling. © 1999 TMN-Systemberatung GmbH Der VFP Debugger n Neues Aussehen, eigene Task n Erweiterte Möglichkeiten n.
Wizards & Builders GmbH Schulung Visual SourceSafe für Visual FoxPro Norbert Abb W&B.
Bezirksregierung Detmold Hier könnte ein schmales Bild eingefügt werden Online-Beteiligungsverfahren zum Entwurf von Bewirtschaftungsplan und den Maßnahmenprogrammen.
GIT und Redmine Übung.
Generelles POVs müssen immer lizenziert werden
Aus dem Leben eines Hotline-Mitarbeiters
Norman SecureBox Synchronisieren * Speichern * Teilen* Zusammenarbeiten Sicherer Cloud-Speicher für Unternehmen.
Delphi II - OOP IFB Fortbildung
Ich möchte gerne mehrere Bilder auf ein Folie
Aus dem Leben eines Hotline- Mitarbeiters Begriffe: HLM:Hotline-Mitarbeiter DAU:dümmster anzunehmender User.
Ein Toolkit für hierarchische Bibliotheksdaten Ein Toolkit zur Präsentation von hierarchischen Bibliotheksdaten Andres von Arx UB Basel, August 2006.
DNS Domain Name System oder Domain Name Service
TWS/Graph HORIZONT Produkt-Präsentation Software für Rechenzentren
1-2-3 Videoanleitung Download Installieren Sie die Software einfach und bequem über den zugesandten Link direkt auf Ihrem Mobiltelefon.
Connect Statistik Tool Andreas Wittke / Andreas Illi oncampus Fachhochschule Lübeck.
Test-Checker: Lehrer Version Manual Programm von Martin Schügerl.
Moin. Ich benutze PPT 2002 und möchte drei Bilder nacheinander 1
PSI - Überblick und Szenarien
Was macht eigentlich dieses ExsoForm? Ein Beispiel für eine Dokumentendefinition in Screenshots.
HORIZONT 1 XINFO ® Das IT - Informationssystem Eclipse Plugin HORIZONT Software für Rechenzentren Garmischer Str. 8 D München Tel ++49(0)89 / 540.
BSCW Shared Workspaces Perfekt zusammenarbeiten mit BSCW: Professionelles Dokumentmanagement und effiziente Projektverwaltung Das BSCW Shared-Workspace-System.
OMDS-Einspielung in den KundenManager. Der Import beginnt im chegg.net-Kundenmanager. (Links oben über das Pulldown-Menu erreichbar).
Infor:lösungen Dokumentation zum Testdrive Lösungsnr.:RS0004_ IntegrationToPrint Titel: integration beim Drucken integration beim Drucken.
Autor: Peter Pfeiffer Seite: Peter Pfeiffer Memeler Str Bad Oeynhausen Datentransfer Zwischen dem Eingabemodul und den mitgelieferten.
Ehrennadeln ermitteln Wenn Sie diese Präsentation im Internet-Explorer ablaufen lassen wollen, so klicken Sie bitte auf das Leinwandsymbol unten rechts.
Torque in Turbine Team 4 Josef Bohninger Thomas Lindenhofer
Saia Service an PCD's Wartung
ICT – Modul Textverarbeitung
Aufzeichnung von Usability-Daten im www. Client-Side Log : automatisch (maschinell) generiertes Protokoll Client : Rechner mit dem Browser des Users Server:
Backup der FTP-Daten mit BYSU (Back Your Space Up von George Ruinelli) Eine mögliche Variante, um FTP- Daten bei dem Provider „All-Inkl“ zu sichern.
Anna Steinke‌ WG13 ‌‌‌ Köln, Wie sichere ich meine Daten? Wie mache ich meinen PC sicher?
Die Vereinsverwaltung unter Windows 2000 Anhand der folgenden Präsentation werden Sie mit der Verwaltung des Vereins unter Windows 2000 vertraut gemacht.
Interview für einen Job
Webserver Apache & Xampp Referenten: Elena, Luziano und Sükran
Die Verbundzentrale des GBV (VZG) betreibt seit Ende Mai 2003 einen SFX-Linkserver für alle GBV-Bibliotheken als zentrale SFX-Instanz Diese zentrale Instanz.
Die Gestaltung einer Präsentation
Schritt für Schritt-Anleitung
Drei Möglichkeiten zum Betrieb von DPV über das Internet Dr. Matthias Grabert und Walter Geiselmann Uni Ulm.
Geomapping. Themen Heute GeoJSON Paths Projections Features Daten beschaffen Projekte weiter bringen.
Eindeutige Personenzuordnung mit lokalen Identifiern via ODATA/LDAP
ALICE GSI identified TOdos. ALICE T2 TODOs * - Skript zur automatischen Fehlersuche – in Arbeit (S. Fleischer) – MasterJobs in Vergleich.
ALICE T2 KPI Status GSI ALICE T2 KPI Woche KPI SE Availability Job Efficiency Wall Time Delivered Error Rate GSIReferenceRel. Diff GSIReferenceRel.
Webdeployment auf Cluster Seminarvortrag von Lukas Bonzelett.
ALICE GSI identified TOdos. ALICE T2 TODOs - Skript zur automatischen Fehlersuche – in Arbeit (S. Fleischer) – MasterJobs in Vergleich zu anderen.
Effektives Delta Laden DOAG SID Data Warehouse. Ziele Welche CDC Methoden gibt es? Typische Fallen Verschiedene Lösungsansätze praktische Beispiele.
ALICE GSI identified TOdos. ALICE T2 TODOs Skript zur automatischen Fehlersuche – in Arbeit (S. Fleischer)  Info in 2 Wochen beim nächsten Meeting.
ALICE GSI identified TOdos. ALICE T2 TODOs Skript zur automatischen Fehlersuche – in Arbeit (S. Fleischer)  Info in 2 Wochen beim nächsten Meeting.
ALICE T2 Performance 08/02/2016 Kilian Schwarz. KPI -Compute Efficiency und SE- Verfügbarkeit: ok -seit letztem Meeting: -DONE: ERROR: RUNNING:
ALICE GSI identified TOdos. ALICE T2 TODOs alle T2 Services „chefisieren“ – alle SE – Dienste wurden mit Chef und Überwachung versehen – Vobox-Dienste.
ALICE GSI identified TOdos. ALICE T2 TODOs * - Skript zur automatischen Fehlersuche – in Arbeit (S. Fleischer) – MasterJobs in Vergleich.
Der Einsatz von stunnel in den Verbund- Bibliotheken Seite 1 Der Einsatz von stunnel in den Verbund- Bibliotheken Von Frank Dietz (BVB/A)
ALICE GSI identified TOdos. ALICE T2 TODOs - Skript zur automatischen Fehlersuche – in Arbeit (S. Fleischer) – MasterJobs in Vergleich.
LINUX II Unit 9 Network File Server NFS. NFS Überblick ● Zugriff von lokalen Rechner über Netzwerk auf Dateien oder Ordnern auf entfernten Servern ● Entwickelt.
ALICE GSI identified TOdos. ALICE T2 TODOs* - Skript zur automatischen Fehlersuche – in Arbeit (S. Fleischer) – MasterJobs in Vergleich.
ALICE T2 KPI Status GSI ALICE T2 KPI ALICE T2 KPI - Vergleich direkter Vergleich der KPI-Werte mit – Wall time delivered: nun konstant.
1 Grundstruktur von Linux Manuel Blechschmidt & Volker Grabsch CdE Sommerakademie 2006 Kirchheim.
 Präsentation transkript:

ALICE GSI identified TOdos

ALICE T2 TODOs - Skript zur automatischen Fehlersuche – in Arbeit (S. Fleischer) – MasterJobs in Vergleich zu anderen Sites können investigiert werden – Scraping funktioniert, auch stdout/stderr/sim.log, – Visualisierung (Jona) Workflow aller Softwarekomponenten inklusive aller verwendeten Ports verstehen und dokumentieren – identisch mit „Chefisierung“ - ALICE T2-Dienste müssen gemonitort werden (inklusive History) (R. Grosso) - Methode: MonaLisa - SE-Maschinen sind in Monitoring, Info, wenn Maschine ausfällt kann verschickt werden - /hera /nyx wird überwacht, Storage und Service-Kisten werden gemonitort - Sensoren sind in Chef

ALICE T2- Todos ALICE T2 – Umzug auf das neue Cluster neue vobox wurde beantragt. Implementieren und Testen bis , ca. 100 Jobs ==> DONE, 100 Jobs laufen stabil sync /hera - /nyx zur Vorbereitung von neuem SE RUNNING ==> alle Daten kopiert, nun in sync halten -kurz vor fertig SE auf readonly setzen, nochmal rsyncen. Am Ende Auschalten und rysncen, dann neues SE auf Nyx einschalten, wenn alles in Sync -neue SE-Frontend – Kisten bei HPC beantragen, stehen im GreenCube, GreenCube hat noch kein Netz, in Betrieb nehmen und testen seit laufen Jobs erfolgreich auf Kronos - AliEn Job laufen lassen und Netzverbindungen protokollieren, unter Annahme, dass ev. kein NAT im GreenCube. Welche Verbindungen baut ein Job auf und was kann man proxien ?  strace –e connect

ALICE T2- Todos ALICE T2 – Umzug auf das neue Cluster -Slurm.pm anpassen -getNumberRunning, getNumberQueued -hardcoded Directories durch Umgebungsvariablen ersetzen -nur aufräumen was gewünscht -korrektes Submit-Kommando -Testen in lokaler Umgebung  KS

ALICE T2 TODOs - ALICE T3 – transfers (I) – Transfer – Einstellung, Wiki, configs, etc. automatisieren – Action Items: (gemäß Meeting mit ALICE) – lxalitransfer6: direkter Transfer auf Kronos » Transfers laufen erfolgreich – Größe des Datensatzes vorher abschätzen und dokumentieren » funktioniert, ist aber zeitfressend, kann daher ausgeschaltet werden geplant: find XML – automatischer Aufruf von Listenerzeugungsskript von J. Wiechula – automatische -Notifkation nach Ende des Transfers einbauen – Option einbauen, den selben Transfer mehrfach auszuführen – zusätzlichen Check, dass transferierte Dateien ungleich null einbauen » zu löschende Files via verschicken – Dokumentation zur Bedienung und Erstellung der Transfer Config – Files erstellen – Meeting mit P. Malzacher zur Post-Processing der Daten fand statt

ALICE T2 TODOs - ALICE T3 – transfers (II) – Meeting mit P. Malzacher zur Post-Processing der Daten fand statt – Todo-Liste: – -notification – cron-job sollen nicht nach alice-data schicken – Info bei Start und Stop von Transfer – statistische Info: – Jobs sollen sagen, wieviel Prozent transferiert wurde – nicht gewollte MC-Directories sollen nicht kopiert werden – nur root_archive.zip unter numerischen Directories – abschließender Datencheck – Vergleich mit korrespondierendem XML-File – leere Directories und Files sowie korrupte Files sollen nach Transfer entfernt werden – ID zu jedem Transfer auf Wiki – Seite hinzufügen – trainlists sollen nach hera/nyx gehen – SE to SE transfers könnten wieder getestet werden  symlinks zu existierenden Datensätzen können von T3 gemacht und getestet werden – symlinks – SE to SE Transfer – local processing – hera to nyx SE migration – time stamps kommen von AliEn oder vom Kopieren auf SE ? – ev. nur Files mit bestimmten Timestamps synchronisieren ?

ALICE T2 TODOs - ALICE T3 – transfers (III) - crontab if statement ist zur Zeit immer TRUE - alle 2 Stunden werden neue Transfers abgeschickt unabhängig davon, ob schon Transfers laufen - zu viele Transfer – Prozesse, die in das gleiche Log-File schreiben, hindern sich gegenseitig.

ALICE T2 todos KPI Performance – Begründung – Ausfälle pro Woche dokumentieren und warum ? – Am besten via Monitoring-Tool, z.B. MonaLisa ? HPC-Chef-Rezepte müssen noch getestet und übergeben werden – lustre_mount, ulimit, mlocate – Meeting mit V. Penso und D. Klein ist geplant :00 Uhr im Schulungsraum IT – Meeting mit HPC fand statt (CH, VP, DK) ExSys soll für eigene Kisten entsprechend der zugehörigen Rollen vollen Zugriff auf Chef bekommen, Rezepte etc. werden geteilt mit HPC Verantwortlichkeiten von HPC und EXSys bleiben wie gehabt Nächstes Treffen zur technischen Realisierung am verschoben auf unbekannt  D. Klein – S. Fleischer und D. Klein haben erste Tests gemacht.

Todos vom Error Rate: – ist eventuell die Referenz falsch ? erhalten GSI und die Referenz-Zentren die gleichen Jobs ? Job-Verteilung muss überprüft werden (Sören/Jona) doppelte SE-Kapazität wird berichtet in MonaLisa. Muss investigiert werden. – vermutlich Bug in xrootd, Andy investigiert alles muss dokumentiert werden: wo ? Wiki ? Gridamin ? – mit Dokumentation ist begonnen worden – Dokumentation muss weiter geführt werden

non ALICE T2 - Todos Fertigstellung der Umgebung für verteilte Optimierung via Geneva, MPI, Scallapack, etc. (J. Knedlik) – funktionierende Testumgebung existiert – Aktuell: Test im Produktionsbetrieb

xrootd Todos: -Plugin, um bei lokalem Zugriff direkt von Lustre oder bei Remote Zugriff, die Proxy- URL davor schalten zu können, ist in Arbeit -mit eigenem Client funktioniert es bereits -xrdcp und xrd stat funktionieren mit Proxy URL und Client Plugin -xrdcp funktioniert noch nicht mit Lustre URL (Protokoll muss überschrieben werden) -von ROOT aus gibt es noch ein API-Problem. -Tfile, TXNetFile verwendet das falsche API, bei dem das Plugin nicht aufgerufen wird -aktueller Status: -xrd Plugin funktioniert jetzt in ROOT und mit xrdcp/xrdcopy! -Proxy Plugin funktioniert jetzt in ROOT mit TnetXNGfile -kurzer Code Review soll statt finden (TK, JK) -Frage: wie geht es nun weiter ?

todos vom Liste mit ALICE-T2-Rechnern zum Hochfahren für HPC erstellen mit Abhängigkeiten PANDAGrid – Installation FairRoot und PandaRoot in CVMFS-Server – Muss noch auf Wns verteilt werden – Stefano Spataro hätte gerne eine Integration von Kronos in PandaGrid

Todos vom logwatch: vnstat zeigt bei SE-Kisten größere Zeiträume ohne Datenübertragung. -ev. Artefakt ? Reboot der Kisten mag helfen -logwatch: -plugin schreiben: parser für xrootd log files (Werkstudent ?) -ERROR_V – Bekämpfung -proxy load balancer -Job-Zahl reduzieren und Effekt untersuchen ( auf 1500) (2-3 Tage Warten und Effekt studieren) -Proxy-Server auf neuste xrootd-Version upgraden (2-3 Tage warten und Effekt studieren) -alle xrootd Instanzen wurden auf v4.2.3 upgegraded -Proxy Cache erhöhen -aktuell: Libraries können nicht geladen werden -train jobs at GSI fail to load AliRoot/v /lib/libAliPythia6.so undefined symbol: pyqpar_ manually error reproduced root [0] gSystem->Load("libAliPythia6.so") dlopen error: /cvmfs/alice.cern.ch/x86_ gnu-4.1.2/Packages/AliRoot/v /lib/libAliPythia6.so: undefined symbol: pyqpar_ Load Error: Failed to load Dynamic link library /cvmfs/alice.cern.ch/x86_ gnu-4.1.2/Packages/AliRoot/v /lib/libAliPythia6.so In order to fix the problem I had to load libpythia6.so first. root [1] gSystem->Load("libpythia6.so") (int)0 root [2] gSystem->Load("libAliPythia6.so")