Bericht von HEPiX und SC 2000
HEPiX/HEPNT, Jefferson Lab Koordinierung und Planung von UNIX und Windows in den Rechenzentren der Hochenergiephysik-Labors je ca. 30 Teilnehmer aus USA und Europa je 2,5 Tage Windows und UNIX Vortragsunterlagen und Videoaufzeichnungen über HEPiX Homepage:
HEPNT Hauptthemen –Migation zu Windows 2000 –Automatisierte W2000 Installation –Authentisierung und Passwortsynchronisation mit UNIX –Webservice mit Windows
Migration zu W2000 Pläne in fast allen Labs meist noch im Testbetrieb Ausarbeitung von Strategien für –Installationsservice –Strukturierung und Einsatz Active Directory –Authorisierung (Group Policies)
Automatisierte W2000 Installation Mehrere Varianten in Diskussion –native W2000 Tools: Remote Install Service (RIS) und Group Policies (GPO) –Herstellertools, z.B. Drive Image Professional und WinInstall LE –eigene Lösungen (z.B. bei DAPNIA) Grundtenor: W2000 Tools sehr komplex, trotzdem teilweise nicht flexibel genug (GPO), noch kein Patentrezept in Sicht
Authentisierung JLAB hat Tool zur Passwortsynchronisierung zwischen UNIX und NT Vortrag über Probleme mit Authentisierungsprotokollen
Webservices mit Windows Vorschlag vom CERN: –Abbildung vieler Services auf http –Webinterface zum transparenten Zugriff –Bis zu Zugriff auf Filesystem (WEBDAV) –Verstecken von Servern hinter einheitlichem Namensschema ( Probleme aus meiner Sicht: “Tunnelung” aller Services über http, damit Aushebelung der Sicherheitsmechanismen
UNIX Hauptthemen: –Aufbau und Automatisierung von Farmen –Tools zur Systemüberwachung –Batchsysteme –LHC Computing –AFS
Aufbau und Automatisierung von Farmen Viele Labs bauen Linux Farmen auf –Basis PC oder Alpha Plattform –Dickes Netzwerk, wenn für Parallelprogrammierung vorgesehen –Aufbau meist Formfaktor 1U und 2U in Racks –Fileserver mit IDE Platten bei DESY, FNAL Automatisierte Installation mit Redhat, SuSE, eigenen Tools (Tailor SLAC)
Linuxfarmen bei DESY Automatisierte Installation als gemeinsames Projekt zwischen DESY und SuSE Konzept wurde Anfang 2000 entwickelt Erste Testinstallation im Dez. bei DESY Aufbau eines Installationsservers Software und Dokumentation wird Bestandteil der Standard SuSE Distribution
Tools zur Systemüberwachung Mindestens 5 Eigenentwicklungen –FNAL: NGOP (in Entwicklung) –CERN: PEM (in Entwicklung) –IN2P3: GMS (in Benutzung, JAVA basiert) –DESY (Zeuthen): Scout, weiterentwickeltes SLAC Tool –SLAC: Ranger (Neuentwicklung, Erprobung) keine Koordinierung gewollt!?
Batchsysteme LSF nach wie vor am weitesten verbreitet Kundenbindung durch Kampfpreise Einige Sites weichen auf PBS aus –Erfahrungen dazu klangen nicht gut Condor auch im Einsatz, andere Zielrichtung –Beschäftigung leerstehender Computer –Aufwand/Nutzen in Ordnung?
LHC Computing Basis: PC Farmen ( Systeme) daher neue Konzepte für –HW Configuration Management –SW Installation Mgmt (OS und Applications) –System monitoring und Problem Management Umsetzung des Grid-Konzeptes –Veröffentlichung der angebotenen Dienste –Authentisierung/Authorisierung, Policies –Scheduling, Vorreservierung für wichtige Aufgaben –garantierte Quality of Service, Verfügbarkeit von Ressourcen
AFS (nicht im Web) AFS Support in Zukunft über 1st level IBM Support 2nd level Support dann wie bisher Preise für Support werden neu ausgehandelt –keine Site Lizenzen mehr? –Andsere Gebührenmodelle –in Europa teilweise seit 2 Jahern keine Vertragsverhandlungen mehr Ende des Services für Version /2002 keine Pläne für neue AFS Version kein komerzielles Interesse an AFS
SuperComputing 2000
Grid Computing Sammelbegriff für Computing Environment –verteiltes Computing zwischen Partnern –hohe Anforderungen an CPU, Datenvolumen und Datenraten –geographisch verteilt –verschiedene Organisationen beteiligt
Grid Anwendungen Multidisziplinäre Simulationen Probleme mit großem Parameterraum, der auf viele Einzelruns aufgeteilt wird Koordinierte Analysen großer Datenmengen –Datensätze (Petabytes) in HEP Kollaborationen Benutzung weit verteilter Datenarchive (Metereologie usw.) Bündelung von Supercomputern zur Bearbeitung von Problemen in Echtzeit
Grid Services Wichtige Komponenten –Ressource discovery –Execution Queues Management –Management verteilter Anwendungen –Monitoring und Error Recovery –Checkpoint/Restart –Access Control –Global File System –Grid Kommunikationsbibliotheken
Grid Implementierungen Einige Projekte mit laufenden Gridkomponenten (z.B. NASA’s Information Power Grid, IPG ) Implementierungen basieren meist auf Globus Wichtige Globus Services –Auth per Zertifikationsserver (wie DESY CA) –Optimierter Filetransfer (Globus-ftp) –Kommunikation mit Globus MPI
Infos zu Grid Vorträge zum Thema Grid bei DESY –Vorträge aus CERN, FNAL, KFA geplant
Supercomputing COTS (Commodity-Off-The-Shelf) Cluster System for 4 High Performance Computing) 4 Cluster components, Software 4 Cplant, 4 Bunyip, KLAT2 4 Special architectures 4 Grape Future Supercomputing 4 SRC-6 4
Supercomputing 2000, COTS (Commodity-Off-The-Shelf) Cluster System for HPC 4 Cluster components: 4 Standard PCs, workstations, rack mounts with PentiumIII, Alpha 4 processors 4 Network: Myrinet2000 (Myricom, 500 Mbytes/sec), 4 QSNet (QSW, 340 Mbytes/sec), (Fast Ethernet) 4 4 Software Modell: 4 MPI - Message passing interface, MPI-2, MPICH, Largest (civilian) Cluster planned: Alpha EV67 processors in 682 nodes using QSNet at 4 Pittsburgh Supercomputing Center 4 Peak performance in 2001: 6 Tflops; Cost: $45Mio (NSF) 4
Supercomputing 2000, COTS Cluster System for HPCcont… 4 CPlant at Sandia Lab (large cluster installation): 4 Up to Alpha EV7 in 2004/5 4 CPlant Architecture: 4
Supercomputing 2000, COTS Cluster System for HPC, CPlant 4 Service nodes: 4 Users interaction, launch parallel programs, provide input, receive output, 4 debug, and monitor performance 4 Typically configured with the features of standard workstation 4 plus debuggers and performance monitors 4 Compute nodes: 4 Compute partition provides the compute cycles to the applications 4 File I/O: 4 High-performance parallel filesystem, 4 Parallel FTP - compute nodes, Intel's Parallel File System (PFS)-service 4 nodes. 4 Network I/O: 4 ATM or Gigabit Ethernet, for moving data from the compute partition to 4 external sites
Supercomputing 2000, COTS Cluster System for HPCcont… 4 4 Cluster applications: 4 Bunyip, Australian National University: 4 92cent/Mflops, Ultra-Large-Scale Neural-Network Training on a PIII Cluster 4 Gordan Bell award for best price/performance, 4 98 PIII 550 MHz dual CPU PCs, Fast Ethernet switching, 4 use of 32-bit PIII SIMD streaming instructions, 163 GFLops sustained 4 KLAT2, University of Kentucky: 4 High-Cost CFD on a low cost Cluster 4 64 Athlon 700 MHz single CPU PCs, 4 fast Ethernet interfaces/each bit Gflops for ScaLAPACK with 3DNow! instructions 4 Cluster performance: 4 Compare favorable up to 32 CPUs with CRAY T3E, but not when using 4 larger systems 4
Supercomputing 2000, Special architecture GRAPE-6 (GRAvity PipE) Tflops (768k particles) simulation of black holes in a galactic center, 4 University of Tokyo 4 Architecture: Host PCI Host interface Host interface Network Boards Network Boards Processing Boards
Supercomputing 2000, Special architecture GRAPE Tflops (768k particles) simulation of black holes in a galactic center, 4 University of Tokyo 4 Processor chip: Force Pipeline SSRAM Predictor Pipeline Memory interface Network Interface
Supercomputing 2000, Future Supercomputing, SRC SRC-6 SMP SRC - founded 1996 by Seymour Cray Up to 512 Intel CPUs 256 memory ports Multi-Adaptive- Processor
Supercomputing 2000, Future Supercomputing, SRC-6 MAP Multi-Adaptive Processor Mixing microprocessor code and hardware logic Logic implemented functions in FPGAs