Arbeitskreis Wissenschaftliches Rechnen Universität Duisburg-Essen 01.06.2007 Der Dortmunder Linuxcluster LiDO AK Wiss. Rechnen, Essen, 01.06.2007 © Universität Dortmund / HRZ / Zentrale Server, jg, 2007 - 1 -
2. Die Systemarchitektur 3. Systemwerkzeuge Das Batchsystem 0. Übersicht 1. LiDO stellt sich vor 2. Die Systemarchitektur 3. Systemwerkzeuge Das Batchsystem Das Anmeldeverfahren Auslastung des Linux-Clusters Weitere Informationen / Fragen? AK Wiss. Rechnen, Essen, 01.06.2007 © Universität Dortmund / HRZ / Zentrale Server, jg, 2007 - 2 -
HPC Linux Cluster an der Universität Dortmund 1. LiDO stellt sich vor (1) HPC Linux Cluster an der Universität Dortmund Regelbetrieb seit 05/2006 Lieferant ClusterVision BV (Niederlande) Rechenknoten Knotentyp 1 (starke Knoten) 8 Stück, 4x Opteron 2,6 GHz, 16 GB Memory, 1x 160 GB lokale FP Knotentyp 2 (Standardknoten) 144 Stück, 2x Opteron 2,4 GHz, 4 GB Memory, 1x 80 GB lokale FP Knotentyp 3 (stark vernetzte Knoten) 72 Stück, 2x Opteron 2,4 GHz, 8 GB Memory, 1x 80 GB lokale FP 464 Einzelprozessoren in 224 Rechenknoten AK Wiss. Rechnen, Essen, 01.06.2007 © Universität Dortmund / HRZ / Zentrale Server, jg, 2007 - 3 -
1. LiDO stellt sich vor (2) Netzwerk Interconnect 1 = Gbit Ethernet (alle 224 Knoten) Interconnect 2 = Infiniband (72 stark vernetzte Knoten) Servicenetz = Gbit Ethernet (alle 224 Knoten) 11,2 TB (netto) SAN Speicher mit NFS und GPFS Betriebssystem Rechen- und Serviceknoten: SuSE 10 (64bit) Systemsoftware: ClusterVision OS Software Compiler für Fortran, C und C++: Portland, Intel, Pathscale, gcc Debugger Etnus Total View, Allinea „ddt“ und Optimizer „opt“ Wiss. Anwendungssoftware: Matlab ANSYS CFX Abaqus Gaussian AK Wiss. Rechnen, Essen, 01.06.2007 © Universität Dortmund / HRZ / Zentrale Server, jg, 2007 - 4 -
1. LiDO stellt sich vor (3): Die Anlieferung AK Wiss. Rechnen, Essen, 01.06.2007 © Universität Dortmund / HRZ / Zentrale Server, jg, 2007 - 5 -
1. LiDO stellt sich vor (4): Der Aufbau AK Wiss. Rechnen, Essen, 01.06.2007 © Universität Dortmund / HRZ / Zentrale Server, jg, 2007 - 6 -
… … … 2. Die Systemarchitektur Anzahl = 8 Anzahl = 144 Anzahl = 72 Knotentyp 1 (AIC) 4 Opteron CPU 16 GB RAM 160 GB HD Knotentyp 2 (Supermicro) 2 Opteron CPU 4 GB RAM 80 GB HD Knotentyp 3 (Supermicro) 2 Opteron CPU 8 GB RAM 80 GB HD Interconnect 1 (1 Gbit): 5x Nortel BayStack Servicenetz 6x HP Procurve Interconnect 2 (Infiniband): - Infiniscale III Switch - Mellanox Karten gebündelt sync Management- server m a s t e r Fileserver (GPFS) Gateway- server 4 Opteron CPU 16 GB RAM 2x 160 GB HD Internet 4x FC 2 Gbit 5,6 TB RAID HD 5,6 TB RAID HD AK Wiss. Rechnen, Essen, 01.06.2007 © Universität Dortmund / HRZ / Zentrale Server, jg, 2007 - 7 -
ClusterVision OS: „Trinity“ (Übersicht) 3. Systemwerkzeuge (1) ClusterVision OS: „Trinity“ (Übersicht) AK Wiss. Rechnen, Essen, 01.06.2007 © Universität Dortmund / HRZ / Zentrale Server, jg, 2007 - 8 -
ClusterVision OS: „Trinity“ (Einzelkomponente) 3. Systemwerkzeuge (2) ClusterVision OS: „Trinity“ (Einzelkomponente) AK Wiss. Rechnen, Essen, 01.06.2007 © Universität Dortmund / HRZ / Zentrale Server, jg, 2007 - 9 -
Steuerung der Steckdosen (APCs) 3. Systemwerkzeuge (3) Steuerung der Steckdosen (APCs) AK Wiss. Rechnen, Essen, 01.06.2007 © Universität Dortmund / HRZ / Zentrale Server, jg, 2007 - 10 -
3. Systemwerkzeuge (4) Die „p-Tools“ AK Wiss. Rechnen, Essen, 01.06.2007 © Universität Dortmund / HRZ / Zentrale Server, jg, 2007 - 11 -
Arbeitsumgebungen nach Maß (Module) 3. Systemwerkzeuge (5) Arbeitsumgebungen nach Maß (Module) user@lido-gw2 > module avail --------------------------- /usr/local/Cluster-Config/modulefiles ------------------------------------------ 3.1.6 OpenMPI/ib/intel/64/1.1.4 gaussian/03.D.02 jdk/1.5.0_08 3ware/9.2.1.1 OpenMPI/ib/pgi/64/1.1.2 gcc/3.2.3 lam/ge/gcc/64/7.1.1 GotoBLAS/1.00 OpenMPI/ib/psc/64/1.1.2 gcc/3.3.6 lam/ge/intel/64/7.1.1 GotoBLAS/1.05 OpenMPI/ib/psc/64/1.1.4 gcc/3.4.6 matlab/7.3.0.298 GotoBLAS/1.07 OpenMPI/ib/sunstd/64/1.1.2 gcc/4.0.2 maui/3.2.6p14 GotoBLAS/1.11 R/2.4.0 gcc/4.1.1 mpich/ge/gcc/64/1.2.7 OpenMPI/ge/g95/64/1.1.4 SunStudio/11alpha gmv/3.8 mpich/ge/intel/64/1.2.7 OpenMPI/ge/gcc/32/1.1.1 abaqus/6.6-1 gmv/4.0 mpiexec/0.80 OpenMPI/ge/gcc/64/1.0.2 ansys/10.0 gpfs/2.3.0 mvapich/gcc/0.9.7 OpenMPI/ge/gcc/64/1.1.2 binutils/32/2.17 hpl/1.0a mvapich/intel/0.9.7 OpenMPI/ge/gcc/64/1.1.4 cfx/10.0 icem/10.0 mvapich/pathscale/0.9.7 OpenMPI/ge/intel/64/1.1.2 cluster-tools/2.0.5 installer-tools/0.0.1 mvapich/pgi/0.9.7 OpenMPI/ge/intel/64/1.1.4 ddt/1.10 intel/cc/9.1.043 ofed/1.1 OpenMPI/ge/pgi/64/1.1.2 ddt/1.9.2 intel/cce/9.1.043 pathscale/2.5 OpenMPI/ge/psc/64/1.1.2 default-ethernet intel/fc/9.1.037 pgi/6.1.5 OpenMPI/ge/psc/64/1.1.4 default-infiniband intel/fce/9.1.037 pgi/6.2.5 OpenMPI/ge/sunstd/64/1.1.2 devisor/grid/3.0.13 intel/idb/9.1.043 scm-adf/mpi/adf2006.01 OpenMPI/ib/g95/64/1.1.4 devisor/grid/3.0.17 intel/idbe/9.1.043 torque/2.0.0p8 OpenMPI/ib/gcc/64/1.1.2 firefox/2.0 intel/mkl/8.0 totalview/7.2.0 OpenMPI/ib/gcc/64/1.1.4 g95/int32bit/0.9 jdk/1.4.2_13 version OpenMPI/ib/intel/64/1.1.2 g95/int64bit/0.9 jdk/1.5.0_06 AK Wiss. Rechnen, Essen, 01.06.2007 © Universität Dortmund / HRZ / Zentrale Server, jg, 2007 - 12 -
Torque und Maui werden als Batchsystem verwendet 4. Das Batchsystem (1) Torque und Maui werden als Batchsystem verwendet Die aktuellen Queues sind: short_ib: node145 - node216 144 CPUs med_ib: node145 - node216 144 CPUs long_ib: node145 – node186 84 CPUs short_eth: node033 - node144 224 CPUs med_eth: node033 - node144 224 CPUs long_eth: node033 – node122 180 CPUs neternal_eth: node001 - node032 64 CPUs short_quad: node217 - node224 32 CPUs med_quad: node217 - node224 32 CPUs long_quad: node217 - node224 32 CPUs AK Wiss. Rechnen, Essen, 01.06.2007 © Universität Dortmund / HRZ / Zentrale Server, jg, 2007 - 13 -
Ein Beispiel für ein PBS-Script (job.pbs) 4. Das Batchsystem (2) Ein Beispiel für ein PBS-Script (job.pbs) #!/bin/sh ### Hello_mpi via Gigabit Ethernet #PBS -N hello_mpi #PBS -q short_eth #PBS -M lidonutzer@uni-dortmund.de #PBS -l walltime=00:10:00,nodes=32 ###PBS -m e # This job's working directory cd $PBS_O_WORKDIR cat $PBS_NODEFILE > pbs-machine # Run the parallel MPI executable mpiexec hello_mpi exit 0 Ausführen des Scripts user@lido-gw2 > qsub job.pbs AK Wiss. Rechnen, Essen, 01.06.2007 © Universität Dortmund / HRZ / Zentrale Server, jg, 2007 - 14 -
5. Das Anmeldeverfahren (1) Antrag auf eine Benutzerkennung für LiDO schriftlich im Kundenbüro des HRZ der Uni Dortmund stellen http://www.hrz.uni-dortmund.de/Kundenbuero/ Maria Pefferkuch, Tel. 0231 755 2367 Campus Süd, GB V, Raum 108 Dem LiDO-Team eine Kurzbeschreibung des Vorhabens zukommen lassen E-Mail lido-team@hrz.uni-dortmund.de Die Accountdaten gibt es persönlich vom Kundenbüro Login-ID Passwort AK Wiss. Rechnen, Essen, 01.06.2007 © Universität Dortmund / HRZ / Zentrale Server, jg, 2007 - 15 -
5. Das Anmeldeverfahren (2) Mit den Account-Daten einfach einloggen und loslegen Zugang per ssh auf einen der Gatewayserver lido1.hrz.uni-dortmund.de lido2.hrz.uni-dortmund.de LiDO ist nur im Intranet der Uni-Dortmund frei erreichbar. Externe Zugänge werden vom LiDO-Team auf Anfrage individuell konfiguriert. Nach abgeschlossen Arbeiten / Projekten ist die Verwendung von LiDO als Werkzeug für die Forschung in Form eines Berichtes dem LiDO-Team und der Nachwelt zu dokumentieren AK Wiss. Rechnen, Essen, 01.06.2007 © Universität Dortmund / HRZ / Zentrale Server, jg, 2007 - 16 -
6. Auslastung des Linux-Clusters AK Wiss. Rechnen, Essen, 01.06.2007 © Universität Dortmund / HRZ / Zentrale Server, jg, 2007 - 17 -
7. Weitere Informationen / Fragen? Die LiDO Webseiten: http://www.lido.uni-dortmund.de Noch Fragen? Vielen Dank für Ihre Aufmerksamkeit AK Wiss. Rechnen, Essen, 01.06.2007 © Universität Dortmund / HRZ / Zentrale Server, jg, 2007 - 18 -