Was sind Cluster und wie sind sie aufgebaut Leiv-Erik Braun Mai 2007
Überblick über die Systeme Quelle: http://www.top500.org/lists/2006/11/overtime/Architectures
SMP - Symmetric Multi Processing Viele Prozessoren (<=16) und ein gemeinsamen Speicher Ein Prozessor bzw. Kern bearbeitet den nächstmöglichen Task oder Thread (Queue) (z.B. Dual Core PC, IBM JS21-MP BladeServer)
IBM JS21 BladeServer (SMP System) Quelle: http://www-5.ibm.com/es/press/fotos/servidoresytecnologia/i/BladeCenterjs21.jpg Quelle: ftp://ftp.software.ibm.com/systems/support/system_x_pdf/31r1760.pdf
MPP - Massive-Parallel-Prozessing Mehrere Prozessoren und kein gemeinsamer Speicher Ein Prozessor bearbeitet einen seperaten Teil eines Problems z.B. DOE/NNSA/LLNL eServer BlueGene, NNSA/Sandia National Laboratories Cray Red Storm
IBM BlueGene/L (MPP System) Quelle: http://www-03.ibm.com/servers/deepcomputing/pdf/bluegenesolutionbrief.pdf
Cluster mehrere Rechner im Verbund Oft SMP Nodes Ein Knoten hat weniger Prozessoren als der Verbund Knoten hat z.B. BCC BladeCenter JS21 IBM, NNSA Power Edge 1850
BladeServer JS21-MP Cluster (MareNostrum) Quelle: http://www-5.ibm.com
Constellations (Cluster of Clusters) Große SMP‘s im Verbund Ein Knoten hat mehr Prozessoren, als der Verbund Knoten hat 1 System mit tausend Recheneinheiten Tera-10 Bull/NovaScale, Nagoya University Primepower HPC2500 www.extremetech.com/article2/0,1697,1901547,00.asp „Why such a fine line [between cluster and constellation]? Because, as Dongarra and several coauthors pointed out in 2003 paper, the distinction affects the approach to programming a machine“
Bull NovaScale Tera-10 Quelle: http://www.guideinformatique.com/IMAGES/SimulNul02.jpg
Warum sind Cluster so beliebt? Flexibel im Anschaffungspreis durch hohe flexibilität bei der Auswahl der Komponenten, Wartungsfreundlich (Blade raus Blade rein), geringer Performanceeinbruch bei Komponentenausfall, leicht skalierbar Quelle: http://www.top500.org/lists/2006/11/overtime/Architectures
Warum sind Cluster so beliebt? Viele Anbieter der Komponenten (großer Markt) Aufbau mit einfachen Mitteln möglich (kostengünstig) Variabler Einsatz von Kapital für Netzwerk, Rechenleistung und Arbeitsspeicher (offene Preisgestaltung) Meist variabel erweiterbar (Skalierbarkeit) Bei Defekt eines Knotens ist ein Großteil des Clusters weiter nutzbar (Robustheit) Bei Defekt unkopliziert und kostengünstig reparabel (Hot Swappable) www.extremetech.com/article2/0,1697,1901547,00.asp „Why such a fine line [between cluster and constellation]? Because, as Dongarra and several coauthors pointed out in 2003 paper, the distinction affects the approach to programming a machine“
Kommunikationstechnologien im Cluster
Höchstes Ziel: Der Cluster soll rechnen Ansprüche an das Netzwerk Schneller Datentransfer Remote DMA (RDMA) Entlastung der CPU Schlankes Protokoll Kein Management des Datentransfer Auslagerung auf NIC/HCA Hohe Robustheit Geringe Latenz Aplication IP based Apps User Space User APIs API / VERBS Upper Layer Protokolle Protokolltreiber (TCP/IP) Kernel Space Provider Hardware Treiber Hardware Host Channel Adapter Network Interface Card Standard Kernel Bypass
Günstiger Standard (Gigabit Ethernet) 10 Gb/s (heute) 100 Gb/s (Ende 2009) 10 * 10Gb/s gebündelt (http://www.spectrum.ieee.org/dec06/comments/1657) TCP/IP Viel Information im Protokollstack die im Cluster nicht nötig ist (Overhead) Leistungsschub durch TOE (TCP Offload Engine) Hardware die sich um en-/develop, handshake, ect. kümmert um dem Prozessor Arbeit zu ersparen
Myrinet von Myricom Nutzt vorhandene Ethernet Technologie Begrenzt auf die aktuelle Ethernet Technologie = 10Gb/s Hat eigene Netzwerkkarten Remote DMA fähig Hat eigenes „schlankes Protokoll“ Kommt auf Latenzzeiten von ca. 2-3 Mikrosekunden bei (10Gb) (http://www.myricom.com/scs/performance/MX-10G/) 2 Lösungen im Angebot Myrinet 2000 (2Gb) Myrinet 10G (10Gb)
Myrinet installationen Myrinet 2000 (Kupfer) Myrinet 10G (Glasfaser) Quelle: http://www.bsc.es/media/317.jpg Quelle: http://cse.uluc.edu/turing/gallery.html
InfiniBand von der Infiniband Trade Association (IBTA) Nutz eigene neue Technologie Normal 2,5 Gb/s durch 8bit/10bit Kodierung = 2 Gb/s Begrenzt durch Taktrate (Maximal 96Gb/s) Hat eigene Host Channel Adapter (HCA) Nutzt Remote DMA (RDMA) Kommt auf Latenzzeiten von ca. 2-3 Mikrosekunden bei (10Gb-96Gb)
InfiniBand – Speed durch Bündelung und Takterhöhung SDR Singel Data Rate DDR Double Data Rate QDR Quad Data Rate
InfiniBand Kabel (1x, 4x, 12x) Quelle: http://www.cs-electronics.com
InfiniBand Installation Quelle: http://hpc.msstate.edu/computing/maverick/gallery/production
Ende