Die SX-Series: Eine Erfolgsstory mit Fortsetzung
Was bisher geschah: Ende 1994 wird die SX-4 als erste CMOS Implementierung eines PVP Supercomputers angekündigt Alle Welt glaubte, daß die Zukunft Architekturen mit Standardkomponenten gehören wird
Heute: Die SX-4 ist mit ca. 120 Installationen mit mehr als 900 CPUs die erfolgreichste Maschine ihrer Art PVP ist wieder auf Erfolgskurs höchste Effizienz in Anwendungen zukunftsträchtige Technologiebasis ausgewogenes, weil maßgeschneidertes Konzept
Effizienz & Leistung Die SX-4 demonstriert in Anwendungen bis zu 80 % und mehr Leistung im Parallelbetrieb Grundlagen ausgewogene Architektur konsequente Implementierung
Memory Performance STREAM Memory Bandwidth --- John D. McCalpin, mccalpin@cs.virginia.edu Revised to Sat Jun 14 09:17:22 PDT 1997 All results are in MB/s --- 1 MB=10^6 B, *not* 2^20 B ------------------------------------------------------------------ Machine ID ncpus COPY SCALE ADD TRIAD NEC_SX_4 32 434784.0 432886.0 437358.0 436954.0 NEC_SX_4 16 247440.0 247343.0 250262.0 250231.0 NEC_SX_4 8 126084.0 126084.0 126725.0 126724.0 NEC_SX_4 4 63537.0 63536.0 63694.0 63692.0 NEC_SX_4 2 31887.0 31886.0 31925.0 31925.0 NEC_SX_4 1 15983.0 15984.0 15989.0 15898.0 Cray_T932_321024-3E 32 310721.0 302182.0 359841.0 359270.0 Cray_T932_321024-3E 16 160263.0 154880.0 193335.0 194562.0 Cray_T932_321024-3E 1 10653.0 10221.0 13014.0 13682.0 Cray_J932 32 19007.0 18944.1 19993.9 18870.4 Cray_J932 16 16298.2 15851.5 15657.6 14995.9 Cray_J932 1 1433.6 1408.6 1260.8 1270.0 SGI_Origin_2000_2 2 351.0 365.0 392.0 413.0
Streams Benchmark TRIAD
Die Skalierungsperspektive Mit der SX-4 ist der leistungsfähigste Clusteransatz verwirklicht 5 Standorte weltweit nutzen erfolgreich MultiNode Systeme mit bis zu 128 Vektor-CPUs Teraflopscomputing auf Vektorbasis ist reale Option
Und in Zukunft... „Vector Supercomputing has always offered the ultimate in processor performance“ SGI Website, 16. Juni 1998 aber auch: „A Supercomputer is a high performance memory with a fast CPU attached“ sinngemäß S. Cray
Warum eigentlich Vektor? Leistungscharakteristik von Vektor und Skalarprozessoren Data Size Applications Vector Processing Scalar Processing Cache Size Limitation Performance
The System You Have Heard About
Welcomes You to the Future of High Performance Supercomputing
Das Produkt Die logische Fortführung der SX-4 Series Setzt Renaissance des PVP Markets fort Anwender wählen PVP, weil sie JETZT funktionieren SX Systeme machen PVP Technologie erschwinglich Bietet eine brauchbare, flexible Architektur Single Node Shared Memory Modell Multi Node Distributed Memory Modell
Spezifikationen Single Node Multi Node Bis zu 128 GFLOPS aus 16 x 8 GFLOPS Prozessoren Bis zu 128 GBytes Shared Main Memory Multi Node Bis zu 4 TFLOPS Bis zu 32 Nodes über SX-5 IXS Bis zu 512 Processors Bis zu 4 Tbyte Hauptspeicher
CMOS VLSI Technologie 0.25 Micron mit 5 Layern Commodity, High Yield Geometry Wirtschaftliche Herstellung 64 Mbit SDRAM Memory Chips kostengünstige High-end Standardkomponenten Leistungsfähigkeit durch sehr hohe Bankzahl
Packaging Technologies Chip Size Package 25 mm sq 1600+ Pinouts 0.5 mm grid Multi Chip Package 225 mm sq 11,000+ Pinouts 32 Layers
Single Node Processor 16 units MAX 16 CPUs STORAGE MAIN CACHE SR VR MASK MASK LOGICAL MULT LOAD & STORE VR ADD/SHIFT DIVIDE STORAGE MAIN CACHE SCALAR SR EXECUTION UNIT XMU IOP
Vector Einheit: Architektur Multiple parallele Vektor Pipelines 64 SX-4 kompatible Pipelines Add-Shift x 16 Multiply x 16 Logical x 16 Divide x 16 Jede Instruktion nutzt 16 Pipelines Automatische Hardware Parallelität Piplines arbeiten unabhängig voneinander
Pro Processor 8 GFLOPS Peak Vector 500 MFLOPS Peak Scalar Mehr als 2 X SX-4 Series skalaren Durchsatz Weniger Konflikte der Skalareinheit Extra Load Path Double Issue Rate 64 GB / sec Speicherbandbreite
Memory Architecture Voller Non-blocking Crossbar Single Node 128 GB Kapazität 1 TB/s Bandbreite 1 CPU auf 2 MMU Einheiten Jede MMU Einheit hat 4 GB,1K Banks, 32 Gbytes/sec 64 Gbytes/second verfügbar für jede CPU Die höchste im Markt verfügbare Speicherleistung !
Streams Benchmark TRIAD (SX-5 Werte extrapoliert)
The Single Node IOP IOP SDRAM technology 32,768 64-bit banks 32 4-GB cards 32 GB/s per card IOP IOP 3.15 GB/s x 4 IOPs 16 x 8 GF Vector Processors 1 CPU : 2 MMU (64 GB/s)
Multi Node Spezifikationen Maximal 512 Prozessoren 16 Prozessoren per Node Maximum 32 Node Maximum Maximal 4 TB Hauptspeicher IXS Internode Crossbar 256 GB/s Gesamzbandbreite 8 GB/s Bandbreite Node zu Node
The Multi Node ....... IXS Internode Crossbar .... .... .... Max.16 CPU CPU CPU .... CPU CPU CPU .... CPU CPU CPU .... CPU ....... éÂãLâØ éÂãLâØ éÂãLâØ MM MM MM IOP MM •••• IOP MM •••• IOP MM •••• •••• •••• Node #1 Node #2 Node #32 8 GB/s x 2
Japanische Konzepte haben Zukunft * *Aber Effizienz ist ein Muß!