Die SX-Series: Eine Erfolgsstory mit Fortsetzung

Slides:

Advertisements

Ähnliche Präsentationen

Präsentation des Unternehmens

Advertisements

Powerpoint-Präsentation

KA – Rechnerarchitektur I ____________________________________________________________________________________________ ____________________________________________________________________________________________.

:33 Internet Applikationen – Hard und Softwareplattform Copyright ©2003, 2004 Christian Donner. Alle Rechte vorbehalten. Architektur Moderner.

Computeria Zürich Treff vom 4. Oktober 2006 Microsoft Vista (RC1) der Nachfolger von Windows XP Ein Vortrag von René Brückner.

Kapitel 7 Vektorrechner und Höchstleistungsrechner

2.5 Vektorrechner & Multimedia-Erweiterungen

SAP R/3 - Speichermanagement

Microsoft Windows 2000 Terminal Services

W. Oberschelp G. Vossen Kapitel 7.

OpenMP Präsentation im Rahmen des Seminars

Rechneraufbau & Rechnerstrukturen, Folie 10.1 © W. Oberschelp, G. Vossen W. Oberschelp G. Vossen Kapitel 10.

Studiengang Informatik FHDW

Vorlesung 2 Rechnerarchitektur Universität Bielefeld Technische Fakultät AG Rechnernetze und verteilte Systeme Peter B. Ladkin

Vorlesung 3: Verschiedenes Universität Bielefeld Technische Fakultät AG Rechnernetze und verteilte Systeme Peter B. Ladkin

Vorlesung 2 Rechnerarchitektur Peter B. Ladkin Wintersemester 2001/2002 Universität Bielefeld Technische Fakultät.

Rechnerarchitektur Vorlesung 2 Peter B. Ladkin

Vorlesung, Wintersemester 2009/10M. Schölzel 1 Optimierungstechniken in modernen Compilern Einführung.

Schnittstellen in der Bildverarbeitung

Benchmark sparc vs. x86 von Axel Schmidt (94416)

n4 Streaming Media System

AMDs Next Generation Die Hammer Familie Eine Kurzpräsentation von Frank Grümmert bei Herrn Prof. Dr.-Ing. Risse für das RST-Labor.

EPIC, IA-64 und Itanium Eine Kurzpräsentation von Jan Hübbers bei Prof. Dr.-Ing. Risse im Fach Labor Rechnerstrukturen an der Hochschule Bremen

Inhalt Der Cell Prozessor Aufbau des Cells Platine Block Diagramm

< Best practices >

1 Vorlesung 3 Verschiedenes Peter B. Ladkin

Ralf KüstersDagstuhl 2008/11/30 2 Ralf KüstersDagstuhl 2008/11/30 3.

Rechneraufbau & Rechnerstrukturen, Folie 12.1 © W. Oberschelp, G. Vossen W. Oberschelp G. Vossen Kapitel 12.

Duo- und Quad Prozessor-Architektur

SKALIERBARE HARDWARE UNABHÄNGIGE LÖSUNGEN FÜR HSM, ARCHIVIERUNG UND SICHEREN DATENAUSTAUSCH YOUR DATA. YOUR CONTROL.

Performance-Steigerung durch schnelle Festplatten Ulrich Dinger.

Hauptspeicher- Datenbanksysteme

F.Ladstätter und R.Elsässer VP Wissenschaftliches Arbeiten und Präsentation 13. Dezember 2001.

Lizenz zum Forschen = 1 Euro Microsoft ® High Performance Computing-Programm für Bildungs- und Forschungseinrichtungen.

INTEL Pentium 4 Prozessor

Auslegung eines Vorschubantriebes

Universität Zürich Informatikdienste GoKoordinatorenmeeting 27. April UZH Global Storage Projekt.

1 DMS EXPO 2009 Keynote Angst und Gier Dr. Ulrich Kampffmeyer PROJECT CONSULT Unternehmensberatung Dr. Ulrich Kampffmeyer GmbH Breitenfelder Straße 17.

3.4 CPU-Chips und Busse CPU-Chips

Embedded Systems Prof. Dr. H. Kristl

Grundlagen der Informatik

ESRI EUROPEAN USER CONFERENCE

Performance-Testing als Basis für Performanceoptimierungen

Größerer Funktionsumfang. Mehr Effizienz. Mit dem Lexmark MX6500e – der vielseitigen, multifunktionalen Erweiterung.

Application Delivery Citrix Netscaler Vortragender Seite 1 von 18

ADAT©2010 Dipl. - Ing. Andrea SabinSeite: 1 Version 1.0c Adat Semester 1.

Multiprozessoren: Herausforderung für die Software

Analyseprodukte numerischer Modelle

International Time For many common situations (timetables, TV guides, store hours), Germans use 24-hour ("military") time. Add 12 to a pm time to get the.

Literatur auf dem Prüfstand

SSDs im SAN - Praxisbericht Erich Eckel Österreichische Lotterien Storage Management.

Titelmasterformat durch Klicken bearbeiten Textmasterformate durch Klicken bearbeiten Zweite Ebene Dritte Ebene Vierte Ebene Fünfte Ebene 1 Titelmasterformat.

DDR vs. RDRAM Ein Vergleich von Speichertechnologien Bernhard Fiser Stefan Schönauer.

Pflanzenlernkartei 3 Autor: Rudolf Arnold. Pflanze 1 Gattung Merkmale Schädigung Bekämpfung.

Pflanzenlernkartei 2 Autor: Rudolf Arnold. Pflanze 1 Gattung Merkmale Schädigung Bekämpfung.

Einführung in Optimierungsprobleme auf modernen Rechnerarchitekturen

Central Processing Unit von David Kleuker und Thomas Auner

Präsentation von Nadine Hartmann und Buket Barut

Hauptspeicher- Datenbanksysteme

RETAIL 2010 MAXIMALER SCHUTZ MINIMALE BELASTUNG. RETAIL 2010 MAXIMALER SCHUTZ MINIMALE BELASTUNG Nur 8 MB Speicherverbrauch.

Mikrocomputertechnik Jürgen Walter

Institut für Angewandte Mikroelektronik und Datentechnik Results of Phase 4: Layout for ST65 technology by Christoph Niemann Selected Topics.

Dr. Klaus Ruhlig Technology & Product Consulting Sun Microsystems, München Skalierbare Rechnerarchitekturen für ein DWH: Eine vergleichende Analyse.

G Stunde DEUTSCH 1.  Unit: Family & homeFamilie & Zuhause  Objectives:  Phrases about date, weather and time-telling  Family and family relations.

Multiprocessing mit OpenMPI Marius Albath. Vorlesung Betriebssysteme, Was ist OpenMPI Was ist OpenMPI OpenMPI Standard Setup OpenMPI Standard.

Money rules the medicine?! A presentation by Jan Peter Hoffmann European healthcare systems in comparison.

Official Statistics Web Cartography in Germany − Regional Statistics, Federal and European Elections, Future Activities − Joint Working Party meeting.

Open-E JovianDSS Einführung

Shared Memory Programmierung: Grundlagen

Präsentation transkript:

Die SX-Series: Eine Erfolgsstory mit Fortsetzung

Was bisher geschah: Ende 1994 wird die SX-4 als erste CMOS Implementierung eines PVP Supercomputers angekündigt Alle Welt glaubte, daß die Zukunft Architekturen mit Standardkomponenten gehören wird

Heute: Die SX-4 ist mit ca. 120 Installationen mit mehr als 900 CPUs die erfolgreichste Maschine ihrer Art PVP ist wieder auf Erfolgskurs höchste Effizienz in Anwendungen zukunftsträchtige Technologiebasis ausgewogenes, weil maßgeschneidertes Konzept

Effizienz & Leistung Die SX-4 demonstriert in Anwendungen bis zu 80 % und mehr Leistung im Parallelbetrieb Grundlagen ausgewogene Architektur konsequente Implementierung

Memory Performance STREAM Memory Bandwidth --- John D. McCalpin, mccalpin@cs.virginia.edu Revised to Sat Jun 14 09:17:22 PDT 1997 All results are in MB/s --- 1 MB=10^6 B, *not* 2^20 B ------------------------------------------------------------------ Machine ID ncpus COPY SCALE ADD TRIAD NEC_SX_4 32 434784.0 432886.0 437358.0 436954.0 NEC_SX_4 16 247440.0 247343.0 250262.0 250231.0 NEC_SX_4 8 126084.0 126084.0 126725.0 126724.0 NEC_SX_4 4 63537.0 63536.0 63694.0 63692.0 NEC_SX_4 2 31887.0 31886.0 31925.0 31925.0 NEC_SX_4 1 15983.0 15984.0 15989.0 15898.0 Cray_T932_321024-3E 32 310721.0 302182.0 359841.0 359270.0 Cray_T932_321024-3E 16 160263.0 154880.0 193335.0 194562.0 Cray_T932_321024-3E 1 10653.0 10221.0 13014.0 13682.0 Cray_J932 32 19007.0 18944.1 19993.9 18870.4 Cray_J932 16 16298.2 15851.5 15657.6 14995.9 Cray_J932 1 1433.6 1408.6 1260.8 1270.0 SGI_Origin_2000_2 2 351.0 365.0 392.0 413.0

Streams Benchmark TRIAD

Die Skalierungsperspektive Mit der SX-4 ist der leistungsfähigste Clusteransatz verwirklicht 5 Standorte weltweit nutzen erfolgreich MultiNode Systeme mit bis zu 128 Vektor-CPUs Teraflopscomputing auf Vektorbasis ist reale Option

Und in Zukunft... „Vector Supercomputing has always offered the ultimate in processor performance“ SGI Website, 16. Juni 1998 aber auch: „A Supercomputer is a high performance memory with a fast CPU attached“ sinngemäß S. Cray

Warum eigentlich Vektor? Leistungscharakteristik von Vektor und Skalarprozessoren Data Size Applications Vector Processing Scalar Processing Cache Size Limitation Performance

The System You Have Heard About

Welcomes You to the Future of High Performance Supercomputing

Das Produkt Die logische Fortführung der SX-4 Series Setzt Renaissance des PVP Markets fort Anwender wählen PVP, weil sie JETZT funktionieren SX Systeme machen PVP Technologie erschwinglich Bietet eine brauchbare, flexible Architektur Single Node Shared Memory Modell Multi Node Distributed Memory Modell

Spezifikationen Single Node Multi Node Bis zu 128 GFLOPS aus 16 x 8 GFLOPS Prozessoren Bis zu 128 GBytes Shared Main Memory Multi Node Bis zu 4 TFLOPS Bis zu 32 Nodes über SX-5 IXS Bis zu 512 Processors Bis zu 4 Tbyte Hauptspeicher

CMOS VLSI Technologie 0.25 Micron mit 5 Layern Commodity, High Yield Geometry Wirtschaftliche Herstellung 64 Mbit SDRAM Memory Chips kostengünstige High-end Standardkomponenten Leistungsfähigkeit durch sehr hohe Bankzahl

Packaging Technologies Chip Size Package 25 mm sq 1600+ Pinouts 0.5 mm grid Multi Chip Package 225 mm sq 11,000+ Pinouts 32 Layers

Single Node Processor 16 units MAX 16 CPUs STORAGE MAIN CACHE SR VR MASK MASK LOGICAL MULT LOAD & STORE VR ADD/SHIFT DIVIDE STORAGE MAIN CACHE SCALAR SR EXECUTION UNIT XMU IOP

Vector Einheit: Architektur Multiple parallele Vektor Pipelines 64 SX-4 kompatible Pipelines Add-Shift x 16 Multiply x 16 Logical x 16 Divide x 16 Jede Instruktion nutzt 16 Pipelines Automatische Hardware Parallelität Piplines arbeiten unabhängig voneinander

Pro Processor 8 GFLOPS Peak Vector 500 MFLOPS Peak Scalar Mehr als 2 X SX-4 Series skalaren Durchsatz Weniger Konflikte der Skalareinheit Extra Load Path Double Issue Rate 64 GB / sec Speicherbandbreite

Memory Architecture Voller Non-blocking Crossbar Single Node 128 GB Kapazität 1 TB/s Bandbreite 1 CPU auf 2 MMU Einheiten Jede MMU Einheit hat 4 GB,1K Banks, 32 Gbytes/sec 64 Gbytes/second verfügbar für jede CPU Die höchste im Markt verfügbare Speicherleistung !

Streams Benchmark TRIAD (SX-5 Werte extrapoliert)

The Single Node IOP IOP SDRAM technology 32,768 64-bit banks 32 4-GB cards 32 GB/s per card IOP IOP 3.15 GB/s x 4 IOPs 16 x 8 GF Vector Processors 1 CPU : 2 MMU (64 GB/s)

Multi Node Spezifikationen Maximal 512 Prozessoren 16 Prozessoren per Node Maximum 32 Node Maximum Maximal 4 TB Hauptspeicher IXS Internode Crossbar 256 GB/s Gesamzbandbreite 8 GB/s Bandbreite Node zu Node

The Multi Node ....... IXS Internode Crossbar .... .... .... Max.16 CPU CPU CPU .... CPU CPU CPU .... CPU CPU CPU .... CPU ....... éÂãLâØ éÂãLâØ éÂãLâØ MM MM MM IOP MM •••• IOP MM •••• IOP MM •••• •••• •••• Node #1 Node #2 Node #32 8 GB/s x 2

Japanische Konzepte haben Zukunft * *Aber Effizienz ist ein Muß!