Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

CBE – Cell Broadband Engine Der Cell Prozessor. 1 Inhalt Der Cell Prozessor Aufbau des Cells Platine Block Diagramm Synchronisation der Power Kerne Komponenten.

Ähnliche Präsentationen


Präsentation zum Thema: "CBE – Cell Broadband Engine Der Cell Prozessor. 1 Inhalt Der Cell Prozessor Aufbau des Cells Platine Block Diagramm Synchronisation der Power Kerne Komponenten."—  Präsentation transkript:

1 CBE – Cell Broadband Engine Der Cell Prozessor

2 1 Inhalt Der Cell Prozessor Aufbau des Cells Platine Block Diagramm Synchronisation der Power Kerne Komponenten des Cells PPE PPE Pipelining SPE I + II EIB Speicherzugriffe Kennzahlen der Cell Leistung I+II Einsatzgebiete Einschränkungen Zusammenfassung Quellen

3 2 Der Cell Prozessor Der Cell entstand in einem Gemeinschaftsprojekt von Sony Toshiba IBM Ziel war die Entwicklung eines neuen (PowerPC*) Prozessors der eine hohe arithmetische Rechenleistung und schnellen Speicherzugriff in sich vereinigen sollte. Veröffentlichte Kosten des Projekts ca. 400 Mio. $. *Performance Optimization With Enhanced RISC Performance Chip

4 3 Aufbau des Cells – Platine

5 4 Aufbau des Cells – Block Diagramm SPE = Synergistic Processor Element LS = Local Storage, 256KB je SPE

6 5 Aufbau des Cells – Block Diagramm SPE = Synergistic Processor Element LS = Local Storage, 256KB je SPE EIB = Element Interconnection Bus MIC = Memory Interface Controller BIC = Bus Interface Controller

7 6 Aufbau des Cells – Block Diagramm SPE = Synergistic Processor Element LS = Local Storage, 256KB je SPE EIB = Element Interconnection Bus MIC = Memory Interface Controller BIC = Bus Interface Controller PPU = PowerPC Processor Unit L1 = 32 KByte Instruction Cache L1 = 32 KByte Data Cache L2 = 512 KByte Cache

8 7 Komponenten des Cells – PPE Das Power Processing Element in ein 64-bit PowerPC-5 RISC-Prozessor der die zentrale Steuerung übernimmt. Je ein 32KByte großer L1 Cache für Daten und Befehle 512 KByte großer L2 Cache (SRAM) SIMD (Single Instruction Multiple Data) Design In-Order-Execution, Multi-Threading und Round-Robin-Thread Scheduling Pro Takt können 4 Instruktionen geladen und 2 gleichzeitig ausgeführt VMX*-128 Erweiterung für Gleitkomma Operationen *VMX: Eine Operation wird gleichzeitig auf mehrere Datenworte angewendet. Der Vektor wird in 8 Elemente zerlegt, wodurch eine 8-fache Leistungssteigerung erzielt werden kann.

9 8 Komponenten des Cells – PPE Pipelining

10 9 Die Synergistic Processing Elements sind eigenständige unabhängig voneinander arbeitende RISC-Prozessoren (Vektor) SIMD (Single Instruction Multiple Data) Design In-Order-Execution 2 Instruktionspipelines je SPE Die Rechenleistung wurde nur für Operationen mit einfacher Genauigkeit optimiert Bei doppelter Genauigkeit geht die Performance signifikant nach unten Alle SPE haben 128 Register mit je 128-bit breite Komponenten des Cells – SPE I

11 10 Jede SPE hat einen eigenen 256 KByte großen SRAM Speicher als LS Der Zugriff auf das LS erfolgt mit rund 51 GByte/s Ingesamt hat jede einzelne SPE 4 Recheneinheiten für Floating Point und 4 Recheneinheiten für Integer Operationen Über einen DMA Controller (Memory Flow Controller) kommuniziert jede SPE unabhängig und direkt mit dem Hauptspeicher Jede SPE ist über einen DMA Controller mit den EIB verbunden Die Transferrate auf den EIB liegt bei 16 KByte pro Takt Die Steuerung/Synchronisation aller SPEs erfolgt über die PPE Komponenten des Cells – SPE II

12 11 Der Element Interface Bus verbindet alle Komponenten des Cell über 4 seperate Ringe miteinander Pro Takt werden bis zu 96 Byte übertragen Max. Bandbreite von 205 GByte/s (128 Byte*3,2 Ghz ~205 GByte/s Komponenten des Cells – EIB

13 12 Speicherzugriffe Jede SPE hat 2 Instruktions-pipelines, d.h. pro Takt können 2 SIMD Instruktionen gleichzeitig ausgeführt werden Die even pipeline enthält Gleitkomma und Integer Operationen Die odd pipeline ist für die Speicherzugriffe, z.B. auf den LS zuständig Pro pipeline werden 32 Instruktionen auf einmal in den Buffer geladen und dann an die jeweilige Recheneinheit weitergeleitet

14 13 Max. Taktfrequenz (im Labor): > 4 GHz Max. Perfomance (single precision): > 256 GFlops* Max. Performace (double precision): >26 GFlops* Größe des Chips: 221 mm² Anzahl der verwendeten Transistoren: 234 Millionen *GFlops: (10 9 Floating Points of Operation per Second) Die Anzahl der Gleitkommaoperationen pro Sekunde. Durch die Flops wird die gesamte Rechnerarchitektur, aber nicht die reine Prozessorgeschwindigkeit gemessen ! Kennzahlen der Cell Leistung I

15 14 Max. Taktfrequenz (im Labor): > 4 GHz Max. Perfomance (single precision): > 256 GFlops* Max. Performace (double precision): >26 GFlops* Größe des Chips: 221 mm² Anzahl der verwendeten Transistoren: 234 Millionen Intels DualCore Itanium hat 1,72 Milliarden Transistoren... *GFlops: (10 9 Floating Points of Operation per Second) Die Anzahl der Gleitkommaoperationen pro Sekunde. Durch die Flops wird die gesamte Rechnerarchitektur, aber nicht die reine Prozessorgeschwindigkeit gemessen ! Kennzahlen der Cell Leistung I

16 15 Pro Takt kann jede SPE 16 x 8-bit-integer 8 x 16-bit-integer 4 x 32-bit-integer verarbeiten. Nach 6 Taktzyklen steht das Ergebnis in einfacher Genauigkeit fest. Bei doppelter Genauigkeit dauert es dann schon 13 Taktzyklen. Hier ein Vergleich mit anderen Prozessoren. Benutzt wurde das Linpack Benchmark Programm bei double precision Rechenoperationen: Kennzahlen der Cell Leistung II

17 16 Anwendungsbereiche Graphische 3D Anwendungen Terrain Rendering Digitale Satellitenbilder Bearbeitung von großen Datenmengen in Echtzeit Grafische Visualisierung Dekodierung von Signalen (Video, MPEG, JPEG) Multimedia Anwendung (HDTV) Spielekonsole (Playstation 3) Uni Saarland berechnet Daten für realtime Raytracing/Rendering

18 17 Einschränkungen Standard Software reizt die Leistung des Cell Prozessors nicht aus Die Software muss Multi-Threaded geschrieben sein um die Cell Kapazitäten nutzen zu können Generell sieht das Betriebssystem den Cell nur als einen Prozessor Zur Erzeugung von optimierten Code wird von IBM eine spezielle Entwicklungsumgebung angeboten. Für Programmierer gibt es ein eigenes Cell Programming Handbook Aktuell arbeitet man an intelligenten Compilern für den Cell

19 18 Zusammenfassung Der Cell ist ein integrierter Multiprozessor Hohe Performance durch massive Parallelisierung der Aufgaben Potential kann nur durch optimierte Software genutzt werden SPEs agieren als eigenständige Prozessoren im Prozessor Keep-it-simple als Credo für das Speichermanagement Extrem schnelles Bus System mit dem alle Komponenten des Prozessors verbunden sind

20

21 Quellen IBM Webpages Wikipedia TecChannel IEEE Computer Society Jörg Schätzlein


Herunterladen ppt "CBE – Cell Broadband Engine Der Cell Prozessor. 1 Inhalt Der Cell Prozessor Aufbau des Cells Platine Block Diagramm Synchronisation der Power Kerne Komponenten."

Ähnliche Präsentationen


Google-Anzeigen