Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

Inhalt Der Cell Prozessor Aufbau des Cells Platine Block Diagramm

Ähnliche Präsentationen


Präsentation zum Thema: "Inhalt Der Cell Prozessor Aufbau des Cells Platine Block Diagramm"—  Präsentation transkript:

0 CBE – Cell Broadband Engine
Der Cell Prozessor CBE – Cell Broadband Engine

1 Inhalt Der Cell Prozessor Aufbau des Cells Platine Block Diagramm
Synchronisation der Power Kerne Komponenten des Cells PPE PPE Pipelining SPE I + II EIB Speicherzugriffe Kennzahlen der Cell Leistung I+II Einsatzgebiete Einschränkungen Zusammenfassung Quellen

2 Der Cell Prozessor Der „Cell“ entstand in einem Gemeinschaftsprojekt von Sony Toshiba IBM Ziel war die Entwicklung eines neuen (PowerPC*) Prozessors der eine hohe arithmetische Rechenleistung und schnellen Speicherzugriff in sich vereinigen sollte. Veröffentlichte Kosten des Projekts ca. 400 Mio. $. *Performance Optimization With Enhanced RISC Performance Chip

3 Aufbau des Cells – Platine

4 Aufbau des Cells – Block Diagramm
SPE = Synergistic Processor Element LS = Local Storage, 256KB je SPE

5 Aufbau des Cells – Block Diagramm
SPE = Synergistic Processor Element LS = Local Storage, 256KB je SPE EIB = Element Interconnection Bus MIC = Memory Interface Controller BIC = Bus Interface Controller

6 Aufbau des Cells – Block Diagramm
SPE = Synergistic Processor Element LS = Local Storage, 256KB je SPE EIB = Element Interconnection Bus MIC = Memory Interface Controller BIC = Bus Interface Controller PPU = PowerPC Processor Unit L1 = 32 KByte Instruction Cache L1 = 32 KByte Data Cache L2 = 512 KByte Cache

7 Komponenten des Cells – PPE
Das Power Processing Element in ein 64-bit PowerPC-5 RISC-Prozessor der die zentrale Steuerung übernimmt. Je ein 32KByte großer L1 Cache für Daten und Befehle 512 KByte großer L2 Cache (SRAM) SIMD (Single Instruction Multiple Data) Design In-Order-Execution, Multi-Threading und Round-Robin-Thread Scheduling Pro Takt können 4 Instruktionen geladen und 2 gleichzeitig ausgeführt VMX*-128 Erweiterung für Gleitkomma Operationen *VMX: Eine Operation wird gleichzeitig auf mehrere Datenworte angewendet. Der Vektor wird in 8 Elemente zerlegt, wodurch eine 8-fache Leistungssteigerung erzielt werden kann.

8 Komponenten des Cells – PPE Pipelining

9 Komponenten des Cells – SPE I
Die Synergistic Processing Elements sind eigenständige unabhängig voneinander arbeitende RISC-Prozessoren (Vektor) SIMD (Single Instruction Multiple Data) Design In-Order-Execution 2 Instruktionspipelines je SPE Die Rechenleistung wurde nur für Operationen mit einfacher Genauigkeit optimiert Bei doppelter Genauigkeit geht die Performance signifikant nach unten Alle SPE haben 128 Register mit je 128-bit breite

10 Komponenten des Cells – SPE II
Jede SPE hat einen eigenen 256 KByte großen SRAM Speicher als LS Der Zugriff auf das LS erfolgt mit rund 51 GByte/s Ingesamt hat jede einzelne SPE 4 Recheneinheiten für Floating Point und 4 Recheneinheiten für Integer Operationen Über einen DMA Controller (Memory Flow Controller) kommuniziert jede SPE unabhängig und direkt mit dem Hauptspeicher Jede SPE ist über einen DMA Controller mit den EIB verbunden Die Transferrate auf den EIB liegt bei 16 KByte pro Takt Die Steuerung/Synchronisation aller SPEs erfolgt über die PPE

11 Komponenten des Cells – EIB
Der Element Interface Bus verbindet alle Komponenten des Cell über 4 seperate Ringe miteinander Pro Takt werden bis zu 96 Byte übertragen Max. Bandbreite von 205 GByte/s (128 Byte*3,2 Ghz ~205 GByte/s

12 Speicherzugriffe Jede SPE hat 2 Instruktions-pipelines, d.h. pro Takt können 2 SIMD Instruktionen gleichzeitig ausgeführt werden Die „even pipeline“ enthält Gleitkomma und Integer Operationen Die „odd pipeline“ ist für die Speicherzugriffe, z.B. auf den LS zuständig Pro pipeline werden 32 Instruktionen auf einmal in den Buffer geladen und dann an die jeweilige Recheneinheit weitergeleitet

13 Kennzahlen der Cell Leistung I
Max. Taktfrequenz (im Labor): > 4 GHz Max. Perfomance (single precision): > 256 GFlops* Max. Performace (double precision): >26 GFlops* Größe des Chips: 221 mm² Anzahl der verwendeten Transistoren: 234 Millionen *GFlops: (109 Floating Points of Operation per Second) Die Anzahl der Gleitkommaoperationen pro Sekunde. Durch die Flops wird die gesamte Rechnerarchitektur, aber nicht die reine Prozessorgeschwindigkeit gemessen !

14 Kennzahlen der Cell Leistung I
Max. Taktfrequenz (im Labor): > 4 GHz Max. Perfomance (single precision): > 256 GFlops* Max. Performace (double precision): >26 GFlops* Größe des Chips: 221 mm² Anzahl der verwendeten Transistoren: 234 Millionen  Intels DualCore Itanium hat 1,72 Milliarden Transistoren... *GFlops: (109 Floating Points of Operation per Second) Die Anzahl der Gleitkommaoperationen pro Sekunde. Durch die Flops wird die gesamte Rechnerarchitektur, aber nicht die reine Prozessorgeschwindigkeit gemessen !

15 Kennzahlen der Cell Leistung II
Pro Takt kann jede SPE 16 x 8-bit-integer 8 x 16-bit-integer 4 x 32-bit-integer verarbeiten. Nach 6 Taktzyklen steht das Ergebnis in einfacher Genauigkeit fest. Bei doppelter Genauigkeit dauert es dann schon 13 Taktzyklen. Hier ein Vergleich mit anderen Prozessoren. Benutzt wurde das Linpack Benchmark Programm bei „double precision“ Rechenoperationen:

16 Anwendungsbereiche Graphische 3D Anwendungen Terrain Rendering
Digitale Satellitenbilder Bearbeitung von großen Datenmengen in Echtzeit Grafische Visualisierung Dekodierung von Signalen (Video, MPEG, JPEG) Multimedia Anwendung (HDTV) Spielekonsole (Playstation 3) Uni Saarland berechnet Daten für realtime Raytracing/Rendering

17 Einschränkungen Standard Software reizt die Leistung des Cell Prozessors nicht aus Die Software muss Multi-Threaded geschrieben sein um die Cell Kapazitäten nutzen zu können Generell sieht das Betriebssystem den Cell nur als „einen“ Prozessor Zur Erzeugung von optimierten Code wird von IBM eine spezielle Entwicklungsumgebung angeboten. Für Programmierer gibt es ein eigenes „Cell Programming Handbook“ Aktuell arbeitet man an intelligenten Compilern für den Cell

18 Zusammenfassung Der Cell ist ein integrierter Multiprozessor
Hohe Performance durch massive Parallelisierung der Aufgaben Potential kann nur durch optimierte Software genutzt werden SPEs agieren als eigenständige Prozessoren im Prozessor „Keep-it-simple““ als Credo für das Speichermanagement Extrem schnelles Bus System mit dem alle Komponenten des Prozessors verbunden sind

19

20 Quellen IBM Webpages Wikipedia TecChannel IEEE Computer Society Jörg Schätzlein


Herunterladen ppt "Inhalt Der Cell Prozessor Aufbau des Cells Platine Block Diagramm"

Ähnliche Präsentationen


Google-Anzeigen