Inhalt Der Cell Prozessor Aufbau des Cells Platine Block Diagramm

Slides:



Advertisements
Ähnliche Präsentationen
4.5 Virtueller Speicher Problemsituation: Programme und Daten sind zu groß für den verfügbaren Arbeitsspeicher Frühere Lösung Aufspaltung der Programme.
Advertisements

Leistung.
KA – Rechnerarchitektur I ____________________________________________________________________________________________ ____________________________________________________________________________________________.
PentiumPro Vs. Pentium MMX
Der Crusoe-Prozessor von Transmeta
Kapitel 7 Vektorrechner und Höchstleistungsrechner
Name des Vortragenden Klasse Ort / tt.mm.jjjj Beschreibung Zentraleinheit CPU, Motherbord, RAM.
Zentraleinheit CPU, Motherbord, RAM
Name des Vortragenden Klasse Ort / tt.mm.jjjj Beschreibung Zentraleinheit CPU, Motherbord, RAM.
Agenda Die Hardwearkomponenten und ihre Funktionen - Mikroprozessor
Zentraleinheit CPU, Motherbord, RAM
Name des Vortragenden Klasse Ort / tt.mm.jjjj Beschreibung Zentraleinheit CPU, Motherbord, RAM.
WS 2009/10 1 Systeme 1 Kapitel 1 Aufbau von Rechnern.
Funktionsmerkmale und Vorteile Die Intel Core i7 Prozessoren der zweiten Generation verfügen über folgende Funktionsmerkmale: Die Intel® Turbo-Boost-Technik.
Basisinformationstechnologie 1 Tanja Lange WS 2003/04 am
Rechneraufbau & Rechnerstrukturen, Folie 10.1 © W. Oberschelp, G. Vossen W. Oberschelp G. Vossen Kapitel 10.
Studiengang Informatik FHDW
2.5. Mikrocontroller-Komponenten
von Dennis Braun Till Meyenburg Marvin Barghorn
Vorlesung 2 Rechnerarchitektur Universität Bielefeld – Technische Fakultät AG Rechnernetze und verteilte Systeme Peter B. Ladkin
Rechnerarchitektur Vorlesung 2 Peter B. Ladkin
Vorlesung, Wintersemester 2009/10M. Schölzel 1 Optimierungstechniken in modernen Compilern Einführung.
4. Mikrocontroller-Komponenten
Beispiele für Mikroprozessoren 9
Von: Antoni Gazali Clarkson Laryea
Benchmark sparc vs. x86 von Axel Schmidt (94416)
AMDs Next Generation Die Hammer Familie Eine Kurzpräsentation von Frank Grümmert bei Herrn Prof. Dr.-Ing. Risse für das RST-Labor.
Open Source Prozessor Leon2 Peer Royla und Marco Siebert RST-Labor WS 04/05 Prof. Dr.-Ing. Thomas Risse.
EPIC, IA-64 und Itanium Eine Kurzpräsentation von Jan Hübbers bei Prof. Dr.-Ing. Risse im Fach Labor Rechnerstrukturen an der Hochschule Bremen
GPU Architectures: GeForce 8, GeForce 9 and Future
Matrix Multiplication on CUDA
< Best practices >
Beschleunigung Virtueller Privater Netze durch Netzwerkprozessoren
Der Prozessor - zentraler Bestandteil eines jeden Computers
Raster-Scanner des Therapie Projektes. Echtzeit-Kontrollsystem Therapie " Aufgabe: " Steuerung des Schwerionenstrahls " schneller Bestrahlungsabbruch.
Duo- und Quad Prozessor-Architektur
Name des Vortragenden Klasse Ort / tt.mm.jjjj Beschreibung Zentraleinheit CPU, Motherbord, RAM.
Aufbau und Funktionsweise
F.Ladstätter und R.Elsässer VP Wissenschaftliches Arbeiten und Präsentation 13. Dezember 2001.
Aufbau eines von-Neumann- Rechners Marcel Waldvogel.
Clustering mittels Grafikprozessor
INTEL Pentium 4 Prozessor
Lisa Gorkin, Barbara Herzgen, Fabian Küpper, Ailar Tehrani HG13 Köln / Steckkarten / Schnittstellen Hardwareprojekt.
DW-Architektur: Row Store vs Column Store
Kosten / Nutzen-Optimierung komplexer Floating-Point- Berechnungen unter Ausnutzung variabler Präzision Programming Language Design and Implementation.
3.4 CPU-Chips und Busse CPU-Chips
Signal-Prozessoren DSV1, 2009, Hhrt, 1 Mikro-Prozessor Von Neumann-Architektur Daten und Programmcode im gleichen Speicher => Sequenzieller Zugriff auf.
Embedded Systems Prof. Dr. H. Kristl
Computerarchitektur AMD Athlon und Multikernprozessoren
AES – Advanced Encryption Standard
Ein Vortrag von Simon Bayer
Gliederung 1) Begriffserklärung zur CPU 2) Geschichte der CPU
Anwendung von Microcontollern
Multiprozessoren: Herausforderung für die Software
Datenverarbeitung im PC
Eine Übersicht von Margarete Streitwieser
DDR vs. RDRAM Ein Vergleich von Speichertechnologien Bernhard Fiser Stefan Schönauer.
Rechnerarchitekturen
Central Processing Unit von David Kleuker und Thomas Auner
Central Processing Unit (Zentraleinheit)
Mikrocomputertechnik Jürgen Walter
Aufbau, Funktion und Grundzusammenhänge
Mainboard Kolbe, Klein, Hollermann.
Von Marcel Poppen & Oliver Lennartz
Aktueller Stand der Technik. Auf dem Markt sind heute bereits 64-Bit Mikrocontroller. Die meiste Verwendung finden allerdings noch immer die 8-Bit Modelle.
Fragen.  Hardwarekomponenten sind die Bestandteile eines Computers, die Sie sehen und anfassen können.
Multiprocessing mit OpenMPI Marius Albath. Vorlesung Betriebssysteme, Was ist OpenMPI Was ist OpenMPI OpenMPI Standard Setup OpenMPI Standard.
Vorgestern, gestern und heute
K-NN Klassifikation auf dem STI Cell BE Prozessor Michael Mair, Adrian Marte, Martin Schöpf, Daniel Winkler.
Shared Memory Programmierung: Grundlagen
 Präsentation transkript:

CBE – Cell Broadband Engine Der Cell Prozessor CBE – Cell Broadband Engine

Inhalt Der Cell Prozessor Aufbau des Cells Platine Block Diagramm Synchronisation der Power Kerne Komponenten des Cells PPE PPE Pipelining SPE I + II EIB Speicherzugriffe Kennzahlen der Cell Leistung I+II Einsatzgebiete Einschränkungen Zusammenfassung Quellen

Der Cell Prozessor Der „Cell“ entstand in einem Gemeinschaftsprojekt von Sony Toshiba IBM Ziel war die Entwicklung eines neuen (PowerPC*) Prozessors der eine hohe arithmetische Rechenleistung und schnellen Speicherzugriff in sich vereinigen sollte. Veröffentlichte Kosten des Projekts ca. 400 Mio. $. *Performance Optimization With Enhanced RISC Performance Chip

Aufbau des Cells – Platine

Aufbau des Cells – Block Diagramm SPE = Synergistic Processor Element LS = Local Storage, 256KB je SPE

Aufbau des Cells – Block Diagramm SPE = Synergistic Processor Element LS = Local Storage, 256KB je SPE EIB = Element Interconnection Bus MIC = Memory Interface Controller BIC = Bus Interface Controller

Aufbau des Cells – Block Diagramm SPE = Synergistic Processor Element LS = Local Storage, 256KB je SPE EIB = Element Interconnection Bus MIC = Memory Interface Controller BIC = Bus Interface Controller PPU = PowerPC Processor Unit L1 = 32 KByte Instruction Cache L1 = 32 KByte Data Cache L2 = 512 KByte Cache

Komponenten des Cells – PPE Das Power Processing Element in ein 64-bit PowerPC-5 RISC-Prozessor der die zentrale Steuerung übernimmt. Je ein 32KByte großer L1 Cache für Daten und Befehle 512 KByte großer L2 Cache (SRAM) SIMD (Single Instruction Multiple Data) Design In-Order-Execution, Multi-Threading und Round-Robin-Thread Scheduling Pro Takt können 4 Instruktionen geladen und 2 gleichzeitig ausgeführt VMX*-128 Erweiterung für Gleitkomma Operationen *VMX: Eine Operation wird gleichzeitig auf mehrere Datenworte angewendet. Der Vektor wird in 8 Elemente zerlegt, wodurch eine 8-fache Leistungssteigerung erzielt werden kann.

Komponenten des Cells – PPE Pipelining

Komponenten des Cells – SPE I Die Synergistic Processing Elements sind eigenständige unabhängig voneinander arbeitende RISC-Prozessoren (Vektor) SIMD (Single Instruction Multiple Data) Design In-Order-Execution 2 Instruktionspipelines je SPE Die Rechenleistung wurde nur für Operationen mit einfacher Genauigkeit optimiert Bei doppelter Genauigkeit geht die Performance signifikant nach unten Alle SPE haben 128 Register mit je 128-bit breite

Komponenten des Cells – SPE II Jede SPE hat einen eigenen 256 KByte großen SRAM Speicher als LS Der Zugriff auf das LS erfolgt mit rund 51 GByte/s Ingesamt hat jede einzelne SPE 4 Recheneinheiten für Floating Point und 4 Recheneinheiten für Integer Operationen Über einen DMA Controller (Memory Flow Controller) kommuniziert jede SPE unabhängig und direkt mit dem Hauptspeicher Jede SPE ist über einen DMA Controller mit den EIB verbunden Die Transferrate auf den EIB liegt bei 16 KByte pro Takt Die Steuerung/Synchronisation aller SPEs erfolgt über die PPE

Komponenten des Cells – EIB Der Element Interface Bus verbindet alle Komponenten des Cell über 4 seperate Ringe miteinander Pro Takt werden bis zu 96 Byte übertragen Max. Bandbreite von 205 GByte/s (128 Byte*3,2 Ghz ~205 GByte/s

Speicherzugriffe Jede SPE hat 2 Instruktions-pipelines, d.h. pro Takt können 2 SIMD Instruktionen gleichzeitig ausgeführt werden Die „even pipeline“ enthält Gleitkomma und Integer Operationen Die „odd pipeline“ ist für die Speicherzugriffe, z.B. auf den LS zuständig Pro pipeline werden 32 Instruktionen auf einmal in den Buffer geladen und dann an die jeweilige Recheneinheit weitergeleitet

Kennzahlen der Cell Leistung I Max. Taktfrequenz (im Labor): > 4 GHz Max. Perfomance (single precision): > 256 GFlops* Max. Performace (double precision): >26 GFlops* Größe des Chips: 221 mm² Anzahl der verwendeten Transistoren: 234 Millionen *GFlops: (109 Floating Points of Operation per Second) Die Anzahl der Gleitkommaoperationen pro Sekunde. Durch die Flops wird die gesamte Rechnerarchitektur, aber nicht die reine Prozessorgeschwindigkeit gemessen !

Kennzahlen der Cell Leistung I Max. Taktfrequenz (im Labor): > 4 GHz Max. Perfomance (single precision): > 256 GFlops* Max. Performace (double precision): >26 GFlops* Größe des Chips: 221 mm² Anzahl der verwendeten Transistoren: 234 Millionen  Intels DualCore Itanium hat 1,72 Milliarden Transistoren... *GFlops: (109 Floating Points of Operation per Second) Die Anzahl der Gleitkommaoperationen pro Sekunde. Durch die Flops wird die gesamte Rechnerarchitektur, aber nicht die reine Prozessorgeschwindigkeit gemessen !

Kennzahlen der Cell Leistung II Pro Takt kann jede SPE 16 x 8-bit-integer 8 x 16-bit-integer 4 x 32-bit-integer verarbeiten. Nach 6 Taktzyklen steht das Ergebnis in einfacher Genauigkeit fest. Bei doppelter Genauigkeit dauert es dann schon 13 Taktzyklen. Hier ein Vergleich mit anderen Prozessoren. Benutzt wurde das Linpack Benchmark Programm bei „double precision“ Rechenoperationen:

Anwendungsbereiche Graphische 3D Anwendungen Terrain Rendering Digitale Satellitenbilder Bearbeitung von großen Datenmengen in Echtzeit Grafische Visualisierung Dekodierung von Signalen (Video, MPEG, JPEG) Multimedia Anwendung (HDTV) Spielekonsole (Playstation 3) Uni Saarland berechnet Daten für realtime Raytracing/Rendering

Einschränkungen Standard Software reizt die Leistung des Cell Prozessors nicht aus Die Software muss Multi-Threaded geschrieben sein um die Cell Kapazitäten nutzen zu können Generell sieht das Betriebssystem den Cell nur als „einen“ Prozessor Zur Erzeugung von optimierten Code wird von IBM eine spezielle Entwicklungsumgebung angeboten. Für Programmierer gibt es ein eigenes „Cell Programming Handbook“ Aktuell arbeitet man an intelligenten Compilern für den Cell

Zusammenfassung Der Cell ist ein integrierter Multiprozessor Hohe Performance durch massive Parallelisierung der Aufgaben Potential kann nur durch optimierte Software genutzt werden SPEs agieren als eigenständige Prozessoren im Prozessor „Keep-it-simple““ als Credo für das Speichermanagement Extrem schnelles Bus System mit dem alle Komponenten des Prozessors verbunden sind

Quellen IBM Webpages http://www-128.ibm.com/developerworks/power/library/pa-cellperf/ http://www.research.ibm.com/cell/home.html Wikipedia TecChannel IEEE Computer Society Jörg Schätzlein