Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

AMDs Next Generation Die Hammer Familie Eine Kurzpräsentation von Frank Grümmert bei Herrn Prof. Dr.-Ing. Risse für das RST-Labor.

Ähnliche Präsentationen


Präsentation zum Thema: "AMDs Next Generation Die Hammer Familie Eine Kurzpräsentation von Frank Grümmert bei Herrn Prof. Dr.-Ing. Risse für das RST-Labor."—  Präsentation transkript:

1 AMDs Next Generation Die Hammer Familie Eine Kurzpräsentation von Frank Grümmert bei Herrn Prof. Dr.-Ing. Risse für das RST-Labor

2 AMDs achte Prozessorgeneration Rechen Performance – Merkbare Leistungssteigerung auf aktuellen Entwicklungsstand durch Nutzung nichtexotischer Silizium Prozesse und allgemeiner Design Techniken Software Performance – Leistungssteigerung existierender x86-32 Software – 100% Kompatibilität Multiprocessing & High Performance Computing (HPC) – Neue Standards – ermöglicht 4P und 8P Server Kosten-Vorteile – Geringe Kosten durch Migration vorhandener Software und der Herstellung des Prozessors auf aktuellem Stand der Technik.

3 Auf Anwendung zugeschnitten ClawHammer – 1-2 Prozessoren – In Desktopsystemen – günstig ClawHammer-DP, SlegeHammer – Multiprozessor fähig 2-8 Prozessoren >8 über Switches – In HPC-Systemen ( High Performance Computing )

4 Unterschiede der Varianten 1-2 HyperTransport Ports ( 16-8 Bit ) Level2 Cache 256K - 512 K 1 DDR Chanel – 4 Dimms Sockel ( 754 Pins ) 2-3 HyperTransport Ports ( 16 Bit ) Level2 Cache >1M 2 DDR Chanels – 8 Dimms Sockel ( 940 Pins )

5 512k or 256K Byte L2 Cache 64k L1 Instruction Cache 64k L1 Data Cache x86-64 Processor Core DDR Memory Controller HyperTransport 72 16 64 wide DRAM 1600MT/s Ersetzt Address, Data und Control Bus X86-64 Bit 1P Desktop Prozessor ein 72-bit DDR Kanal 200, 266, and 333 MHz 4GB DDR DRAM Zukünftige Speicher-Technologien werden unterstützt oEin 16-bit HT Port oOn chip L1 & L2 cache 64K-Byte L1 Inst. 64K-Byte L1 DATA 256/512KB ECC protected L2 754-pin mPGA Package AMD Athlon Processor

6 8 8 1600MT/s X86-64 Bit 2P Desktop Prozessoren ein 72-bit DDR Kanal 200, 266, and 333 MHz 4GB DDR DRAM Zukünftige Speicher-Technologien werden unterstützt oOder zwei 8-bit HT Ports oOn chip L1 & L2 cache 64K-Byte L1 Inst. 64K-Byte L1 DATA 256/512KB ECC protected L2 754-pin mPGA Package 512k or 256K Byte L2 Cache 64k L1 Instruction Cache 64k L1 Data Cache X86-64 Processor Core DDR Memory Controller HyperTransport 72 64 wide DRAM AMD Athlon Processor

7 AMD Opteron Family Processors 512K or 1M Byte L2 Cache 64k L1 Instruction Cache 64k L1 Data Cache X86-64 Processor Core Dual DDR Memory Controller HyperTransport 72 16 64 wide DRAM 1600MT/s 72 16 64 Bit 2P Server Prozessoren zwei 72-bit DDR Kanäle 200, 266, and 333 MHz 8GB DDR DRAM Zukünftige Speicher-Technologien werden unterstützt ozwei 16-bit HT Ports oOn chip L1 & L2 cache 64K-Byte L1 Inst. 64K-Byte L1 DATA 512/1024KB ECC protected L2 940-pin mPGA Package

8 AMD Opteron Family Processors 1M or 2M Byte L2 Cache 64k L1 Instruction Cache 64k L1 Data Cache X86-64 Processor Core Dual DDR Memory Controller HyperTransport 72 16 64 wide DRAM 1600MT/s 72 16 64 Bit 8P Server Prozessoren zwei 72-bit DDR Kanäle 200, 266, and 333 MHz 8GB DDR DRAM Zukünftige Speicher-Technologien werden unterstützt odrei 16-bit HT Ports oOn chip L1 & L2 cache 64K-Byte L1 Inst. 64K-Byte L1 DATA 1M/2MB ECC protected L2 940-pin mPGA Package

9 Core Architektur 5 Funktionsblöcke – Prozessor-Core, L1-Daten- und Befehls-Cache, L2-Cache, DDR-Memory-Controller und HyperTransport-Interface HyperTransport 9 Ausführungseinheiten für Integer- und Floating-Point-Operationen

10 Core Architektur

11

12 Pipeline 32 Stufen sehr tief ausgeführte Pipeline – Stufe 1 bis 7: Fetch-Vorgang und Befehlsdekodierung – Stufe 8 bis 12: Befehlsausführung – Stufe 13 bis 19: L2-Pipeline – Stufe 20 bis 32: DRAM - Zugriffe Hohe Taktfrequenz >2GHz Probleme bei zb. bei Misprediciton (branch prediction) Zeit – SOI ( silicon on isolator )silicon on isolator

13 Operating Modes 64-Bit-Modus in 64-Bit-Betriebssystem 32-Bit-Modus (Compatibility Mode) in 64-Bit- Betriebssystem 32-Bit-Modus (Legacy Mode) in 32-Bit- Betriebssystem

14 Operating Modes

15 Long Mode Über Kontroll-Bit LMA (Long Mode Active) – 0 wie x86 Prozessor – 1 im 64 Bit Modus ( siehe Vorherige Folie ) Im 64-Bit-Mode folgende neue Features: – 64-Bit-Adressraum – Register-Erweiterung der acht GPRs auf 64 Bit durch das Präfix R – Zusätzlich acht neue GPRs R8 bis R15 – Acht neue 128-Bit-SSE-Register XMM8 bis XMM15 – 64-Bit-Befehlszeiger (RIP) – Relative Datenadressierung mit 64-Bit-Offset

16 x86-64 vs. x86-32 Register Unterschiede Register-Ausbau: Die x86-64-Architektur des Hammer erweitert die 32-Bit-Register der IA32-Prozessoren auf 64 Bit.

17 Register x86-64 – 64-bit integer registers – 48-bit Virtual Address – 40-bit Physical Address REX - Register Extensions – 16 64-bit integer registers – 16 128-bit SSE registers SSE2 Instruction Set – New Double precision scalar and vector operations 16*8, 8*16 way vector MMX operations – SSE1 already added with AMD Athlon XP

18 Speicherinterface Durch integrierte Northbridge geringe Latenz Maximaler Speicherausbau steigt in Multiprozessorsystemen In MPS untereinander Austausch der Inhalte durch HyperTransport Schnittstellen – Bsp Opteron Speicherbandbreite von 5,3 GByte/s Xfire beträgt zusätzlich 3,53 GByte/s ( HTT zum anderem Speicher ) ~ bei 2P = Speicherbandbreite 8,83 GByte/s (lokal + XFire) Zusammenarbeit im NUMA Verband ( non uniform memory access ) – Kaum Unterschiede zwischen Near- und Far Memory Zugriff dank geringer Latenz

19 HyperTransport-Interface Vereinheitlichtes Bussystem

20 HyperTransport-Interface Hohe Bandbreite bei niedriger Latenzzeit Einheitlicher Bus und gemeinsames Protokoll für alle Verbindungen auf dem Mainboard. Flexible Geschwindigkeiten und variable Busbreite. Unterschiedliche Geschwindigkeit je nach Richtung. Möglichst wenige Leitungen und preiswertes Chip-Interface. Geringer Energieverbrauch und Stromsparmechanismen. Unterstützung von Multiprozessor-Systemen und "System Network Architecture - Bussen

21 Prozessoren mit mehreren HyperTransport Ports Datentransfer über den HyperTransport Bus benötigt keine CPU Zeit. Externe Betriebsmittel können zu jeder Adresse innerhalb des 40 Bit Adressraums des Prozessors schreiben ohne jegliche CPU Intervention. Im Fall mehrerer HyperTransport Ports können die Daten auch ohne Intervention der CPU passieren.

22 Zusammenfassung 20-25% mehr Geschwindigkeit zum AMD Athlon XP (32 bit Mode) Integration der nächsten Generation von intelligenten Cache Integrierter DDR Controller Integration von HyperTransport Abwärtskompatibilität Kostenersparniss

23


Herunterladen ppt "AMDs Next Generation Die Hammer Familie Eine Kurzpräsentation von Frank Grümmert bei Herrn Prof. Dr.-Ing. Risse für das RST-Labor."

Ähnliche Präsentationen


Google-Anzeigen