Energieverbrauch & Verlustleistung

Slides:



Advertisements
Ähnliche Präsentationen
Intel ITX Board mit Atom CPU
Advertisements

Netzwerke in der Informationstechnik
Bauteile des PC´c Werden vorgestellt: PC-Gehäuse Prozessor Tastatur
Leistung.
Computer Von Alexander Wild.
PC-Cluster.
Terra Workstation. Terra Workstation Unterschied Workstation PC Lösungen an Fallbeispielen einer fiktiven Firma Fallbeispiele aus den Abteilungen.
Abteilung EHS Eingebettete Hardware-/Software-Systeme Prof. Dr. Wolfgang Nebel Carsten Beth PDA Hörgerät Entwicklung eines PDA-basierten Hörgerätes.
Inhalt Die Idee des Dynamic Energy Saver
Name des Vortragenden Klasse Ort / tt.mm.jjjj Beschreibung Zentraleinheit CPU, Motherbord, RAM.
Zentraleinheit CPU, Motherbord, RAM
Name des Vortragenden Klasse Ort / tt.mm.jjjj Beschreibung Zentraleinheit CPU, Motherbord, RAM.
Agenda Die Hardwearkomponenten und ihre Funktionen - Mikroprozessor
Zentraleinheit CPU, Motherbord, RAM
Name des Vortragenden Klasse Ort / tt.mm.jjjj Beschreibung Zentraleinheit CPU, Motherbord, RAM.
SWIMMING POOL STEUERUNG
ilmenau.de Exploiting Pocket PC. ilmenau.de Exploiting Pocket PC PocketPC existiert seit über 5 Jahren (Windows CE seit ca. 10)
Beschleunigung Virtueller Privater Netze durch Netzwerkprozessoren
Studienarbeit Mini-Web-Server auf einem Signalcontroller
Bios.
EDO-RAM,SDRAM,RDRAM,DDR2-SDRAM.
Duo- und Quad Prozessor-Architektur
Name des Vortragenden Klasse Ort / tt.mm.jjjj Beschreibung Zentraleinheit CPU, Motherbord, RAM.
Präsentation von Alexander Schönfeld
Grafikkarten.
INTEL Pentium 4 Prozessor
Inhalt Strom Batterie Strom und Batterie Peter Daucher.
Induktivität einer Spule
Signal-Prozessoren DSV1, 2009, Hhrt, 1 Mikro-Prozessor Von Neumann-Architektur Daten und Programmcode im gleichen Speicher => Sequenzieller Zugriff auf.
Kommission und Steuerung in wenigen Minuten Daten- und Steuerungsflexibilität in einem einzigen Netzwerk.
Ein Vortrag von Simon Bayer
Verlustleistung und Energiemanagement VO Hardware - Software Codesign Markus Grössing
Multiprozessoren: Herausforderung für die Software
Hardware / Software Codesign Hardware vs. Software: Maßnahmen zur Erreichung der Design-Ziele.
Systemsoftware und Betriebssysteme
Verarbeitung und Computerinneres
1 Proseminar TUM Informatik PalmPilot und Handspring: Technik, Programmierung, Anwendung Hacks Daniel Schweighart
Central Processing Unit von David Kleuker und Thomas Auner
Arbeitsspeicher Eine Präsentation von - Namen wurden entfernt -
… erste Schritte mit einem programmierbaren Mikrocontroller
Energie Wie man richtig viel Energie im alltäglichen Leben sparen kann
Mikrocomputertechnik Jürgen Walter
Referat von Marcel Poppen & Oliver Lennartz
Eine Präsentation von Lennart Böcher und Marcel Remmers
Projektarbeit – SS08 Kai Aras
PhysX auf der GPU in Batman: Arkham Asylum & bei Fluid Simulations Universität zu Köln Historisch-Kulturwissenschaftliche Informationsverarbeitung Softwaretechnologie.
Die Hardware eines PC s.
WINDOWS 2003 Server. Standart Varianten für 32 Bit: Web Edition: Unterstützt Single(1)- oder Dual(2)-Prozessor-Systeme und bis zu 2 GB RAM 32-Bit Standard.
Vs Objektpufferung (caching) = dynamische, ad-hoc-Replikation einer Primärkopie: Zugriffswilliger beschafft sich temporär eine lokale Kopie cache.
AMD Serverprozessoren. Inhaltsverzeichniss Geschichtliches AMD Opteron K10AMD Opteron K10 ModellbezeichnungenModellbezeichnungen Varianten der K10-ProzessorenVarianten.
MAYA KINDLER 5C NOTEBOOK-KAUF. WAS WOLLEN MEINE ELTERN? Schönes Design Schnelle Leistung Einfache Bedienung Nicht zu groß Euro.
Von Marcel Poppen & Oliver Lennartz
Aktueller Stand der Technik. Auf dem Markt sind heute bereits 64-Bit Mikrocontroller. Die meiste Verwendung finden allerdings noch immer die 8-Bit Modelle.
Prozessoren (CPU) Ahmet Aktas, HWI I.
© Andreas Dirnberger Referat Intel-Prozessoren Intel-Prozessoren Gliederung: Prozessoren: CentrinoCentrino, CeleronCeleron, Pentium 44, Pentium.
Der Prozessor (CPU) Eine Produktion von Stefan Rüf.
Das Ohm‘sche Gesetz Elektrizitätslehre 3 Schönen guten Tag!
Der Taskmanager ist Bestandteil des Betriebssystems, der als Prozessmanager Prozessmanager unter anderem die aktuell laufenden Programme und Prozesse.
Pointer. Grundsätzliches: Im Arbeitsspeicher werden Daten gespeichert. Um auf die Daten eindeutig zugreifen zu können, werden diesen Daten Adressen zugeordnet.
Funktionen, Felder und Parameter- übergabe. Funktionsaufruf mit Feld als Parameter: Parameter = Name des Feldes.
RAM (Random Access Memory)
Fragen.  Hardwarekomponenten sind die Bestandteile eines Computers, die Sie sehen und anfassen können.
Mp3 und co. – Audiobearbeitung am PC. Vorteile Audio am PC Audiofiles lassen sich einfacher verwalten und weiter verarbeiten als Kassettenaufnahmen.
A. Steininger TU Vienna 1 Multicore eleganter Work-Around um die Design-Crisis Problemverschiebung in die SW (= auf höhere Ebene) ABER: hohe Parallelität.
RAM (Random Access Memory)
Computerhardware Paul Pumsenberger. Allgemein ● Materielle Teil des Computers ●,angreifbar' ● Geht (fast) nie kaputt ● Gegensatz: Software – Oft fehlerhaft,
HEK: 1406,- Volltreffer! Gültigkeit: HEK: 796,-
Inhaltsverzeichnis Was ist Arduino? Hardwarekomponenten
Vorgestern, gestern und heute
System-on-Chip zur Steuerung von Messsystemen
 Präsentation transkript:

Energieverbrauch & Verlustleistung Reznicek Alexander 1125076

Energie vs. Verlustleistung (elektrische) Energie E: 1Ws = 1J 1 Wh = 3600 Ws gespeichert in Energiespeichern wie Akkus Verlustleistung P: Einheit Watt Ein Chip wird schneller, je höher die Spannung ist Ein Chip wird schneller, je kühler er ist Weniger Verlustleistung  Weniger Temperatur  Mehr Performance Um den Akku von mobilen Geräten zu schonen muss Energie gespart werden, um die TDP (Termal Design Power) einzuhalten Verlustleistung (Temperatur!) Verlustleistung sparen bedeutet nicht immer gleich Energie sparen! (vgl. “race to idle” vs. Taktanpassung)

Trends Laptops/PCs mit geringerer Verlustleistung in den letzten Jahren 2010: Laptop 35W, PC 95-125W TDP 2015: Laptop 15W, PC 74-84W TDP Smartphones/Embedded-Systems mit höherem Energieverbrauch 2010: 1500mAh durchschnittlich 2015: 3000mAh bei vergleichbarer Akkulaufzeit Desweiteren Temperaturprobleme in einigen High-End Geräten Seit 2008 mehr Notebooks als PCs verkauft Auch 2015 steigt die Zahl der verkauften Smartphones

Warum also Stromsparen? Akkutechnik hat sich in den letzten 20 Jahren nicht viel verbessert, Systemleistung hat sich aber stark erhöht (auch durch erhöhtem Verbrauch) Erhöhter Verbrauch niedrigere Laufzeit Einhalten sinnvoller TDP-Limits Umwelt-/Ökonomiegedanken Bspw. EU-Verordnung Nr. 617/2013: Quadcore-PC mit idle-Verbrauch max. 59 W (2016 41W!)

Verlustleistung Leistung, die bei Schaltvorgängen verbraucht wird Dynamische Verlustleistung C·V2·A·f (Kapazität, Spannung, Frequenz, Aktivitätsfaktor) Leistung, die bei Schaltvorgängen verbraucht wird Statische Verlust- Leistung wird immer mehr zum Problem Statische Verlustleistung: Leistung, die ohne Schaltvorgängen bei konstantem Eingang verbraucht wird

Stromsparen In HW In SW Spezielle Hardwarebausteine Strukturbreite Schaltungsoptimierung Spannungs-/Frequenzvariation Clock-/Power Gating In SW Compiler Programmierstil

Spezielle Hardwarebausteine Hardware für spezielle Aufgaben, die oft ausgeführt werden Timer Codecs Grafikprozessoren Custom-ASICs/FPGAs/… Beispiel: Video Codec H264 H265 CPU 129 W 132 W IGP 90 W 120 W gGPU (fixed-function HEVC!) 119 W 130 W

Bitcoins – SHA256 Bezeichnung MH/s Watt Preis in € MH/s/W Raspberry Pi 0,2 3,75 20 0,053 Raspberry Pi2 1,76 3,5 35 0,5 Intel Core i7 3930k (6 Kerne!) 66,6 140 500 0,47 Grau = CPU, Grün = GPU, Blau = FPGA, Orange = ASIC

Bitcoins – SHA256 Bezeichnung MH/s Watt Preis in € MH/s/W Raspberry Pi 0,2 3,75 20 0,053 Raspberry Pi2 1,76 3,5 35 0,5 Intel Core i7 3930k (6 Kerne!) 66,6 140 500 0,47 NVIDIA GTX 590 193 360 600 0,53 AMD Radeon R9 280X 825 214 250 3,86 Grau = CPU, Grün = GPU, Blau = FPGA, Orange = ASIC

Bitcoins – SHA256 Bezeichnung MH/s Watt Preis in € MH/s/W Raspberry Pi 0,2 3,75 20 0,053 Raspberry Pi2 1,76 3,5 35 0,5 Intel Core i7 3930k (6 Kerne!) 66,6 140 500 0,47 NVIDIA GTX 590 193 360 600 0,53 AMD Radeon R9 280X 825 214 250 3,86 Terasic DE2-115 80 10 8 BitForce SHA256 Single 832 10,4 Grau = CPU, Grün = GPU, Blau = FPGA, Orange = ASIC

Bitcoins – SHA256 Bezeichnung MH/s Watt Preis in € MH/s/W Raspberry Pi 0,2 3,75 20 0,053 Raspberry Pi2 1,76 3,5 35 0,5 Intel Core i7 3930k (6 Kerne!) 66,6 140 500 0,47 NVIDIA GTX 590 193 360 600 0,53 AMD Radeon R9 280X 825 214 250 3,86 Terasic DE2-115 80 10 8 BitForce SHA256 Single 832 10,4 AntMiner U1 1600 2 30 800 Grau = CPU, Grün = GPU, Blau = FPGA, Orange = ASIC

Bitcoins – SHA256 Bezeichnung MH/s Watt Preis in € MH/s/W Raspberry Pi 0,2 3,75 20 0,053 Raspberry Pi2 1,76 3,5 35 0,5 Intel Core i7 3930k (6 Kerne!) 66,6 140 500 0,47 NVIDIA GTX 590 193 360 600 0,53 AMD Radeon R9 280X 825 214 250 3,86 Terasic DE2-115 80 10 8 BitForce SHA256 Single 832 10,4 AntMiner U1 1600 2 30 800 AntMiner S3 441000 340 390 1297 AntMiner S5+ 7722000 3436 2400 2247 Grau = CPU, Grün = GPU, Blau = FPGA, Orange = ASIC

Strukturbreite Kleinere Strukturbreite – kleinere Abstände/Transistoren geringerer Stromverbrauch Von einem Full-Node zum nächsten ~30% mehr Effizienz

Strukturbreite 14nm!=14nm Schaltströme geringer bei gleicher Leistung Kleinere Gates liefern allerdings weniger Widerstand  Problem der Leckströme 30% mehr Effizienz nicht mehr durch Änderung der Strukturbreite allein

Bulk vs. FinFET Statt einer Finne mehrere erhöht den Strom der fließt  schneller Erhöht aber auch den Stromverbrauch

Schaltungsoptimierung Breiteres Gate verringert Leckströme der Transistor ist dann allerdings langsamer Beispiel: NVIDIA Fermi 400er vs. 500er Serie ca. 10% weniger Energieverbrauch wurde erreicht Verwendung anderer Materialien z.B. SOI (Silicon on Insulator) oder HKMG (High-k Metal Gate) für bessere Isolation TSV (Through Silicon Via) Beispiel: Samsung 3D-NAND

Spannungs-/Frequenzvariation Senkung der Frequenz senkt den Verbrauch über niedrigere Ströme Senkung der Spanunng senkt den Verbrauch über Spannung und Ströme Bei PCs über die C- und P-States des ACPI Vom Betriebssystem vorgegeben, von der CPU in eigene Stati umgesetzt Alternativ vom Prozessor selbst bestimmt (Speed Shift) Beispiele: Speed Step, Power Now!, Turbo Boost/Core Eingebette Systeme verwenden Power-States Beispiel: DVFS (Dynamic Voltage and Frequency Scaling)

Spannungs-/Frequenzvariation Freescale i.MX 28 (@1,5V) DVFS: Verwendung einer OPP-List (Operating Performance Point): Für jede mögliche Frequenz steht hier eine zu verwendende Spannung Bei Frequenzsenkung wird zuerst Frequenz und dann Spannung gesenkt (automatisch!) Bei Frequenzanhebung wird zuerst Spannung und dann Frequenz angebhoben

Spannungs-/Frequenzvariation [Atmel 1280 mit 8MHz] 1 MHz weniger ~ 1-1,5 mA, 1V weniger ~20-30% weniger mA Taktsabsenkung nahezu mit konstanter Verbrauchssenkung Spannungsabsenkung mit prozentueller Verbrauchssenkung Spannungsabsenkung senkt Spannung und Strom (P=U*I !)

Clock Gating / Power Gating Clock Gating: Abschaltung einzelner Hardware-Komponenten auf einem Chip mittels Deaktivierung des Clocks der Komponente Beispiele: Speed Step, Power Now!, Turbo Boost/Core, Speed Shift Power Gating: Deaktivierung der Hardware durch Abschaltung der Versorgungsspannung des Blockes Langsamer/weniger dynamisch als Clock Gating Beispiele: Komponenten an µC wie Timer, ADC, UART,… Deaktivierung einzelner Kerne (Big.Little, Companion Core) Beide Methoden trennen nicht physikalisch!

Power Gating Big.Little: Nur einer der Cluster ist jeweils sichtbar und wird virtuell als einziger Cluster angezeigt Interrupts warden ebenfalls auf diese Art geteilt (GIC, nicht abgebildet) Für die Software sind die Cluster mittels OPP erreichbar Tegra 3

Verbrauch einzelner Komponenten

Verbrauch einzelner Komponenten

Verbrauch einzelner Komponenten

Verbrauch einzelner Komponenten

Compiler Verwendung von Optimierungen Laufzeit optimieren (bei gcc –O2) – Hauptziel der Compilerentwickler Verwendung spezieller Instruktionen (SSE, …) Einige Compiler können Spannungs-/Frequenzsteuerung in Programmen erzeugen

Programmierstil Code Effizienz – kleinerer Code = kürzere Ausführungszeit ”race to idle” Einbeziehung der HW: Spezialhardware wie Timer (bzw. Darauf aufbauende Systemroutinen), Hardwarebeschleunigung ABER: Beachtung Verbrauch Spezial-HW vs. Implementierung in SW (z.B. Kommunikation alá UART vs. bitbanging)

Programmierstil Lokale Variablen bzw. Globale Variablen Lokale Variablen brauchen nicht initialisiert werden (bzw. im Speicher nicht angelegt warden) Pointer benutzen Anstatt zusätzlich den Speicher zu kopieren bei Funktionsaufrufen Wird bei AMDs HSA in Zusammenspiel mit CPU/GPU genutzt Programmcode in den RAM  Speicherhierarchie beachten: Je weiter aussen, desto weniger Bits umdrehen

Wirkung der Software HW-Unterstützung weggerechnet bleibt nur die Laufzeit. Je kürzer das Programm läuft, desto kürzer ist bei gleichbleibendem Verbrauch die gesamt verbrauchte Energie. Speicheroptimierungen bringen dagegen nur bei großen Datenmengen, auf denen der Prozessor warten muss etwas, sind sonst nicht messbar.

Spannung oder Transistoren sparen? Beispiel AMD Fury Karte (Anz. Shader) Leistung Takt(MHz) Verbrauch(Watt) Leistung/Watt Fury X (4096) 116 1050 275 0,42 Fury (3584) 105 1000 0,38 Fury Nano (4096) 100 ~860 175 0,57 Ist Parallelität möglich, mehr Einheiten statt mehr Takt verwenden “Sweet Spot” bei der Taktung beachten

Was reduziert statische/ was dynamische Verluste? Spezielle Hardware IM Gegenteil JA Strukturbreite Schaltungsoptimierung Frequenzvariation NEIN Spannungsvariation Clock Gating Power Gating Compiler Nur bei HW-Nähe Programmierstil

Warum verwendet man diese Techniken dann nicht dauernd? Spezielle HW zu entwickeln ist sehr teuer und bei zu komplexer Aufgaben nicht geeignet Strukturbreite finanziell nahe dem Ende Schaltungsoptimierung nur in kleinem Rahmen möglich und sehr teuer (vorgefertigte Libraries verwenden Standardzellen) Frequenz-/Spannungsvariationen und Gating(=“race to idle”) schließen sich gegenseitig aus

Referenzen/Bilder EU-Richtlinie: http://www.computerbase.de/2014-07/vorgaben-energieverbrauch-pcs-netzteile-eu-617-2013/ Verlustleistung: http://ti.tuwien.ac.at/ecs/teaching/courses/didevo/slides/digital-design-lecture-slide-set-8-pdf Bitcoin-Vergleich: https://en.bitcoin.it/wiki/Mining_hardware_comparison Strukturbreite: http://www.golem.de/news/fertigungstechnik-der-14-nanometer-schwindel-1502-112524.html P-State/Speed Shift: http://www.computerbase.de/2015-11/speed-shift-hoehere-skylake-effizienz-mit-update-fuer-windows-10/ Atmel 1280 Datenblatt: http://www.atmel.com/Images/Atmel-2549-8-bit-AVR-Microcontroller-ATmega640-1280-1281-2560-2561_datasheet.pdf DVFS: http://processors.wiki.ti.com/index.php/DVFS_User_Guide Big.Little-Konzept: http://elinux.org/images/8/8c/DVFS_for_ARM_CortexA15_A7.pdf Bilder Folie 5-Verlustleistung: http://ti.tuwien.ac.at/ecs/teaching/courses/didevo/slides/digital-design-lecture-slide-set-8-pdf Folie 11-Antminer: https://www.bitmaintech.com/userfiles/image/00320140107163108061W8OK7DJt064E.png Folie 13-MOSFET: https://upload.wikimedia.org/wikipedia/commons/3/34/Scheme_of_metal_oxide_semiconductor_field-effect_transistor.svg Folie 14-Strukturbreite: http://www.golem.de/news/fertigungstechnik-der-14-nanometer-schwindel-1502-112524.html Folie 15/16-Finfet-Bilder: http://maltiel-consulting.com/Intel_22nm_3D_Tri-Gate_FinFETs_Transistors_maltiel_semiconductor_consulting.html Folie 19-i.MX28: https://blogs.mentor.com/embedded/blog/2012/08/27/what-is-dynamic-voltage-and-frequency-scaling-and-why-should-you-care Folie 19-P-State/Speed Shift: http://www.computerbase.de/2015-11/speed-shift-hoehere-skylake-effizienz-mit-update-fuer-windows-10/ Folie 20-Atmel Consumption: http://www.atmel.com/Images/Atmel-2549-8-bit-AVR-Microcontroller-ATmega640-1280-1281-2560-2561_datasheet.pdf Folie 22-Big.Little: http://cdnzz.ifanr.com/wp-content/uploads/2015/03/arm-big-little-3.jpg Folie 22-Companion Core: http://www.mxphone.net/wordpress/wp-content/uploads/2012/02/nvidia_tegra_3_companion_core.jpg