Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

ENERGIEVERBRAUCH & VERLUSTLEISTUNG REZNICEK ALEXANDER 1125076.

Ähnliche Präsentationen


Präsentation zum Thema: "ENERGIEVERBRAUCH & VERLUSTLEISTUNG REZNICEK ALEXANDER 1125076."—  Präsentation transkript:

1 ENERGIEVERBRAUCH & VERLUSTLEISTUNG REZNICEK ALEXANDER

2 ENERGIE VS. VERLUSTLEISTUNG (elektrische) Energie E: 1Ws = 1J  1 Wh = 3600 Ws gespeichert in Energiespeichern wie Akkus Verlustleistung P: Einheit Watt Ein Chip wird schneller, je höher die Spannung ist Ein Chip wird schneller, je kühler er ist  Weniger Verlustleistung  Weniger Temperatur  Mehr Performance  Um den Akku von mobilen Geräten zu schonen muss Energie gespart werden, um die TDP (Termal Design Power) einzuhalten Verlustleistung (Temperatur!) Verlustleistung sparen bedeutet nicht immer gleich Energie sparen! (vgl. “race to idle” vs. Taktanpassung) 2

3 TRENDS Laptops/PCs mit geringerer Verlustleistung in den letzten Jahren 2010: Laptop 35W, PC W TDP 2015: Laptop 15W, PC 74-84W TDP Smartphones/Embedded-Systems mit höherem Energieverbrauch 2010: 1500mAh durchschnittlich 2015: 3000mAh bei vergleichbarer Akkulaufzeit Desweiteren Temperaturprobleme in einigen High-End Geräten Seit 2008 mehr Notebooks als PCs verkauft Auch 2015 steigt die Zahl der verkauften Smartphones 3

4 WARUM ALSO STROMSPAREN? Akkutechnik hat sich in den letzten 20 Jahren nicht viel verbessert, Systemleistung hat sich aber stark erhöht (auch durch erhöhtem Verbrauch)  Erhöhter Verbrauch  niedrigere Laufzeit Einhalten sinnvoller TDP-Limits Umwelt-/Ökonomiegedanken Bspw. EU-Verordnung Nr. 617/2013: Quadcore-PC mit idle-Verbrauch max. 59 W ( W!) 4

5 VERLUSTLEISTUNG Dynamische Verlustleistung C·V 2 ·A·f (Kapazität, Spannung, Frequenz, Aktivitätsfaktor) Leistung, die bei Schaltvorgängen verbraucht wird Statische Verlust- Leistung wird immer mehr zum Problem Statische Verlustleistung: Leistung, die ohne Schaltvorgängen bei konstantem Eingang verbraucht wird 5

6 STROMSPAREN In HW Spezielle Hardwarebausteine Strukturbreite Schaltungsoptimierung Spannungs-/Frequenzvariation Clock-/Power Gating In SW Compiler Programmierstil 6

7 SPEZIELLE HARDWAREBAUSTEINE Hardware für spezielle Aufgaben, die oft ausgeführt werden Timer Codecs Grafikprozessoren Custom-ASICs/FPGAs/… Beispiel: Video Codec H264H265 CPU129 W132 W IGP90 W120 W gGPU (fixed-function HEVC!)119 W130 W 7

8 BITCOINS – SHA256 BezeichnungMH/sWattPreis in €MH/s/W Raspberry Pi0,23,75200,053 Raspberry Pi21,763,5350,5 Intel Core i7 3930k (6 Kerne!)66, ,47 Grau = CPU, Grün = GPU, Blau = FPGA, Orange = ASIC 8

9 BITCOINS – SHA256 BezeichnungMH/sWattPreis in €MH/s/W Raspberry Pi0,23,75200,053 Raspberry Pi21,763,5350,5 Intel Core i7 3930k (6 Kerne!)66, ,47 NVIDIA GTX ,53 AMD Radeon R9 280X ,86 Grau = CPU, Grün = GPU, Blau = FPGA, Orange = ASIC 9

10 BITCOINS – SHA256 BezeichnungMH/sWattPreis in €MH/s/W Raspberry Pi0,23,75200,053 Raspberry Pi21,763,5350,5 Intel Core i7 3930k (6 Kerne!)66, ,47 NVIDIA GTX ,53 AMD Radeon R9 280X ,86 Terasic DE BitForce SHA256 Single ,4 Grau = CPU, Grün = GPU, Blau = FPGA, Orange = ASIC 10

11 BITCOINS – SHA256 BezeichnungMH/sWattPreis in €MH/s/W Raspberry Pi0,23,75200,053 Raspberry Pi21,763,5350,5 Intel Core i7 3930k (6 Kerne!)66, ,47 NVIDIA GTX ,53 AMD Radeon R9 280X ,86 Terasic DE BitForce SHA256 Single ,4 AntMiner U Grau = CPU, Grün = GPU, Blau = FPGA, Orange = ASIC 11

12 BITCOINS – SHA256 BezeichnungMH/sWattPreis in €MH/s/W Raspberry Pi0,23,75200,053 Raspberry Pi21,763,5350,5 Intel Core i7 3930k (6 Kerne!)66, ,47 NVIDIA GTX ,53 AMD Radeon R9 280X ,86 Terasic DE BitForce SHA256 Single ,4 AntMiner U AntMiner S AntMiner S Grau = CPU, Grün = GPU, Blau = FPGA, Orange = ASIC 12

13 STRUKTURBREITE Kleinere Strukturbreite – kleinere Abstände/Transistoren  geringerer Stromverbrauch Von einem Full-Node zum nächsten ~30% mehr Effizienz =Strukturbreite 13

14 14

15 STRUKTURBREITE 14nm!=14nm Schaltströme geringer bei gleicher Leistung Kleinere Gates liefern allerdings weniger Widerstand  Problem der Leckströme 30% mehr Effizienz nicht mehr durch Änderung der Strukturbreite allein 15

16 BULK VS. FINFET Statt einer Finne mehrere erhöht den Strom der fließt  schneller Erhöht aber auch den Stromverbrauch 16

17 SCHALTUNGSOPTIMIERUNG Breiteres Gate verringert Leckströme der Transistor ist dann allerdings langsamer Beispiel: NVIDIA Fermi 400er vs. 500er Serie ca. 10% weniger Energieverbrauch wurde erreicht Verwendung anderer Materialien z.B. SOI (Silicon on Insulator) oder HKMG (High-k Metal Gate) für bessere Isolation TSV (Through Silicon Via) Beispiel: Samsung 3D-NAND 17

18 SPANNUNGS-/FREQUENZVARIATION Senkung der Frequenz senkt den Verbrauch über niedrigere Ströme Senkung der Spanunng senkt den Verbrauch über Spannung und Ströme Bei PCs über die C- und P-States des ACPI Vom Betriebssystem vorgegeben, von der CPU in eigene Stati umgesetzt Alternativ vom Prozessor selbst bestimmt (Speed Shift) Beispiele: Speed Step, Power Now!, Turbo Boost/Core Eingebette Systeme verwenden Power-States Beispiel: DVFS (Dynamic Voltage and Frequency Scaling) 18

19 SPANNUNGS-/FREQUENZVARIATION Freescale i.MX 28 DVFS: Verwendung einer OPP-List (Operating Performance Point): Für jede mögliche Frequenz steht hier eine zu verwendende Spannung  Bei Frequenzsenkung wird zuerst Frequenz und dann Spannung gesenkt (automatisch!)  Bei Frequenzanhebung wird zuerst Spannung und dann Frequenz angebhoben 19

20 SPANNUNGS-/FREQUENZVARIATION 1 MHz weniger ~ 1-1,5 mA, 1V weniger ~20-30% weniger mA  Taktsabsenkung nahezu mit konstanter Verbrauchssenkung  Spannungsabsenkung mit prozentueller Verbrauchssenkung  Spannungsabsenkung senkt Spannung und Strom (P=U*I !) [Atmel 1280 mit 8MHz] 20

21 CLOCK GATING / POWER GATING Clock Gating: Abschaltung einzelner Hardware-Komponenten auf einem Chip mittels Deaktivierung des Clocks der Komponente Beispiele: Speed Step, Power Now!, Turbo Boost/Core, Speed Shift Power Gating: Deaktivierung der Hardware durch Abschaltung der Versorgungsspannung des Blockes Langsamer/weniger dynamisch als Clock Gating Beispiele: Komponenten an µC wie Timer, ADC, UART,… Deaktivierung einzelner Kerne (Big.Little, Companion Core) Beide Methoden trennen nicht physikalisch! 21

22 POWER GATING Big.Little: Nur einer der Cluster ist jeweils sichtbar und wird virtuell als einziger Cluster angezeigt Interrupts warden ebenfalls auf diese Art geteilt (GIC, nicht abgebildet) Für die Software sind die Cluster mittels OPP erreichbar Tegra 3 22

23 VERBRAUCH EINZELNER KOMPONENTEN 23

24 Verbrauch einzelner Komponenten 24

25 VERBRAUCH EINZELNER KOMPONENTEN 25

26 VERBRAUCH EINZELNER KOMPONENTEN 26

27 COMPILER Verwendung von Optimierungen Laufzeit optimieren (bei gcc –O2) – Hauptziel der Compilerentwickler Verwendung spezieller Instruktionen (SSE, …) Einige Compiler können Spannungs-/Frequenzsteuerung in Programmen erzeugen 27

28 PROGRAMMIERSTIL Code Effizienz – kleinerer Code = kürzere Ausführungszeit  ”race to idle” Einbeziehung der HW: Spezialhardware wie Timer (bzw. Darauf aufbauende Systemroutinen), Hardwarebeschleunigung ABER: Beachtung Verbrauch Spezial-HW vs. Implementierung in SW (z.B. Kommunikation alá UART vs. bitbanging) 28

29 PROGRAMMIERSTIL Lokale Variablen bzw. Globale Variablen Lokale Variablen brauchen nicht initialisiert werden (bzw. im Speicher nicht angelegt warden) Pointer benutzen Anstatt zusätzlich den Speicher zu kopieren bei Funktionsaufrufen Wird bei AMDs HSA in Zusammenspiel mit CPU/GPU genutzt Programmcode in den RAM  Speicherhierarchie beachten: Je weiter aussen, desto weniger Bits umdrehen 29

30 WIRKUNG DER SOFTWARE HW-Unterstützung weggerechnet bleibt nur die Laufzeit. Je kürzer das Programm läuft, desto kürzer ist bei gleichbleibendem Verbrauch die gesamt verbrauchte Energie. Speicheroptimierungen bringen dagegen nur bei großen Datenmengen, auf denen der Prozessor warten muss etwas, sind sonst nicht messbar. 30

31 SPANNUNG ODER TRANSISTOREN SPAREN? Beispiel AMD Fury Karte (Anz. Shader)LeistungTakt(MHz)Verbrauch(Watt)Leistung/Watt Fury X (4096) ,42 Fury (3584) ,38 Fury Nano (4096)100~ ,57 1.Ist Parallelität möglich, mehr Einheiten statt mehr Takt verwenden 2.“Sweet Spot” bei der Taktung beachten 31

32 WAS REDUZIERT STATISCHE/ WAS DYNAMISCHE VERLUSTE? StatischDynamisch Spezielle HardwareIM GegenteilJA StrukturbreiteJA SchaltungsoptimierungJA FrequenzvariationNEINJA SpannungsvariationJA Clock GatingNEINJA Power GatingJANEIN CompilerNur bei HW-NäheJA ProgrammierstilNEINJA 32

33 WARUM VERWENDET MAN DIESE TECHNIKEN DANN NICHT DAUERND? Spezielle HW zu entwickeln ist sehr teuer und bei zu komplexer Aufgaben nicht geeignet Strukturbreite finanziell nahe dem Ende Schaltungsoptimierung nur in kleinem Rahmen möglich und sehr teuer (vorgefertigte Libraries verwenden Standardzellen) Frequenz-/Spannungsvariationen und Gating(=“race to idle”) schließen sich gegenseitig aus 33

34 REFERENZEN/BILDER EU-Richtlinie: Verlustleistung: Bitcoin-Vergleich: https://en.bitcoin.it/wiki/Mining_hardware_comparisonhttps://en.bitcoin.it/wiki/Mining_hardware_comparison Strukturbreite: P-State/Speed Shift: Atmel 1280 Datenblatt: DVFS: Big.Little-Konzept: Bilder Folie 5-Verlustleistung: Folie 11-Antminer: https://www.bitmaintech.com/userfiles/image/ W8OK7DJt064E.pnghttps://www.bitmaintech.com/userfiles/image/ W8OK7DJt064E.png Folie 13-MOSFET: https://upload.wikimedia.org/wikipedia/commons/3/34/Scheme_of_metal_oxide_semiconductor_field-effect_transistor.svghttps://upload.wikimedia.org/wikipedia/commons/3/34/Scheme_of_metal_oxide_semiconductor_field-effect_transistor.svg Folie 14-Strukturbreite: Folie 15/16-Finfet-Bilder: Folie 19-i.MX28: https://blogs.mentor.com/embedded/blog/2012/08/27/what-is-dynamic-voltage-and-frequency-scaling-and-why-should-you-carehttps://blogs.mentor.com/embedded/blog/2012/08/27/what-is-dynamic-voltage-and-frequency-scaling-and-why-should-you-care Folie 19-P-State/Speed Shift: Folie 20-Atmel Consumption: Folie 22-Big.Little: Folie 22-Companion Core: 34


Herunterladen ppt "ENERGIEVERBRAUCH & VERLUSTLEISTUNG REZNICEK ALEXANDER 1125076."

Ähnliche Präsentationen


Google-Anzeigen