Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

0 Univ. Paderborn, FG Theoretische Elektrotechnik 0 Übersicht Motivation und Zielsetzung Grundlagen Funktionsprinzip einer Grafikarter.

Ähnliche Präsentationen


Präsentation zum Thema: "0 Univ. Paderborn, FG Theoretische Elektrotechnik 0 Übersicht Motivation und Zielsetzung Grundlagen Funktionsprinzip einer Grafikarter."—  Präsentation transkript:

1 0 Univ. Paderborn, FG Theoretische Elektrotechnik 0 Übersicht Motivation und Zielsetzung Grundlagen Funktionsprinzip einer Grafikarter

2 1 Univ. Paderborn, FG Theoretische Elektrotechnik 1 Motivation und Zielsetzung

3 2 Univ. Paderborn, FG Theoretische Elektrotechnik 2 CUDA CUDA: Compute Unified Device Architecture Entwickelt von NVIDIA Ermöglicht die Benutzung des Grafikprozessors zur Beschleunigung und Visualisierung wissenschaftlicher und technischer Berechnungen Standard-C-Entwicklungsumgebung Anwendungsbeispiele: Numerik Grafik Signalverarbeitung Wissenschaft

4 3 Univ. Paderborn, FG Theoretische Elektrotechnik 3 Unterlagen

5 4 Univ. Paderborn, FG Theoretische Elektrotechnik 4 Vergleich GPU v. CPU NVIDIA GeForce GTX 260 Stream-Prozessoren: 192 24 Multiprozessoren, mit je 8 Kernen Core-Taktfrequenz : 576 MHz Speicher-Taktfrequenz: 999 MHz Speicher : 896MB Unterstützt Datentyp DOUBLE 1,4 Mrd. Transistoren Vergleich: Intel Core i7 (11/2008) 731 Millionen Transistoren Quelle: http://img2.abload.de/img/gtx260_01ytg.jpg

6 5 Univ. Paderborn, FG Theoretische Elektrotechnik 5 Vergleich GPU v. CPU DRAM Cache ALU Control ALU DRAM GPUCPU

7 6 Univ. Paderborn, FG Theoretische Elektrotechnik 6 Vergleich GPU v. CPU

8 7 Univ. Paderborn, FG Theoretische Elektrotechnik 7 Vergleich GPU v. CPU Hardware-Modell Quelle: NVIDIA CUDA Programming Guide

9 8 Univ. Paderborn, FG Theoretische Elektrotechnik 8 Parallele Operationen in IDR(s) Norm dotMul Matrix*Vector GaussElimination …………

10 9 Univ. Paderborn, FG Theoretische Elektrotechnik 9 matrixMul b a1 a2 a3 a4 a5 a6 a7 a8 A C BLOCKBLOCK 1 a1 b c1 BLOCK 2 a2 b c2 BLOCK 3 a3 b c3 BLOCK n an b c4 c5 c6 c7 c8

11 10 Univ. Paderborn, FG Theoretische Elektrotechnik 10 Dreiecksummation Erwartetes Ergebnis Bei einer Reduktion von 512 Iterationen auf 8 Erwartung: Beschleunigung um ca. Faktor 50 Gemessenes Ergebnis: Beschleunigung nur um Faktor 5 (in Bezug auf rein iterative Summierung)

12 11 Univ. Paderborn, FG Theoretische Elektrotechnik 11 A A

13 12 Univ. Paderborn, FG Theoretische Elektrotechnik 12 BLOCK1 SparseMatrixMultiplikation 1 2 3 4 5 Nmax 1 3 0 2 0 2 3 N+1 0 1 2 3 4 IrPr Jc B A C 1 2 1 3 7 BLOCK2 30 0

14 13 Univ. Paderborn, FG Theoretische Elektrotechnik 13 SparseMatrixMultiplikation BlkY\BlkX1163264128256512 1 2.412.7143.776.9814.5639.76 160.30.932.45 320.31.33 640.36 1280.65 2560.67 5120.71 Matrix: 100000x100000 1 Diagonale GPU:GTX260 Grid size:1024 (ms)

15 14 Univ. Paderborn, FG Theoretische Elektrotechnik 14 SparseMatrixMultiplikation BlkY\BlkX1163264128256512 1 4.0132.78243.81956.9614.57239.82 167.00091.522.56 327.192.11 648.3125 12810.354 2569.97 5129.54 Matrix: 100000x100000 32 Diagonale GPU:GTX260 Grid size:1024 (ms)

16 15 Univ. Paderborn, FG Theoretische Elektrotechnik 15 SparseMatrixMultiplikation Diagonale13163264128 Matlab0.2190.2410.8781.1292.8984 CPU0.03550.0590.27890.53481.1262.399 GPU0.09170.0910.09320.11910.17390.2805 Matrix:5000x5000 Quad CPU: Q6700@2.66GHZ Q6700@2.66GHZ RAM:3.25GB GPU:GTX260 Grid size:1024 Block size: 16x16 (ms)

17 16 Univ. Paderborn, FG Theoretische Elektrotechnik 16 Optimierung.Mögliche Strategie: Dreieckes Summierung(Summierung in Parallel) Minimierung leer laufende Threads.(32 Threads pro Wrap ) Shared Memory (geringere Latenz als globales Memory)

18 17 Univ. Paderborn, FG Theoretische Elektrotechnik 17 Block 1 Optimierung A A(1,1) A(2,1) A(3,1) A(4,1) A(n,1) A(1,2) A(1,n) b(1) b(2) b(n) share b(1) c11 c21 c12 c22 c1n c2n A(1,1)A(2,1) b(n) A(1,n)A(2,n) C2 C1

19 18 Univ. Paderborn, FG Theoretische Elektrotechnik 18 Optimierung M x N 1000x 50 100000x 50 500000x 50 1000x 1000 5000x 5000 CPU1.5615.94803.4487.19 Old GPU2.66926.059130.0380.56411.216 GPU0.2071.0564.9630.1762.998 Quad CPU: Q6700@2.66GHZ RAM:3.25GB GPU:GTX260 Grid size:1024 Block size: 8x64

20 19 Univ. Paderborn, FG Theoretische Elektrotechnik 19 Literature [1] NVIDIA_CUDA_BestPracticesGuide_2.3.pdf [2] NVIDIA_CUDA_BestPracticesGuide_2.3.pdf [3]CudaReferenceManual.pdf [4] White Paper Accelerateing MATLAB with CUDA Using MEX Files [5] Gaußsches Eliminationsverfahren; http://de.wikipedia.org/wiki/Gau%C3%9Fsches_Eliminationsverfahrenhttp://de.wikipedia.org/wiki/Gau%C3%9Fsches_Eliminationsverfahren [6] Peter sonneveld, Martin B. Van Gijzen, IDR(s):A Family of simple and fast algorithms for solving large nosysmmetric systems of linear equations [7] Robert Sedgewick, Algorithmen in C., Pearson Studium, ISBN-10: 3827371821Robert Sedgewick

21 20 Univ. Paderborn, FG Theoretische Elektrotechnik 20


Herunterladen ppt "0 Univ. Paderborn, FG Theoretische Elektrotechnik 0 Übersicht Motivation und Zielsetzung Grundlagen Funktionsprinzip einer Grafikarter."

Ähnliche Präsentationen


Google-Anzeigen