0 Univ. Paderborn, FG Theoretische Elektrotechnik 0 Übersicht Motivation und Zielsetzung Grundlagen Funktionsprinzip einer Grafikarter.

Slides:



Advertisements
Ähnliche Präsentationen
Vom HW-Automaten zum Prozessor
Advertisements

Matrixmultiplikation
Anzahl der ausgefüllten und eingesandten Fragebögen: 211
< CUDA implementation>
Vorlesung: 1 Betriebliche Informationssysteme 2003 Prof. Dr. G. Hellberg Studiengang Informatik FHDW Vorlesung: Betriebliche Informationssysteme Teil3.
Constantin Timm Informatik 12 TU Dortmund
6. Der OpenMP Standard Direktiven-basiertes API zur Programmierung von Parallelrechnern mit gemeinsamem Speicher für FORTRAN, C und C++
Modelle und Methoden der Linearen und Nichtlinearen Optimierung (Ausgewählte Methoden und Fallstudien) U N I V E R S I T Ä T H A M B U R G November 2011.
Vorlesung: 1 Betriebliche Informationssysteme 2003 Prof. Dr. G. Hellberg Studiengang Informatik FHDW Vorlesung: Betriebliche Informationssysteme Teil2.
Parallele Gleichungslöser für die linearen TRACE-Module
Datenmanagement in Sensornetzen PRESTO - Feedback gesteuertes Datenmanagement - SS 2007 Sören Wenzlaff.
1 Der Zusammenbau der Azubirechner des 1. Lehrjahres Von Thomas Kaiser.
AMDs Next Generation Die Hammer Familie Eine Kurzpräsentation von Frank Grümmert bei Herrn Prof. Dr.-Ing. Risse für das RST-Labor.
PCI-Express als Grafikschnittstelle
GPU Architectures: GeForce 8, GeForce 9 and Future
Matrix Multiplication on CUDA
< Best practices >
Beschleunigung Virtueller Privater Netze durch Netzwerkprozessoren
AWA 2007 Natur und Umwelt Natürlich Leben
Rechneraufbau & Rechnerstrukturen, Folie 12.1 © W. Oberschelp, G. Vossen W. Oberschelp G. Vossen Kapitel 12.
Leitfaden Motivation Was ist CUDA ? NVIDIA Grafikkarte Programmierung
Concurrent Garbage Collector
Informationstechnologie
So, ein paar Fragen.. Wo sind mehr Bälle? Wo sind mehr Steine?
20:00.
Supercomputer FSJS-X3000 Lehrlingswettbewerb Züri Oberland 2013 Uster
Duo- und Quad Prozessor-Architektur
Hardware.
Performance-Steigerung durch schnelle Festplatten Ulrich Dinger.
Aufbau und Funktionsweise
EasyDiet Team C Team C1. Das Team Projektdetails Systemvoraussetzungen Funktionsüberblick Showcase Team C2 Agenda.
Clustering mittels Grafikprozessor
Grafikkarten.
Aurora mALX © Christian Barby FIN
... Unternehmens- leitung
GPU Computing Burim Kameri Fachhochschule Hannover (FHH)
GPU Computing Burim Kameri Fachhochschule Hannover (FHH)
EasyDiet Team C Team C1. Agenda Das Team Projektdetails Systemvoraussetzungen Funktionsüberblick Showcase Team C2.
EasyDiet Team C Team C1. Agenda Das Team Projektdetails Systemvoraussetzungen Funktionsüberblick Vorführung EasyDiet Team C2.
Parallel Programming Parallel Matrix Multiplication
3.4 CPU-Chips und Busse CPU-Chips
Algorithm Engineering „GPU Algorithmen“
Hardware.
Ein Vortrag von Simon Bayer
Ertragsteuern, 5. Auflage Christiana Djanani, Gernot Brähler, Christian Lösel, Andreas Krenzin © UVK Verlagsgesellschaft mbH, Konstanz und München 2012.
Geometrische Aufgaben
Übersicht: Hardware Zentraleinheit EVA-Prinzip
Zahlentheorie und Zahlenspiele Hartmut Menzer, Ingo Althöfer ISBN: © 2014 Oldenbourg Wissenschaftsverlag GmbH Abbildungsübersicht / List.
MINDREADER Ein magisch - interaktives Erlebnis mit ENZO PAOLO
Perspektive Konstruktion eines Punkts P Ergebnis in doppelter Größe
Analyseprodukte numerischer Modelle
DDR vs. RDRAM Ein Vergleich von Speichertechnologien Bernhard Fiser Stefan Schönauer.
Folie Beispiel für eine Einzelauswertung der Gemeindedaten (fiktive Daten)
Central Processing Unit von David Kleuker und Thomas Auner
Folie Einzelauswertung der Gemeindedaten
Geschichte der Mikroprozessoren (vom 8086 bis zum Pentium Dual Core
1.6.3 Test auf Verlustfreiheit (Verbundtreue) (4|10)
Datum:17. Dezember 2014 Thema:IFRS Update zum Jahresende – die Neuerungen im Überblick Referent:Eberhard Grötzner, EMA ® Anlass:12. Arbeitskreis Internationale.
Numerical Methods of Electromagnetic Field Theory I (NFT I) Numerische Methoden der Elektromagnetischen Feldtheorie I (NFT I) / 12th Lecture / 12. Vorlesung.
Eine Präsentation von Lennart Böcher und Marcel Remmers
Lernfeld 4: Informationstechnische Systeme Bereitstellen
NOTEBOOKS Grundausstattung und Preisvergleich. Bekannte Hersteller AppleHPSonyToshiba.
Wissenschaftliches Rechnen auf Grafikkarten Achim Grolms Buyu Xiao Guanhua Bai Betreuer: Dipl.-Ing. Bastian Bandlow.
Wissenschaftliches Programmieren „CUDA“ Achim Grolms Buyu Xiao Guanhua Bai Betreuer: Dipl.-Ing. Bastian Bandlow.
© Andreas Dirnberger Referat Intel-Prozessoren Intel-Prozessoren Gliederung: Prozessoren: CentrinoCentrino, CeleronCeleron, Pentium 44, Pentium.
SPEICHER ROM + RAM ROM RAM Arten von RAM (DDR-RAM, SDRAM) Beispiel
Paralleleles Rechnen auf Grafikkarten Einführung Christian Schwarz.
Blowfish mit CUDA Dominik Oepen Inhalt ● Blowfish Grundlagen ● Implementierungsdetails ● Performance ● Fazit.
PC Aufrüsten, Auftrag 1 Systemtools, Benchmark
 Präsentation transkript:

0 Univ. Paderborn, FG Theoretische Elektrotechnik 0 Übersicht Motivation und Zielsetzung Grundlagen Funktionsprinzip einer Grafikarter

1 Univ. Paderborn, FG Theoretische Elektrotechnik 1 Motivation und Zielsetzung

2 Univ. Paderborn, FG Theoretische Elektrotechnik 2 CUDA CUDA: Compute Unified Device Architecture Entwickelt von NVIDIA Ermöglicht die Benutzung des Grafikprozessors zur Beschleunigung und Visualisierung wissenschaftlicher und technischer Berechnungen Standard-C-Entwicklungsumgebung Anwendungsbeispiele: Numerik Grafik Signalverarbeitung Wissenschaft

3 Univ. Paderborn, FG Theoretische Elektrotechnik 3 Unterlagen

4 Univ. Paderborn, FG Theoretische Elektrotechnik 4 Vergleich GPU v. CPU NVIDIA GeForce GTX 260 Stream-Prozessoren: Multiprozessoren, mit je 8 Kernen Core-Taktfrequenz : 576 MHz Speicher-Taktfrequenz: 999 MHz Speicher : 896MB Unterstützt Datentyp DOUBLE 1,4 Mrd. Transistoren Vergleich: Intel Core i7 (11/2008) 731 Millionen Transistoren Quelle:

5 Univ. Paderborn, FG Theoretische Elektrotechnik 5 Vergleich GPU v. CPU DRAM Cache ALU Control ALU DRAM GPUCPU

6 Univ. Paderborn, FG Theoretische Elektrotechnik 6 Vergleich GPU v. CPU

7 Univ. Paderborn, FG Theoretische Elektrotechnik 7 Vergleich GPU v. CPU Hardware-Modell Quelle: NVIDIA CUDA Programming Guide

8 Univ. Paderborn, FG Theoretische Elektrotechnik 8 Parallele Operationen in IDR(s) Norm dotMul Matrix*Vector GaussElimination …………

9 Univ. Paderborn, FG Theoretische Elektrotechnik 9 matrixMul b a1 a2 a3 a4 a5 a6 a7 a8 A C BLOCKBLOCK 1 a1 b c1 BLOCK 2 a2 b c2 BLOCK 3 a3 b c3 BLOCK n an b c4 c5 c6 c7 c8

10 Univ. Paderborn, FG Theoretische Elektrotechnik 10 Dreiecksummation Erwartetes Ergebnis Bei einer Reduktion von 512 Iterationen auf 8 Erwartung: Beschleunigung um ca. Faktor 50 Gemessenes Ergebnis: Beschleunigung nur um Faktor 5 (in Bezug auf rein iterative Summierung)

11 Univ. Paderborn, FG Theoretische Elektrotechnik 11 A A

12 Univ. Paderborn, FG Theoretische Elektrotechnik 12 BLOCK1 SparseMatrixMultiplikation Nmax N IrPr Jc B A C BLOCK2 30 0

13 Univ. Paderborn, FG Theoretische Elektrotechnik 13 SparseMatrixMultiplikation BlkY\BlkX Matrix: x Diagonale GPU:GTX260 Grid size:1024 (ms)

14 Univ. Paderborn, FG Theoretische Elektrotechnik 14 SparseMatrixMultiplikation BlkY\BlkX Matrix: x Diagonale GPU:GTX260 Grid size:1024 (ms)

15 Univ. Paderborn, FG Theoretische Elektrotechnik 15 SparseMatrixMultiplikation Diagonale Matlab CPU GPU Matrix:5000x5000 Quad CPU: RAM:3.25GB GPU:GTX260 Grid size:1024 Block size: 16x16 (ms)

16 Univ. Paderborn, FG Theoretische Elektrotechnik 16 Optimierung.Mögliche Strategie: Dreieckes Summierung(Summierung in Parallel) Minimierung leer laufende Threads.(32 Threads pro Wrap ) Shared Memory (geringere Latenz als globales Memory)

17 Univ. Paderborn, FG Theoretische Elektrotechnik 17 Block 1 Optimierung A A(1,1) A(2,1) A(3,1) A(4,1) A(n,1) A(1,2) A(1,n) b(1) b(2) b(n) share b(1) c11 c21 c12 c22 c1n c2n A(1,1)A(2,1) b(n) A(1,n)A(2,n) C2 C1

18 Univ. Paderborn, FG Theoretische Elektrotechnik 18 Optimierung M x N 1000x x x x x 5000 CPU Old GPU GPU Quad CPU: RAM:3.25GB GPU:GTX260 Grid size:1024 Block size: 8x64

19 Univ. Paderborn, FG Theoretische Elektrotechnik 19 Literature [1] NVIDIA_CUDA_BestPracticesGuide_2.3.pdf [2] NVIDIA_CUDA_BestPracticesGuide_2.3.pdf [3]CudaReferenceManual.pdf [4] White Paper Accelerateing MATLAB with CUDA Using MEX Files [5] Gaußsches Eliminationsverfahren; [6] Peter sonneveld, Martin B. Van Gijzen, IDR(s):A Family of simple and fast algorithms for solving large nosysmmetric systems of linear equations [7] Robert Sedgewick, Algorithmen in C., Pearson Studium, ISBN-10: Robert Sedgewick

20 Univ. Paderborn, FG Theoretische Elektrotechnik 20