Parallel and Cluster Computing

Slides:

Advertisements

Ähnliche Präsentationen

E-Commerce Shop System

Advertisements

Message Passing Interface (MPI)

Kap. 7 Sortierverfahren Kap. 7.0 Darstellung, Vorüberlegungen

Computersimulation steuert echtes Frontpanel an

KA – Rechnerarchitektur I ____________________________________________________________________________________________ ____________________________________________________________________________________________.

Lizenzen und virtuelle Maschinen

HMI / HMI-SPS XV400 HMI oder HMI-PLC – die CompactFlashTM entscheidet

6. Der OpenMP Standard Direktiven-basiertes API zur Programmierung von Parallelrechnern mit gemeinsamem Speicher für FORTRAN, C und C++

Network-on-Chip basierende Laufzeitsysteme für dynamisch rekonfigurierbare Hardware Ronald Hecht Institut für Mikroelektrotechnik und Datentechnik Universität.

FU Berlin SS 2003 Klaus-Peter Löhr

Enno Rehling und Roger Butenuth, Uni-GH Paderborn: Arminius: Software für Linux-basierte SCI-Cluster Arminius: Software für Linux-basierte SCI-Cluster.

SAP R/3 - Speichermanagement

Microsoft Windows 2000 Terminal Services

Hochskalierbare betriebliche Datenbankanwendungen Adaptive virtuelle Infrastrukturen als Basis für Geschäftsanwendungen der Zukunft Hauptseminar Informatik.

Universität zu Köln IT – Zertifikat der Philosophischen Fakultät / Blockseminar Allgemeine Technologien II mit Patrick Sahle M. A. Online-Datenbanken am.

W. Oberschelp G. Vossen Kapitel 7.

OpenMP Präsentation im Rahmen des Seminars

© 2006 W. Oberschelp, G. Vossen Rechneraufbau & Rechnerstrukturen, Folie 14.1.

Vorlesung: Betriebssysteme © 2002 Prof. Dr. G. Hellberg 1 Studiengang Informatik FHDW Vorlesung Betriebssysteme 3. Quartal 2002.

Studiengang Informatik FHDW

WIRTSCHAFTSINFORMATIK Westfälische Wilhelms-Universität Münster WIRTSCHAFTS INFORMATIK TotalView Debugger Vorgestellt von Marco Dyballa mail:

Medizinische Statistik und Informationsverarbeitung Goldschmidt, Quade, Baur Institut für Medizinische Statistik, Dokumentation und Datenverarbeitung.

Technische Informatik II Rechnerarchitektur und Betriebssysteme Universität Bielefeld Technische Fakultät AG Rechnernetze und verteilte Systeme Peter.

Vorlesung, Wintersemester 2009/10M. Schölzel 1 Optimierungstechniken in modernen Compilern Einführung.

Datenmanagement in Sensornetzen PRESTO - Feedback gesteuertes Datenmanagement - SS 2007 Sören Wenzlaff.

AMDs Next Generation Die Hammer Familie Eine Kurzpräsentation von Frank Grümmert bei Herrn Prof. Dr.-Ing. Risse für das RST-Labor.

EPIC, IA-64 und Itanium Eine Kurzpräsentation von Jan Hübbers bei Prof. Dr.-Ing. Risse im Fach Labor Rechnerstrukturen an der Hochschule Bremen

LINUX&NT/ Konkurrenz &Kooperation Dürrenweid Professur systeme Betriebs- CheOpS 1 LINUX & Windows NT - Konkurrenz & Kooperation Historie Konfiguration.

Inhalt Der Cell Prozessor Aufbau des Cells Platine Block Diagramm

Beschleunigung Virtueller Privater Netze durch Netzwerkprozessoren

Rechneraufbau & Rechnerstrukturen, Folie 13.1 © W. Oberschelp, G. Vossen W. Oberschelp G. Vossen Kapitel 13.

Evaluierung des ITU-T.124 Telekonferenzstandards

Datenverteilung in Ad-hoc Netzen 1/24 Adaptive Datenverteilung in mobilen Ad-hoc Netzen unter Verwendung des Area Graph basierten Bewegungsmodells S. Bittner,

Duo- und Quad Prozessor-Architektur

Stand: November Anforderungen an Systemumgebung und Hardware Anmerkung Gollas, Schulamt Freising: Für unsere Schulen kommt eine Mehrplatz Installation.

Systeme 1 Kapitel 4 Prozesse WS 2009/10.

Die Finalisten für den Advanced Encryption Standard Advanced Encryption Standard Herbert Frohner Sebastian Hegenbart Joachim Kerschbaumer.

Das Betriebssystem.

Betriebssysteme & BIOS

Service Computing Prof. Dr. Ramin Yahyapour IT & Medien Centrum 19. Januar 2010.

Kap. 2 - Aufbau von Prozessoren

3.4 CPU-Chips und Busse CPU-Chips

Signal-Prozessoren DSV1, 2009, Hhrt, 1 Mikro-Prozessor Von Neumann-Architektur Daten und Programmcode im gleichen Speicher => Sequenzieller Zugriff auf.

Ein Vortrag von Simon Bayer

Präsentation von Lukas Sulzer

ADAT©2010 Dipl. - Ing. Andrea SabinSeite: 1 Version 1.0c Adat Semester 1.

Multiprozessoren: Herausforderung für die Software

Rechnersysteme: Halbzeit Marcel Waldvogel. Marcel Waldvogel, IBM Zurich Research Laboratory, Universität Konstanz, , 2 Daten und Information.

Systemsoftware und Betriebssysteme

Interprozess- kommunikation (IPC)

JAVA/DSM A Platform for Heterogeneous Computing Serge F. Possono M. Technische Universität Muenchen (TUM) Lehr- und Forschungseinheit Informatik X Rechnertechnik.

2. Kommunikation und Synchronisation von Prozessen 2

Anforderungen an Automotive Bussysteme

Grundlagen, Prinzipien und Aufgaben eines Betriebssystems

Clustering Clustering mit openMosix von Christian Wiese Stefan Krause.

Institute for Software Science – University of ViennaP.Brezany Parallele und verteilte Systeme Peter Brezany Institut für Softwarewissenschaften Universität.

Bulk Synchronous Parallel Computing

ROS – Robot Operating System

2.3 Implementierung von Prozessen

WINDOWS 2003 Server. Standart Varianten für 32 Bit: Web Edition: Unterstützt Single(1)- oder Dual(2)-Prozessor-Systeme und bis zu 2 GB RAM 32-Bit Standard.

Medizinische Statistik und Informationsverarbeitung Goldschmidt, Quade, Baur Institut für Medizinische Statistik, Dokumentation und Datenverarbeitung.

Parallelising Molecular Dynamics for Message Passing Systems (complete) Martin Gerber

Dr. Klaus Ruhlig Technology & Product Consulting Sun Microsystems, München Skalierbare Rechnerarchitekturen für ein DWH: Eine vergleichende Analyse.

Multiprocessing mit OpenMPI Marius Albath. Vorlesung Betriebssysteme, Was ist OpenMPI Was ist OpenMPI OpenMPI Standard Setup OpenMPI Standard.

Technische Universität München, Informatik XI Angewandte Informatik / Kooperative Systeme Verteilte Anwendungen: Einflußreiche Systeme Dr. Wolfgang Wörndl.

Betriebssystem, BIOS, Firmware, Treiber, Systemtools

Magische Wand Ein Spiel zum Thema: Betriebssysteme.

Shared Memory Programmierung: Grundlagen

Präsentation transkript:

Parallel and Cluster Computing Andreas Polze Institut für Informatik Humboldt-Universität zu Berlin AP 05/00

Deep Blue Deep Blue: 32-Knoten IBM PowerParallel SP2 Computer Am 11.Mai 1997 besiegte Deep Blue den amtierenden Schachweltmeister Garry Kasparov in 6 Spielen Deep Blue: 32-Knoten IBM PowerParallel SP2 Computer 256 spezielle Schach-Prozessoren je Knoten Portables C Programm; AIX Betriebssystem 50-100 Mrd. Züge/3 min.; kennt alle Eröffnungen der Großmeister der letzten 100 Jahre AP 05/00

Cluster Computing Cluster Computing: Client/Server-Systeme haben Großrechner verdrängt – laufen parallele Programme in Workstation Clustern? Standardsysteme profitieren schneller von technologischen Entwicklungen (2 Generationen Vorsprung) -> erst 4-Prozessor-Rechner ist schneller als high-end Workstation Cluster Computing: Parallelrechnerleistung zum Workstationpreis Aber: höhere Kommunikationslatenzzeit Keine (effektiven) Standard-Programmiermodelle Multi-User/Timesharing-Betrieb: Vorhersagbarkeit, Synchronisation? Ausfallsicherheit: weniger HW Redundanz, Überwachung, Diagnose 1992: Jurassic Park, Dinosaurier / Rendering Thinking Machines CM-5 1997: Titanic, Sternenhimmel 1912 DEC Alpha Cluster, Linux AP 05/00

Klassifikation paralleler Rechner Synchrone Parallelität: nur ein Kontrollfluß, einfache Prozessorelemente arbeiten synchron zu Sequencer Asynchrone Parallelität: jeder Prozessor führt eigenes Programm aus; Synchronisation für Datenaustausch nötig AP 05/00

MIMD-Rechner Multiple Instruction Multiple Data (MIMD) AP 05/00

Multiple Instruction Single Data AP 05/00

Single Instruction Multiple Data AP 05/00

Effizienz von SIMD-Rechnern Anwesenheit bedingter Instruktionen kann Grad der Parallelität in einem SIMD-Programm erheblich einschränken. AP 05/00

Organisation des Adreßraumes Bsp: Intel Paragon XP/S, iPSC, CM-5, nCUBE 2 AP 05/00

Shared Memory Systeme Bsp: C.mmp, NYU Ultracomputer AP 05/00

Klassifikation paralleler Rechner Synchrone Parallelität: nur ein Kontrollfluß, einfache Prozessorelemente arbeiten synchron zu Sequencer Asynchrone Parallelität: jeder Prozessor führt eigenes Programm aus; Synchronisation für Datenaustausch nötig AP 05/00

MIMD-Rechner Multiple Instruction Multiple Data (MIMD) AP 05/00

Multiple Instruction Single Data AP 05/00

Single Instruction Multiple Data AP 05/00

Effizienz von SIMD-Rechnern Anwesenheit bedingter Instruktionen kann Grad der Parallelität in einem SIMD-Programm erheblich einschränken. AP 05/00

Organisation des Adreßraumes Bsp: Intel Paragon XP/S, iPSC, CM-5, nCUBE 2 AP 05/00

Shared Memory Systeme Bsp: C.mmp, NYU Ultracomputer AP 05/00

Klassifikation nach Granularität t basic communication Granularität = t basic computation Wenige, leistungsfähige Prozessoren: Coarse grain parallel computers: Cray Y-MP mit 8-16 GFlop-PEs Große Zahl schwacher Prozessoren: Fine grain parallel computers: CM-2 (64k 1-bit-Prozessoren), MasPar MP-1 (bis 16344 4-bit PEs), C.mmp, KSR-1 Weniger als 1000 PEs der Workstation-Klasse: Medium grain parallel computers: CM-5, nCUBE2, Paragon XP/S Problem: beschränkte Menge an Parallelität in vielen Anwendungen AP 05/00

Programmiermodelle - Klassifikation Erzeugen von Parallelität explizit - Coroutinen (Modula-2) - fork & join (cthreads) - parbegin/parend (Algol 68) - Prozesse (UNIX, Mach, VMS), RPCs - Futures shared address space - Primitiven für gegenseitigen Ausschluß - ähnlich sequentieller Programmierung - „leicht zu verstehen“ Datenparallelität - viele Datenelemente gleich behandelt - paßt gut zu SIMD-Computern - ein Kontrollfluß - gut skalierbar vs. implizit - Prolog: parallel AND, OR - vektorielle Ausdrücke (FP, APL) - Matrixoperationen (HPF) vs. message passing - Primitiven für Senden/Empfangen von Nachrichten (send/receive) - lokale (private) Variablen vs. Kontrollparallelität - simultane Ausführung ver- schiedener Instruktionsströme - paßt gut zu MIMD - mehrere Kontrollflüsse - schwer skalierbar Kommunikation Spezifikation paralleler Ausführung AP 05/00

Kontrollparallelität AP 05/00

Datenparallelität FORALL (i=1:n-1) FORALL (j=i+1:n) a(i,j) = a(j,i) END FORALL END FORALL AP 05/00

Idealisierte Parallelrechner Verschiedene Implementationen eines parallelen Algorithmus lassen sich nur schwer vergleichen (n,m)-PRAM modelliert Parallelrechner mit n-PEs und m-Speicherworten; Prozessoren haben gemeinsamen Takt (synchron) Ähnlich einem shared memory MIMD-Computer Idealisierung: - Interaktionen kosten keine Zeit, - unbeschränkte Zahl der Prozessoren (Kontextwechsel bei Multitasking unberücksichtigt) Gemeinsame Modelle für parallele und Cluster-Systeme? AP 05/00

Abbildung der PRAM auf reale Parallelrechner AP 05/00

Asynchrone Kommunikation -- BSP AP 05/00

LogP – ein realistischeres Modell L – latency: für kleine Nachrichten o – overhead: Aufwand für Senden/Empfangen g – gap: minimales Intervall zwischen Nachrichten P – processors: Anzahl Prozessor-/Speichermoduln Modell paßt auf viele Architekturen: - Intel iPSC, Delta, Paragon - Thinking Machines CM-5 Cray T3D Transputer: Meiko Computing Surface, Parsytec GC AP 05/00

Anwendung von LogP AP 05/00

Summation über n-Eingabeknoten LogP ignoriert lange Nachrichten und Sättigung des Kommunikationsmediums AP 05/00

MIMD-Parallelrechner und Cluster-Systeme sind ähnlich! Intel Paragon XP/S Parallelrechner = Workstations + Netzwerk im gemeinsamen Gehäuse Intel i860 RISC CPU Message passing Architektur OSF/1 (Mach Microkernel OS) auf jedem Knoten Zweidimensionales Gitter als Verbindungsnetzwerk 200 Mbyte/s; wormhole routing; Boot-Workstation + Diagnosenetzwerk Compute nodes, service nodes, I/O nodes UNIX-Workstations MIMD-Parallelrechner und Cluster-Systeme sind ähnlich! AP 05/00

Knotenarchitektur 75 MFlops i860; real: 10-40 MFlops OSF/1 unterstützt Message Processor nicht AP 05/00

Paragon Verbindungsnetzwerk Packet-switching; 1024 byte Packete mit 16 bit routing info (flits) RAID-Systeme können an spezielle I/O-Knoten angeschlossen werden I/O-Zugriffe stellen einen potentiellen Flaschenhals dar; I/O-System skaliert schlecht AP 05/00

Partitionierung der Paragon XP/S Behandlung von Prozessor-Fehlern durch Re-partitionierung und Neustart OSF/1 auf jedem Knoten; NX-interface für message passing AP 05/00

Beobachtungen Moderne Parallelrechner benutzen Standard-komponenten (Prozessoren, Speicher, OS). Grob-granulare parallele Systeme (MIMD) sind typisch. Shared memory- und message passing-Programmiermodelle werden unterstützt. Kontrollparallelität überwiegt (Emulationsbibliotheken für datenparalleles Programmieren – HPF – Effizienz?). Ein Prozeß/Anwendung pro Prozessor (Partitionierung anstatt Timesharing). Zuverlässigkeit durch redundante Hardware/ Diagnosenetzwerk. AP 05/00