Parallel and Cluster Computing

Slides:



Advertisements
Ähnliche Präsentationen
E-Commerce Shop System
Advertisements

Message Passing Interface (MPI)
Kap. 7 Sortierverfahren Kap. 7.0 Darstellung, Vorüberlegungen
Computersimulation steuert echtes Frontpanel an
KA – Rechnerarchitektur I ____________________________________________________________________________________________ ____________________________________________________________________________________________.
Lizenzen und virtuelle Maschinen
HMI / HMI-SPS XV400 HMI oder HMI-PLC – die CompactFlashTM entscheidet
PC-Cluster.
6. Der OpenMP Standard Direktiven-basiertes API zur Programmierung von Parallelrechnern mit gemeinsamem Speicher für FORTRAN, C und C++
Network-on-Chip basierende Laufzeitsysteme für dynamisch rekonfigurierbare Hardware Ronald Hecht Institut für Mikroelektrotechnik und Datentechnik Universität.
FU Berlin SS 2003 Klaus-Peter Löhr
Enno Rehling und Roger Butenuth, Uni-GH Paderborn: Arminius: Software für Linux-basierte SCI-Cluster Arminius: Software für Linux-basierte SCI-Cluster.
SAP R/3 - Speichermanagement
Microsoft Windows 2000 Terminal Services
Hochskalierbare betriebliche Datenbankanwendungen Adaptive virtuelle Infrastrukturen als Basis für Geschäftsanwendungen der Zukunft Hauptseminar Informatik.
Universität zu Köln IT – Zertifikat der Philosophischen Fakultät / Blockseminar Allgemeine Technologien II mit Patrick Sahle M. A. Online-Datenbanken am.
W. Oberschelp G. Vossen Kapitel 7.
OpenMP Präsentation im Rahmen des Seminars
© 2006 W. Oberschelp, G. Vossen Rechneraufbau & Rechnerstrukturen, Folie 14.1.
Vorlesung: Betriebssysteme © 2002 Prof. Dr. G. Hellberg 1 Studiengang Informatik FHDW Vorlesung Betriebssysteme 3. Quartal 2002.
Studiengang Informatik FHDW
WIRTSCHAFTSINFORMATIK Westfälische Wilhelms-Universität Münster WIRTSCHAFTS INFORMATIK TotalView Debugger Vorgestellt von Marco Dyballa mail:
Medizinische Statistik und Informationsverarbeitung Goldschmidt, Quade, Baur Institut für Medizinische Statistik, Dokumentation und Datenverarbeitung.
Technische Informatik II Rechnerarchitektur und Betriebssysteme Universität Bielefeld – Technische Fakultät AG Rechnernetze und verteilte Systeme Peter.
Vorlesung, Wintersemester 2009/10M. Schölzel 1 Optimierungstechniken in modernen Compilern Einführung.
Datenmanagement in Sensornetzen PRESTO - Feedback gesteuertes Datenmanagement - SS 2007 Sören Wenzlaff.
AMDs Next Generation Die Hammer Familie Eine Kurzpräsentation von Frank Grümmert bei Herrn Prof. Dr.-Ing. Risse für das RST-Labor.
EPIC, IA-64 und Itanium Eine Kurzpräsentation von Jan Hübbers bei Prof. Dr.-Ing. Risse im Fach Labor Rechnerstrukturen an der Hochschule Bremen
LINUX&NT/ Konkurrenz &Kooperation Dürrenweid Professur systeme Betriebs- CheOpS 1 LINUX & Windows NT - Konkurrenz & Kooperation Historie Konfiguration.
Inhalt Der Cell Prozessor Aufbau des Cells Platine Block Diagramm
Beschleunigung Virtueller Privater Netze durch Netzwerkprozessoren
Rechneraufbau & Rechnerstrukturen, Folie 13.1 © W. Oberschelp, G. Vossen W. Oberschelp G. Vossen Kapitel 13.
Evaluierung des ITU-T.124 Telekonferenzstandards
Datenverteilung in Ad-hoc Netzen 1/24 Adaptive Datenverteilung in mobilen Ad-hoc Netzen unter Verwendung des Area Graph basierten Bewegungsmodells S. Bittner,
Duo- und Quad Prozessor-Architektur
Stand: November Anforderungen an Systemumgebung und Hardware Anmerkung Gollas, Schulamt Freising: Für unsere Schulen kommt eine Mehrplatz Installation.
Systeme 1 Kapitel 4 Prozesse WS 2009/10.
Die Finalisten für den Advanced Encryption Standard Advanced Encryption Standard Herbert Frohner Sebastian Hegenbart Joachim Kerschbaumer.
Das Betriebssystem.
Betriebssysteme & BIOS
Service Computing   Prof. Dr. Ramin Yahyapour IT & Medien Centrum 19. Januar 2010.
Kap. 2 - Aufbau von Prozessoren
3.4 CPU-Chips und Busse CPU-Chips
Signal-Prozessoren DSV1, 2009, Hhrt, 1 Mikro-Prozessor Von Neumann-Architektur Daten und Programmcode im gleichen Speicher => Sequenzieller Zugriff auf.
Ein Vortrag von Simon Bayer
Präsentation von Lukas Sulzer
ADAT©2010 Dipl. - Ing. Andrea SabinSeite: 1 Version 1.0c Adat Semester 1.
Multiprozessoren: Herausforderung für die Software
Rechnersysteme: Halbzeit Marcel Waldvogel. Marcel Waldvogel, IBM Zurich Research Laboratory, Universität Konstanz, , 2 Daten und Information.
Systemsoftware und Betriebssysteme
Interprozess- kommunikation (IPC)
JAVA/DSM A Platform for Heterogeneous Computing Serge F. Possono M. Technische Universität Muenchen (TUM) Lehr- und Forschungseinheit Informatik X Rechnertechnik.
2. Kommunikation und Synchronisation von Prozessen 2
Anforderungen an Automotive Bussysteme
Grundlagen, Prinzipien und Aufgaben eines Betriebssystems
Clustering Clustering mit openMosix von Christian Wiese Stefan Krause.
Institute for Software Science – University of ViennaP.Brezany Parallele und verteilte Systeme Peter Brezany Institut für Softwarewissenschaften Universität.
Bulk Synchronous Parallel Computing
ROS – Robot Operating System
2.3 Implementierung von Prozessen
WINDOWS 2003 Server. Standart Varianten für 32 Bit: Web Edition: Unterstützt Single(1)- oder Dual(2)-Prozessor-Systeme und bis zu 2 GB RAM 32-Bit Standard.
Medizinische Statistik und Informationsverarbeitung Goldschmidt, Quade, Baur Institut für Medizinische Statistik, Dokumentation und Datenverarbeitung.
Parallelising Molecular Dynamics for Message Passing Systems (complete) Martin Gerber
Dr. Klaus Ruhlig Technology & Product Consulting Sun Microsystems, München Skalierbare Rechnerarchitekturen für ein DWH: Eine vergleichende Analyse.
Multiprocessing mit OpenMPI Marius Albath. Vorlesung Betriebssysteme, Was ist OpenMPI Was ist OpenMPI OpenMPI Standard Setup OpenMPI Standard.
Technische Universität München, Informatik XI Angewandte Informatik / Kooperative Systeme Verteilte Anwendungen: Einflußreiche Systeme Dr. Wolfgang Wörndl.
Betriebssystem, BIOS, Firmware, Treiber, Systemtools
Magische Wand Ein Spiel zum Thema: Betriebssysteme.
Shared Memory Programmierung: Grundlagen
 Präsentation transkript:

Parallel and Cluster Computing Andreas Polze Institut für Informatik Humboldt-Universität zu Berlin AP 05/00

Deep Blue Deep Blue: 32-Knoten IBM PowerParallel SP2 Computer Am 11.Mai 1997 besiegte Deep Blue den amtierenden Schachweltmeister Garry Kasparov in 6 Spielen Deep Blue: 32-Knoten IBM PowerParallel SP2 Computer 256 spezielle Schach-Prozessoren je Knoten Portables C Programm; AIX Betriebssystem 50-100 Mrd. Züge/3 min.; kennt alle Eröffnungen der Großmeister der letzten 100 Jahre AP 05/00

Cluster Computing Cluster Computing: Client/Server-Systeme haben Großrechner verdrängt – laufen parallele Programme in Workstation Clustern? Standardsysteme profitieren schneller von technologischen Entwicklungen (2 Generationen Vorsprung) -> erst 4-Prozessor-Rechner ist schneller als high-end Workstation Cluster Computing: Parallelrechnerleistung zum Workstationpreis Aber: höhere Kommunikationslatenzzeit Keine (effektiven) Standard-Programmiermodelle Multi-User/Timesharing-Betrieb: Vorhersagbarkeit, Synchronisation? Ausfallsicherheit: weniger HW Redundanz, Überwachung, Diagnose 1992: Jurassic Park, Dinosaurier / Rendering Thinking Machines CM-5 1997: Titanic, Sternenhimmel 1912 DEC Alpha Cluster, Linux AP 05/00

Klassifikation paralleler Rechner Synchrone Parallelität: nur ein Kontrollfluß, einfache Prozessorelemente arbeiten synchron zu Sequencer Asynchrone Parallelität: jeder Prozessor führt eigenes Programm aus; Synchronisation für Datenaustausch nötig AP 05/00

MIMD-Rechner Multiple Instruction Multiple Data (MIMD) AP 05/00

Multiple Instruction Single Data AP 05/00

Single Instruction Multiple Data AP 05/00

Effizienz von SIMD-Rechnern Anwesenheit bedingter Instruktionen kann Grad der Parallelität in einem SIMD-Programm erheblich einschränken. AP 05/00

Organisation des Adreßraumes Bsp: Intel Paragon XP/S, iPSC, CM-5, nCUBE 2 AP 05/00

Shared Memory Systeme Bsp: C.mmp, NYU Ultracomputer AP 05/00

Klassifikation paralleler Rechner Synchrone Parallelität: nur ein Kontrollfluß, einfache Prozessorelemente arbeiten synchron zu Sequencer Asynchrone Parallelität: jeder Prozessor führt eigenes Programm aus; Synchronisation für Datenaustausch nötig AP 05/00

MIMD-Rechner Multiple Instruction Multiple Data (MIMD) AP 05/00

Multiple Instruction Single Data AP 05/00

Single Instruction Multiple Data AP 05/00

Effizienz von SIMD-Rechnern Anwesenheit bedingter Instruktionen kann Grad der Parallelität in einem SIMD-Programm erheblich einschränken. AP 05/00

Organisation des Adreßraumes Bsp: Intel Paragon XP/S, iPSC, CM-5, nCUBE 2 AP 05/00

Shared Memory Systeme Bsp: C.mmp, NYU Ultracomputer AP 05/00

Klassifikation nach Granularität t basic communication Granularität = t basic computation Wenige, leistungsfähige Prozessoren: Coarse grain parallel computers: Cray Y-MP mit 8-16 GFlop-PEs Große Zahl schwacher Prozessoren: Fine grain parallel computers: CM-2 (64k 1-bit-Prozessoren), MasPar MP-1 (bis 16344 4-bit PEs), C.mmp, KSR-1 Weniger als 1000 PEs der Workstation-Klasse: Medium grain parallel computers: CM-5, nCUBE2, Paragon XP/S Problem: beschränkte Menge an Parallelität in vielen Anwendungen AP 05/00

Programmiermodelle - Klassifikation Erzeugen von Parallelität explizit - Coroutinen (Modula-2) - fork & join (cthreads) - parbegin/parend (Algol 68) - Prozesse (UNIX, Mach, VMS), RPCs - Futures shared address space - Primitiven für gegenseitigen Ausschluß - ähnlich sequentieller Programmierung - „leicht zu verstehen“ Datenparallelität - viele Datenelemente gleich behandelt - paßt gut zu SIMD-Computern - ein Kontrollfluß - gut skalierbar vs. implizit - Prolog: parallel AND, OR - vektorielle Ausdrücke (FP, APL) - Matrixoperationen (HPF) vs. message passing - Primitiven für Senden/Empfangen von Nachrichten (send/receive) - lokale (private) Variablen vs. Kontrollparallelität - simultane Ausführung ver- schiedener Instruktionsströme - paßt gut zu MIMD - mehrere Kontrollflüsse - schwer skalierbar Kommunikation Spezifikation paralleler Ausführung AP 05/00

Kontrollparallelität AP 05/00

Datenparallelität FORALL (i=1:n-1) FORALL (j=i+1:n) a(i,j) = a(j,i) END FORALL END FORALL AP 05/00

Idealisierte Parallelrechner Verschiedene Implementationen eines parallelen Algorithmus lassen sich nur schwer vergleichen (n,m)-PRAM modelliert Parallelrechner mit n-PEs und m-Speicherworten; Prozessoren haben gemeinsamen Takt (synchron) Ähnlich einem shared memory MIMD-Computer Idealisierung: - Interaktionen kosten keine Zeit, - unbeschränkte Zahl der Prozessoren (Kontextwechsel bei Multitasking unberücksichtigt) Gemeinsame Modelle für parallele und Cluster-Systeme? AP 05/00

Abbildung der PRAM auf reale Parallelrechner AP 05/00

Asynchrone Kommunikation -- BSP AP 05/00

LogP – ein realistischeres Modell L – latency: für kleine Nachrichten o – overhead: Aufwand für Senden/Empfangen g – gap: minimales Intervall zwischen Nachrichten P – processors: Anzahl Prozessor-/Speichermoduln Modell paßt auf viele Architekturen: - Intel iPSC, Delta, Paragon - Thinking Machines CM-5 Cray T3D Transputer: Meiko Computing Surface, Parsytec GC AP 05/00

Anwendung von LogP AP 05/00

Summation über n-Eingabeknoten LogP ignoriert lange Nachrichten und Sättigung des Kommunikationsmediums AP 05/00

MIMD-Parallelrechner und Cluster-Systeme sind ähnlich! Intel Paragon XP/S Parallelrechner = Workstations + Netzwerk im gemeinsamen Gehäuse Intel i860 RISC CPU Message passing Architektur OSF/1 (Mach Microkernel OS) auf jedem Knoten Zweidimensionales Gitter als Verbindungsnetzwerk 200 Mbyte/s; wormhole routing; Boot-Workstation + Diagnosenetzwerk Compute nodes, service nodes, I/O nodes UNIX-Workstations MIMD-Parallelrechner und Cluster-Systeme sind ähnlich! AP 05/00

Knotenarchitektur 75 MFlops i860; real: 10-40 MFlops OSF/1 unterstützt Message Processor nicht AP 05/00

Paragon Verbindungsnetzwerk Packet-switching; 1024 byte Packete mit 16 bit routing info (flits) RAID-Systeme können an spezielle I/O-Knoten angeschlossen werden I/O-Zugriffe stellen einen potentiellen Flaschenhals dar; I/O-System skaliert schlecht AP 05/00

Partitionierung der Paragon XP/S Behandlung von Prozessor-Fehlern durch Re-partitionierung und Neustart OSF/1 auf jedem Knoten; NX-interface für message passing AP 05/00

Beobachtungen Moderne Parallelrechner benutzen Standard-komponenten (Prozessoren, Speicher, OS). Grob-granulare parallele Systeme (MIMD) sind typisch. Shared memory- und message passing-Programmiermodelle werden unterstützt. Kontrollparallelität überwiegt (Emulationsbibliotheken für datenparalleles Programmieren – HPF – Effizienz?). Ein Prozeß/Anwendung pro Prozessor (Partitionierung anstatt Timesharing). Zuverlässigkeit durch redundante Hardware/ Diagnosenetzwerk. AP 05/00