Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

DV-Treffen, 20.11.98Folie 1 Renate Dohmen PC-Cluster für trivial-parallele Applikationen Renate Dohmen MPI für Plasmaphysik, Rechenzentrum Motivation Hardware,

Ähnliche Präsentationen


Präsentation zum Thema: "DV-Treffen, 20.11.98Folie 1 Renate Dohmen PC-Cluster für trivial-parallele Applikationen Renate Dohmen MPI für Plasmaphysik, Rechenzentrum Motivation Hardware,"—  Präsentation transkript:

1 DV-Treffen, 20.11.98Folie 1 Renate Dohmen PC-Cluster für trivial-parallele Applikationen Renate Dohmen MPI für Plasmaphysik, Rechenzentrum Motivation Hardware, Software, Administration 2 trivial parallele Applikationen im Test Zusammenfassung, Bewertung

2 Renate Dohmen Folie 2 DV-Treffen, 20.11.98 Motivation Höchstleistungsrechner im IPP: – Cray T3E: massiv paralleler Rechner mit verteiltem Speicher und schnellem, teurem Kommunikationsnetzwerk – NEC SX4: schneller Vektorrechner trivial parallele Applikationen: – viel Rechnung – wenig Kommunikation – konzentrierte Kommunikationsphase

3 Renate Dohmen Folie 3 DV-Treffen, 20.11.98 Hardware, Software, Administration Hardware: – 4 Pentium-II-Maschinen mit 233 MHz Taktrate und 128 MB Hauptspeicher – Fast Ethernet Netzwerktopologie Adminstration: – halbautomatische Installationssoftware (erstellt von K. Lehnberger, RZG) – Installation, Booten und Verteilungen übers Netz Software: – Betriebssystem: Red Hat Linux – Compiler: Nag f90, Portland Group pgf90, Gnu cc und f77 – Kommunikationsbibliothek: public domain mpich

4 Renate Dohmen Folie 4 DV-Treffen, 20.11.98 Hardware, Software, Administration Test verschiedener Compiler anhand einer ausgewählten sequentiellen F90-Applikation System, CompilerZeit Leistung Prozessor rel. zur T3E Cray T3E:52.1 s1.0(Alpha 21164,300 MHz) Portland Group f90 + Linux:70.2 s0.7(Pentium II,233 MHz) Nag f90 + Linux:82.2 s0.6(Pentium II,233 MHz) Digital F90 + Windows NT: 111.3 s0.5(Pentium Pro,200 MHz) Digital F90 + Windows 95:224.6 s0.2(Pentium,166 MHz)

5 Renate Dohmen Folie 5 DV-Treffen, 20.11.98 2 trivial parallele Testapplikationen 1. Monte-Carlo-Code TRIM: Targetsputtering an Oberflächen (W. Eckstein, IPP) – Verteilung einfallender Ionen zu Beginn – parallele Berechnung unabhängiger Teilchenschauer – Einsammeln der Ergebnisse am Ende 2. Maximum-Entropy-Code SKYMOS: Berechnung von Himmelskarten (A. Strong, MPE) – Verteilung voneinander unabhängiger Beobachtungen – iterative Berechnung von Näherungslösungen – 20 Iterationen von 1 Stunde Dauer auf 200 T3E-Prozessoren – 1 Kommunikationsphase pro Iteration

6 Renate Dohmen Folie 6 DV-Treffen, 20.11.98 2 trivial parallele Testapplikationen Vergleich PC-Cluster / T3E Laufzeit TRIM auf np = 1, 2 und 4 Prozessoren: np = 1np = 2np = 4 T3E 582.06 s291.90 s147.06 s PC-Cluster (pgf90)1156.25 s580.55 s290.35 s 50% Performance-Einbuße, Skalierung bleibt erhalten.

7 Renate Dohmen Folie 7 DV-Treffen, 20.11.98 2 trivial parallele Testapplikationen Vergleich PC-Cluster / T3E Laufzeit SKYMOS auf 4 Prozessoren für 2 Datensätze: Datensatz 1 Datensatz 2 gesamt Komm.gesamtKomm. T3E66.2 s2.5 s919.2 s3.0 s PC-Cluster (pgf90)222.4 s121.6 s1986.8 s159.0 s Netzleistung: Broadcast: – T3E: 600 MByte/s peak 163.5 MByte/s – Fast Ethernet: 12 MByte/s peak 3.3 Mbyte/s

8 Renate Dohmen Folie 8 DV-Treffen, 20.11.98 2 trivial parallele Testapplikationen Performance eines parallelen Programms auf dem PC-Cluster im Vergleich zur T3E kann man bei gleicher Prozessorzahl abschätzen: – c = Kommunikationsanteil im parallelen Programm auf der T3E – Einzelprozessorleistung des benutzten PCs um Faktor 2 schlechter als auf T3E – Kommunikationsnetz beim PC-Cluster um Faktor 50 langsamer als auf T3E Angenommen, ein PC kostet n-mal weniger als ein T3E-Prozessor. Dann lohnt sich der Einsatz des PC-Clusters für Programme, bei denen der Kommunikations- anteil so klein ist, daß folgende Bedingung erfüllt ist.

9 Renate Dohmen Folie 9 DV-Treffen, 20.11.98 Hardware, Software, Administration Güte der Software: 1. Die Compiler weisen einige Besonderheiten auf, die Codeänderungen erforderlich machen können: NAG: --strikte Einhaltung des F90-Standards --Größe des Output-Buffers 64 kB --alloc / dealloc funktioniert nicht in allen Optimierungsstufen PGf90:--internal subroutines nicht richtig implementiert 2.Die frei zugängliche MPI-Bibliothek mpich machte keine Probleme. 3. Bibliotheken:Nag-Bibliothek ist verfügbar, andere numerische Standardbibliotheken fehlen

10 Renate Dohmen Folie 10 DV-Treffen, 20.11.98 Zusammenfassung, Bewertung Erfahrungen mit dem PC-Cluster – Einzelprozessorleistung des PCs durchaus attraktiv – administrativer Aufwand nicht vernachlässigbar – bei Verwendung von Fast Ethernet nur für Applikationen mit sehr geringem Kommunikationsaufwand geeignet – Fortran-90-Compiler noch nicht sehr ausgereift, eingeschränkte Verfügbarkeit numerischer Bibliotheken Fazit Ein PC-Cluster sollte als Alternative zur T3E erst dann ins Auge gefaßt werden, – wenn die Preise für PCs so weit sinken, daß der zusätzliche administrative Aufwand von etwa 1/2 Personalstelle im RZG gerechtfertigt scheint, – wenn die Ressourcen auf der T3E so knapp werden, daß die Benutzer zu der nötigen Mehrarbeit bei der Portierung trivial paralleler Codes bereit sind.


Herunterladen ppt "DV-Treffen, 20.11.98Folie 1 Renate Dohmen PC-Cluster für trivial-parallele Applikationen Renate Dohmen MPI für Plasmaphysik, Rechenzentrum Motivation Hardware,"

Ähnliche Präsentationen


Google-Anzeigen