Daten&Storagekonzept für die HGF HPC-Datentreffen KIT, 30. September 2011 Volker Gülzow DESY
Volker Gülzow | HPC Datentreffen| | Seite 2 Das Pyramidenmodell des HPC CapabilityPerf # Systems capacity
Volker Gülzow | HPC Datentreffen| | Seite 3 1.) Haben wir Anwendungen, die kurzzeitig große Ressourcen brauchen wie HPC-Projekte? 2.) Sind die Datenquellen UND DER Standort ohne Bedeutung? 3.) Haben wir ein gleiches Betriebsmodell? 4.) Sind die Nutzer gleichermaßen ausgebildet? 5.) Wo ist das HPC Pyramidenmodell übertragbar? -> DESY-Position: Wir brauchen ein erweitertes Modell Ein Datenkonzept I : Passt das Pyramidenmodell?
Volker Gülzow | HPC Datentreffen| | Seite 4 Ein Datenkonzept II: Das themenorientierte Modell Klima Photon Genseq Fair FusionATLAS/CMS Kleine Gruppen Bio andere Satelliten
Volker Gülzow | HPC Datentreffen| | Seite 5 Ein Datenkonzept II: Das themenorientierte Modell Klimasimulation Forschung m. Photon z.B. XFEL Medizin z.B. Kohorte Kern- Teilchenphysik z.B. LHC&Fair Energie z.B. Fusion Chemie Luft- u. Raumfahrt, Verkehr Biologie z.B. Gensequenzierung ………… EOS/Satelliten Integriertes Datenmanagement
Volker Gülzow | HPC Datentreffen| | Seite 6 Datenkonzept III > Große Forschungsthemen wie z.B. Forschung mit Photonen, Gensequenzierung etc. produzieren alleine viele -zig PB Daten/Jahr > Die enge Verbindung von Analyse und Datenspeicherung ist ein Mehrwert, fachlich und technisch > Innerhalb eines Forschungsgebietes macht ein Pyramidenmodell Sinn (z.B. werden Beamlines am DESY von anderen Zentren betrieben) > Ein HGF-weites Angebot für kleine Gruppen ist sinnvoll > Verteilte Konzept sind gewinnbringend für Services wie z.B. Backup > Gemeinsame Lösung für „long term data preservation“ sind nötig (HEP hat z.B. eine Initiative) > Gemeinsame Softwareentwicklungen, Metadatenkonzepte, Interfaces, Know How exchange etc sind ein Gewinn > Forschungsbereichsübergreifende Aktivität
Volker Gülzow | HPC Datentreffen| | Seite 7 Application Prev. gen. data rates [GB/h] Planned data rates [GB/h] CPU Vielfache PeakAveragePeakAverage [*measurement duration] Protein Crystallography Coherent diffraction imaging >100 Tomography >100 Spectroscopy >100 Small angle scattering >>1000 Grain mapping >10 In-situ dilatometry >10 in-situ imagingN/A >100 Focal spectrometer >10 Nano-Crystallography (FEL) >>1000
Volker Gülzow | HPC Datentreffen| | Seite 8 Zu den Kosten > Disk-Space ist abhängig von der Qualität: > Einfach am Netz: ~ €/TB > Mittel am Netz: ~ €/TB > Hochwertig am Netz: ~ 2000€/TB > Tape 800 GB LTO5: ~ 40€ > Analysefarm/Cluster > Personal z.B. 4 FTE zum reinen Betrieb von einigen PB disk/tape > Netzwerk > ….
Volker Gülzow | HPC Datentreffen| | Seite 9 Konzeptpapier sollte enthalten: > Verteilten Ansatz, themenorientiert > Mehrwert für die HGF > Bedarfsabschätzungen z.B. 50 PB/Jahr für Photon Science usw > Lösungsvorschläge > Softwarethemen > Infrastrukturthemen