Large Scale Data Management and Analysis Überblick, Status, Ziele Christopher Jung, SCC, KIT
Überblick Motivation Struktur und Ziele von LSDMA Termine in den nächsten 12 Monaten Ausführliche Bedarfsanalyse Erfolgskriterien
Motivation Datenquellen (Experiment, Observation, Simulation) nehmen rapide ansteigende Datenmengen auf O(Daten) >> O(Fileserver) Wissenschaftliche Daten können nicht oder nur unter hohen Kosten reproduziert werden Räumlich verteilte Kollaborationen und Ressourcen Erhöhte Komplexität in vielen Wissenschaften Umgang mit Daten spielt eine immer größer werdende Rolle
Die Säulen der Wissenschaft Experiment Daten Simulation Simulation Theorie Tony Hey, Stewart Tansley, Kristin Tolle, The Fourth Paradigm: Data-Intensive Scientific Discovery, Microsoft Research, ISBN 978-0982544204, http://research.microsoft.com/en-us/collaboration/fourthparadigm/ seit einigen Jahren vor einigen hundert Jahren vor einigen Jahrzenten
Daten im Zyklus des wissenschaftlichen Erkenntnisgewinns LSDMA-Themen: Management und Analyse großer Datenmengen
Aspekte von Datenmanagement und -analyse Daten Ingest Metadaten Datentransfer, Datenmigration Langzeitarchivierung und Authentizität Identitätsmanagement, Authentifizierung u. Autorisierung … Datenanalyse (Re-)Prozessierung von Rohdaten Paralleles und verteiltes, datenintensives Rechnen Semantische Analyse Analyse verdichteter Daten Qualitätsmanagement Datenintensive Analyseworkflows … Anforderungen an Datenlebenszyklus abhängig von Community und Experiment Große Zahl von Services und Tools werden von vielen Communities benötigt
Struktur und Ziele von LSDMA Data Life Cycle Labs Gemeinsame F&E mit den Communties Optimierung des Datenlebenszyklus Spezifische Datenanalysetools und -services Data Services Integration Team Generische, Community-übergreifende F&E Schnittstelle zwischen föderierten Dateninfrastrukturen und DLCLs/Communities Integration von Datenservices in wissenschaftlichen Arbeitsprozess DLCLs+DSIT=Inhalt und Alleinstellungsmerkmal von LSDMA
DLCLs: Definition Teams von Datenexperten aus der Wissenschaft, die eng mit den jeweiligen Communities zusammenarbeiten Erstellung und iterative Optimierung des spezifischen Datenlebenszyklus Etablieren/optimieren von Standards für Daten Management, Technologien und Werkzeuge Definiton und Optimierung von Datenformaten Organisation von Daten und Metadaten Etablierung von standardisierten Datenmanagement-Techniken Einfachen Zugriff zum föderierten Datenspeicher etablieren Langzeitarchivierung, ggf. in Open Access Archiven …
DLCLs: Themen Orientieren sich an HGF-Forschungsbereiche Energie SmartGrids, Batterieforschung, Fusionsforschung Erde und Umwelt Klimamodell- und Messdaten Gesundheit Gehirnatlas Schlüsseltechnologien Synchroton, Nanoskopie, Hochdurchsatz-Mikroskope, elektronenmikroskopische Abbildungsverfahren Struktur der Materie Petra 3, XFEL, FAIR
DSIT: Themengebiete Data-Intensive Computing & Application Monitoring High Data Throughput Datenintensive Workflows Paralles und Verteiltes Computing Schnittstellen zu Plattformintegration, I/O Libraries Universal Data Access Datenzugriff Welteite Föderationen Identitätsverwaltung, Authentifikation und Autorisation Migration, Preservation und Curation Bitstream and Content Preservation Archivierung und Authentizität Metadaten und Migration Referenzierung Storage System Design Schnelle/optimierte Storagestrukturen Metropolitan Area Systeme Data Life Cycle Management Energieeffiziente Speichersysteme
Daten zu LSDMA Dauer: 1.1.2012-31.12.2016 Fördersumme: 13 M€ über fünf Jahre Partner: 4 HGF, 6 universitäre Partner, 1 außeruniversitärer Partner
Projektstruktur Koordinator: Achim Streit (KIT) Manager: Christopher Jung (KIT) (Vorläufige) TPLs und DSIT-Teilbereichsleiter DLCL Schlüsseltechnologien: Rainer Stotzka (KIT) DLCL Gesundheit: André Giesler (FZ Jülich) DLCL Erde und Umwelt: Silke Halstenberg (KIT) DLCL Struktur der Materie: Martin Gasthuber (DESY) DLCL Energie: Hartmut Schmeck (KIT) DSIT: Marcus Hardt (KIT) DSIT-Teilbereich Migration, Preservation und Curation: Jos van Wezel (KIT) DSIT-Teilbereich Date-Intensive Computing and Application: Thomas Jejkal (KIT) DSIT-Teilbereich Universal Data Access: Martin Gasthuber (DESY) DSIT-Teilbereich Storage System Design: Martin Gasthuber (DESY)
Möglichkeiten zur Weiterentwicklung HGF-weites Konzept ‘Weiterentwicklung von Höchstleistungsrechnen und Massendaten-Management in der Helmholtz-Gemeinschaft‘ Konzept-Papier ‘Scientific Data Management and Support‘ schlägt weitere 13 DLCLs themenspezifisch in den HGF-Zentren vor: AWI: marine and polar research DESY: matter DKFZ: bio-medical data DKRZ/HZG: climate DLR: earth observation FZJ: biomolecular research GSI: FAIR-data HMGU: environmental diseases HZB: photons and neutrons HZDR: laser-driven radiation sources IPP/RZG: magnetic plasma KIT: astro particle UFZ: water-research, geo data Bei positivem Feedback in HGF-Präsidium und -Senat Beantragung von Anschubfinanzierung bis POF-3
Termine in den nächsten 12 Monaten 1.1.2012: Projektbeginn 22.3.2012: Kickoff-Workshop 31.3.2012: Ausführliche Bedarfsanalyse (mehr Details auf den folgenden Folien) 30.6.2012: Etablierung von DSIT und DLCLs 27.8.-31.8.2012: GridKa School 25.9.2012: 1. LSDMA-Symposium 26.9.2012: All-Hands Face-to-Face Meeting 30.9.2012: Detaillierte Projektpläne für nächste 18 Monate Januar 2013: 1. Community Forum März 2013: All-Hands Face-to-Face Meeting 31.3.2013: Aktualisierte ausführliche Bedarfsanalyse
1. Meilenstein: Ausführliche Bedarfsanalyse Fragestellung für jede Nutzergruppe: Wie sieht der Data Life Cycle zur Zeit aus? Wie würde der ‘ideale‘ Data Life Cycle aussehen? Welche Entwicklungen sind zum Erreichen des ‘idealen‘ Data Life Cycles notwendig? Vorgeschlagener Zeitplan: Erstellung geht mit Etablierung der DLCLs einher 13.4.2012: Folien von jedem DLCL 4.5.2012: ausführliche Folien von jedem DLCL 31.5.2012: ausführlicher Text von jedem DLCL 30.6.2012: Fertigstellung der ausführliche Bedarfsanalyse
Bedarfsanalyse: DLCL Gesundheit DLCL Gesundheit unterstützt die Erstellung eines Gehirnatlas für das menschliche Gehirn Grundlage bilden hauchdünne Gewebeschnitte von 50nm Dicke Daten der Gewebeschnitte werden momentan in einer Metadatenstruktur vorgehalten Es sind bereits proprietäre Methoden vorhanden um die Daten für die weitere Analyse zu prozessieren Aufnahmen müssen auf unbestimmte Zeit verfügbar sein Initiales Treffen zwischen FZJ Instituten JSC und INM am 4. April zur Durchführung einer Bedarfsanalyse im Hinblick auf: Skalierung großer Datensätze Metadaten-Kataloge Versionskontrolle Archivierung auf einer verteilten Datenstruktur
DLCL Erde und Umwelt Programm “Atmosphäre und Klima”, evtl. auch “Geosystem: Erde im Wandel” Kontaktfindungsphase (z.B. zum DKRZ und zum IMK (KIT)) Themen: Transparente Datenidentifikation (Metadatensuche) Standardisierte Metadaten- und Datenschnittstellen Transparenter Datenzugriff bei wechselnden oder verteilten Datenlokationen Versionierung Datenreplikation Archivierung Verlinkung (die meisten Themen wurden herausgegriffen aus Folien zu ENES von Michael Lautenschlager, DKRZ beim „EUDAT User Forum”)
DLCLs Energie und Schlüsseltechnologien Energy Competence E ANKA Tomo ANKA Reconstruction Biology SPIM Selective Plane Illumination Microscopy DLC definition Partly described Curation has to be defined In preparation Various DLCs required Complex with many components and decision points Moderate complexity Workflows required Data formats Proprietary Data base NeXus HDF 5 Result format has to be defined Image formats Meta data and search Very important Meta data harvesting? Standards required Required XML Standards requited for meta data harvesting, OAI-PMH Data volume 100 GB/a Huge amount of very small data sets 0.5 PB/a raw data Large data sets 0.5 PB/a results 300 TB raw data 300 TB results + more 7 TB/d Data access Federated High performant From other institutions Federations Within KIT (CS+CN) 300 MB/s Data processing During data collection and offline DIC, MapReduce Online processing See reconstruction Reconstruction runs on DIC infrastructures Time consuming Memory consuming Parallelization Near real time Complex algorithms DIC Image registration Pattern recognition Components DAQ Workflow management Repositories Long-term archives Preprocessing GPU cluster ANKA user management Portals Archives + repositories … LAMBDA Reconstruction library DIC infrastructure Matlab, Java Portal? Portal Data harvesting Microscope + local storage LSDF repository
Erfolgskriterien LSDMA (I) Kriterien sollten SMART (=Specific, Measuarable, Accepted, Realistic, Time-oriented) sein für die meisten Kriterien machbar Vorschläge für Kriterien: Publikationen Anzahl der Peer-Review LSDMA-Publikationen, z.B. Publikationen durch gemeinsame F&E von Anwendungs- und Daten-Experten zu optimierten bzw. neuen Data Life Cycles oder Publikationen, die durch optimierte bzw. neue Data Life Cycles oder durch in LSDMA entwickelt Analysemethoden ermöglicht oder maßgeblich verbessert wurden Anzahl der Artikel in gesellschaftsrelevanten Publikationen und der Vorträge bei gesellschaftsrelevanten Ereignissen Anzahl der Citations
Erfolgskriterien LSDMA (II) Verbreitung und Nutzung Verbreitungsgrad von LSDMA-Ergebnissen in weiteren Communities (national und international) Grad der Standardisierung von Technologien, Verfahren und Werkzeugen Nutzung von zentralen Forschungsdaten-Repositoryservices und verteilten Archive durch Communities Anzahl der Downloads aus dem zentralen LSDMA-Software-Repository Einsatz der in DSIT entwickelten Tools/Technologien in den DLCLs
Erfolgskriterien LSDMA (III) Daten Erhöhung des Data Ingests Menge der dauerhaft nutzbaren Daten Beschleunigung der Datenprozessierung Nutzung neuer Datenanalysemethoden, die durch LSDMA ermöglicht werden Vernetzung Workshops innerhalb der HGF und darüber hinaus (“Community Building“) Wissenschaftliche Workshops bei internationalen Konferenzen Aktive Beteiligung an internationalen Projekten Anzahl von Vorträgen, z.B. bei Workshops
Viele Dank für Ihr Aufmerksamkeit! Organisatorische Fragen werden heute Nachmittag diskutiert Viele Dank für Ihr Aufmerksamkeit!