Präsentation herunterladen
Die Präsentation wird geladen. Bitte warten
Veröffentlicht von:Damian Fiedler Geändert vor über 6 Jahren
1
Large Scale Data Management and Analysis
Überblick, Status, Ziele Christopher Jung, SCC, KIT
2
Überblick Motivation Struktur und Ziele von LSDMA
Termine in den nächsten 12 Monaten Ausführliche Bedarfsanalyse Erfolgskriterien
3
Motivation Datenquellen (Experiment, Observation, Simulation) nehmen rapide ansteigende Datenmengen auf O(Daten) >> O(Fileserver) Wissenschaftliche Daten können nicht oder nur unter hohen Kosten reproduziert werden Räumlich verteilte Kollaborationen und Ressourcen Erhöhte Komplexität in vielen Wissenschaften Umgang mit Daten spielt eine immer größer werdende Rolle
4
Die Säulen der Wissenschaft
Experiment Daten Simulation Simulation Theorie Tony Hey, Stewart Tansley, Kristin Tolle, The Fourth Paradigm: Data-Intensive Scientific Discovery, Microsoft Research, ISBN , seit einigen Jahren vor einigen hundert Jahren vor einigen Jahrzenten
5
Daten im Zyklus des wissenschaftlichen Erkenntnisgewinns
LSDMA-Themen: Management und Analyse großer Datenmengen
6
Aspekte von Datenmanagement und -analyse
Daten Ingest Metadaten Datentransfer, Datenmigration Langzeitarchivierung und Authentizität Identitätsmanagement, Authentifizierung u. Autorisierung … Datenanalyse (Re-)Prozessierung von Rohdaten Paralleles und verteiltes, datenintensives Rechnen Semantische Analyse Analyse verdichteter Daten Qualitätsmanagement Datenintensive Analyseworkflows … Anforderungen an Datenlebenszyklus abhängig von Community und Experiment Große Zahl von Services und Tools werden von vielen Communities benötigt
7
Struktur und Ziele von LSDMA
Data Life Cycle Labs Gemeinsame F&E mit den Communties Optimierung des Datenlebenszyklus Spezifische Datenanalysetools und -services Data Services Integration Team Generische, Community-übergreifende F&E Schnittstelle zwischen föderierten Dateninfrastrukturen und DLCLs/Communities Integration von Datenservices in wissenschaftlichen Arbeitsprozess DLCLs+DSIT=Inhalt und Alleinstellungsmerkmal von LSDMA
8
DLCLs: Definition Teams von Datenexperten aus der Wissenschaft, die eng mit den jeweiligen Communities zusammenarbeiten Erstellung und iterative Optimierung des spezifischen Datenlebenszyklus Etablieren/optimieren von Standards für Daten Management, Technologien und Werkzeuge Definiton und Optimierung von Datenformaten Organisation von Daten und Metadaten Etablierung von standardisierten Datenmanagement-Techniken Einfachen Zugriff zum föderierten Datenspeicher etablieren Langzeitarchivierung, ggf. in Open Access Archiven …
9
DLCLs: Themen Orientieren sich an HGF-Forschungsbereiche Energie
SmartGrids, Batterieforschung, Fusionsforschung Erde und Umwelt Klimamodell- und Messdaten Gesundheit Gehirnatlas Schlüsseltechnologien Synchroton, Nanoskopie, Hochdurchsatz-Mikroskope, elektronenmikroskopische Abbildungsverfahren Struktur der Materie Petra 3, XFEL, FAIR
10
DSIT: Themengebiete Data-Intensive Computing & Application
Monitoring High Data Throughput Datenintensive Workflows Paralles und Verteiltes Computing Schnittstellen zu Plattformintegration, I/O Libraries Universal Data Access Datenzugriff Welteite Föderationen Identitätsverwaltung, Authentifikation und Autorisation Migration, Preservation und Curation Bitstream and Content Preservation Archivierung und Authentizität Metadaten und Migration Referenzierung Storage System Design Schnelle/optimierte Storagestrukturen Metropolitan Area Systeme Data Life Cycle Management Energieeffiziente Speichersysteme
11
Daten zu LSDMA Dauer: Fördersumme: 13 M€ über fünf Jahre Partner: 4 HGF, 6 universitäre Partner, 1 außeruniversitärer Partner
12
Projektstruktur Koordinator: Achim Streit (KIT)
Manager: Christopher Jung (KIT) (Vorläufige) TPLs und DSIT-Teilbereichsleiter DLCL Schlüsseltechnologien: Rainer Stotzka (KIT) DLCL Gesundheit: André Giesler (FZ Jülich) DLCL Erde und Umwelt: Silke Halstenberg (KIT) DLCL Struktur der Materie: Martin Gasthuber (DESY) DLCL Energie: Hartmut Schmeck (KIT) DSIT: Marcus Hardt (KIT) DSIT-Teilbereich Migration, Preservation und Curation: Jos van Wezel (KIT) DSIT-Teilbereich Date-Intensive Computing and Application: Thomas Jejkal (KIT) DSIT-Teilbereich Universal Data Access: Martin Gasthuber (DESY) DSIT-Teilbereich Storage System Design: Martin Gasthuber (DESY)
13
Möglichkeiten zur Weiterentwicklung
HGF-weites Konzept ‘Weiterentwicklung von Höchstleistungsrechnen und Massendaten-Management in der Helmholtz-Gemeinschaft‘ Konzept-Papier ‘Scientific Data Management and Support‘ schlägt weitere 13 DLCLs themenspezifisch in den HGF-Zentren vor: AWI: marine and polar research DESY: matter DKFZ: bio-medical data DKRZ/HZG: climate DLR: earth observation FZJ: biomolecular research GSI: FAIR-data HMGU: environmental diseases HZB: photons and neutrons HZDR: laser-driven radiation sources IPP/RZG: magnetic plasma KIT: astro particle UFZ: water-research, geo data Bei positivem Feedback in HGF-Präsidium und -Senat Beantragung von Anschubfinanzierung bis POF-3
14
Termine in den nächsten 12 Monaten
: Projektbeginn : Kickoff-Workshop : Ausführliche Bedarfsanalyse (mehr Details auf den folgenden Folien) : Etablierung von DSIT und DLCLs : GridKa School : 1. LSDMA-Symposium : All-Hands Face-to-Face Meeting : Detaillierte Projektpläne für nächste 18 Monate Januar 2013: 1. Community Forum März 2013: All-Hands Face-to-Face Meeting : Aktualisierte ausführliche Bedarfsanalyse
15
1. Meilenstein: Ausführliche Bedarfsanalyse
Fragestellung für jede Nutzergruppe: Wie sieht der Data Life Cycle zur Zeit aus? Wie würde der ‘ideale‘ Data Life Cycle aussehen? Welche Entwicklungen sind zum Erreichen des ‘idealen‘ Data Life Cycles notwendig? Vorgeschlagener Zeitplan: Erstellung geht mit Etablierung der DLCLs einher : Folien von jedem DLCL : ausführliche Folien von jedem DLCL : ausführlicher Text von jedem DLCL : Fertigstellung der ausführliche Bedarfsanalyse
16
Bedarfsanalyse: DLCL Gesundheit
DLCL Gesundheit unterstützt die Erstellung eines Gehirnatlas für das menschliche Gehirn Grundlage bilden hauchdünne Gewebeschnitte von 50nm Dicke Daten der Gewebeschnitte werden momentan in einer Metadatenstruktur vorgehalten Es sind bereits proprietäre Methoden vorhanden um die Daten für die weitere Analyse zu prozessieren Aufnahmen müssen auf unbestimmte Zeit verfügbar sein Initiales Treffen zwischen FZJ Instituten JSC und INM am 4. April zur Durchführung einer Bedarfsanalyse im Hinblick auf: Skalierung großer Datensätze Metadaten-Kataloge Versionskontrolle Archivierung auf einer verteilten Datenstruktur
17
DLCL Erde und Umwelt Programm “Atmosphäre und Klima”, evtl. auch “Geosystem: Erde im Wandel” Kontaktfindungsphase (z.B. zum DKRZ und zum IMK (KIT)) Themen: Transparente Datenidentifikation (Metadatensuche) Standardisierte Metadaten- und Datenschnittstellen Transparenter Datenzugriff bei wechselnden oder verteilten Datenlokationen Versionierung Datenreplikation Archivierung Verlinkung (die meisten Themen wurden herausgegriffen aus Folien zu ENES von Michael Lautenschlager, DKRZ beim „EUDAT User Forum”)
18
DLCLs Energie und Schlüsseltechnologien
Energy Competence E ANKA Tomo ANKA Reconstruction Biology SPIM Selective Plane Illumination Microscopy DLC definition Partly described Curation has to be defined In preparation Various DLCs required Complex with many components and decision points Moderate complexity Workflows required Data formats Proprietary Data base NeXus HDF 5 Result format has to be defined Image formats Meta data and search Very important Meta data harvesting? Standards required Required XML Standards requited for meta data harvesting, OAI-PMH Data volume 100 GB/a Huge amount of very small data sets 0.5 PB/a raw data Large data sets 0.5 PB/a results 300 TB raw data 300 TB results + more 7 TB/d Data access Federated High performant From other institutions Federations Within KIT (CS+CN) 300 MB/s Data processing During data collection and offline DIC, MapReduce Online processing See reconstruction Reconstruction runs on DIC infrastructures Time consuming Memory consuming Parallelization Near real time Complex algorithms DIC Image registration Pattern recognition Components DAQ Workflow management Repositories Long-term archives Preprocessing GPU cluster ANKA user management Portals Archives + repositories … LAMBDA Reconstruction library DIC infrastructure Matlab, Java Portal? Portal Data harvesting Microscope + local storage LSDF repository
19
Erfolgskriterien LSDMA (I)
Kriterien sollten SMART (=Specific, Measuarable, Accepted, Realistic, Time-oriented) sein für die meisten Kriterien machbar Vorschläge für Kriterien: Publikationen Anzahl der Peer-Review LSDMA-Publikationen, z.B. Publikationen durch gemeinsame F&E von Anwendungs- und Daten-Experten zu optimierten bzw. neuen Data Life Cycles oder Publikationen, die durch optimierte bzw. neue Data Life Cycles oder durch in LSDMA entwickelt Analysemethoden ermöglicht oder maßgeblich verbessert wurden Anzahl der Artikel in gesellschaftsrelevanten Publikationen und der Vorträge bei gesellschaftsrelevanten Ereignissen Anzahl der Citations
20
Erfolgskriterien LSDMA (II)
Verbreitung und Nutzung Verbreitungsgrad von LSDMA-Ergebnissen in weiteren Communities (national und international) Grad der Standardisierung von Technologien, Verfahren und Werkzeugen Nutzung von zentralen Forschungsdaten-Repositoryservices und verteilten Archive durch Communities Anzahl der Downloads aus dem zentralen LSDMA-Software-Repository Einsatz der in DSIT entwickelten Tools/Technologien in den DLCLs
21
Erfolgskriterien LSDMA (III)
Daten Erhöhung des Data Ingests Menge der dauerhaft nutzbaren Daten Beschleunigung der Datenprozessierung Nutzung neuer Datenanalysemethoden, die durch LSDMA ermöglicht werden Vernetzung Workshops innerhalb der HGF und darüber hinaus (“Community Building“) Wissenschaftliche Workshops bei internationalen Konferenzen Aktive Beteiligung an internationalen Projekten Anzahl von Vorträgen, z.B. bei Workshops
22
Viele Dank für Ihr Aufmerksamkeit!
Organisatorische Fragen werden heute Nachmittag diskutiert Viele Dank für Ihr Aufmerksamkeit!
Ähnliche Präsentationen
© 2025 SlidePlayer.org Inc.
All rights reserved.