Large Scale Data Management and Analysis

Slides:



Advertisements
Ähnliche Präsentationen
Vernetzung von Repositorien : DRIVER Guidelines Dr Dale Peters, SUB Goettingen 4. Helmholtz Open Access Workshop Potsdam, 17 Juni 2008.
Advertisements

DataCite Jan Brase, TIB & DataCite 3. November 2011 TIB-Workshop zur DOI-Registrierung Hannover.
Library of Labs Co-funded by the Community programme eContentplus Library of Labs WP 4: Metadaten Definition Universitätsbibliothek Stuttgart (UBS)
DissOnline / Digitale Dissertationen Dr. P. Schirmbacher Offene Standards und internationale / nationale Abstimmung Gliederung: 1.Open Archive.
7th international Bielefeld Konferenz Thinking beyond Digital Libraries Designing the Information Strategy for the next Decade Dynamische Infrastrukturen.
Überlegungen zur Architektur eines Fachinformations-Netzwerkes am Beispiel des CeGIM Mehrwert ist es nicht nur, Daten von ihren Quellen zu den Nutzern.
2. IT-Klausurtagung 2. Tag Neues beginnen Oktober 2002 in Ludwigslust.
Langzeitarchivierung und Metadaten. NAA Preservation Strategy Link: ml.
Fedora Repository.
Nestor Workshop im Rahmen der GES 2007 Digitale Langzeitarchivierung und Grid: Gemeinsam sind wir stärker? Anforderungen von eScience und Grid-Technologie.
WissGrid AP3: LZA Dienste
Zauberwort Metadaten Elementares Handwerkszeug des Content- und Wissensmanagement.
Informationsdienste Torsten Rathmann (Deutsches Klimarechenzentrum, Hamburg) Workshop: Virtuelle Forschungsumgebungen aufbauen – mit D-Grid Abstract: Thema.
Magisterstudium Scientific Computing Institut für Scientific Computing Infoveranstaltung Masterstudium Scientific Computing.
Daten- wo bleiben sie? Bernd Richter.
Welcome to Web Services & Grid Computing Jens Mache
Best Practice / Tools Netzwerk-Workshop Umwelttechnologietransfer und - innovationen im Ostseeraum und in Zentraleuropa Berlin, 11. März 2011 Dipl.- Ing.
COPSGOPD-PHASEWORLD Scientific community DFG rules for good scientific practice Maintenance of long term archive COPS/GOP/D-PHASE Common Data Policy WDCC.
Daten&Storagekonzept für die HGF HPC-Datentreffen KIT, 30. September 2011 Volker Gülzow DESY.
Case Management Ein Lösungsvorschlag für die Unterstützung des Case Managements in der Betreuung und Pflege.
Funktionsweise eines Funambolservers Natascha Graf Aachen, 01. Februar 2010.
Vertrauenswürdige Repositorien Take Away Botschaften I Repositorien sind Kern moderner Dateninfrastrukturen Repositorien müssen vielschichtige Vertrauensrelationen.
Internet Universität zu Köln WS 2011/12 Dozent: Prof. Dr. Manfred Thaller AM 2: Digitale Langzeitarchivierung Referentin: Rasa Sommer.
1 CDP Städteprogramm 17. März 2015 Tino Kretschmer.
Torsten Rathmann (DKRZ) Torsten Rathmann Deutsches Klimarechenzentrum (DKRZ) Datenmanagement am DKRZ PubFlow Workshop 18. März 2014.
Verteilte Anwendungen: J2EE
CMIP6-DICAD – FU Berlin Thomas Schartner
Daniel Opitz Dr. Elmar Haake
Google & Co.: Forschungsdaten
KfB und Forum Beschleunigerphysik
Vernetzte Forschungsumgebung in den eHumanities
Blended Learning-Team
Status MIWP (Fitness for purpose – Analysis)
1 Tobias Steinke Langzeitarchivierungs-Policy der Deutschen Nationalbibliothek: Theorie und Praxis | 18 | Langzeitarchivierungs-Policy der DNB: Theorie.
Kooperative Aspekte in Preservation Policies
Einführung des Forschungsinformationssystems Pure an der CAU Kiel
Kompetenzen und Pläne für das erste Jahr von DESY
Finanzen und Administrativa (I)
Victoria Englmaier 11. Mai 2017
So gelingt der digitale Wandel in einem Landwirtschaftsbetrieb
Ideen für DTS in der PoF IV
Ergonomie und Bedienbarkeit
Betriebsseminar Grömitz, Nov F.Brinker
Citavi im Prozess der wissenschaftlichen Arbeit
Handlungsfelder Aspekte Prämissen Inhalte Umsetzungsprozesse
Die Zukunft des Kalliope-Verbundes „gemeinsam gestalten“
Die Zukunft von ECM ist C-M-S Cloud, Mobile & Social – oder nicht?
Abteilung Forschung und Entwicklung
ESciDoc Eine wissenschaftliche Informations-, Kommunikations- und Publikationsplattform für die Forschung M. Dreyer.
Was brauchen Open Access Monographien ?
Potenziale von Enterprise Collaboration & Social Business
Friederike Kleinfercher Abteilung Forschung und Entwicklung
ESciDoc München, 4. Juli 2007.
Primärdaten Malte Dreyer Bonn,
eSciDoc in der MPG: Wohin geht die Reise?
eSciDoc als Plattform für die Wissenschaft Anwendungen und Szenarien
PI Infrastruktur in der Max-Planck-Gesellschaft
Studiengang Informatik FHDW
Geschäftsplanpräsentation
Research Data Management Organiser
Da·ten·bank /Dátenbank/ Substantiv, feminin [die]
GRUNDLAGEN WISSENSCHAFTLICHEN ARBEITENS MODULA-2 SONAY SUBAYAZ
Studienphase 2.
Vom Feld zur Cloud eine kollaborative Online-Plattform zur Verwaltung hydrologischer Observatorien Philipp Kraft, David Windhorst, Lutz Breuer.
Erasmus(+) Neue Programmgeneration -
Devops David Jaroš
Wissenschaftliches Projekt
Konzeption und Institutionalisierung des FDM — aus der Erfahrung eines Forschungsprojekts in den digitalen Geisteswissenschaften Teil 2: Die Perspektive.
Erasmus+ JUGEND IN AKTION ab 2021
Once Upon A Time In Austria
 Präsentation transkript:

Large Scale Data Management and Analysis Überblick, Status, Ziele Christopher Jung, SCC, KIT

Überblick Motivation Struktur und Ziele von LSDMA Termine in den nächsten 12 Monaten Ausführliche Bedarfsanalyse Erfolgskriterien

Motivation Datenquellen (Experiment, Observation, Simulation) nehmen rapide ansteigende Datenmengen auf  O(Daten) >> O(Fileserver) Wissenschaftliche Daten können nicht oder nur unter hohen Kosten reproduziert werden Räumlich verteilte Kollaborationen und Ressourcen Erhöhte Komplexität in vielen Wissenschaften Umgang mit Daten spielt eine immer größer werdende Rolle

Die Säulen der Wissenschaft Experiment Daten Simulation Simulation Theorie Tony Hey, Stewart Tansley, Kristin Tolle, The Fourth Paradigm: Data-Intensive Scientific Discovery, Microsoft Research, ISBN 978-0982544204, http://research.microsoft.com/en-us/collaboration/fourthparadigm/ seit einigen Jahren vor einigen hundert Jahren vor einigen Jahrzenten

Daten im Zyklus des wissenschaftlichen Erkenntnisgewinns LSDMA-Themen: Management und Analyse großer Datenmengen

Aspekte von Datenmanagement und -analyse Daten Ingest Metadaten Datentransfer, Datenmigration Langzeitarchivierung und Authentizität Identitätsmanagement, Authentifizierung u. Autorisierung … Datenanalyse (Re-)Prozessierung von Rohdaten Paralleles und verteiltes, datenintensives Rechnen Semantische Analyse Analyse verdichteter Daten Qualitätsmanagement Datenintensive Analyseworkflows … Anforderungen an Datenlebenszyklus abhängig von Community und Experiment Große Zahl von Services und Tools werden von vielen Communities benötigt

Struktur und Ziele von LSDMA Data Life Cycle Labs Gemeinsame F&E mit den Communties Optimierung des Datenlebenszyklus Spezifische Datenanalysetools und -services Data Services Integration Team Generische, Community-übergreifende F&E Schnittstelle zwischen föderierten Dateninfrastrukturen und DLCLs/Communities Integration von Datenservices in wissenschaftlichen Arbeitsprozess DLCLs+DSIT=Inhalt und Alleinstellungsmerkmal von LSDMA

DLCLs: Definition Teams von Datenexperten aus der Wissenschaft, die eng mit den jeweiligen Communities zusammenarbeiten Erstellung und iterative Optimierung des spezifischen Datenlebenszyklus Etablieren/optimieren von Standards für Daten Management, Technologien und Werkzeuge Definiton und Optimierung von Datenformaten Organisation von Daten und Metadaten Etablierung von standardisierten Datenmanagement-Techniken Einfachen Zugriff zum föderierten Datenspeicher etablieren Langzeitarchivierung, ggf. in Open Access Archiven …

DLCLs: Themen Orientieren sich an HGF-Forschungsbereiche Energie SmartGrids, Batterieforschung, Fusionsforschung Erde und Umwelt Klimamodell- und Messdaten Gesundheit Gehirnatlas Schlüsseltechnologien Synchroton, Nanoskopie, Hochdurchsatz-Mikroskope, elektronenmikroskopische Abbildungsverfahren Struktur der Materie Petra 3, XFEL, FAIR

DSIT: Themengebiete Data-Intensive Computing & Application Monitoring High Data Throughput Datenintensive Workflows Paralles und Verteiltes Computing Schnittstellen zu Plattformintegration, I/O Libraries Universal Data Access Datenzugriff Welteite Föderationen Identitätsverwaltung, Authentifikation und Autorisation Migration, Preservation und Curation Bitstream and Content Preservation Archivierung und Authentizität Metadaten und Migration Referenzierung Storage System Design Schnelle/optimierte Storagestrukturen Metropolitan Area Systeme Data Life Cycle Management Energieeffiziente Speichersysteme

Daten zu LSDMA Dauer: 1.1.2012-31.12.2016 Fördersumme: 13 M€ über fünf Jahre Partner: 4 HGF, 6 universitäre Partner, 1 außeruniversitärer Partner

Projektstruktur Koordinator: Achim Streit (KIT) Manager: Christopher Jung (KIT) (Vorläufige) TPLs und DSIT-Teilbereichsleiter DLCL Schlüsseltechnologien: Rainer Stotzka (KIT) DLCL Gesundheit: André Giesler (FZ Jülich) DLCL Erde und Umwelt: Silke Halstenberg (KIT) DLCL Struktur der Materie: Martin Gasthuber (DESY) DLCL Energie: Hartmut Schmeck (KIT) DSIT: Marcus Hardt (KIT) DSIT-Teilbereich Migration, Preservation und Curation: Jos van Wezel (KIT) DSIT-Teilbereich Date-Intensive Computing and Application: Thomas Jejkal (KIT) DSIT-Teilbereich Universal Data Access: Martin Gasthuber (DESY) DSIT-Teilbereich Storage System Design: Martin Gasthuber (DESY)

Möglichkeiten zur Weiterentwicklung HGF-weites Konzept ‘Weiterentwicklung von Höchstleistungsrechnen und Massendaten-Management in der Helmholtz-Gemeinschaft‘ Konzept-Papier ‘Scientific Data Management and Support‘ schlägt weitere 13 DLCLs themenspezifisch in den HGF-Zentren vor: AWI: marine and polar research DESY: matter DKFZ: bio-medical data DKRZ/HZG: climate DLR: earth observation FZJ: biomolecular research GSI: FAIR-data HMGU: environmental diseases HZB: photons and neutrons HZDR: laser-driven radiation sources IPP/RZG: magnetic plasma KIT: astro particle UFZ: water-research, geo data Bei positivem Feedback in HGF-Präsidium und -Senat Beantragung von Anschubfinanzierung bis POF-3

Termine in den nächsten 12 Monaten 1.1.2012: Projektbeginn 22.3.2012: Kickoff-Workshop 31.3.2012: Ausführliche Bedarfsanalyse (mehr Details auf den folgenden Folien) 30.6.2012: Etablierung von DSIT und DLCLs 27.8.-31.8.2012: GridKa School 25.9.2012: 1. LSDMA-Symposium 26.9.2012: All-Hands Face-to-Face Meeting 30.9.2012: Detaillierte Projektpläne für nächste 18 Monate Januar 2013: 1. Community Forum März 2013: All-Hands Face-to-Face Meeting 31.3.2013: Aktualisierte ausführliche Bedarfsanalyse

1. Meilenstein: Ausführliche Bedarfsanalyse Fragestellung für jede Nutzergruppe: Wie sieht der Data Life Cycle zur Zeit aus? Wie würde der ‘ideale‘ Data Life Cycle aussehen? Welche Entwicklungen sind zum Erreichen des ‘idealen‘ Data Life Cycles notwendig? Vorgeschlagener Zeitplan: Erstellung geht mit Etablierung der DLCLs einher 13.4.2012: Folien von jedem DLCL 4.5.2012: ausführliche Folien von jedem DLCL 31.5.2012: ausführlicher Text von jedem DLCL 30.6.2012: Fertigstellung der ausführliche Bedarfsanalyse

Bedarfsanalyse: DLCL Gesundheit DLCL Gesundheit unterstützt die Erstellung eines Gehirnatlas für das menschliche Gehirn Grundlage bilden hauchdünne Gewebeschnitte von 50nm Dicke Daten der Gewebeschnitte werden momentan in einer Metadatenstruktur vorgehalten Es sind bereits proprietäre Methoden vorhanden um die Daten für die weitere Analyse zu prozessieren Aufnahmen müssen auf unbestimmte Zeit verfügbar sein Initiales Treffen zwischen FZJ Instituten JSC und INM am 4. April zur Durchführung einer Bedarfsanalyse im Hinblick auf: Skalierung großer Datensätze Metadaten-Kataloge Versionskontrolle Archivierung auf einer verteilten Datenstruktur

DLCL Erde und Umwelt Programm “Atmosphäre und Klima”, evtl. auch “Geosystem: Erde im Wandel” Kontaktfindungsphase (z.B. zum DKRZ und zum IMK (KIT)) Themen: Transparente Datenidentifikation (Metadatensuche) Standardisierte Metadaten- und Datenschnittstellen Transparenter Datenzugriff bei wechselnden oder verteilten Datenlokationen Versionierung Datenreplikation Archivierung Verlinkung (die meisten Themen wurden herausgegriffen aus Folien zu ENES von Michael Lautenschlager, DKRZ beim „EUDAT User Forum”)

DLCLs Energie und Schlüsseltechnologien Energy Competence E ANKA Tomo ANKA Reconstruction Biology SPIM Selective Plane Illumination Microscopy DLC definition Partly described Curation has to be defined In preparation Various DLCs required Complex with many components and decision points Moderate complexity Workflows required Data formats Proprietary Data base NeXus HDF 5 Result format has to be defined Image formats Meta data and search Very important Meta data harvesting? Standards required Required XML Standards requited for meta data harvesting, OAI-PMH Data volume 100 GB/a Huge amount of very small data sets 0.5 PB/a raw data Large data sets 0.5 PB/a results 300 TB raw data 300 TB results + more 7 TB/d Data access Federated High performant From other institutions Federations Within KIT (CS+CN) 300 MB/s Data processing During data collection and offline DIC, MapReduce Online processing See reconstruction Reconstruction runs on DIC infrastructures Time consuming Memory consuming Parallelization Near real time Complex algorithms DIC Image registration Pattern recognition Components DAQ Workflow management Repositories Long-term archives Preprocessing GPU cluster ANKA user management Portals Archives + repositories … LAMBDA Reconstruction library DIC infrastructure Matlab, Java Portal? Portal Data harvesting Microscope + local storage LSDF repository

Erfolgskriterien LSDMA (I) Kriterien sollten SMART (=Specific, Measuarable, Accepted, Realistic, Time-oriented) sein  für die meisten Kriterien machbar Vorschläge für Kriterien: Publikationen Anzahl der Peer-Review LSDMA-Publikationen, z.B. Publikationen durch gemeinsame F&E von Anwendungs- und Daten-Experten zu optimierten bzw. neuen Data Life Cycles oder Publikationen, die durch optimierte bzw. neue Data Life Cycles oder durch in LSDMA entwickelt Analysemethoden ermöglicht oder maßgeblich verbessert wurden Anzahl der Artikel in gesellschaftsrelevanten Publikationen und der Vorträge bei gesellschaftsrelevanten Ereignissen Anzahl der Citations

Erfolgskriterien LSDMA (II) Verbreitung und Nutzung Verbreitungsgrad von LSDMA-Ergebnissen in weiteren Communities (national und international) Grad der Standardisierung von Technologien, Verfahren und Werkzeugen Nutzung von zentralen Forschungsdaten-Repositoryservices und verteilten Archive durch Communities Anzahl der Downloads aus dem zentralen LSDMA-Software-Repository Einsatz der in DSIT entwickelten Tools/Technologien in den DLCLs

Erfolgskriterien LSDMA (III) Daten Erhöhung des Data Ingests Menge der dauerhaft nutzbaren Daten Beschleunigung der Datenprozessierung Nutzung neuer Datenanalysemethoden, die durch LSDMA ermöglicht werden Vernetzung Workshops innerhalb der HGF und darüber hinaus (“Community Building“) Wissenschaftliche Workshops bei internationalen Konferenzen Aktive Beteiligung an internationalen Projekten Anzahl von Vorträgen, z.B. bei Workshops

Viele Dank für Ihr Aufmerksamkeit! Organisatorische Fragen werden heute Nachmittag diskutiert Viele Dank für Ihr Aufmerksamkeit!