Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

Dr. Sven Schlarb Österreichische Nationalbibliothek SCAPE ½ Informationstag 05. Mai 2014, Österreichische Nationalbibliothek. Das SCAPE Projekt: Langzeitarchivierung.

Ähnliche Präsentationen


Präsentation zum Thema: "Dr. Sven Schlarb Österreichische Nationalbibliothek SCAPE ½ Informationstag 05. Mai 2014, Österreichische Nationalbibliothek. Das SCAPE Projekt: Langzeitarchivierung."—  Präsentation transkript:

1 Dr. Sven Schlarb Österreichische Nationalbibliothek SCAPE ½ Informationstag 05. Mai 2014, Österreichische Nationalbibliothek. Das SCAPE Projekt: Langzeitarchivierung und Skalierbarkeit Teil 1: Überblick über das SCAPE Projekt

2 Big data in Bibliotheken SCAPE-Projekt Überblick Themenbereiche Übersicht This work was partially supported by the SCAPE Project. The SCAPE project is cofunded by the European Union under FP7 ICT (Grant Agreement number ).

3 Worum gehts im Allgemeinen? Big data VVV: Volume (Datenmenge), Variety (Datenvielfalt), Velocity (Geschwindigkeit ) Skalierbarkeit in mehrerlei Hinsicht Anzahl Größe Komplexität Vielfalt der Datenformate IT Umgebungen (Hardware, Software, Systeme), welche eine (kostengünstige) Verarbeitung großer Datenmengen ermöglichen der zu verarbeitenden Objekte

4 Google-Books-Projekt: 30 Millionen digitale Bücher Europeana: Metadaten von über 24 Millionen Objekten Europeana annual report and accounts 2012, Europeana Foundation, April 2013 Hathi Trust: 10 Millionen Bände (über 5,6 Millionen Werke) mit insgesamt über 3,7 Milliarden Buchseiten Internet Archive: 364 Milliarden Seiten, die ca. 10 Petabyte Speicher belegen. und Große Projekte Digitaler Bibliotheken/Web-Archive This work was partially supported by the SCAPE Project. The SCAPE project is cofunded by the European Union under FP7 ICT (Grant Agreement number ).

5 SCAPE Projektrahmen SCAPE ist ein Nachfolge-Projekt des Planets-Projekts (FP6) Framework Program 7 (FP7) - Collaborative Project Laufzeit: 44 Monate Februar 2011 – September 2014 Budget: 12.0 Millionen Euro Gefördert: 9.2 Millionen Euro

6 SCAPE Konsortium

7 Öffentlichkeitsarbeit Interessensgruppen Verbreitung Training Nachhaltigkeit Übersicht über das SCAPE Projekt Plattform Workflows Parallelisierung Virtualisierung

8 Basis Computer-Cluster Virtualsierung (XEN/Eucalyptus) Softwareverteilung Debian Pakete Tool Spezifikation Auftragsausführung Apache Hadoop (HDFS/MapReduce)Hadoop Apache Oozie (Workflows)Oozie Skalierbare Datenverarbeitung Master Slaves

9 Fedora Nur REST, kein SOAP Auf der Basis von RDF JCR 2.0 Implementieriung – ModeShape (Jboss) Infinispan (Jboss) verteilter NoSQL Datenspeicher Lily 2.0 Basierend auf HBase/HDFS Integrierte Datenverarbeitung und –speicherung MongoDB (NoSQL) Dokumentenorientiert (JSON) Skalierbare Repositories/Datenbanken

10 In SCAPE entwickelte Software-Werkzeuge Jpylyzer – JPEG 2000 Validierung Matchbox – Duplikat-BilderkennungXCorrSound – Audio-Vergleich Pagelyzer– Web-Inhalte vergleichen

11 Tool Wrapper Integration bestehender Software-Werkzeuge in die SCAPE Platform Standard-Namensgebung von Werkzeugen für Dateianalyse, Migration und Qualitätssicherung Standardisierte Ausführung (Kommandozeile) Einfache Einrichtung auf dem Cluster dank der Bereitstellung von Debian-Paketen Unterstützt Datenströme, die für Hadoop-Verarbeitungsaufträge nützlich sind. Generiert Langzeitarchivierungskomponenten Taverna Workflow-Komponenten inklusive Metadaten, die das Auffinden erleichtern Automatischer Veröffentlichung von Kompmenten auf myExperiment Standardisierte Eingabe und Ausgabe, die das Kombinieren der Workflow- Komponenten vereinfacht Langzeitarchivierungswerkzeugkasten Werkzeugsammlung für die Langzeitarchivierung Über 80 Operationen für Migration, Dateianalyse, und Qualitätssicherung Einfaches deployment unter Linux (via apt-get) apt-get install digital-preservation-tools Integration existierender Software-Werkzeuge

12 SCOUT: Automatisierte Überwachung der Langzeitarchivierung Einbindung externer Informationsquellen Fall-basierte Benachrichtigungsfunktionen c3po: Analyse von Archivinhalten Scale-out MongoDB (Anzahl der Knoten beliebig erweiterbar) Auswertung von FITS-Datei-Analyseergebnissen Detaillierte Statistiken Möglichkeiten der Stichprobenbildung PLATO 4.1: Planung in der Langzeitarchivierung Weiterentwicklung der Version aus dem Planets-Projekt Neue Funktionalität Gemeinsame Planung der Langzeitarchivierung in Gruppen Integration maschinenlesbarer Richtlinien Planung der Langzeitarchivierung

13 SCAPE Architektur Plan Management API Digital Object Repository Execution Platform JES Hadoop JES API Data Connector API Automated Watch Automated Planning PLATO Plan Management GUI Digital Objects/ Metadata Preservation Plan Store Plan Component Catalogue Component Lookup API Taverna Workbench Component Registration API Component Profile Validator Automated Watch Sources Push API Pull API Knowledge Source Adaptor Client Service Watch Request API Notification API Report API Assessment Data Publication Platform LDS 3 API Data Loader Application Data Loader Application


Herunterladen ppt "Dr. Sven Schlarb Österreichische Nationalbibliothek SCAPE ½ Informationstag 05. Mai 2014, Österreichische Nationalbibliothek. Das SCAPE Projekt: Langzeitarchivierung."

Ähnliche Präsentationen


Google-Anzeigen