Das SCAPE Projekt: Langzeitarchivierung und Skalierbarkeit Teil 1: Überblick über das SCAPE Projekt Dr. Sven Schlarb Österreichische Nationalbibliothek SCAPE ½ Informationstag 05. Mai 2014, Österreichische Nationalbibliothek.
This work was partially supported by the SCAPE Project. Übersicht “Big data” in Bibliotheken SCAPE-Projekt Überblick Themenbereiche This work was partially supported by the SCAPE Project. The SCAPE project is co‐funded by the European Union under FP7 ICT‐2009.4.1 (Grant Agreement number 270137).
Worum gehts im Allgemeinen? „Big data“ VVV: Volume (Datenmenge), Variety (Datenvielfalt), Velocity (Geschwindigkeit ) Skalierbarkeit in mehrerlei Hinsicht Anzahl Größe Komplexität Vielfalt der Datenformate IT Umgebungen (Hardware, Software, Systeme), welche eine (kostengünstige) Verarbeitung großer Datenmengen ermöglichen der zu verarbeitenden Objekte
Große Projekte Digitaler Bibliotheken/Web-Archive Google-Books-Projekt: 30 Millionen digitale Bücher http://www.nybooks.com/articles/archives/2013/apr/25/national-digital-public-library-launched Europeana: Metadaten von über 24 Millionen Objekten Europeana annual report and accounts 2012, Europeana Foundation, April 2013 Hathi Trust: 10 Millionen Bände (über 5,6 Millionen Werke) mit insgesamt über 3,7 Milliarden Buchseiten http://www.hathitrust.org/statistics_info Internet Archive: 364 Milliarden Seiten, die ca. 10 Petabyte Speicher belegen. http://archive.org und http://archive.org/web/petabox.php This work was partially supported by the SCAPE Project. The SCAPE project is co‐funded by the European Union under FP7 ICT‐2009.4.1 (Grant Agreement number 270137).
SCAPE ist ein Nachfolge-Projekt des Planets-Projekts (FP6) SCAPE Projektrahmen SCAPE ist ein Nachfolge-Projekt des Planets-Projekts (FP6) Framework Program 7 (FP7) - Collaborative Project Laufzeit: 44 Monate Februar 2011 – September 2014 Budget: 12.0 Millionen Euro Gefördert: 9.2 Millionen Euro
SCAPE Konsortium
Übersicht über das SCAPE Projekt Öffentlichkeitsarbeit Interessensgruppen Verbreitung Training Nachhaltigkeit Testbeds Daten/Corpora Integration Evaluation Komponenten Qualitätssicherung Skalierbare Komponenten Automatisierbare Werkzeuge Planung Instiutionelle Richtlinien Beobachtung technischer Entwicklungen/Trends Automatisierte Planung Plattform Workflows Parallelisierung Virtualisierung
Skalierbare Datenverarbeitung Basis Computer-Cluster Virtualsierung (XEN/Eucalyptus) Softwareverteilung Debian Pakete Tool Spezifikation Auftragsausführung Apache Hadoop (HDFS/MapReduce) Apache Oozie (Workflows) Slaves Master
Skalierbare Repositories/Datenbanken Fedora 4.0.0 Nur REST, kein SOAP Auf der Basis von RDF JCR 2.0 Implementieriung – ModeShape (Jboss) Infinispan (Jboss) verteilter NoSQL Datenspeicher Lily 2.0 Basierend auf HBase/HDFS Integrierte Datenverarbeitung und –speicherung MongoDB (NoSQL) Dokumentenorientiert (JSON)
In SCAPE entwickelte Software-Werkzeuge Matchbox – Duplikat-Bilderkennung XCorrSound – Audio-Vergleich Pagelyzer– Web-Inhalte vergleichen Jpylyzer – JPEG 2000 Validierung
Integration existierender Software-Werkzeuge Tool Wrapper Integration bestehender Software-Werkzeuge in die SCAPE Platform Standard-Namensgebung von Werkzeugen für Dateianalyse, Migration und Qualitätssicherung Standardisierte Ausführung (Kommandozeile) Einfache Einrichtung auf dem Cluster dank der Bereitstellung von Debian-Paketen Unterstützt Datenströme, die für Hadoop-Verarbeitungsaufträge nützlich sind. Generiert Langzeitarchivierungskomponenten Taverna Workflow-Komponenten inklusive Metadaten, die das Auffinden erleichtern Automatischer Veröffentlichung von Kompmenten auf myExperiment Standardisierte Eingabe und Ausgabe, die das Kombinieren der Workflow-Komponenten vereinfacht Langzeitarchivierungswerkzeugkasten Werkzeugsammlung für die Langzeitarchivierung Über 80 Operationen für Migration, Dateianalyse, und Qualitätssicherung Einfaches deployment unter Linux (via apt-get) apt-get install digital-preservation-tools
Planung der Langzeitarchivierung SCOUT: Automatisierte Überwachung der Langzeitarchivierung Einbindung externer Informationsquellen Fall-basierte Benachrichtigungsfunktionen c3po: Analyse von Archivinhalten Scale-out MongoDB (Anzahl der Knoten beliebig erweiterbar) Auswertung von FITS-Datei-Analyseergebnissen Detaillierte Statistiken Möglichkeiten der Stichprobenbildung PLATO 4.1: Planung in der Langzeitarchivierung www.ifs.tuwien.ac.at/dp/plato Weiterentwicklung der Version aus dem Planets-Projekt Neue Funktionalität Gemeinsame Planung der Langzeitarchivierung in Gruppen Integration maschinenlesbarer Richtlinien
SCAPE Architektur Automated Watch Automated Watch Automated Planning Pull API Sources Source Adaptor Assessment PLATO Notification API Plan Push API Knowledge Client Service Watch Request API Plan Management API Report API Plan Management GUI Component Lookup API Component Catalogue Component Registration API Digital Object Repository Execution Platform JES API JES Taverna Workbench Preservation Plan Store Hadoop Data Connector API Digital Objects/ Metadata Component Profile Validator LDS3 API Data Loader Application Data Publication Platform