Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

Dr. Sven Schlarb Österreichische Nationalbibliothek

Ähnliche Präsentationen


Präsentation zum Thema: "Dr. Sven Schlarb Österreichische Nationalbibliothek"—  Präsentation transkript:

1 Das SCAPE Projekt: Langzeitarchivierung und Skalierbarkeit Teil 1: Überblick über das SCAPE Projekt
Dr. Sven Schlarb Österreichische Nationalbibliothek SCAPE ½ Informationstag 05. Mai 2014, Österreichische Nationalbibliothek.

2 This work was partially supported by the SCAPE Project.
Übersicht “Big data” in Bibliotheken SCAPE-Projekt Überblick Themenbereiche This work was partially supported by the SCAPE Project. The SCAPE project is co‐funded by the European Union under FP7 ICT‐ (Grant Agreement number ).

3 Worum gehts im Allgemeinen?
„Big data“ VVV: Volume (Datenmenge), Variety (Datenvielfalt), Velocity (Geschwindigkeit ) Skalierbarkeit in mehrerlei Hinsicht Anzahl Größe Komplexität Vielfalt der Datenformate IT Umgebungen (Hardware, Software, Systeme), welche eine (kostengünstige) Verarbeitung großer Datenmengen ermöglichen der zu verarbeitenden Objekte

4 Große Projekte Digitaler Bibliotheken/Web-Archive
Google-Books-Projekt: 30 Millionen digitale Bücher Europeana: Metadaten von über 24 Millionen Objekten Europeana annual report and accounts 2012, Europeana Foundation, April 2013 Hathi Trust: 10 Millionen Bände (über 5,6 Millionen Werke) mit insgesamt über 3,7 Milliarden Buchseiten Internet Archive: 364 Milliarden Seiten, die ca. 10 Petabyte Speicher belegen. und This work was partially supported by the SCAPE Project. The SCAPE project is co‐funded by the European Union under FP7 ICT‐ (Grant Agreement number ).

5 SCAPE ist ein Nachfolge-Projekt des Planets-Projekts (FP6)
SCAPE Projektrahmen SCAPE ist ein Nachfolge-Projekt des Planets-Projekts (FP6) Framework Program 7 (FP7) - Collaborative Project Laufzeit: 44 Monate Februar 2011 – September 2014 Budget: 12.0 Millionen Euro Gefördert: 9.2 Millionen Euro

6 SCAPE Konsortium

7 Übersicht über das SCAPE Projekt
Öffentlichkeitsarbeit Interessensgruppen Verbreitung Training Nachhaltigkeit Testbeds Daten/Corpora Integration Evaluation Komponenten Qualitätssicherung Skalierbare Komponenten Automatisierbare Werkzeuge Planung Instiutionelle Richtlinien Beobachtung technischer Entwicklungen/Trends Automatisierte Planung Plattform Workflows Parallelisierung Virtualisierung

8 Skalierbare Datenverarbeitung
Basis Computer-Cluster Virtualsierung (XEN/Eucalyptus) Softwareverteilung Debian Pakete Tool Spezifikation Auftragsausführung Apache Hadoop (HDFS/MapReduce) Apache Oozie (Workflows) Slaves Master

9 Skalierbare Repositories/Datenbanken
Fedora 4.0.0 Nur REST, kein SOAP Auf der Basis von RDF JCR 2.0 Implementieriung – ModeShape (Jboss) Infinispan (Jboss) verteilter NoSQL Datenspeicher Lily 2.0 Basierend auf HBase/HDFS Integrierte Datenverarbeitung und –speicherung MongoDB (NoSQL) Dokumentenorientiert (JSON)

10 In SCAPE entwickelte Software-Werkzeuge
Matchbox – Duplikat-Bilderkennung XCorrSound – Audio-Vergleich Pagelyzer– Web-Inhalte vergleichen Jpylyzer – JPEG 2000 Validierung

11 Integration existierender Software-Werkzeuge
Tool Wrapper Integration bestehender Software-Werkzeuge in die SCAPE Platform Standard-Namensgebung von Werkzeugen für Dateianalyse, Migration und Qualitätssicherung Standardisierte Ausführung (Kommandozeile) Einfache Einrichtung auf dem Cluster dank der Bereitstellung von Debian-Paketen Unterstützt Datenströme, die für Hadoop-Verarbeitungsaufträge nützlich sind. Generiert Langzeitarchivierungskomponenten Taverna Workflow-Komponenten inklusive Metadaten, die das Auffinden erleichtern Automatischer Veröffentlichung von Kompmenten auf myExperiment Standardisierte Eingabe und Ausgabe, die das Kombinieren der Workflow-Komponenten vereinfacht Langzeitarchivierungswerkzeugkasten Werkzeugsammlung für die Langzeitarchivierung Über 80 Operationen für Migration, Dateianalyse, und Qualitätssicherung Einfaches deployment unter Linux (via apt-get) apt-get install digital-preservation-tools

12 Planung der Langzeitarchivierung
SCOUT: Automatisierte Überwachung der Langzeitarchivierung Einbindung externer Informationsquellen Fall-basierte Benachrichtigungsfunktionen c3po: Analyse von Archivinhalten Scale-out MongoDB (Anzahl der Knoten beliebig erweiterbar) Auswertung von FITS-Datei-Analyseergebnissen Detaillierte Statistiken Möglichkeiten der Stichprobenbildung PLATO 4.1: Planung in der Langzeitarchivierung Weiterentwicklung der Version aus dem Planets-Projekt Neue Funktionalität Gemeinsame Planung der Langzeitarchivierung in Gruppen Integration maschinenlesbarer Richtlinien

13 SCAPE Architektur Automated Watch Automated Watch Automated Planning
Pull API Sources Source Adaptor Assessment PLATO Notification API Plan Push API Knowledge Client Service Watch Request API Plan Management API Report API Plan Management GUI Component Lookup API Component Catalogue Component Registration API Digital Object Repository Execution Platform JES API JES Taverna Workbench Preservation Plan Store Hadoop Data Connector API Digital Objects/ Metadata Component Profile Validator LDS3 API Data Loader Application Data Publication Platform


Herunterladen ppt "Dr. Sven Schlarb Österreichische Nationalbibliothek"

Ähnliche Präsentationen


Google-Anzeigen