Dr. Sven Schlarb Österreichische Nationalbibliothek

Slides:



Advertisements
Ähnliche Präsentationen
Copyright © The OWASP Foundation Permission is granted to copy, distribute and/or modify this document under the terms of the OWASP License. The OWASP.
Advertisements

Zur SCORM-Fähigkeit konventioneller XML-unterstützender eLearning Developer Tools im Projekt I-can-EIB OFFIS Oldenburger Forschungs- und Entwicklungsinstitut.
1 Gerardo Navarro Suarez BPM Suite. 2 Quelle: camunda Services GmbH Das Warum hinter Activiti Problem bestehender BPMS: Starker Fokus auf das Business.
www.materna.de1 Evaluierung einer aus Open Source Komponenten bestehenden J2EE Umgebung Marcus Jäger ~ Fachinformatiker Anwendungsentwicklung ~
Library of Labs Co-funded by the Community programme eContentplus Library of Labs WP 4: Metadaten Definition Universitätsbibliothek Stuttgart (UBS)
Systemverwaltung wie es Ihnen gefällt.
EULER a real virtual library for mathematics Supported by the European Commission, EULER, FP4, Telematics for Libraries, LB-5609, EULER-TAKEUP, FP5 Project.
ixJED ixact GmbH Dr. Karsten Wendt
Sebastian Peters TIB-Workshop zur DOI-Registrierung 3. November 2011 DataCite Technik Vertiefung.
Bernd Oberknapp, UB Freiburg
Datenbankzugriff im WWW (Kommerzielle Systeme)
Angebote zur digitalen Langzeitarchivierung
Gegen die Vergänglichkeit digitaler Informationen Susanne Kurz AWV Sitzung Daten- und Speichermanagement, Köln,
Das Depotsystem Digitaler Dokumente Workshop Langzeitverfügbarkeit Digitaler Dokumente 29./30. Oktober 2002 Hans Liegmann, Die Deutsche Bibliothek.
XINDICE The Apache XML Project Name: Jacqueline Langhorst
Das DANRW - Einführung Manfred Thaller Universität zu Köln
Kurs: Dedizierte Systeme Dozentin: Susanne Kurz Referentin: Desislava Mohrmann 1 Kurzreferat: Fedora 16 Juli 2009.
Dynamische Webseiten mit PHP Oder: LAMP - The open way.
NetUSE Web Application Framework Kai Voigt NetUSE AG 28. Februar 2003.
Langzeitarchivierung und Metadaten. NAA Preservation Strategy Link: ml.
Fedora Repository.
Computer-Supported Cooperative Work (CSCW)
Software-Projektführung
Semantic Web-Anwendungen auf Basis des BAM-Portals Ein Prototyp Volker Conradt.
EDC Entwicklerforum Geoprocessing im Web 18. Juli 2013 Benjamin Proß Ein erweiterbarer WPS Client für ArcMap.
Bewertung von Cloud-Anbietern aus Sicht eines Start-ups
SKALIERBARE HARDWARE UNABHÄNGIGE LÖSUNGEN FÜR HSM, ARCHIVIERUNG UND SICHEREN DATENAUSTAUSCH YOUR DATA. YOUR CONTROL.
Entwurf und Realisierung einer digitalen Bibliothek zur Verwaltung von Notenhandschriften Dipl.-Ing. Temenushka Ignatova Datenbank- und Informationssysteme,
Nestor Workshop im Rahmen der GES 2007 Digitale Langzeitarchivierung und Grid: Gemeinsam sind wir stärker? Anforderungen von eScience und Grid-Technologie.
GRAU DataSpace 2.0 – DIE SICHERE KOMMUNIKATIONS- PLATTFORM FÜR UNTERNEHMEN UND ORGANISATIONEN YOUR DATA. YOUR CONTROL.
Nestor Workshop im Rahmen der GES 2007 Digitale Langzeitarchivierung und Grid: Gemeinsam sind wir stärker? Synergiepotentiale zwischen GRID- und eScience-Technologien.
„Buy and Make“ anstelle von „Make or Buy“
1 Alexander Arimond, University of Kaiserslautern, Germany Entwicklung und Evaluation eines Raytracing-Dienstes für das Venice Service Grid Alexander Arimond.
Nicolas Frings Maximilian Bernd Stefan Piernikarcyk
Architekturen und Techniken für computergestützte Engineering Workbenches.
Cooperation unlimited © Zühlke Juni 2009 Hansjörg Scherer Folie 1 Cooperation unlimited TFS als BackEnd für Visual Studio und Eclipse.
Entwicklung verteilter Anwendungen II, SS 13 Prof. Dr. Herrad Schmidt SS 13 Kapitel 4 Folie 2 REST Web Services (1)
Sesame Florian Mayrhuber
Jabber Seminar XML Technologien SS 2002 Mark Kunzmann.
Java Server Pages Sergej Keterling
Management- und Web Services- Architekturen
Dr. Sven Schlarb Österreichische Nationalbibliothek SCAPE ½ Informationstag 05. Mai 2014, Österreichische Nationalbibliothek. Das SCAPE Projekt: Langzeitarchivierung.
SCAPE Informationstag und Demo-Event Österreichische Nationalbibliothek Max Kaiser Leiter Abteilung Forschung und Entwicklung Österreichische Nationalbibliothek.
KOOP-LITERA Tagung 2003, 8. / 9. Mai 2003 Archivierung digitaler Dokumente Problemstellung - kooperative Lösungsansätze - Aktivitäten der Österreichischen.
Untersuchungen zur Erstellung eines
Marco Behnke Git free & open source, distributed version control system Git.
Enhydra Shark Workflow-Management Frank Aurich Markus Reisch.
BADI – Barrierefreie Aufbereitung Digitaler Inhalte
HADOOP – a Brief overview
Microsoft.NET InfoPoint 8. Juni 2005 Stefan Bühler.
Datenbanken im Web 1.
ROS – Robot Operating System
Webserver Apache & Xampp Referenten: Elena, Luziano und Sükran
Fedora by C. Göpfert.
Hadoop-as-a-Service (HDaaS)
, Claudia Böhm robotron*SAB Anwendungsentwicklung mit dem Java und XML basierten Framework robotron*eXForms Simple Application Builder.
Wissensnetzwerk „Digitale Langzeitarchivierung“: 3. Arbeitssitzung , Österreichische Nationalbibliothek 1 Österreich Von der rechtlichen.
Seminararbeit Release Management von Web-Systemen Minh Tran Lehrstuhl für Software Engineering RWTH Aachen
Campus Bern Patrick Mäschli, Software Architect
1 - axmann geoinformation gmbh Schema Mapper (Migration Suite)
Max Kaiser, Das Planets Digital Preservation TestbedArbeitstreffen Wissensnetzwerk Digitale:Langzeitarchivierung, Das Planets Digital Preservation.
Oracle Text bei sehr großen Datenmengen Referent Martin Augst Senior Project / Account Manager Semantec GmbH Benzstr.
Digitale Langzeitarchivierung als Paradigmenwechsel? Chancen, Risiken und Herausforderungen der digitalen Langzeitarchivierung am Beispiel des Österreichischen.
Information Retrieval mit Oracle Text Erfahrungsbericht.
WebServices Vortrag zur Diplomarbeit WebServices Analyse und Einsatz von Thomas Graf FH Regensburg
Apache Camel Christian Schneider
1.
eSciDoc als Plattform für die Wissenschaft Anwendungen und Szenarien
M. Dreyer Göttingen, 12. Sept. 2007
 Präsentation transkript:

Das SCAPE Projekt: Langzeitarchivierung und Skalierbarkeit Teil 1: Überblick über das SCAPE Projekt Dr. Sven Schlarb Österreichische Nationalbibliothek SCAPE ½ Informationstag 05. Mai 2014, Österreichische Nationalbibliothek.

This work was partially supported by the SCAPE Project. Übersicht “Big data” in Bibliotheken SCAPE-Projekt Überblick Themenbereiche This work was partially supported by the SCAPE Project. The SCAPE project is co‐funded by the European Union under FP7 ICT‐2009.4.1 (Grant Agreement number 270137).

Worum gehts im Allgemeinen? „Big data“ VVV: Volume (Datenmenge), Variety (Datenvielfalt), Velocity (Geschwindigkeit ) Skalierbarkeit in mehrerlei Hinsicht Anzahl Größe Komplexität Vielfalt der Datenformate IT Umgebungen (Hardware, Software, Systeme), welche eine (kostengünstige) Verarbeitung großer Datenmengen ermöglichen der zu verarbeitenden Objekte

Große Projekte Digitaler Bibliotheken/Web-Archive Google-Books-Projekt: 30 Millionen digitale Bücher http://www.nybooks.com/articles/archives/2013/apr/25/national-digital-public-library-launched Europeana: Metadaten von über 24 Millionen Objekten Europeana annual report and accounts 2012, Europeana Foundation, April 2013 Hathi Trust: 10 Millionen Bände (über 5,6 Millionen Werke) mit insgesamt über 3,7 Milliarden Buchseiten http://www.hathitrust.org/statistics_info Internet Archive: 364 Milliarden Seiten, die ca. 10 Petabyte Speicher belegen. http://archive.org und http://archive.org/web/petabox.php This work was partially supported by the SCAPE Project. The SCAPE project is co‐funded by the European Union under FP7 ICT‐2009.4.1 (Grant Agreement number 270137).

SCAPE ist ein Nachfolge-Projekt des Planets-Projekts (FP6) SCAPE Projektrahmen SCAPE ist ein Nachfolge-Projekt des Planets-Projekts (FP6) Framework Program 7 (FP7) - Collaborative Project Laufzeit: 44 Monate Februar 2011 – September 2014 Budget: 12.0 Millionen Euro Gefördert: 9.2 Millionen Euro

SCAPE Konsortium

Übersicht über das SCAPE Projekt Öffentlichkeitsarbeit Interessensgruppen Verbreitung Training Nachhaltigkeit Testbeds Daten/Corpora Integration Evaluation Komponenten Qualitätssicherung Skalierbare Komponenten Automatisierbare Werkzeuge Planung Instiutionelle Richtlinien Beobachtung technischer Entwicklungen/Trends Automatisierte Planung Plattform Workflows Parallelisierung Virtualisierung

Skalierbare Datenverarbeitung Basis Computer-Cluster Virtualsierung (XEN/Eucalyptus) Softwareverteilung Debian Pakete Tool Spezifikation Auftragsausführung Apache Hadoop (HDFS/MapReduce) Apache Oozie (Workflows) Slaves Master

Skalierbare Repositories/Datenbanken Fedora 4.0.0 Nur REST, kein SOAP Auf der Basis von RDF JCR 2.0 Implementieriung – ModeShape (Jboss) Infinispan (Jboss) verteilter NoSQL Datenspeicher Lily 2.0 Basierend auf HBase/HDFS Integrierte Datenverarbeitung und –speicherung MongoDB (NoSQL) Dokumentenorientiert (JSON)

In SCAPE entwickelte Software-Werkzeuge Matchbox – Duplikat-Bilderkennung XCorrSound – Audio-Vergleich Pagelyzer– Web-Inhalte vergleichen Jpylyzer – JPEG 2000 Validierung

Integration existierender Software-Werkzeuge Tool Wrapper Integration bestehender Software-Werkzeuge in die SCAPE Platform Standard-Namensgebung von Werkzeugen für Dateianalyse, Migration und Qualitätssicherung Standardisierte Ausführung (Kommandozeile) Einfache Einrichtung auf dem Cluster dank der Bereitstellung von Debian-Paketen Unterstützt Datenströme, die für Hadoop-Verarbeitungsaufträge nützlich sind. Generiert Langzeitarchivierungskomponenten Taverna Workflow-Komponenten inklusive Metadaten, die das Auffinden erleichtern Automatischer Veröffentlichung von Kompmenten auf myExperiment Standardisierte Eingabe und Ausgabe, die das Kombinieren der Workflow-Komponenten vereinfacht Langzeitarchivierungswerkzeugkasten Werkzeugsammlung für die Langzeitarchivierung Über 80 Operationen für Migration, Dateianalyse, und Qualitätssicherung Einfaches deployment unter Linux (via apt-get) apt-get install digital-preservation-tools

Planung der Langzeitarchivierung SCOUT: Automatisierte Überwachung der Langzeitarchivierung Einbindung externer Informationsquellen Fall-basierte Benachrichtigungsfunktionen c3po: Analyse von Archivinhalten Scale-out MongoDB (Anzahl der Knoten beliebig erweiterbar) Auswertung von FITS-Datei-Analyseergebnissen Detaillierte Statistiken Möglichkeiten der Stichprobenbildung PLATO 4.1: Planung in der Langzeitarchivierung www.ifs.tuwien.ac.at/dp/plato Weiterentwicklung der Version aus dem Planets-Projekt Neue Funktionalität Gemeinsame Planung der Langzeitarchivierung in Gruppen Integration maschinenlesbarer Richtlinien

SCAPE Architektur Automated Watch Automated Watch Automated Planning Pull API Sources Source Adaptor Assessment PLATO Notification API Plan Push API Knowledge Client Service Watch Request API Plan Management API Report API Plan Management GUI Component Lookup API Component Catalogue Component Registration API Digital Object Repository Execution Platform JES API JES Taverna Workbench Preservation Plan Store Hadoop Data Connector API Digital Objects/ Metadata Component Profile Validator LDS3 API Data Loader Application Data Publication Platform