Formate, Werkzeuge und Methoden für die langfristige Datensicherung

Slides:



Advertisements
Ähnliche Präsentationen
DSpace IT-Zertifikat Dedizierte Systeme Dozentin: Susanne Kurz M.A.
Advertisements

Sebastian Peters TIB-Workshop zur DOI-Registrierung 3. November 2011 DataCite Technik Vertiefung.
Gesellschaft für wissenschaftliche Datenverarbeitung mbH Göttingen Am Fassberg, Göttingen Fon: Fax:
Gegen die Vergänglichkeit digitaler Informationen Susanne Kurz AWV Sitzung Daten- und Speichermanagement, Köln,
Persistent Identifiers: URNs
Das Depotsystem Digitaler Dokumente Workshop Langzeitverfügbarkeit Digitaler Dokumente 29./30. Oktober 2002 Hans Liegmann, Die Deutsche Bibliothek.
Das DANRW - Spezifika Manfred Thaller Universität zu Köln Köln, Die Herausforderung der Elektronischen Archivierung 16. Januar 2013.
METS/MODS Referat im Rahmen des IT-Zertifikats f ü r Geisteswissenschaftler Leitung: P. Sahle Referentin: C. Ottnad.
Das DANRW - Einführung Manfred Thaller Universität zu Köln
METS / MODS. METS – Metadata Encoding and Transmission Standard – 2002 veröffentlicht – XML Schema – Reale Objekte digital abbilden – hierarchische Struktur.
Kurs: Dedizierte Systeme Dozentin: Susanne Kurz Referentin: Desislava Mohrmann 1 Kurzreferat: Fedora 16 Juli 2009.
JUWEL – Open Access Server des Forschungszentrums Jülich
Langzeitarchivierung und Metadaten. NAA Preservation Strategy Link: ml.
Preservation Metadata. OAIS Reference Model Diese und folgende Quellen:
METS (Metadata Encoding Transmission Standard). Wer und Was Digital Library Federation Vorgänger: MoA II (1997) Standard zur Beschreibung einer Teilmenge.
Fedora Repository.
SKALIERBARE HARDWARE UNABHÄNGIGE LÖSUNGEN FÜR HSM, ARCHIVIERUNG UND SICHEREN DATENAUSTAUSCH YOUR DATA. YOUR CONTROL.
© ETH-Bibliothek Pascalia Boutsiouci, Dr. Jiri Pika – ETH-Bibliothek ISKO-Tagung Wissensorganisation 2008, Konstanz, 21. Februar 2008 Pilotprojekt.
Nestor Workshop im Rahmen der GES 2007 Digitale Langzeitarchivierung und Grid: Gemeinsam sind wir stärker? Synergiepotentiale zwischen GRID- und eScience-Technologien.
Schnell - flexibel - kompetent Univention Partner Summit 2012 Wandel im Angebot und Einsatz von IT Manfred Lütkemeyer Business Development.
Nicolas Frings Maximilian Bernd Stefan Piernikarcyk
Metadata Encoding & Transmission Standard
Als geeignetes Präservationsverfahren Migration gebräuchliche Strategie der digitalen Langzeitarchivierung zuverlässiger Weg, die wichtigsten Properties.
Sesame Florian Mayrhuber
Archival and Discovery
WissGrid AP3: LZA Dienste
Dr. Sven Schlarb Österreichische Nationalbibliothek
Expertise Grid und eScience Jens Klump nestor AG Grid/eScience DNB, Frankfurt (M),
Stand der Expertise Workshop am SUB Göttingen
Archiv Def: Siehe Digitales Langzeitarchiv.
Archivierung von Digitalisaten
SCAPE Informationstag und Demo-Event Österreichische Nationalbibliothek Max Kaiser Leiter Abteilung Forschung und Entwicklung Österreichische Nationalbibliothek.
UHZ / 2Roberto Mazzoni - Informatikdienste Geschichte MySql-Service im Portfolio der Informatikdienste seit 2000 Ablösung der Filemaker.
KOOP-LITERA Tagung 2003, 8. / 9. Mai 2003 Archivierung digitaler Dokumente Problemstellung - kooperative Lösungsansätze - Aktivitäten der Österreichischen.
DSpace -Eine Einführung
Erst Theorie… …dann Praxis. Erst Theorie… …dann Praxis.
An Approach to the Preservation of Digital Records National Archives of Australia Universität zu Köln Institut für Historisch-Kulturwissenschaftliche Informationsverarbeitung.
Freitag den 4. Juli 2008 Guten Tag Herr Polizist, Ich bin einbisschen verloren Können Sie mir helfen? Ich suche das Schloss! Natürlich kann ich helfen,
Dedizierte Systeme – Opus Eva Cynkar Dedizierte Systeme - Digital Library.
Deutsch 1 Lesson 6 den 30. April  What do all German nouns have in common? Revision.
Werkzeuge: ArcCatalog, ArcMap, ArcToolbox, ArcScene Birgit Abendroth
Management digitaler Sammlungen 2. Treffen: „Sammlungen an der Universität Wien“ Bettina Kann.
Die digitale Langzeitarchivierung Referentin: Marietta Steinhöfel Seminar: Digitale Langzeitarchivierung Prof. Dr. Manfred Thaller
DSpace IT Zertifikat Blockseminar Dedizierte Systeme Dozentin: Susanne Kurz, M.A. Referentin: Camilla Ottnad, B.A.
1 Konica Minolta IT Solutions Prinzip Partnerschaft MANAGED MONITORING ÜBERWACHJUNG DER SERVERINFRASTRUKTUR UND ANWENDUNGEN DIREKT AUS DER CLOUD.
Open Archival Information System (OAIS) - Vorstellung des Referenzmodells für Langzeitarchivierung Ao.univ.Prof.
Wissensnetzwerk „Digitale Langzeitarchivierung“: 3. Arbeitssitzung , Österreichische Nationalbibliothek 1 Österreich Von der rechtlichen.
© 2014 VMware Inc. All rights reserved. Automatisierung und Verrechnung in einer IoT Cloud am Beispiel von Bosch Private Cloud Costing | Cloud Business.
WebServices Vortrag zur Diplomarbeit WebServices Analyse und Einsatz von Thomas Graf FH Regensburg
Digitale Langzeitarchivierung Internet Universität zu Köln WS 2011/12 Dozent: Prof. Dr. Manfred Thaller AM 2: Digitale Langzeitarchivierung Referentin:
Internet Universität zu Köln WS 2011/12 Dozent: Prof. Dr. Manfred Thaller AM 2: Digitale Langzeitarchivierung Referentin: Rasa Sommer.
LLP DE-COMENIUS-CMP Dieses Projekt wurde mit Unterstützung der Europäischen Kommission finanziert. Die Verantwortung für den Inhalt dieser.
Werkstattbericht Sauver les CD
Strategien zur Bewahrung von Ton- und Videodokumenten
Datenspeicherung und -sicherung
Wie gefällt dir … ? Sven Koerber-Abe, 2013.
Wegbeschreibung Sven Koerber-Abe, 2015.
OAI Protocol for Metadata Harvesting
Uhrzeit Sven Koerber-Abe, 2014.
Process and Impact of Re-Inspection in NRW
1 Tobias Steinke Langzeitarchivierungs-Policy der Deutschen Nationalbibliothek: Theorie und Praxis | 18 | Langzeitarchivierungs-Policy der DNB: Theorie.
Einführung des Forschungsinformationssystems Pure an der CAU Kiel
Metadata - Catalogues and Digitised works
UrMEL und Langzeitarchivierung mit KolibRi/Kopal-Dias
Digitale Transformation
eSciDoc als Plattform für die Wissenschaft Anwendungen und Szenarien
PI Infrastruktur in der Max-Planck-Gesellschaft
Archivierung.
Vom Feld zur Cloud eine kollaborative Online-Plattform zur Verwaltung hydrologischer Observatorien Philipp Kraft, David Windhorst, Lutz Breuer.
- moodle – a internet based learning platform
 Präsentation transkript:

Formate, Werkzeuge und Methoden für die langfristige Datensicherung Linuxwochen, 17.-18. April, Eisenstadt Sven Schlarb

Lang!zeitarchivierung Beispiel: Datenbank zur Klassifikation urgeschichtlicher Steinwerkzeuge ASCII-Tabelle! 0 1 1 0 1 0 1 1 1 1 1 1 0 0 1 1 1 0 1 1 1 1 1 0 1 1 1 1 1 Warum keine Datenbank? MySQL PostgreSQL SQLite etc. Quelle: Andreas Zimmermann: Das Steinmaterial des bandkeramischen Siedlungsplatzes Langweiler 8

Dateiformate Wer kennt das Datei-Format s3hd? extract here … open … Jetzt finden wir es noch heraus. Und in 50 Jahren? Sicherung von Information nicht nur Binärdaten!

Lebensdauer der Daten im Internet/in Social Media What is still on the web after 10 years of archiving? 10 Jahre UK-Webinhalte 2004-2014 Nach einem Jahr sind 80% der Webinhalte noch ähnlich und ca. 20% der Inhalte sind unverändert Nach 10 Jahren sind etwa 8% der Webinhalte ähnlich und ca. 3% sind unverändert Losing My Revolution: How Many Resources Shared on Social Media Have Been Lost? Social-Media-Inhalte zwischen Juni 2009 und März 2012 untersucht Lineare Funktion des Inhaltsverlusts: Content Lost Percentage = 0,02(Age in days) + 4,2 Nach einem Jahr 11% verloren, danach jeden Tag weitere 0,02%

Datenwiederherstellung It Takes a Village to Save a Hard Drive Wiederherstellung 30 Jahre alter Kunstwerke des Künstlers Phil Sanders von alten Datenträgern und mit Hilfe alter Lesegeräte von Kunstwerken By George Chernilevsky (Own work) [Public domain], via Wikimedia Commons

Bedrohungen für archivierte Daten Welchen Bedrohungen sind archivierte Daten ausgesetzt? Und wie begegnen wir diesen? Fehler (Medien/Hardware/Software) Prüfsummen, Redundante Speicherung, .. Obsoleszenz (Medien/Hardware/Software) Migration, Emulation, … Bedienungs- oder Bearbeitungsfehler Qualitätssicherung, Dokumentation Daten-manipulierender Prozesse … Naturkatastrophen, Angriffsszenarien Dezentrale und redundante Speicherung, … Ökonomische Unzulänglichkeit (begrenzte Budgets) Beschränkung auf „das Wesentliche“, Automatisierung, … Organisatorisches bzw. institutionelles Scheitern Quelle (teilweise): http://www.dlib.org/dlib/november05/rosenthal/11rosenthal.html 13.11.2018

OAIS Referenzmodell Consultative Committee for Space Data Systems (CCSDS) ISO 14721:2003 Funktionales Modell der Langzeitarchivierung

Persistente Identifikation/Persistent unique identifier (PUID) Speicherorte ändern sich, manchmal aus rein technischen Gründen  Defekte Verweise (eng. “link rot”) Eindeutige und Speicherort-unabhängige Identifikatoren digitaler Objekte Zugriff auf Ressourcen über einen langen Zeitraum hinweg gewährleisten Unabhängigkeit von Systemen zur Verwaltung digitaler Objekte Siehe auch Handle Digital Object Identifier (DOI) Persistent URL (PURL) Uniform Resource Name (URN) Cool URIs don't change etc.

PREMIS Preservation Metadata: Implementation Strategies Intellectual Entities Rights Objects Agents Events

METS Metadata Encoding & Transmission Standard fileSec (Dateiauflistung) dmdSec (Deskriptive Metadaten) admSec (Administrative Metadaten) structMap (Strukturelle Anordnung) (Hierarchische) Struktur Digitaler Objekte Identifikation, Namen Speicherort Metadaten METS ist ein Paketformat Speichereinheit (e.g. OAIS AIP) Übertragunseinheit (e.g. OAIS SIP or DIP)

WARC = Web ARChive file format Nachfolgeformat des ARC-Formats (Internet Archive) Sequenz von Inhaltsblöcken mit Text-Header ISO-Standard. Offizielle Spezifikation ISO 28500:2009 ist nicht frei verfügbar, aber es gibt eine finale Version , die frei zugänglich ist. Linux: Akzeptiert für wget codebase, seit Version 1.14 direkt unterstützt! 13.11.2018

Stetiges Wachstum des „Digitalen Universums“ Datenmenge als Herausforderung für die Datenarchivierung Einzelentscheidungen aufgrund der Datenmenge oft nicht möglich: Was muss aufbewahrt werden, was kann gelöscht werden?  „Sicherheitshalber alles speichern“  Große Datenmengen, Varianz der Datenformate, Können die archivierten Daten korrekt wiedergegeben werden? Unmöglich hunderte Millionen von Dateien einzeln zu Bewerten  automatisierte Verfahren erforderlich 2020 2015

Entwicklungscluster am AIT Software IA’s Heritrix v. 3.2.0 web crawler, WARC Apache Hadoop v. 2.0.0, CDH 4.2.0 Lily repository v. 2.4 Apache SolR v. 4.0 Hardware Cluster: 1 Master und 7 Slave Knoten 6-core Intel Xeon CPU, 16GB RAM, 4x 4TB SATA per node Preis pro Knoten < 4000 Euro Verteiltes Dateisystem Skalierbar, verteilt, wahlfreier Zugriff auf Daten Daten-Replikationsfaktor = 3 HDFS Kapazität 32 – 112 TB (~ 40 TB replicated)

OpenSource essentiell für die Langzeitarchivierung Beispiel: Implementierung eines Workflows für die Bild-Datenmigration unter Linux FITS Jpylyzer OpenJPEG 2.0. ImageMagick Quelle: Quality assured large scale image migration

Fazit Linux-Distributionen stellen reichhaltige und unverzichtbare Werkzeugkästen für die langfristige Datensicherung bereit Die Verfügbarkeit von frei verfügbaren Werkzeugen trägt erheblich zur Etablierung von Standards bei Neue Software, die Standards und Dateiformate unterstützt, in offiziellen Software-Repositories verfügbar machen! (Software sofort einsatzbereit, z.B. „apt-get install“) 13.11.2018

AIT Austrian Institute of Technology your ingenious partner Sven Schlarb AIT Austrian Institute of Technology GmbH Donau-City-Straße 1 | 1220 Vienna | Austria M +43 664 8251379 sven.schlarb@ait.ac.at | http://www.ait.ac.at