Digitale Langzeitarchivierung Manfred Thaller Köln, 20. Oktober 2011.

Slides:



Advertisements
Ähnliche Präsentationen
Developing your Business to Success We are looking for business partners. Enterprise Content Management with OS|ECM Version 6.
Advertisements

Anzahl der ausgefüllten und eingesandten Fragebögen: 211
Die Schulkonsole für Lehrerinnen und Lehrer
Vorlesung: 1 Betriebliche Informationssysteme 2003 Prof. Dr. G. Hellberg Studiengang Informatik FHDW Vorlesung: Betriebliche Informationssysteme Teil3.
LS 2 / Informatik Datenstrukturen, Algorithmen und Programmierung 2 (DAP2)
Erkennen Sie die Kirchenkreise Heiteres Ratespiel Kirchen aus der Region.
Telefonnummer.
CPCP Institute of Clinical Pharmacology AGAH Annual Meeting, 29. Februar 2004, Berlin, Praktischer Umgang mit den Genehmigungsanträgen gemäß 12. AMG Novelle.
Modelle und Methoden der Linearen und Nichtlinearen Optimierung (Ausgewählte Methoden und Fallstudien) U N I V E R S I T Ä T H A M B U R G November 2012.
Modelle und Methoden der Linearen und Nichtlinearen Optimierung (Ausgewählte Methoden und Fallstudien) U N I V E R S I T Ä T H A M B U R G November 2011.
Modelle und Methoden der Linearen und Nichtlinearen Optimierung (Ausgewählte Methoden und Fallstudien) U N I V E R S I T Ä T H A M B U R G November 2011.
Einführung in die Informationsverarbeitung Teil Thaller Stunde III: Algorithmen Köln 4. Dezember 2008.
1 JIM-Studie 2010 Jugend, Information, (Multi-)Media Landesanstalt für Kommunikation Baden-Württemberg (LFK) Landeszentrale für Medien und Kommunikation.
= = = = 47 = 47 = 48 = =
Rechneraufbau & Rechnerstrukturen, Folie 2.1 © W. Oberschelp, G. Vossen W. Oberschelp G. Vossen Kapitel 2.
Internet facts 2008-II Graphiken zu dem Berichtsband AGOF e.V. September 2008.
Vorlesung: 1 Betriebliche Informationssysteme 2003 Prof. Dr. G. Hellberg Studiengang Informatik FHDW Vorlesung: Betriebliche Informationssysteme Teil2.
PKJ 2005/1 Stefan Dissmann Zusammenfassung Bisher im Kurs erarbeitete Konzepte(1): Umgang mit einfachen Datentypen Umgang mit Feldern Umgang mit Referenzen.
Bewegte Bezugssysteme
Differentielles Paar UIN rds gm UIN
Prof. Dr. Bernhard Wasmayr
Studienverlauf im Ausländerstudium
Prof. Dr. Bernhard Wasmayr VWL 2. Semester
AWA 2007 Natur und Umwelt Natürlich Leben
Rechneraufbau & Rechnerstrukturen, Folie 12.1 © W. Oberschelp, G. Vossen W. Oberschelp G. Vossen Kapitel 12.
2 Distanzbasierte Sprachkommunikation für Peer-to-Peer-Spiele.
1. 2 Schreibprojekt Zeitung 3 Überblick 1. Vorstellung ComputerLernWerkstatt 2. Schreibprojekt: Zeitung 2.1 Konzeption des Kurses 2.2 Projektverlauf.
20:00.
„Küsse deine Freunde“ – FlexKom-App teilen
Zusatzfolien zu B-Bäumen
In der Schule.
SK / , , in Hochkössen und der Wildschönau flow Ski- und Snowboardschule Intersport Menzel.
Eine Einführung in die CD-ROM
Dokumentation der Umfrage
für Weihnachten oder als Tischdekoration für das ganze Jahr
Where Europe does business Lück, JDZB | Seite © GfW NRW 252 a.
1 Ein kurzer Sprung in die tiefe Vergangenheit der Erde.
TWS/Graph HORIZONT Produktionsüberwachung für “TWS for z/OS”
Syntaxanalyse Bottom-Up und LR(0)
NEU! 1 2. Wo kommt diese Art von Rezeptor im Körper vor?
Aufgabensammlung Thermodynamik Frank-Michael Barth ISBN: © 2014 Oldenbourg Wissenschaftsverlag GmbH Abbildungsübersicht / List of Figures.
PROCAM Score Alter (Jahre)
Ertragsteuern, 5. Auflage Christiana Djanani, Gernot Brähler, Christian Lösel, Andreas Krenzin © UVK Verlagsgesellschaft mbH, Konstanz und München 2012.
Geometrische Aufgaben
Symmetrische Blockchiffren DES – der Data Encryption Standard
1 (C)2006, Hermann Knoll, HTW Chur, FHO Quadratische Reste Definitionen: Quadratischer Rest Quadratwurzel Anwendungen.
Großer Altersunterschied bei Paaren fällt nicht auf!
Zahlentheorie und Zahlenspiele Hartmut Menzer, Ingo Althöfer ISBN: © 2014 Oldenbourg Wissenschaftsverlag GmbH Abbildungsübersicht / List.
MINDREADER Ein magisch - interaktives Erlebnis mit ENZO PAOLO
1 (C)2006, Hermann Knoll, HTW Chur, FHO Quadratische Reste Definitionen: Quadratischer Rest Quadratwurzel Anwendungen.
Schutzvermerk nach DIN 34 beachten 20/05/14 Seite 1 Grundlagen XSoft Lösung :Logische Grundschaltung IEC-Grundlagen und logische Verknüpfungen.
Folie Beispiel für eine Einzelauswertung der Gemeindedaten (fiktive Daten)
1 Arbeitsgemeinschaft Biologische Psychiatrie Verordnungsgewohnheiten von Psychopharmaka Statuserhebung 2005 W.Günther G.Laux T.Messer N.Müller M.Schmauss.
1 Mathematical Programming Nichtlineare Programmierung.
Imperfekt Wie sagt man das mit Imperfekt
Dokumentation der Umfrage BR P2.t Ergebnisse in Prozent n= 502 telefonische CATI-Interviews, repräsentativ für die Linzer Bevölkerung ab 18 Jahre;
Technische Frage Technische Frage Bitte löse die folgende Gleichung:
Ertragsteuern, 5. Auflage Christiana Djanani, Gernot Brähler, Christian Lösel, Andreas Krenzin © UVK Verlagsgesellschaft mbH, Konstanz und München 2012.
Unternehmensbewertung Thomas Hering ISBN: © 2014 Oldenbourg Wissenschaftsverlag GmbH Abbildungsübersicht / List of Figures Tabellenübersicht.
Bildergalerie PRESEASON CAMP Juni 2014 Romanshorn Get ready for the Season!
Es war einmal ein Haus
Folie Einzelauswertung der Gemeindedaten
J-Team: Gymnasium Ulricianum Aurich und MTV Aurich Ein Projekt im Rahmen von UlricianumBewegt.de Euro haben wir schon…  8000 mal habt ihr bereits.
Datum:17. Dezember 2014 Thema:IFRS Update zum Jahresende – die Neuerungen im Überblick Referent:Eberhard Grötzner, EMA ® Anlass:12. Arbeitskreis Internationale.
1 10 pt 15 pt 20 pt 25 pt 5 pt 10 pt 15 pt 20 pt 25 pt 5 pt 10 pt 15 pt 20 pt 25 pt 5 pt 10 pt 15 pt 20 pt 25 pt 5 pt 10 pt 15 pt 20 pt 25 pt 5 pt Wie.
Technische Kommunikation
Sehen, Hören, Schmecken: wenn uns unsere Sinne täuschen
1 Medienpädagogischer Forschungsverbund Südwest KIM-Studie 2014 Landesanstalt für Kommunikation Baden-Württemberg (LFK) Landeszentrale für Medien und Kommunikation.
Monatsbericht Ausgleichsenergiemarkt Gas – Oktober
Einführung in die Informationsverarbeitung Teil Thaller Stunde III: Algorithmen Köln 4. November 2010.
 Präsentation transkript:

Digitale Langzeitarchivierung Manfred Thaller Köln, 20. Oktober 2011

I. Annahmen

3 Ein persistentes Objekt Authentisch Integer Metadaten Kontext Einfach verwendbar Diskutierbar Nein

II. 2021

5 Kein wesentlicher Zusammenbruch der Gesellschaft. Memory Institutions bleiben in ununterbrochenem Betrieb. Keine fundamentalen Änderungen in der Informationstechnologie. Keine signifikanten Lücken im WWW. Persistenz bis 2021

6 Generalannahme: Persistenz ist eine Funktion des Systems. Persistenz bis 2021

II. 2111

8 Kein wesentlicher Zusammenbruch der Gesellschaft. Memory Institutions bleiben in ununterbrochenem Betrieb. Keine fundamentalen Änderungen in der Informationstechnologie. Keine signifikanten Lücken im WWW. Persistenz bis 2111

9 Kein wesentlicher Zusammenbruch der Gesellschaft. Memory Institutions bleiben in ununterbrochenem Betrieb ändern jedoch wesentliche Betriebsannahmen. Keine fundamentalen Änderungen in der Informationstechnologie. Keine signifikanten Lücken im WWW. Persistenz bis 2111

10 Kein wesentlicher Zusammenbruch der Gesellschaft. Memory Institutions bleiben in ununterbrochenem Betrieb ändern jedoch wesentliche Betriebsannahmen. Fundamentale Änderungen in der Informationstechnologie. Keine signifikanten Lücken im WWW. Persistenz bis 2111

11 Kein wesentlicher Zusammenbruch der Gesellschaft. Memory Institutions bleiben in ununterbrochenem Betrieb ändern jedoch wesentliche Betriebsannahmen. Fundamentale Änderungen in der Informationstechnologie. Signifikante Lücken im WWW? Persistenz bis 2111

12 Annahme: Persistente Speichermedien in den Startlöchern. (Holographische Speicher, Speicherkristalle.) Bit Stream Preservation Frage: Kann ein digitales Objekt im Jahre 2111 verwendet werden, wenn es in einer Memory Institution nach 2011 einfach im Regal liegt? Persistenz bis 2111

13 Warum nicht? Bit rot. Authentizität nicht garantiert. Metadaten gehen verloren. Kontext geht verloren. Persistenz bis 2111

14 Eine Bilddatei vor … Bit rot

15 … und nach der Änderung eines Bits. Bit rot Von der Software Nicht feststellbar.

16 Skizze einer technischen Lösung. Unter der Annahme: Bit rot ist weniger problematisch, wenn Dateien so entworfen werden, dass sie Persistenz unterstützen. Bit rot

Processing dictionary Payload 17 Einführungsvorlesung …

xxx 221 Die Beschädigung eines Bytes führt dazu, dass ein Byte nicht korrekt dargestellt werden kann. 18 Einführungsvorlesung …

002xxx Die Beschädigung eines Bytes führt dazu, dass zehn Bytes nicht korrekt dargestellt werden können. 19 Einführungsvorlesung …

20 Vorschlag1: Messen der Robustheit von Dateien Vorgeschlagene Metrik: Eine Datei ist m / n robust, wenn man m zufällig ausgewählte Bytes aus den gespeicherten Daten verändern kann, ohne mehr als n Bytes der Payload-Bytes der Datei zu verändern. Hintergrundterminologie: Jedes Dateiformat kann so beschrieben werden, dass zwischen einem processing dictionary (grob: Technischen Metadaten) und einem payload, unterschieden werden kann, der die Information repräsentiert, die dem Benutzer präsentiert wird. Implementationsvorschlag: Wende tausend / eine Million Zufallsänderungen auf n zufällig gewählte Bytes aus und errechne Durschnitt der Zahl betroffener Bytes. Bit rot

21 Vorschlag 2: Messen der Fehlersensibilität Vorgeschlagene Metrik: Eine Datei / ein dieses Format verarbeitende Programm ist n fehlersensible, wenn maximal n zufällig gewählte Bytes verändert werden können, ohne dass dies bei jedem Verarbeitungsversuch auffällt. Hintergrundterminologie: Jedes Dateiformat, das bei seinen Lesevorgängen weiß, wie viele Bytes durch die nächste Operation gelesen werden sollen, hat diese Eigenschaft bis zu einem bestimmten Grad. Implementationsvorschlag: Experimente zum besseren Verständnis der Situation. Bit rot

22 Vorschlag 3: Verbessern relevanter Dateieigenschaften - Härten Vorgeschlagene Metrik: Eine Datei ist n gehärtet, wenn es n synchronisierte redundante Kopien des processing dictionary enthält. Hintergrundterminologie: Zwei Datenblöcke sind synchronisiert, wenn die Verarbeitungssysteme garantieren, dass sie immer parallel verändert werden. Implementationsvorschlag: Produktion von TIFF / PNG writers / readers, die durch ein zusätzliches tag / chunk angeben dass zusätzliche Kopien des processing dictionary angelegt werden sollen. Bit rot

23 Vorschlag 4: Verbessern der Verarbeitungscharakteristika – selbstreparierend Definition: Eine Datei ist selbstreparierend, wenn ein Reader in der Lage ist, nach Feststellen eines Fehlers diesen automatisch zu beheben. Beispiel: PDF Dateien tolerieren bescheidene Fehler im Dateiformat, da sie den Beginn der Hauptabschnitt e innerhalb der Dateien feststellen können. Bit rot

24 Problem: Während Papier evaluierbare physikalische Eigenschaften hat, haben digitale Dokumente keine. Lösung: Einfügen digitaler Signaturen, die bei entsprechender Einrichtung registriert sind. Verletzt Annahmen über Änderungen der IT Umgebung. Authentizität nicht garantiert

25 Problem: Während Papier evaluierbare physikalische Eigenschaften hat, haben digitale Dokumente keine. Lösung: Automatisches Einfügen eines Fingerabdrucks der Institution (potentiell des individuellen PC) in jede generierte Datei. Problem: Inkompatibel mit der verbreiteten Tendenz (vor allem Text) als XML zu speichern. Authentizität nicht garantiert

26 Binäre Dateiversiegelung: 1)Modifiziere Payload um in kleinen Regionen vorhersagbare Parität zu bewirken. 2) Wähle Zufallsstart innerhalb des Payloads. 3) Baue Pfad von Paritätsformen. Authentizität nicht garantiert

Einführungsvorlesung …

Einführungsvorlesung …

Einführungsvorlesung … = 983 = odd = 964 = even = 1081 = odd 29

Einführungsvorlesung … = 982 = even = 964 = even = 1080 = even 30

Information verstecken {even, odd, even, even, odd, even, even, even} {even, odd, even, even, odd, even, odd,odd} {even, odd, even, even, odd, even, even, odd} Even 0 ; Odd 1 31

Information verstecken {0, 1, 0, 0, odd, even, even, even} {even, odd, even, even, odd, even, odd,odd} {even, odd, even, even, odd, even, even, odd} 32

Information verstecken

Information verstecken H K I Watermarking of images * 34

35 "Metadaten" und Daten werden derzeit in Informationssystemen getrennt gespeichert. Am Beispiel einer Bilddatenbank: Metadaten gehen verloren

36 Metadaten gehen verloren

37 "thumbs.db, aber mehr davon" Metadaten gehen verloren

38 MA thesis Jan Schnasse: Metadaten gehen verloren

39 MA thesis Jan Schnasse: Metadaten gehen verloren

40 MA thesis Jan Schnasse: Metadaten gehen verloren

41 Metadaten gehen verloren

42 MA thesis Jan Schnasse: Metadaten gehen verloren

43 Weitere Eigenschaften langzeitbewusster Dateien: Lokalisierung Definition: Eine Datei ist lokalisiert, wenn ein reader sie ohne Kontakt mit einem Server verarbeiten kann. Gegenbeispiel: Nahezu alle XML-basierten Standards der DL Community nehmen an, dass ein Programm, das die Dateien verarbeitet ungehinderten Zugang zu einem voll funktionsfähigen Web heutigen Zuschnitts und zu Registrierungsbehörden, wie etwa URN Resolvern, hat. Lösung: Schnappschuss von angesprochenen Komponenten. Der Kontext geht verloren

44 Weitere Eigenschaften langzeitbewusster Dateien: Autonomie Definition: Eine Datei ist autonom, wenn ein reader es ohne Zugriff auf eine andere Datei verarbeiten kann. Gegenbeispiel: Ein PDF ist normalerweise nicht im strengen Sinne autonom, da es von der Verfügbarkeit von Fontinformationen ausgeht. PDF / A Lösung: Diskussionsbedarf". Der Kontext geht verloren

45 Weitere Eigenschaften langzeitbewusster Dateien: Selbstdokumentierend Definition: Eine Datei ist selbstdokumentierend, wenn ihr processing dictionary einen vollständigen Metadatensatz enthält. Lösung: Registrierung geeigneter tags / chunks mitTIFF / PNG Verwaltern. Der Kontext geht verloren

46 Weitere Eigenschaften langzeitbewusster Dateien: Sicherungsverkapselung Definition: Eine Datei ist sicherungsgekapselt, wenn sie mit einem Sicherungsheader beginnt, der als processing dictionary für eine Teilmenge der Eigenschaften die aus dem Anspruch auf Härtung und die Eigenschaft der Selbstdokumentation abgeleitet wurden, gefolgt von den Daten des jetzigen Dateiformats. Lösung: Wenn wir URNs und Normdateien registrieren können, warum keine Kapselformate? Registrierung verletzt jedoch die Autonomie. Der Kontext geht verloren

II. 3011

48 Kein wesentlicher Zusammenbruch der Gesellschaft. Memory Institutions bleiben in ununterbrochenem Betrieb. Keine fundamentalen Änderungen in der Informationstechnologie. Keine signifikanten Lücken im WWW. Persistenz bis 3011

49 Vorübergehender völliger Zusammenbruch der Gesellschaft. Memory Institutions bleiben in ununterbrochenem Betrieb. Keine fundamentalen Änderungen in der Informationstechnologie. Keine signifikanten Lücken im WWW. Persistenz bis 3011

50 Vorübergehender völliger Zusammenbruch der Gesellschaft. Memory Institutions brechen vorübergehend zusammen. Keine fundamentalen Änderungen in der Informationstechnologie. Keine signifikanten Lücken im WWW. Persistenz bis 3011

51 Vorübergehender völliger Zusammenbruch der Gesellschaft. Memory Institutions brechen vorübergehend zusammen. n grundsätzliche Änderungen in der Informationstechnologie. Keine signifikanten Lücken im WWW. Persistenz bis 3011

52 Vorübergehender völliger Zusammenbruch der Gesellschaft. Memory Institutions brechen vorübergehend zusammen. n grundsätzliche Änderungen in der Informationstechnologie. WWW komplett durch andere Form der Konnektivität ersetzt. Persistenz bis 3011

53 Irgendeine Chance? Persistenz bis 3011

54 Blick zurück auf ca Ist das Information?

55 Blick zurück auf ca Ist das Information?

56 Blick zurück auf ca Ist das Information?

57 Blick zurück auf ca Ist das Information?

58 Herausforderungen: 1.Information erkennen 2.Technische Verarbeitung der Informations(=daten)träger 3.Kulturelle Voraussetzungen des Verständnisses Persistenz bis 3011

59 Herausforderungen: 1.Ankündigungsheader? 2.Geschachtelte Verkapselungen? 3.Kulturelle Voraussetzungen des Verständnisses Persistenz bis 3011

60 Herausforderungen: 1.Ankündigungsheader? 2.Geschachtelte Verkapselungen? 3.Kulturelle Voraussetzungen des Verständnisses Persistenz bis 3011

61 Herausforderungen: 1.Ankündigungsheader? 2.Geschachtelte Verkapselungen? 3.??? Persistenz bis 3011

62 Schicken Sie mir das Äquivalent einer DIN A4 Seite mit allen Angaben, die ihrer Ansicht nach im Jahre 3011 nötig sind, um ein digitales Medium (eBook, Audio, Video, Computer Game) Ihrer Wahl, das mit einer auf Ihrer Seite enthaltenen URL erreichbar ist zu benutzen. 50 % des Umfangs sind für die Kulturellen Voraussetzungen des Verständnisses reserviert. Aufgabe bis 27. Oktober für alle: