Präsentation herunterladen
Die Präsentation wird geladen. Bitte warten
Veröffentlicht von:Hampe Raglin Geändert vor über 10 Jahren
1
Digitale Langzeitarchivierung Manfred Thaller Köln, 20. Oktober 2011
2
I. Annahmen
3
3 Ein persistentes Objekt Authentisch Integer Metadaten Kontext Einfach verwendbar Diskutierbar Nein 1799 - 1821
4
II. 2021
5
5 Kein wesentlicher Zusammenbruch der Gesellschaft. Memory Institutions bleiben in ununterbrochenem Betrieb. Keine fundamentalen Änderungen in der Informationstechnologie. Keine signifikanten Lücken im WWW. Persistenz bis 2021
6
6 Generalannahme: Persistenz ist eine Funktion des Systems. Persistenz bis 2021
7
II. 2111
8
8 Kein wesentlicher Zusammenbruch der Gesellschaft. Memory Institutions bleiben in ununterbrochenem Betrieb. Keine fundamentalen Änderungen in der Informationstechnologie. Keine signifikanten Lücken im WWW. Persistenz bis 2111
9
9 Kein wesentlicher Zusammenbruch der Gesellschaft. Memory Institutions bleiben in ununterbrochenem Betrieb ändern jedoch wesentliche Betriebsannahmen. Keine fundamentalen Änderungen in der Informationstechnologie. Keine signifikanten Lücken im WWW. Persistenz bis 2111
10
10 Kein wesentlicher Zusammenbruch der Gesellschaft. Memory Institutions bleiben in ununterbrochenem Betrieb ändern jedoch wesentliche Betriebsannahmen. Fundamentale Änderungen in der Informationstechnologie. Keine signifikanten Lücken im WWW. Persistenz bis 2111
11
11 Kein wesentlicher Zusammenbruch der Gesellschaft. Memory Institutions bleiben in ununterbrochenem Betrieb ändern jedoch wesentliche Betriebsannahmen. Fundamentale Änderungen in der Informationstechnologie. Signifikante Lücken im WWW? Persistenz bis 2111
12
12 Annahme: Persistente Speichermedien in den Startlöchern. (Holographische Speicher, Speicherkristalle.) Bit Stream Preservation Frage: Kann ein digitales Objekt im Jahre 2111 verwendet werden, wenn es in einer Memory Institution nach 2011 einfach im Regal liegt? Persistenz bis 2111
13
13 Warum nicht? Bit rot. Authentizität nicht garantiert. Metadaten gehen verloren. Kontext geht verloren. Persistenz bis 2111
14
14 Eine Bilddatei vor … Bit rot
15
15 … und nach der Änderung eines Bits. Bit rot Von der Software Nicht feststellbar.
16
16 Skizze einer technischen Lösung. Unter der Annahme: Bit rot ist weniger problematisch, wenn Dateien so entworfen werden, dass sie Persistenz unterstützen. Bit rot
17
002004 234123 234156 127178 221 Processing dictionary Payload 17 Einführungsvorlesung …
18
002004 234123 234156 127xxx 221 Die Beschädigung eines Bytes führt dazu, dass ein Byte nicht korrekt dargestellt werden kann. 18 Einführungsvorlesung …
19
002xxx 234123 234156 127178 221 Die Beschädigung eines Bytes führt dazu, dass zehn Bytes nicht korrekt dargestellt werden können. 19 Einführungsvorlesung …
20
20 Vorschlag1: Messen der Robustheit von Dateien Vorgeschlagene Metrik: Eine Datei ist m / n robust, wenn man m zufällig ausgewählte Bytes aus den gespeicherten Daten verändern kann, ohne mehr als n Bytes der Payload-Bytes der Datei zu verändern. Hintergrundterminologie: Jedes Dateiformat kann so beschrieben werden, dass zwischen einem processing dictionary (grob: Technischen Metadaten) und einem payload, unterschieden werden kann, der die Information repräsentiert, die dem Benutzer präsentiert wird. Implementationsvorschlag: Wende tausend / eine Million Zufallsänderungen auf n zufällig gewählte Bytes aus und errechne Durschnitt der Zahl betroffener Bytes. Bit rot
21
21 Vorschlag 2: Messen der Fehlersensibilität Vorgeschlagene Metrik: Eine Datei / ein dieses Format verarbeitende Programm ist n fehlersensible, wenn maximal n zufällig gewählte Bytes verändert werden können, ohne dass dies bei jedem Verarbeitungsversuch auffällt. Hintergrundterminologie: Jedes Dateiformat, das bei seinen Lesevorgängen weiß, wie viele Bytes durch die nächste Operation gelesen werden sollen, hat diese Eigenschaft bis zu einem bestimmten Grad. Implementationsvorschlag: Experimente zum besseren Verständnis der Situation. Bit rot
22
22 Vorschlag 3: Verbessern relevanter Dateieigenschaften - Härten Vorgeschlagene Metrik: Eine Datei ist n gehärtet, wenn es n synchronisierte redundante Kopien des processing dictionary enthält. Hintergrundterminologie: Zwei Datenblöcke sind synchronisiert, wenn die Verarbeitungssysteme garantieren, dass sie immer parallel verändert werden. Implementationsvorschlag: Produktion von TIFF / PNG writers / readers, die durch ein zusätzliches tag / chunk angeben dass zusätzliche Kopien des processing dictionary angelegt werden sollen. Bit rot
23
23 Vorschlag 4: Verbessern der Verarbeitungscharakteristika – selbstreparierend Definition: Eine Datei ist selbstreparierend, wenn ein Reader in der Lage ist, nach Feststellen eines Fehlers diesen automatisch zu beheben. Beispiel: PDF Dateien tolerieren bescheidene Fehler im Dateiformat, da sie den Beginn der Hauptabschnitt e innerhalb der Dateien feststellen können. Bit rot
24
24 Problem: Während Papier evaluierbare physikalische Eigenschaften hat, haben digitale Dokumente keine. Lösung: Einfügen digitaler Signaturen, die bei entsprechender Einrichtung registriert sind. Verletzt Annahmen über Änderungen der IT Umgebung. Authentizität nicht garantiert
25
25 Problem: Während Papier evaluierbare physikalische Eigenschaften hat, haben digitale Dokumente keine. Lösung: Automatisches Einfügen eines Fingerabdrucks der Institution (potentiell des individuellen PC) in jede generierte Datei. Problem: Inkompatibel mit der verbreiteten Tendenz (vor allem Text) als XML zu speichern. Authentizität nicht garantiert
26
26 Binäre Dateiversiegelung: 1)Modifiziere Payload um in kleinen Regionen vorhersagbare Parität zu bewirken. 2) Wähle Zufallsstart innerhalb des Payloads. 3) Baue Pfad von Paritätsformen. Authentizität nicht garantiert
27
Einführungsvorlesung … 234231212135178234089064134231222156178123267 178189123234056111134236224097123234221 235 167185135159031137222243278187237220219217221 176135 157176145138278003012034025127236221 159147135158 159162167183177168255248251213 146148144168169154143178181184167257234222244 27
28
Einführungsvorlesung … 234231212135178234089064134231222156178123267 178189123234056111134236224097123234221 235 167185135159031137222243278187237220219217221 176135 157176145138278003012034025127236221 159147135158 159162167183177168255248251213 146148144168169154143178181184167257234222244 28
29
Einführungsvorlesung … 234231212135178234089064134231222156178123267 178189123234056111134236224097123234221 235 167185135159031137222243278187237220219217221 176135 157176145138278003012034025127236221 159147135158 159162167183177168255248251213 146148144168169154143178181184167257234222244 189 + 185 + 135 + 159 + 157 + 158 = 983 = odd 089 + 134 + 236 + 224 + 278 + 003 = 964 = even 220 + 025 + 127 + 236 + 251 + 222 = 1081 = odd 29
30
Einführungsvorlesung … 234231212135178234089064134231222156178123267 178189123234056111134236224097123234221 235 167185135159031137222243278187237220219217221 176135 157176145138278003012034025127236221 159147135157158159162167183177168255248251213 146148144168169154143178181184167257234221244 189 + 185 + 135 + 159 + 157 + 157 = 982 = even 089 + 134 + 236 + 224 + 278 + 003 = 964 = even 220 + 025 + 127 + 236 + 251 + 221 = 1080 = even 30
31
Information verstecken {even, odd, even, even, odd, even, even, even} {even, odd, even, even, odd, even, odd,odd} {even, odd, even, even, odd, even, even, odd} Even 0 ; Odd 1 31
32
Information verstecken {0, 1, 0, 0, odd, even, even, even} {even, odd, even, even, odd, even, odd,odd} {even, odd, even, even, odd, even, even, odd} 32
33
Information verstecken 01001000 01001011 01001001 33
34
Information verstecken H K I Watermarking of images * 34
35
35 "Metadaten" und Daten werden derzeit in Informationssystemen getrennt gespeichert. Am Beispiel einer Bilddatenbank: Metadaten gehen verloren
36
36 Metadaten gehen verloren
37
37 "thumbs.db, aber mehr davon" Metadaten gehen verloren
38
38 MA thesis Jan Schnasse: http://lehre.hki.uni-koeln.de/~schnasse/ediod/; schnasse@gmx.de Metadaten gehen verloren
39
39 MA thesis Jan Schnasse: http://lehre.hki.uni-koeln.de/~schnasse/ediod/; schnasse@gmx.de Metadaten gehen verloren
40
40 MA thesis Jan Schnasse: http://lehre.hki.uni-koeln.de/~schnasse/ediod/; schnasse@gmx.de Metadaten gehen verloren
41
41 Metadaten gehen verloren
42
42 MA thesis Jan Schnasse: http://lehre.hki.uni-koeln.de/~schnasse/ediod/; schnasse@gmx.de Metadaten gehen verloren
43
43 Weitere Eigenschaften langzeitbewusster Dateien: Lokalisierung Definition: Eine Datei ist lokalisiert, wenn ein reader sie ohne Kontakt mit einem Server verarbeiten kann. Gegenbeispiel: Nahezu alle XML-basierten Standards der DL Community nehmen an, dass ein Programm, das die Dateien verarbeitet ungehinderten Zugang zu einem voll funktionsfähigen Web heutigen Zuschnitts und zu Registrierungsbehörden, wie etwa URN Resolvern, hat. Lösung: Schnappschuss von angesprochenen Komponenten. Der Kontext geht verloren
44
44 Weitere Eigenschaften langzeitbewusster Dateien: Autonomie Definition: Eine Datei ist autonom, wenn ein reader es ohne Zugriff auf eine andere Datei verarbeiten kann. Gegenbeispiel: Ein PDF ist normalerweise nicht im strengen Sinne autonom, da es von der Verfügbarkeit von Fontinformationen ausgeht. PDF / A Lösung: Diskussionsbedarf". Der Kontext geht verloren
45
45 Weitere Eigenschaften langzeitbewusster Dateien: Selbstdokumentierend Definition: Eine Datei ist selbstdokumentierend, wenn ihr processing dictionary einen vollständigen Metadatensatz enthält. Lösung: Registrierung geeigneter tags / chunks mitTIFF / PNG Verwaltern. Der Kontext geht verloren
46
46 Weitere Eigenschaften langzeitbewusster Dateien: Sicherungsverkapselung Definition: Eine Datei ist sicherungsgekapselt, wenn sie mit einem Sicherungsheader beginnt, der als processing dictionary für eine Teilmenge der Eigenschaften die aus dem Anspruch auf Härtung und die Eigenschaft der Selbstdokumentation abgeleitet wurden, gefolgt von den Daten des jetzigen Dateiformats. Lösung: Wenn wir URNs und Normdateien registrieren können, warum keine Kapselformate? Registrierung verletzt jedoch die Autonomie. Der Kontext geht verloren
47
II. 3011
48
48 Kein wesentlicher Zusammenbruch der Gesellschaft. Memory Institutions bleiben in ununterbrochenem Betrieb. Keine fundamentalen Änderungen in der Informationstechnologie. Keine signifikanten Lücken im WWW. Persistenz bis 3011
49
49 Vorübergehender völliger Zusammenbruch der Gesellschaft. Memory Institutions bleiben in ununterbrochenem Betrieb. Keine fundamentalen Änderungen in der Informationstechnologie. Keine signifikanten Lücken im WWW. Persistenz bis 3011
50
50 Vorübergehender völliger Zusammenbruch der Gesellschaft. Memory Institutions brechen vorübergehend zusammen. Keine fundamentalen Änderungen in der Informationstechnologie. Keine signifikanten Lücken im WWW. Persistenz bis 3011
51
51 Vorübergehender völliger Zusammenbruch der Gesellschaft. Memory Institutions brechen vorübergehend zusammen. n grundsätzliche Änderungen in der Informationstechnologie. Keine signifikanten Lücken im WWW. Persistenz bis 3011
52
52 Vorübergehender völliger Zusammenbruch der Gesellschaft. Memory Institutions brechen vorübergehend zusammen. n grundsätzliche Änderungen in der Informationstechnologie. WWW komplett durch andere Form der Konnektivität ersetzt. Persistenz bis 3011
53
53 Irgendeine Chance? Persistenz bis 3011
54
54 Blick zurück auf ca. 1011 Ist das Information?
55
55 Blick zurück auf ca. 1011 Ist das Information?
56
56 Blick zurück auf ca. 1011 Ist das Information?
57
57 Blick zurück auf ca. 1011 Ist das Information?
58
58 Herausforderungen: 1.Information erkennen 2.Technische Verarbeitung der Informations(=daten)träger 3.Kulturelle Voraussetzungen des Verständnisses Persistenz bis 3011
59
59 Herausforderungen: 1.Ankündigungsheader? 2.Geschachtelte Verkapselungen? 3.Kulturelle Voraussetzungen des Verständnisses Persistenz bis 3011
60
60 Herausforderungen: 1.Ankündigungsheader? 2.Geschachtelte Verkapselungen? 3.Kulturelle Voraussetzungen des Verständnisses Persistenz bis 3011
61
61 Herausforderungen: 1.Ankündigungsheader? 2.Geschachtelte Verkapselungen? 3.??? Persistenz bis 3011
62
62 Schicken Sie mir (manfred.thaller@uni-koeln.de) das Äquivalent einer DIN A4 Seite mit allen Angaben, die ihrer Ansicht nach im Jahre 3011 nötig sind, um ein digitales Medium (eBook, Audio, Video, Computer Game) Ihrer Wahl, das mit einer auf Ihrer Seite enthaltenen URL erreichbar ist zu benutzen. 50 % des Umfangs sind für die Kulturellen Voraussetzungen des Verständnisses reserviert. Aufgabe bis 27. Oktober 2 011 für alle:
Ähnliche Präsentationen
© 2024 SlidePlayer.org Inc.
All rights reserved.