Library of Congress Collections Content Categories Universität zu Köln WS 11/12 Digitale Langzeitarchivierung 17.11.2011 Christina Vollmert
Bilder
Bilder Anwendungsbereiche: Fotografien, Plakate, Grafiken, Diagramme, dokumentarische Bauzeichnungen Aufteilung in Raster- und Vektorgrafik
Bestimmung der Formatpräferenzen Analyse der signifikanten Charakteristika der Formate
Bestimmung der Formatpräferenzen Auflösung - nicht relevant für Vektorgrafiken - bestimmende Größe für die Qualität von Rastergrafiken - zwei Varianten Gesamtzahl der Bildpunkte (z.B. 7 Megapixel) Anzahl der Bildpunkte pro Zeile (z.B. 2400 x 3000) - zwei Einheiten ppi bezieht sich auf die Lichtpunkte dpi bezieht sich auf die Bildpunkte
Bestimmung der Formatpräferenzen Farbverwaltung - hohe Ähnlichkeit der Farben zwischen der Ein- und Ausgabe eines Bildes
Bestimmung der Formatpräferenzen Wiedergabe - Bildschirm oder Papier? - Für welchen Gebrauch?
Bestimmung der Formatpräferenzen Ergebnisse der Analyse mit technischen Informationen der verschiedensten Formate verbinden
Bevorzugte Formate – Rastergrafiken akzeptierte Dateiformate für Farb- oder Graustufen Bilder: Priorität 1 TIFF_UNC (Uncompressed Bitmap) TIFF_UNC_EXIF (Umcompressed File with Exif metadata) TIFF/EP (Electronic Photography) JP2_J2L_C_LL (JPEG 2000 Part 1 Core Coding, Lossless Compression) TIFF/IT (Image Technology)
Bevorzugte Formate – Rastergrafiken akzeptierte Dateiformate für Farb- oder Graustufen Bilder: Priorität 2 JP2_J2K_C_LSY (JPEG 2000)
Bevorzugte Formate – Rastergrafiken akzeptierte Dateiformate für Farb- oder Graustufen Bilder: Priorität 3 PDF/A (PDF for Long-term Preservation) PDF/X (PDF for Graphic Exchange) JPEG_DCT_BL (JPEG, DCT Encoding, Baseline)
Bevorzugte Formate – Rastergrafiken akzeptierte Dateiformate für Farb- oder Graustufen Bilder: Priorität 4 PNG (Portable Network Graphics Format) Priorität 5 GIF (Graphics Interchange Format) Priorität 6 BMP (Microsoft Windows Bitmap Format9
Bevorzugte Formate – Rastergrafiken akzeptierte Dateiformate für schwarzweiß Bilder TIFF_G4 (Group 4 Compression) J2L_COMP (Compound Images)
Bevorzugte Formate – Rastergrafiken nicht erwünschte Dateiformate RAW PSD PCD EPS FlashPix
Bevorzugte Formate - Vektor Grafiken akzeptierte Dateiformate SVG_1_1 (Scalable Vector Graphics Ver. 1.1) SVG_1_2 (Scalable Vector Graphics Ver. 1.2) DXF (AutoCad Drawing Interchange Format)
Bevorzugte Formate - Vektor Grafiken nicht erwünschte Dateiformate AI (Adobe Illustrator) CDR (Corel Draw) CMX (Corel Exchange) DRW (Micrografx Draw) WMF (Windows Metafile) STEP (Standard for the Exchange of Product Model Data)
Bestimmung der Formatpräferenzen Beispiel 1: Arbeiten von Fotografen und Werbedesignern - dokumentarische Fotografien von Tieren & Natur - Modefotografien - Architekturfotografien Farbe & Tonalität ist von besonderer Wichtigkeit Auflösung ist wichtig, um feine Details sichtbar zu machen Archivierung sollte diese Punkte nicht beeinflussen Typ: Rastergrafik, unkomprimiert Datei Format: TIFF_UNC (RGB color, 24 bit oder größer)
Audio
Audio Anwendungsbereiche: Kategorie 1: Aufnahmen (Musik CD‘s, Hörbücher, etc.) „waveform“ Kategorie 2: Formate der Produktion solcher Aufnahmen „note-based“
Bestimmung der Formatpräferenzen Wiedergabe - mono oder stereo? - Lautsprecher oder Kopfhörer? - Software nötig, um Nutzer die Kontrolle über Lautstärke, Balance etc. zu gewähren
Bestimmung der Formatpräferenzen Fidelity - das aufgenommene Klangbild so reproduzieren können, dass zwischen Original und Wiedergabe kein hörbarer Unterschied besteht High Fidelity - Abtastfrequenz & Bittiefe
Bestimmung der Formatpräferenzen Mehrkanal-System - Ziel: möglichst realistisches räumliches Klangerlebnis zu ermöglichen mehrere Klangkanäle: z.B. durch Surround Sound mehrere Inhaltskanäle: z.B. Deutsch oder Englischer Ton
Bestimmung der Formatpräferenzen Downloads - usergeneriete Sounds, Samples & Patches
Bevorzugte Formate – Waveform Generell bevorzugt werden - Formate mit hohe Abtastrate - unkromprimierte Formate - nicht schreibgeschützte Formate
Bevorzugte Formate – Waveform Akzeptierte Formate für Mono/Stereo WAVE-LPCM-BWF WAVE-LPCM AIFF-LPCM MP3_FF AAC_ADIF AAC_M4A QTA_AAC WMA_WMA9_PRO WMA_WMA9
Bevorzugte Formate – Waveform Akzeptierte Formate für Surround Sound AAC_ADIF AAC_M4A QTA_AAC WMA_WMA9_PRO
Bevorzugte Formate – Note-based Generell bevorzugt werden - MIDI Encodings MIDI Level 1 wird gegenüber Level 2 bevorzugt
Bevorzugte Formate – Note-based Akzeptierte Formte XMF (eXtensible Music Format) SMF (Standard MIDI File) RMID (RIFF-based MIDI File)
Bestimmung der Formatpräferenzen Beispiel 1: CD mit klassischer Musik Wiedergabe eines originalgetreuen Klangbilds sehr wichtig Wiedergabe durch Lautsprecher oder Kopfhörer sollte möglich sein Datei Format: AAC_ADIF
Text
Text Anwendungsbereiche: Verschiedene Arbeiten, die hauptsächlich aus Text bestehen Schwerpunkt aber auf Arbeiten, die vorranging physisch existieren. Nicht berücksichtigt werden eBooks oder Formate, die z.B. nur für einen eBook Reader geeignet sind
Bestimmung der Formatpräferenzen Charakteristika, die für die Hersteller von Texten wichtig sind - Verständlichkeit für die Endnutzer - Qualität des Designs/ Layouts - erfolgreiche Verbindung von Anwendungsbereich und Absicht - Integrität des Textes, dazugehörigen Diagrammen, Illustrationen, Formeln etc.
Bestimmung der Formatpräferenzen Charakteristika, die für die Leser heute wichtig sind - Lesbarkeit - Lese- Komfort (visuell ansprechend? Seiten gut umblätterbar/ Scrollen möglich?) - Qualität von Design und Layout - Verständnis von Inhalt und Kontext - Integrität der Inhalten - Navigation (z.B. durch verschiedene Kapitel oder Links) - Volltextsuche - Möglichkeit des Zitierens - Möglichkeit, bestimmte Teile auszudrucken
Bestimmung der Formatpräferenzen Charakteristika, die für die Leser in Zukunft wichtig sind - Verständnis für den zeitlichen Kontext, in der das Dokument verfasst wurde - Verständnis dafür, in wie fern technische Veränderungen die Struktur der Navigation/ Präsentation verändert haben - Möglichkeit, den Wert des Dokuments als historischen Beweis zu überprüfen
Bevorzugte Formate Texte mit strukturiertem Markup (z.B. XML) OEBPS_1_2 (Open eBook Publication Structure) DTB (Digital Talking Book)
Bevorzugte Formate Texte mit Seiten-Layout PDF/A HTML
Bestimmung der Formatpräferenzen Beispiel 1: Poster, Broschüren, Werbeanzeigen Layout & Design ist sehr wichtig Volltextsuche z.B. nicht primär wichtig Lösung: Datei Format: HTML oder PDF
Bewegte Bilder
Bewegte Bilder Anwendungsbereiche: Kategorie 1: Animationen, Filme, Videos Kategorie 2: Formate, die für die Produktion solcher Inhalte genutzt werden Physische Datenträge wie DVDs und Videos werden nicht berücksichtigt
Bestimmung der Formatpräferenzen Wiedergabe - Ausgabe am Bildschirm/ Leinwand - falls Ton vorhanden: mono oder stereo/ Lautsprecher oder Kopfhörer - Einstellungsmöglichkeiten im Bezug auf Kontraste, Helligkeit usw. - Möglichkeiten der Navigation (vorspulen, etc.)
Bestimmung der Formatpräferenzen Auflösung - nicht relevant für Vektorbasierte Animationen wie Flash- Dateien - Bildgröße (z.B. TV- Standard 4:3) - geht einher mit der Frame-Anzahl (Standard Video: 30 Frames pro Sekunde; Film 24 Frames pro Sekunde)
Bestimmung der Formatpräferenzen Fidelity - das aufgenommene Klangbild so reproduzieren können, dass zwischen Original und Wiedergabe kein hörbarer Unterschied besteht High Fidelity
Bestimmung der Formatpräferenzen Mehrkanal-System - Ziel: möglichst realistisches räumliches Klangerlebnis zu ermöglichen mehrere Klangkanäle: z.B. durch Surround Sound mehrere Inhaltskanäle: z.B. Deutsch oder Englischer Ton, Kommentare des Regisseurs, Sound Effekte usw…
Bevorzugte Formate – Filme/ Videos Generell werden Formate bevorzugt, die - eine hohe Bitrate - High Definition anstatt Standard Definition - hohe Bildgrößen vorweisen
Bevorzugte Formate – Filme /Videos Akzeptierte Formate MPEG-2 MPEG-4_AVC MPEG-4_V MPEG-1 Komprimierte Formate wie AVI, QuickTime, WMV, etc.
Bevorzugte Formate – Animationen Akzeptierte Formate FLA (Macromedia Flash Project File) SWF (Macromedia Flash SWF File) SVG_1_1 (Scalable Vector Graphics Vers. 1.1) SVG_1_2 (Scalable Vector Graphics Vers. 1.2)
Bevorzugte Formate – Produktion Akzeptierte Formate für nicht komprimierte Daten DPX_2 DCDM_1_0 MXF_GC_UNC MJP2_FF_LL AVI QuickTime WMV
Bevorzugte Formate – Produktion Akzeptierte Formate für komprimierte Daten MXF_GC_MPEG-2 (MXF File with MPEG2 VideoStream) MPEG-2 MPEG-4_AVC MPEG-4_V MPEG-1 AVI QuickTime WMV
Bestimmung der Formatpräferenzen Beispiel 1: Kinofilm Auflösung und Sound sehr wichtig, ebenso Farbwiedergabe Lösung: Datei Format: DPX_2
Internet Archive
Internet Archive Anwendungsbereiche: Internetauftritte aller Art
Internet Archive Unterscheidung in Web page : „a page is a set of one or more Web resources expected to be rendered simultaneously, which can be identified by the URI of the item that embeds the other resources in the set. “ Web site: „an intellectually related set of resources often (but not always) bounded by technical division, such as content from a domain, which may include several related domains, or a subset of content from a host “ (Web Archive Metrics: Definitions and Framework, December 2005)
Internet Archive Unterscheidung in Makro- Archivierung: meist ausgehend von großen Institutionen; das gesamte Spektrum des kulturellen Erbes archivieren Mikro- Archivierung: nur ein kleiner Einblick in eine bestimmte Seite um einen bestimmten Aspekt zu archivieren
Internet Archive Dokumentation - Warum wurde eine bestimme Seite verfasst? Kontext und Umstände müssen dokumentiert werden z.B. für zukünftige Analysen
Bevorzugte Formate Zwei ähnliche Formate, die für Archivierung von Webseiten vom Internet Archive erstellt worden sind ARC (Archive File Format) WARC (Web Archive File Format) speichern mehrere Ressourcen von Webseiten in einer Datei
Datensätze
Datensätze Anwendungsbereiche: standardisierte Datenwerte Fokus: Daten, bei denen die Werte für ein Element auf eine bestimmte Art beschränkt sind, z.B. integer
Bestimmung der Formatpräferenzen Struktur - Datensätze werden immer in einer Struktur dargestellt, die die Eigenschaften der einzelnen Daten und die Beziehungen unter ihnen zeigt Syntaktische Integrität und Struktur der Werte muss erhalten bleiben
Bestimmung der Formatpräferenzen Verständnis - wichtig für eine Nutzbarkeit in der Zukunft ist ein Verständnis der Semantik der verschiedenen Elemente Semantik sollte explizit beschrieben werden, z.B. in einem expliziten Dokument (das vorzugsweise maschinenlesbar ist)
Bevorzugte Formate Für Datentypen (CSV) VOT (Format der Virtual Observatories) DBF (Format der dBASE Datenbank)
Bevorzugte Formate Für Repräsentation von Datenstrukturen CDF (Common Data Format) HDF (Hierarchical Data Format)
Bevorzugte Formate Standards für Dokumentationen DDI (Data Documentation Initiative) ISO 19115
Zusammenfassung
Zusammenfassung Inhalt Empfohlenes Format Bilder (Rastergrafik, farbig) TIFF (und div. Untertypen) Bilder (Rastergrafik, s/w) TIFF_G4 Bilder (Vektorgrafiken) SVG Audio (mono/stereo) WAVE Audio (surround) AAC_ADIF Audio (notebased) SMF Texte PDF Film/ Video MPEG Animationen FLA Film/ Video Produktion (unkompr.) DPX_2 Film/ Video Produktion (kompr.) MXF