Sinn und Zweck der Formaterkennung und deren Grenzen nestor-Praktikertag 2017, ZBW Kiel, 28.06.2017 Claire Röthlisberger-Jourdan
Inhaltsverzeichnis Wie funktioniert die Formaterkennung Grenzen der Formaterkennung Unterschied Formaterkennung & -validierung Erkenntnisse aus der Praxis Sinn und Zweck Fazit KOST 28.06.17 nestor-Praktikertag C. Röthlisberger-Jourdan
Wie funktioniert die Formaterkennung? Erkennung überprüft nur minimalste Eigenschaften Dateiendung (Extension) Ist eigentlich eine Dateinamenserweiterung und bezeichnet den letzten Teil eines Dateinamens und wird gewöhnlich mit einem Punkt abgetrennt. Die Dateiendung wird oft eingesetzt, um das Format einer Datei erkennbar zu machen, um sie so beispielsweise gleich mit einem passenden Programm öffnen zu können. Test.pdf KOST 28.06.17 nestor-Praktikertag C. Röthlisberger-Jourdan
Wie funktioniert die Formaterkennung? Erkennung überprüft nur minimalste Eigenschaften Dateiendung (Extension) Die Dateiendung ist nicht eindeutig. Die Dateiendung kann sehr einfach geändert werden. Diese Erkennung ist sehr einfach und sehr schnell. KOST 28.06.17 nestor-Praktikertag C. Röthlisberger-Jourdan
Wie funktioniert die Formaterkennung? Erkennung überprüft nur minimalste Eigenschaften Dateiendung (Extension) jpg txt zip html mp3 csv avi mp4 tiff mov jp2 xsl pdf xml odt siard sql warc exe doc mkv arc jpx wav KOST 28.06.17 nestor-Praktikertag C. Röthlisberger-Jourdan
Wie funktioniert die Formaterkennung? Erkennung überprüft nur minimalste Eigenschaften Dateiendung (Extension) Test.pdf Kuh KOST 28.06.17 nestor-Praktikertag C. Röthlisberger-Jourdan
Wie funktioniert die Formaterkennung? Erkennung überprüft nur minimalste Eigenschaften Dateiendung (Extension) Diese Fragen solltet Ihr euch für jeden Typ der Formaterkennung stellen! Ich werde diese am Schluss aus meiner Sicht beantworten: Genügt dies? Ist es sinnvoll, sich darauf zu verlassen? Für welchen Zweck kann ich es einsetzen? KOST 28.06.17 nestor-Praktikertag C. Röthlisberger-Jourdan
Wie funktioniert die Formaterkennung? Erkennung überprüft nur minimalste Eigenschaften Magische Zahl (magic number) Die magische Zahl ist ein spezieller Wert, der ein bestimmtes Dateiformat am Dateibeginn kennzeichnet. Die magische Zahl ist ein Bestandteil der Datei. Die magische Zahl ist nicht eindeutig. Die magische Zahl kann einfach geändert werden. Diese Erkennung ist für ein Programm einfach und schnell. Magische Zahl (Hex) Text Beschreibung Dateiendungen 25 50 44 46 %PDF PDF Datei pdf 25 21 50 53 %!PS PostScript Datei ps 89 50 4E 47 0D 0A 1A 0A .PNG.... PNG Bild png 50 4B 03 04 PK.. ZIP Datei zip, jar, siard, docx, xlsx … Magische Zahl (Hex) Text Beschreibung Dateiendungen 25 50 44 46 %PDF PDF Datei pdf 25 21 50 53 %!PS PostScript Datei ps 89 50 4E 47 0D 0A 1A 0A .PNG.... PNG Bild png 50 4B 03 04 PK.. ZIP Datei zip, jar, siard, docx, xlsx … KOST 28.06.17 nestor-Praktikertag C. Röthlisberger-Jourdan
Wie funktioniert die Formaterkennung? Erkennung überprüft nur minimalste Eigenschaften Magische Zahl (magic number) Test.pdf KOST 28.06.17 nestor-Praktikertag C. Röthlisberger-Jourdan
Wie funktioniert die Formaterkennung? Erkennung überprüft nur minimalste Eigenschaften Magische Zahl (magic number) Genügt dies? Ist es sinnvoll, sich darauf zu verlassen? Für welchen Zweck kann ich es einsetzen? Kann nicht die Dateiendung mit der magischen Zahl kombinieren werden? Natürlich KOST 28.06.17 nestor-Praktikertag C. Röthlisberger-Jourdan
Wie funktioniert die Formaterkennung? Erkennung überprüft nur minimalste Eigenschaften Dateiendung (Extension) Magische Zahl (magic number) Kuh KOST 28.06.17 nestor-Praktikertag C. Röthlisberger-Jourdan
Wie funktioniert die Formaterkennung? Erkennung überprüft nur minimalste Eigenschaften Interne Bytesequenz (internal byte sequence) Ist eine spezielle Sequenz, welche ein bestimmtes Dateiformat enthält. Die Bytesequenz ist ein Bestandteil innerhalb der Datei. Die Position innerhalb der Datei ist nicht immer gegeben. Die Bytesequenz kann Variablen enthalten. Es können mehrere Bytesequenzen kombiniert werden. Die Bytesequenz erlaubt eine feinere Granularität. Die Bytesequenz kann geändert werden. Diese Erkennung ist nicht besonders schnell und einfach. KOST 28.06.17 nestor-Praktikertag C. Röthlisberger-Jourdan
Wie funktioniert die Formaterkennung? Erkennung überprüft nur minimalste Eigenschaften Dateiendung Magische Zahl Interne Bytesequenz xmlns:pdfaid="http://www.aiim.org/pdfa/ns/id/"> <pdfaid:part>1</pdfaid:part> <pdfaid:conformance>B</pdfaid:conformance> %PDF-1.0 bis %PDF-1.7 KOST 28.06.17 nestor-Praktikertag C. Röthlisberger-Jourdan
Wie funktioniert die Formaterkennung? Erkennung überprüft nur minimalste Eigenschaften Dateiendung (Extension) Magische Zahl (magic number) Interne Bytesequenz (internal byte sequence) KOST 28.06.17 nestor-Praktikertag C. Röthlisberger-Jourdan
Wie funktioniert die Formaterkennung? Erkennung überprüft nur minimalste Eigenschaften Dateiendung (Extension) Magische Zahl (magic number) Interne Bytesequenz (internal byte sequence) Kuh KOST 28.06.17 nestor-Praktikertag C. Röthlisberger-Jourdan
Grenzen der Formaterkennung Die Formaterkennung ändert sich stetig Neue Formate können die Erkennung bestehender Formate ändern Die bestehende Erkennung kommt mit neuen Formate an ihre Grenzen Die Formaterkennung ist nur ein aktuelles Indiz Das Resultat kann sich nach jeder Aktualisierung (Programm oder Formatdatenbank) ändern Die notwendige Granularität ist variabel Je nach Prozess und Format unterschiedlich Auf «Vorrat» Erkennen macht keinen Sinn KOST 28.06.17 nestor-Praktikertag C. Röthlisberger-Jourdan
Was ist der Unterschied zwischen Formaterkennung und Formatvalidierung? Erkennung überprüft nur minimalste Eigenschaften Viewer "überprüft", ob das Format geöffnet werden kann (d.h. nicht komplett defekt ist) und liest ggf. einige Metadaten Validator überprüft alle notwendigen Eigenschaften KOST 28.06.17 nestor-Praktikertag C. Röthlisberger-Jourdan
Sinn und Zweck der Formaterkennung Dateiendung (Extension) Magische Zahl (magic number) Interne Bytesequenz (internal byte sequence) Genügt dies? Ist es sinnvoll, sich darauf zu verlassen? Für welchen Zweck kann ich es einsetzen? Nicht wirklich Nur bedingt Kommt auf die Situation an KOST 28.06.17 nestor-Praktikertag C. Röthlisberger-Jourdan
Sinn und Zweck der Formaterkennung ? Informationen zu einer «unbekannten» Datei erhalten Durch den Einsatz eines PRONOM-basierten Tools bekommt man die Informationen Sehr zeitintensiv und nicht ideal für einen automatischen Prozess mit vielen Dateien 1 & 2 & 3 : / … fmt/493 (PDF/E-1) KOST 28.06.17 nestor-Praktikertag C. Röthlisberger-Jourdan
Sinn und Zweck der Formaterkennung Den korrekten Nachfolgeprozess auslösen (als Beispiel: KOST-Val als Formatvalidator diverser Formate) Grobeinteilung anhand der Dateiendungen [1] Verifikation der Einteilung anhand der Magischen Zahl [2] (auf die Erkennung der Internen Bytesequenz [3] wird bewusst verzichtet) Validierung des Formates KOST 28.06.17 nestor-Praktikertag C. Röthlisberger-Jourdan
Sinn und Zweck der Formaterkennung Den korrekten Nachfolgeprozess auslösen (als Beispiel: Preservation Action im Repository) Entnahme anhand der Dateiendungen [1] (auf die genauere Erkennung [2 & 3] wird bewusst verzichtet, da die Dateiendung vor dem Ablegen ins Repository validiert wurde und die feinere Granularität nicht notwendig ist) Ermitteln der betroffenen Dateien (i.d.R. fehlerhafter Inhalt) durch spezifische, fallbezogene Tools Durchführung der Preservation Action an den betroffenen Dateien KOST 28.06.17 nestor-Praktikertag C. Röthlisberger-Jourdan
Fazit Keine Erkennung auf Vorrat Der Einbau der Formaterkennung in einen automatischen Prozess ähnelt der Verkehrsplanung: Die Masse ist die Hürde! KOST 28.06.17 nestor-Praktikertag C. Röthlisberger-Jourdan
Kuh Fazit KOST Auch die Formaterkennung ist nicht perfekt 28.06.17 nestor-Praktikertag C. Röthlisberger-Jourdan
Claire Röthlisberger-Jourdan Koordinationsstelle für die Archivierung elektronischer Unterlagen KOST c/o Schweizerisches Bundesarchiv Archivstrasse 24 CH-3003 Bern T +41 79 464 07 41 E claire.roethlisberger@kost.admin.ch W www.kost-ceco.ch