Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

Sinn und Zweck der Formaterkennung und deren Grenzen

Ähnliche Präsentationen


Präsentation zum Thema: "Sinn und Zweck der Formaterkennung und deren Grenzen"—  Präsentation transkript:

1 Sinn und Zweck der Formaterkennung und deren Grenzen
nestor-Praktikertag 2017, ZBW Kiel, Claire Röthlisberger-Jourdan

2 Inhaltsverzeichnis Wie funktioniert die Formaterkennung
Grenzen der Formaterkennung Unterschied Formaterkennung & -validierung Erkenntnisse aus der Praxis Sinn und Zweck Fazit KOST nestor-Praktikertag C. Röthlisberger-Jourdan

3 Wie funktioniert die Formaterkennung?
Erkennung überprüft nur minimalste Eigenschaften Dateiendung (Extension) Ist eigentlich eine Dateinamenserweiterung und bezeichnet den letzten Teil eines Dateinamens und wird gewöhnlich mit einem Punkt abgetrennt. Die Dateiendung wird oft eingesetzt, um das Format einer Datei erkennbar zu machen, um sie so beispielsweise gleich mit einem passenden Programm öffnen zu können. Test.pdf KOST nestor-Praktikertag C. Röthlisberger-Jourdan

4 Wie funktioniert die Formaterkennung?
Erkennung überprüft nur minimalste Eigenschaften Dateiendung (Extension) Die Dateiendung ist nicht eindeutig. Die Dateiendung kann sehr einfach geändert werden. Diese Erkennung ist sehr einfach und sehr schnell. KOST nestor-Praktikertag C. Röthlisberger-Jourdan

5 Wie funktioniert die Formaterkennung?
Erkennung überprüft nur minimalste Eigenschaften Dateiendung (Extension) jpg txt zip html mp3 csv avi mp4 tiff mov jp2 xsl pdf xml odt siard sql warc exe doc mkv arc jpx wav KOST nestor-Praktikertag C. Röthlisberger-Jourdan

6 Wie funktioniert die Formaterkennung?
Erkennung überprüft nur minimalste Eigenschaften Dateiendung (Extension) Test.pdf Kuh KOST nestor-Praktikertag C. Röthlisberger-Jourdan

7 Wie funktioniert die Formaterkennung?
Erkennung überprüft nur minimalste Eigenschaften Dateiendung (Extension) Diese Fragen solltet Ihr euch für jeden Typ der Formaterkennung stellen! Ich werde diese am Schluss aus meiner Sicht beantworten: Genügt dies? Ist es sinnvoll, sich darauf zu verlassen? Für welchen Zweck kann ich es einsetzen? KOST nestor-Praktikertag C. Röthlisberger-Jourdan

8 Wie funktioniert die Formaterkennung?
Erkennung überprüft nur minimalste Eigenschaften Magische Zahl (magic number) Die magische Zahl ist ein spezieller Wert, der ein bestimmtes Dateiformat am Dateibeginn kennzeichnet. Die magische Zahl ist ein Bestandteil der Datei. Die magische Zahl ist nicht eindeutig. Die magische Zahl kann einfach geändert werden. Diese Erkennung ist für ein Programm einfach und schnell. Magische Zahl (Hex) Text Beschreibung Dateiendungen %PDF PDF Datei pdf %!PS PostScript Datei ps E 47 0D 0A 1A 0A .PNG.... PNG Bild png 50 4B 03 04 PK.. ZIP Datei zip, jar, siard, docx, xlsx … Magische Zahl (Hex) Text Beschreibung Dateiendungen %PDF PDF Datei pdf %!PS PostScript Datei ps E 47 0D 0A 1A 0A .PNG.... PNG Bild png 50 4B 03 04 PK.. ZIP Datei zip, jar, siard, docx, xlsx … KOST nestor-Praktikertag C. Röthlisberger-Jourdan

9 Wie funktioniert die Formaterkennung?
Erkennung überprüft nur minimalste Eigenschaften Magische Zahl (magic number) Test.pdf KOST nestor-Praktikertag C. Röthlisberger-Jourdan

10 Wie funktioniert die Formaterkennung?
Erkennung überprüft nur minimalste Eigenschaften Magische Zahl (magic number) Genügt dies? Ist es sinnvoll, sich darauf zu verlassen? Für welchen Zweck kann ich es einsetzen? Kann nicht die Dateiendung mit der magischen Zahl kombinieren werden? Natürlich KOST nestor-Praktikertag C. Röthlisberger-Jourdan

11 Wie funktioniert die Formaterkennung?
Erkennung überprüft nur minimalste Eigenschaften Dateiendung (Extension) Magische Zahl (magic number) Kuh KOST nestor-Praktikertag C. Röthlisberger-Jourdan

12 Wie funktioniert die Formaterkennung?
Erkennung überprüft nur minimalste Eigenschaften Interne Bytesequenz (internal byte sequence) Ist eine spezielle Sequenz, welche ein bestimmtes Dateiformat enthält. Die Bytesequenz ist ein Bestandteil innerhalb der Datei. Die Position innerhalb der Datei ist nicht immer gegeben. Die Bytesequenz kann Variablen enthalten. Es können mehrere Bytesequenzen kombiniert werden. Die Bytesequenz erlaubt eine feinere Granularität. Die Bytesequenz kann geändert werden. Diese Erkennung ist nicht besonders schnell und einfach. KOST nestor-Praktikertag C. Röthlisberger-Jourdan

13 Wie funktioniert die Formaterkennung?
Erkennung überprüft nur minimalste Eigenschaften Dateiendung Magische Zahl Interne Bytesequenz xmlns:pdfaid=" <pdfaid:part>1</pdfaid:part> <pdfaid:conformance>B</pdfaid:conformance> %PDF-1.0 bis %PDF-1.7 KOST nestor-Praktikertag C. Röthlisberger-Jourdan

14 Wie funktioniert die Formaterkennung?
Erkennung überprüft nur minimalste Eigenschaften Dateiendung (Extension) Magische Zahl (magic number) Interne Bytesequenz (internal byte sequence) KOST nestor-Praktikertag C. Röthlisberger-Jourdan

15 Wie funktioniert die Formaterkennung?
Erkennung überprüft nur minimalste Eigenschaften Dateiendung (Extension) Magische Zahl (magic number) Interne Bytesequenz (internal byte sequence) Kuh KOST nestor-Praktikertag C. Röthlisberger-Jourdan

16 Grenzen der Formaterkennung
Die Formaterkennung ändert sich stetig Neue Formate können die Erkennung bestehender Formate ändern Die bestehende Erkennung kommt mit neuen Formate an ihre Grenzen Die Formaterkennung ist nur ein aktuelles Indiz Das Resultat kann sich nach jeder Aktualisierung (Programm oder Formatdatenbank) ändern Die notwendige Granularität ist variabel Je nach Prozess und Format unterschiedlich  Auf «Vorrat» Erkennen macht keinen Sinn KOST nestor-Praktikertag C. Röthlisberger-Jourdan

17 Was ist der Unterschied zwischen Formaterkennung und Formatvalidierung?
Erkennung überprüft nur minimalste Eigenschaften Viewer "überprüft", ob das Format geöffnet werden kann (d.h. nicht komplett defekt ist) und liest ggf. einige Metadaten Validator überprüft alle notwendigen Eigenschaften KOST nestor-Praktikertag C. Röthlisberger-Jourdan

18 Sinn und Zweck der Formaterkennung
Dateiendung (Extension) Magische Zahl (magic number) Interne Bytesequenz (internal byte sequence) Genügt dies? Ist es sinnvoll, sich darauf zu verlassen? Für welchen Zweck kann ich es einsetzen? Nicht wirklich Nur bedingt Kommt auf die Situation an KOST nestor-Praktikertag C. Röthlisberger-Jourdan

19 Sinn und Zweck der Formaterkennung
? Informationen zu einer «unbekannten» Datei erhalten Durch den Einsatz eines PRONOM-basierten Tools bekommt man die Informationen Sehr zeitintensiv und nicht ideal für einen automatischen Prozess mit vielen Dateien 1 & 2 & 3 : / … fmt/493 (PDF/E-1) KOST nestor-Praktikertag C. Röthlisberger-Jourdan

20 Sinn und Zweck der Formaterkennung
Den korrekten Nachfolgeprozess auslösen (als Beispiel: KOST-Val als Formatvalidator diverser Formate) Grobeinteilung anhand der Dateiendungen [1] Verifikation der Einteilung anhand der Magischen Zahl [2] (auf die Erkennung der Internen Bytesequenz [3] wird bewusst verzichtet) Validierung des Formates KOST nestor-Praktikertag C. Röthlisberger-Jourdan

21 Sinn und Zweck der Formaterkennung
Den korrekten Nachfolgeprozess auslösen (als Beispiel: Preservation Action im Repository) Entnahme anhand der Dateiendungen [1] (auf die genauere Erkennung [2 & 3] wird bewusst verzichtet, da die Dateiendung vor dem Ablegen ins Repository validiert wurde und die feinere Granularität nicht notwendig ist) Ermitteln der betroffenen Dateien (i.d.R. fehlerhafter Inhalt) durch spezifische, fallbezogene Tools Durchführung der Preservation Action an den betroffenen Dateien KOST nestor-Praktikertag C. Röthlisberger-Jourdan

22 Fazit Keine Erkennung auf Vorrat
Der Einbau der Formaterkennung in einen automatischen Prozess ähnelt der Verkehrsplanung: Die Masse ist die Hürde! KOST nestor-Praktikertag C. Röthlisberger-Jourdan

23 Kuh Fazit KOST Auch die Formaterkennung ist nicht perfekt
nestor-Praktikertag C. Röthlisberger-Jourdan

24 Claire Röthlisberger-Jourdan
Koordinationsstelle für die Archivierung elektronischer Unterlagen KOST c/o Schweizerisches Bundesarchiv Archivstrasse 24 CH-3003 Bern T E W


Herunterladen ppt "Sinn und Zweck der Formaterkennung und deren Grenzen"

Ähnliche Präsentationen


Google-Anzeigen