Präsentation herunterladen
Die Präsentation wird geladen. Bitte warten
Veröffentlicht von:Viktoria Bach Geändert vor über 6 Jahren
1
Sinn und Zweck der Formaterkennung und deren Grenzen
nestor-Praktikertag 2017, ZBW Kiel, Claire Röthlisberger-Jourdan
2
Inhaltsverzeichnis Wie funktioniert die Formaterkennung
Grenzen der Formaterkennung Unterschied Formaterkennung & -validierung Erkenntnisse aus der Praxis Sinn und Zweck Fazit KOST nestor-Praktikertag C. Röthlisberger-Jourdan
3
Wie funktioniert die Formaterkennung?
Erkennung überprüft nur minimalste Eigenschaften Dateiendung (Extension) Ist eigentlich eine Dateinamenserweiterung und bezeichnet den letzten Teil eines Dateinamens und wird gewöhnlich mit einem Punkt abgetrennt. Die Dateiendung wird oft eingesetzt, um das Format einer Datei erkennbar zu machen, um sie so beispielsweise gleich mit einem passenden Programm öffnen zu können. Test.pdf KOST nestor-Praktikertag C. Röthlisberger-Jourdan
4
Wie funktioniert die Formaterkennung?
Erkennung überprüft nur minimalste Eigenschaften Dateiendung (Extension) Die Dateiendung ist nicht eindeutig. Die Dateiendung kann sehr einfach geändert werden. Diese Erkennung ist sehr einfach und sehr schnell. KOST nestor-Praktikertag C. Röthlisberger-Jourdan
5
Wie funktioniert die Formaterkennung?
Erkennung überprüft nur minimalste Eigenschaften Dateiendung (Extension) jpg txt zip html mp3 csv avi mp4 tiff mov jp2 xsl pdf xml odt siard sql warc exe doc mkv arc jpx wav KOST nestor-Praktikertag C. Röthlisberger-Jourdan
6
Wie funktioniert die Formaterkennung?
Erkennung überprüft nur minimalste Eigenschaften Dateiendung (Extension) Test.pdf Kuh KOST nestor-Praktikertag C. Röthlisberger-Jourdan
7
Wie funktioniert die Formaterkennung?
Erkennung überprüft nur minimalste Eigenschaften Dateiendung (Extension) Diese Fragen solltet Ihr euch für jeden Typ der Formaterkennung stellen! Ich werde diese am Schluss aus meiner Sicht beantworten: Genügt dies? Ist es sinnvoll, sich darauf zu verlassen? Für welchen Zweck kann ich es einsetzen? KOST nestor-Praktikertag C. Röthlisberger-Jourdan
8
Wie funktioniert die Formaterkennung?
Erkennung überprüft nur minimalste Eigenschaften Magische Zahl (magic number) Die magische Zahl ist ein spezieller Wert, der ein bestimmtes Dateiformat am Dateibeginn kennzeichnet. Die magische Zahl ist ein Bestandteil der Datei. Die magische Zahl ist nicht eindeutig. Die magische Zahl kann einfach geändert werden. Diese Erkennung ist für ein Programm einfach und schnell. Magische Zahl (Hex) Text Beschreibung Dateiendungen %PDF PDF Datei pdf %!PS PostScript Datei ps E 47 0D 0A 1A 0A .PNG.... PNG Bild png 50 4B 03 04 PK.. ZIP Datei zip, jar, siard, docx, xlsx … Magische Zahl (Hex) Text Beschreibung Dateiendungen %PDF PDF Datei pdf %!PS PostScript Datei ps E 47 0D 0A 1A 0A .PNG.... PNG Bild png 50 4B 03 04 PK.. ZIP Datei zip, jar, siard, docx, xlsx … KOST nestor-Praktikertag C. Röthlisberger-Jourdan
9
Wie funktioniert die Formaterkennung?
Erkennung überprüft nur minimalste Eigenschaften Magische Zahl (magic number) Test.pdf KOST nestor-Praktikertag C. Röthlisberger-Jourdan
10
Wie funktioniert die Formaterkennung?
Erkennung überprüft nur minimalste Eigenschaften Magische Zahl (magic number) Genügt dies? Ist es sinnvoll, sich darauf zu verlassen? Für welchen Zweck kann ich es einsetzen? Kann nicht die Dateiendung mit der magischen Zahl kombinieren werden? Natürlich KOST nestor-Praktikertag C. Röthlisberger-Jourdan
11
Wie funktioniert die Formaterkennung?
Erkennung überprüft nur minimalste Eigenschaften Dateiendung (Extension) Magische Zahl (magic number) Kuh KOST nestor-Praktikertag C. Röthlisberger-Jourdan
12
Wie funktioniert die Formaterkennung?
Erkennung überprüft nur minimalste Eigenschaften Interne Bytesequenz (internal byte sequence) Ist eine spezielle Sequenz, welche ein bestimmtes Dateiformat enthält. Die Bytesequenz ist ein Bestandteil innerhalb der Datei. Die Position innerhalb der Datei ist nicht immer gegeben. Die Bytesequenz kann Variablen enthalten. Es können mehrere Bytesequenzen kombiniert werden. Die Bytesequenz erlaubt eine feinere Granularität. Die Bytesequenz kann geändert werden. Diese Erkennung ist nicht besonders schnell und einfach. KOST nestor-Praktikertag C. Röthlisberger-Jourdan
13
Wie funktioniert die Formaterkennung?
Erkennung überprüft nur minimalste Eigenschaften Dateiendung Magische Zahl Interne Bytesequenz xmlns:pdfaid=" <pdfaid:part>1</pdfaid:part> <pdfaid:conformance>B</pdfaid:conformance> %PDF-1.0 bis %PDF-1.7 KOST nestor-Praktikertag C. Röthlisberger-Jourdan
14
Wie funktioniert die Formaterkennung?
Erkennung überprüft nur minimalste Eigenschaften Dateiendung (Extension) Magische Zahl (magic number) Interne Bytesequenz (internal byte sequence) KOST nestor-Praktikertag C. Röthlisberger-Jourdan
15
Wie funktioniert die Formaterkennung?
Erkennung überprüft nur minimalste Eigenschaften Dateiendung (Extension) Magische Zahl (magic number) Interne Bytesequenz (internal byte sequence) Kuh KOST nestor-Praktikertag C. Röthlisberger-Jourdan
16
Grenzen der Formaterkennung
Die Formaterkennung ändert sich stetig Neue Formate können die Erkennung bestehender Formate ändern Die bestehende Erkennung kommt mit neuen Formate an ihre Grenzen Die Formaterkennung ist nur ein aktuelles Indiz Das Resultat kann sich nach jeder Aktualisierung (Programm oder Formatdatenbank) ändern Die notwendige Granularität ist variabel Je nach Prozess und Format unterschiedlich Auf «Vorrat» Erkennen macht keinen Sinn KOST nestor-Praktikertag C. Röthlisberger-Jourdan
17
Was ist der Unterschied zwischen Formaterkennung und Formatvalidierung?
Erkennung überprüft nur minimalste Eigenschaften Viewer "überprüft", ob das Format geöffnet werden kann (d.h. nicht komplett defekt ist) und liest ggf. einige Metadaten Validator überprüft alle notwendigen Eigenschaften KOST nestor-Praktikertag C. Röthlisberger-Jourdan
18
Sinn und Zweck der Formaterkennung
Dateiendung (Extension) Magische Zahl (magic number) Interne Bytesequenz (internal byte sequence) Genügt dies? Ist es sinnvoll, sich darauf zu verlassen? Für welchen Zweck kann ich es einsetzen? Nicht wirklich Nur bedingt Kommt auf die Situation an KOST nestor-Praktikertag C. Röthlisberger-Jourdan
19
Sinn und Zweck der Formaterkennung
? Informationen zu einer «unbekannten» Datei erhalten Durch den Einsatz eines PRONOM-basierten Tools bekommt man die Informationen Sehr zeitintensiv und nicht ideal für einen automatischen Prozess mit vielen Dateien 1 & 2 & 3 : / … fmt/493 (PDF/E-1) KOST nestor-Praktikertag C. Röthlisberger-Jourdan
20
Sinn und Zweck der Formaterkennung
Den korrekten Nachfolgeprozess auslösen (als Beispiel: KOST-Val als Formatvalidator diverser Formate) Grobeinteilung anhand der Dateiendungen [1] Verifikation der Einteilung anhand der Magischen Zahl [2] (auf die Erkennung der Internen Bytesequenz [3] wird bewusst verzichtet) Validierung des Formates KOST nestor-Praktikertag C. Röthlisberger-Jourdan
21
Sinn und Zweck der Formaterkennung
Den korrekten Nachfolgeprozess auslösen (als Beispiel: Preservation Action im Repository) Entnahme anhand der Dateiendungen [1] (auf die genauere Erkennung [2 & 3] wird bewusst verzichtet, da die Dateiendung vor dem Ablegen ins Repository validiert wurde und die feinere Granularität nicht notwendig ist) Ermitteln der betroffenen Dateien (i.d.R. fehlerhafter Inhalt) durch spezifische, fallbezogene Tools Durchführung der Preservation Action an den betroffenen Dateien KOST nestor-Praktikertag C. Röthlisberger-Jourdan
22
Fazit Keine Erkennung auf Vorrat
Der Einbau der Formaterkennung in einen automatischen Prozess ähnelt der Verkehrsplanung: Die Masse ist die Hürde! KOST nestor-Praktikertag C. Röthlisberger-Jourdan
23
Kuh Fazit KOST Auch die Formaterkennung ist nicht perfekt
nestor-Praktikertag C. Röthlisberger-Jourdan
24
Claire Röthlisberger-Jourdan
Koordinationsstelle für die Archivierung elektronischer Unterlagen KOST c/o Schweizerisches Bundesarchiv Archivstrasse 24 CH-3003 Bern T E W
Ähnliche Präsentationen
© 2024 SlidePlayer.org Inc.
All rights reserved.