Sinn und Zweck der Formaterkennung und deren Grenzen

Slides:



Advertisements
Ähnliche Präsentationen
Dateiformate Tobias Rolle IT takes more than systems …
Advertisements

Gegen die Vergänglichkeit digitaler Informationen Susanne Kurz AWV Sitzung Daten- und Speichermanagement, Köln,
Extensible Characterisation Definition Language (XCDL) Volker Heydegger HKI Kolloquium, Köln,
PDF-Datei erstellen Wir wollen nicht auf Papier drucken, sondern in eine PDF-Datei. (Portable Document Format) Wir öffnen das heruntergeladene Dokument.
Was macht eigentlich dieses ExsoForm? Ein Beispiel für eine Dokumentendefinition in Screenshots.
DATEISPEICHER in der S P S
Reality Check 1: Ein wenig Technik - Dateiformate Manfred Thaller Universität zu Köln Köln, Die Herausforderung der Elektronischen Archivierung 9. Januar.
Durbusch.de Inhalte ändern. Allgemeines Die Inhalte der Homepage treten in verschiedenen Formaten auf. Die Startseite besteht im wesentlichen aus dem.
SIP-Val & SIPBrowser 4. Erfa-Anlass Staatsarchiv Bern, 14. Juni 2011.
Funktionen (Zweck und Eigenschaften) Funktionen sind Unterprogramme, die einen bestimmten Zweck erfüllen Sie zerlegen Probleme in kleine, abgeschlossene.
1 freedroidz – spielend Programmieren lernen. 2 Was ist freedroidz?
KOST-Preservation-Prozess und die Erkenntnisse daraus nestor-Praktikertag 2016, SLUB Dresden, Claire Röthlisberger-Jourdan.
MICRON ASSOCIATES associates-lobte-das-recht-die-fakturierung-einer- anleitung-fur-ihr-kleines- unternehmen/#.UBhMdmGviCp.
Mit dem Computer kann man ganz toll präsentieren
Facebook-Header-Bilder für die #ichbinlöwe-Kampagne – Vorgaben
Tidy DIE effiziente Software für Dokumentenarchivierung und Dokumentenmanagement Theorie in dieser Präsentation, Praxis anschliessend Fragen: fragen! Tidy.
Benutzer-Update mit BImport paedML® 3.0 Novell
Mit Dezimalzahlen dividieren
oder: wie Computer die Welt sehen
Einführung in PowerPoint
Projektleiter von morgen haben Karma Mit Willenskraft und Leidenschaft zum Projekterfolg Nico Droschinski Company Presentation Eurofins Food Germany.
Excel vorbelegen mit Elementen Ihrer Marke
Formaterkennung: FIDO
Formaterkennung: DROID
VFP-Praxis Reparatur von VFP Datenbanken
Rettungspunkte in der Gemeinde Simmerath
Hier sehen Sie die Datei „6Wände_und_3Fenster“ in einem üblichen IFC Viewer. U.a. zu erkennen: Die markierte Wand wurde so definiert, dass sie der Gebäudehülle.
Wie barrierefrei ist meine Website?
Fragestellung Ins Internet geht man oft, weil man eine INformation sucht Ein Thema, das Sie vielleicht interessiert, ist Alkohol, Besonders sagenumwoben.
oder: wie Computer die Welt sehen
Datentypen: integer, char, string, boolean
Wie erkenne ich Fake-News im Internet?
Signifikantes Ereignis INES-Stufe 1
Java-Kurs - 4. Übung weitere Kontrollstrukturen
Schulungsunterlagen der AG RDA
Schüco International KG
Formatvalidierung: KOST-Val
AC-Manager-Test Das folgende kleine Quiz besteht aus vier einfachen Fragen die Ihnen sagen, ob Sie den Aufgaben einer IT-Führungskraft gewachsen sind.
Icons Wozu und woher.
Das Stratum 0 Finanzautomatisierungssystem
AURIS-MM Spezifikation
Referenzen In c kennen wir gewöhnliche Variablen und Pointer.
الدرس العاشر.
Digitale Bildbearbeitung
Anpassen von Microsoft SharePoint Onlinewebsite
“<Titel>” Prozessbeschreibung
Ziel: Jede Verwaltung hat einen einheitlichen Vorgangsbegriff
Elektronische Post BBBaden.
ERFA CAD – Inventor – Berufsschule Zofingen
Titel: Quelle: Übungsart: Titel: Quelle: Uhr Die Uhr lesen lernen
Lesen… … macht den Amateur zum Profi! Da! Lali Aa!
Konfiguratorschulung für Anfänger
Von Wietlisbach, Lenzin und Winter
PI Infrastruktur in der Max-Planck-Gesellschaft
Information und Daten Digitalisierung
Thema: Terme und Variablen Heute: Gleichungen aufstellen und lösen
1. Die rekursive Datenstruktur Liste 1.3 Rekursive Funktionen
Abschlusspräsentation Bern,
Datenstrukturen und Softwareentwicklung
Pflichtteil 2016 Aufgabe 6: Gegeben ist die Gerade
Risiko – Check Erkennung von Politisch exponierten Persönlichkeiten (PeP‘s) bzw. von Personen mit Verdacht auf Geldwäsche und/oder Terrorismusfinanzierung.
Von Wietlisbach, Lenzin und Winter
Autobahn-Rabatt-Karte – wie funktioniert´s?
Diese Seite bitte löschen
Informatik Softwareentwicklung – 4.3 Entwurfsmuster
Diese Seite bitte löschen
Aufstellen und Lösen von Gleichungen
Klicken Sie auf jede Stufe, um mehr zu efahren.
QRP-Betrieb Michael Funke – DL4EAX.
Digitales Repositorium an der Kunstuniversität in Graz
 Präsentation transkript:

Sinn und Zweck der Formaterkennung und deren Grenzen nestor-Praktikertag 2017, ZBW Kiel, 28.06.2017 Claire Röthlisberger-Jourdan

Inhaltsverzeichnis Wie funktioniert die Formaterkennung Grenzen der Formaterkennung Unterschied Formaterkennung & -validierung Erkenntnisse aus der Praxis Sinn und Zweck Fazit KOST 28.06.17 nestor-Praktikertag C. Röthlisberger-Jourdan

Wie funktioniert die Formaterkennung? Erkennung überprüft nur minimalste Eigenschaften Dateiendung (Extension) Ist eigentlich eine Dateinamenserweiterung und bezeichnet den letzten Teil eines Dateinamens und wird gewöhnlich mit einem Punkt abgetrennt. Die Dateiendung wird oft eingesetzt, um das Format einer Datei erkennbar zu machen, um sie so beispielsweise gleich mit einem passenden Programm öffnen zu können. Test.pdf KOST 28.06.17 nestor-Praktikertag C. Röthlisberger-Jourdan

Wie funktioniert die Formaterkennung? Erkennung überprüft nur minimalste Eigenschaften Dateiendung (Extension) Die Dateiendung ist nicht eindeutig. Die Dateiendung kann sehr einfach geändert werden. Diese Erkennung ist sehr einfach und sehr schnell. KOST 28.06.17 nestor-Praktikertag C. Röthlisberger-Jourdan

Wie funktioniert die Formaterkennung? Erkennung überprüft nur minimalste Eigenschaften Dateiendung (Extension) jpg txt zip html mp3 csv avi mp4 tiff mov jp2 xsl pdf xml odt siard sql warc exe doc mkv arc jpx wav KOST 28.06.17 nestor-Praktikertag C. Röthlisberger-Jourdan

Wie funktioniert die Formaterkennung? Erkennung überprüft nur minimalste Eigenschaften Dateiendung (Extension) Test.pdf Kuh KOST 28.06.17 nestor-Praktikertag C. Röthlisberger-Jourdan

Wie funktioniert die Formaterkennung? Erkennung überprüft nur minimalste Eigenschaften Dateiendung (Extension) Diese Fragen solltet Ihr euch für jeden Typ der Formaterkennung stellen! Ich werde diese am Schluss aus meiner Sicht beantworten: Genügt dies? Ist es sinnvoll, sich darauf zu verlassen? Für welchen Zweck kann ich es einsetzen? KOST 28.06.17 nestor-Praktikertag C. Röthlisberger-Jourdan

Wie funktioniert die Formaterkennung? Erkennung überprüft nur minimalste Eigenschaften Magische Zahl (magic number) Die magische Zahl ist ein spezieller Wert, der ein bestimmtes Dateiformat am Dateibeginn kennzeichnet. Die magische Zahl ist ein Bestandteil der Datei. Die magische Zahl ist nicht eindeutig. Die magische Zahl kann einfach geändert werden. Diese Erkennung ist für ein Programm einfach und schnell. Magische Zahl (Hex) Text Beschreibung Dateiendungen 25 50 44 46 %PDF PDF Datei pdf 25 21 50 53 %!PS PostScript Datei ps 89 50 4E 47 0D 0A 1A 0A .PNG.... PNG Bild png 50 4B 03 04 PK.. ZIP Datei zip, jar, siard, docx, xlsx … Magische Zahl (Hex) Text Beschreibung Dateiendungen 25 50 44 46 %PDF PDF Datei pdf 25 21 50 53 %!PS PostScript Datei ps 89 50 4E 47 0D 0A 1A 0A .PNG.... PNG Bild png 50 4B 03 04 PK.. ZIP Datei zip, jar, siard, docx, xlsx … KOST 28.06.17 nestor-Praktikertag C. Röthlisberger-Jourdan

Wie funktioniert die Formaterkennung? Erkennung überprüft nur minimalste Eigenschaften Magische Zahl (magic number) Test.pdf KOST 28.06.17 nestor-Praktikertag C. Röthlisberger-Jourdan

Wie funktioniert die Formaterkennung? Erkennung überprüft nur minimalste Eigenschaften Magische Zahl (magic number) Genügt dies? Ist es sinnvoll, sich darauf zu verlassen? Für welchen Zweck kann ich es einsetzen? Kann nicht die Dateiendung mit der magischen Zahl kombinieren werden? Natürlich KOST 28.06.17 nestor-Praktikertag C. Röthlisberger-Jourdan

Wie funktioniert die Formaterkennung? Erkennung überprüft nur minimalste Eigenschaften Dateiendung (Extension) Magische Zahl (magic number) Kuh KOST 28.06.17 nestor-Praktikertag C. Röthlisberger-Jourdan

Wie funktioniert die Formaterkennung? Erkennung überprüft nur minimalste Eigenschaften Interne Bytesequenz (internal byte sequence) Ist eine spezielle Sequenz, welche ein bestimmtes Dateiformat enthält. Die Bytesequenz ist ein Bestandteil innerhalb der Datei. Die Position innerhalb der Datei ist nicht immer gegeben. Die Bytesequenz kann Variablen enthalten. Es können mehrere Bytesequenzen kombiniert werden. Die Bytesequenz erlaubt eine feinere Granularität. Die Bytesequenz kann geändert werden. Diese Erkennung ist nicht besonders schnell und einfach. KOST 28.06.17 nestor-Praktikertag C. Röthlisberger-Jourdan

Wie funktioniert die Formaterkennung? Erkennung überprüft nur minimalste Eigenschaften Dateiendung Magische Zahl Interne Bytesequenz xmlns:pdfaid="http://www.aiim.org/pdfa/ns/id/"> <pdfaid:part>1</pdfaid:part> <pdfaid:conformance>B</pdfaid:conformance> %PDF-1.0 bis %PDF-1.7 KOST 28.06.17 nestor-Praktikertag C. Röthlisberger-Jourdan

Wie funktioniert die Formaterkennung? Erkennung überprüft nur minimalste Eigenschaften Dateiendung (Extension) Magische Zahl (magic number) Interne Bytesequenz (internal byte sequence) KOST 28.06.17 nestor-Praktikertag C. Röthlisberger-Jourdan

Wie funktioniert die Formaterkennung? Erkennung überprüft nur minimalste Eigenschaften Dateiendung (Extension) Magische Zahl (magic number) Interne Bytesequenz (internal byte sequence) Kuh KOST 28.06.17 nestor-Praktikertag C. Röthlisberger-Jourdan

Grenzen der Formaterkennung Die Formaterkennung ändert sich stetig Neue Formate können die Erkennung bestehender Formate ändern Die bestehende Erkennung kommt mit neuen Formate an ihre Grenzen Die Formaterkennung ist nur ein aktuelles Indiz Das Resultat kann sich nach jeder Aktualisierung (Programm oder Formatdatenbank) ändern Die notwendige Granularität ist variabel Je nach Prozess und Format unterschiedlich  Auf «Vorrat» Erkennen macht keinen Sinn KOST 28.06.17 nestor-Praktikertag C. Röthlisberger-Jourdan

Was ist der Unterschied zwischen Formaterkennung und Formatvalidierung? Erkennung überprüft nur minimalste Eigenschaften Viewer "überprüft", ob das Format geöffnet werden kann (d.h. nicht komplett defekt ist) und liest ggf. einige Metadaten Validator überprüft alle notwendigen Eigenschaften KOST 28.06.17 nestor-Praktikertag C. Röthlisberger-Jourdan

Sinn und Zweck der Formaterkennung Dateiendung (Extension) Magische Zahl (magic number) Interne Bytesequenz (internal byte sequence) Genügt dies? Ist es sinnvoll, sich darauf zu verlassen? Für welchen Zweck kann ich es einsetzen? Nicht wirklich Nur bedingt Kommt auf die Situation an KOST 28.06.17 nestor-Praktikertag C. Röthlisberger-Jourdan

Sinn und Zweck der Formaterkennung ? Informationen zu einer «unbekannten» Datei erhalten Durch den Einsatz eines PRONOM-basierten Tools bekommt man die Informationen Sehr zeitintensiv und nicht ideal für einen automatischen Prozess mit vielen Dateien 1 & 2 & 3 : / … fmt/493 (PDF/E-1) KOST 28.06.17 nestor-Praktikertag C. Röthlisberger-Jourdan

Sinn und Zweck der Formaterkennung Den korrekten Nachfolgeprozess auslösen (als Beispiel: KOST-Val als Formatvalidator diverser Formate) Grobeinteilung anhand der Dateiendungen [1] Verifikation der Einteilung anhand der Magischen Zahl [2] (auf die Erkennung der Internen Bytesequenz [3] wird bewusst verzichtet) Validierung des Formates KOST 28.06.17 nestor-Praktikertag C. Röthlisberger-Jourdan

Sinn und Zweck der Formaterkennung Den korrekten Nachfolgeprozess auslösen (als Beispiel: Preservation Action im Repository) Entnahme anhand der Dateiendungen [1] (auf die genauere Erkennung [2 & 3] wird bewusst verzichtet, da die Dateiendung vor dem Ablegen ins Repository validiert wurde und die feinere Granularität nicht notwendig ist) Ermitteln der betroffenen Dateien (i.d.R. fehlerhafter Inhalt) durch spezifische, fallbezogene Tools Durchführung der Preservation Action an den betroffenen Dateien KOST 28.06.17 nestor-Praktikertag C. Röthlisberger-Jourdan

Fazit Keine Erkennung auf Vorrat Der Einbau der Formaterkennung in einen automatischen Prozess ähnelt der Verkehrsplanung: Die Masse ist die Hürde! KOST 28.06.17 nestor-Praktikertag C. Röthlisberger-Jourdan

Kuh Fazit KOST Auch die Formaterkennung ist nicht perfekt 28.06.17 nestor-Praktikertag C. Röthlisberger-Jourdan

Claire Röthlisberger-Jourdan Koordinationsstelle für die Archivierung elektronischer Unterlagen KOST c/o Schweizerisches Bundesarchiv Archivstrasse 24 CH-3003 Bern T +41 79 464 07 41 E claire.roethlisberger@kost.admin.ch W www.kost-ceco.ch