Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

SIP-Val & SIPBrowser 4. Erfa-Anlass Staatsarchiv Bern, 14. Juni 2011.

Ähnliche Präsentationen


Präsentation zum Thema: "SIP-Val & SIPBrowser 4. Erfa-Anlass Staatsarchiv Bern, 14. Juni 2011."—  Präsentation transkript:

1 SIP-Val & SIPBrowser 4. Erfa-Anlass Staatsarchiv Bern, 14. Juni 2011

2 Präsentation SIP-Val & SIPBrowser Martin Kaiser, Claire Röthlisberger 2 KOST Agenda 1.Begrüssung 2.Die SIP-Spezifikation des BAR und ihre Umsetzung in SIP-Val 3.Einführung in SIP-Val 4.Einführung in SIPBrowser 5.Fragen und Anregungen zu den KOST.tools

3 Präsentation SIP-Val & SIPBrowser Martin Kaiser, Claire Röthlisberger 3 KOST Die SIP-Spezifikation des BAR und ihre Umsetzung in SIP-Val SIP-Val liest ein SIP und validiert die folgenden Punkte aus der SIP-Spez des BAR v1.0 (MUSS): 1.Paket- und XML- Konsistenz 2.Datei-Konsistenz 3.Dateiformat- und Datums-Konsistenz SchrittBezeichnung (Stepname) 1aLesbarkeit 1bprimäre Verzeichnisstruktur 1cVerzeichnis- und Dateinamen 1dSchemavalidierung metadata.xml 1eSIP-Typ ermitteln 1fPrimärdateien im Verzeichnis 2aFehlende Primärdateien 2bPrüfsummen-Validierung 2cZusätzliche Primärdateien 2dVerzeichnung GEVER-Primärdateien 3aFormaterkennung 3bZusätzliche Formate 3cFormatvalidierung 3dZeitraum-Validierung

4 Präsentation SIP-Val & SIPBrowser Martin Kaiser, Claire Röthlisberger 4 KOST Die SIP-Spezifikation des BAR und ihre Umsetzung in SIP-Val Das Gesamtergebnis der Validierung wird ebenfalls ausgegeben und im exit-Status des Programms sichtbar. 0 alles OK 1 fehlerhafte Angaben 2 Validierung nicht bestanden cmd: ECHO return code %errorlevel%

5 Präsentation SIP-Val & SIPBrowser Martin Kaiser, Claire Röthlisberger 5 KOST Die SIP-Spezifikation des BAR und ihre Umsetzung in SIP-Val 1aKann das SIP fehlerfrei geöffnet werden? Implementierte Container-Formate: - Ordner - ZIP & ZIP64  [A_2.6-2] Die Dateien dürfen nicht passwortgeschützt sein  [T_6.1-1] Alle Containerformate sind für den Transfer erlaubt, müssen jedoch vorgängig mit dem Archiv vereinbart werden.  Weitere Containerformate sind vorderhand nicht geplant und müssen vorgängig manuell entpackt werden

6 Präsentation SIP-Val & SIPBrowser Martin Kaiser, Claire Röthlisberger 6 KOST Die SIP-Spezifikation des BAR und ihre Umsetzung in SIP-Val 1bBesteht eine korrekte primäre Verzeichnisstruktur? ∙ [SIP]/header/metadata.xml + [SIP]/content ∙ [SIP].zip/header/metadata.xml + [SIP].zip/content ∙ [SIP].zip/[SIP]/header/metadata.xml + [SIP].zip/[SIP]/content  Die Spez erlaubt das Wiederholen des Toplevel-Ordners in einer ZIP-Datei. [SIP] muss jedoch immer gleich sein (Variante 3).

7 Präsentation SIP-Val & SIPBrowser Martin Kaiser, Claire Röthlisberger 7 KOST Die SIP-Spezifikation des BAR und ihre Umsetzung in SIP-Val 1cEntsprechen die Verzeichnis- und Dateinamen den Einschränkungen in der Spezifikation? - Zeichensatz (A-Z a-z 0-9 ! # $ % ( ) +, - _. [ ] { } ~ SPACE) - SIP-Name (SIP_[1-2][0-9]{3}[0-1][0-9][0-3][0-9]_\\w{3}) - Secondlevel-Ordner - Header-Ordner - XSD-Ordner - Pfadlänge - Länge der Ordner & Dateien  Bei den Längen zählt auch der Toplevel-Ordner. Dieser ist im SIP-Val immer ein.zip. Dies bedeutet teilweise 4 zusätzliche Zeichen.

8 Präsentation SIP-Val & SIPBrowser Martin Kaiser, Claire Röthlisberger 8 KOST Die SIP-Spezifikation des BAR und ihre Umsetzung in SIP-Val 1dEntspricht metadata.xml den Schemadateien in /header/xsd?  Das Schema arelda_v xsd hat im Bereich von Pruefalgorithmus und Pruefsumme (Zeile 924 und 925) einen Fehler. Diese Elemente sind gemäss der SIP-Spezifikation v1 obligatorisch und sollten entsprechend den Eintrag minOccurs=“1“ enthalten. Dieser Fehler wird durch das BAR behoben werden. Bis dahin beanstandet SIP-Val das Fehlen dieser beiden Elemente nicht.

9 Präsentation SIP-Val & SIPBrowser Martin Kaiser, Claire Röthlisberger 9 KOST Die SIP-Spezifikation des BAR und ihre Umsetzung in SIP-Val 1eWelcher SIP-Typ liegt vor? (metadata.xml ->ablieferungstyp) - GEVER - FILE 1fSind Primärdateien im /content vorhanden? - GEVER-SIP: nicht obligatorisch (Archivierung einer Ordnerstruktur) - FILE-SIP: obligatorisch  [M_4.2-2] Zwei Ablieferungstypen: GEVER oder FILES  SIP-Val überprüft nicht die zusätzlichen Vorgaben zum Sub- Ablieferungstyp ″FILES SIP mit integrierter Dokumentation″. Dies ist nicht einfach zu realisieren, da dieser Typ in metadata.xml nicht klar ersichtlich ist.

10 Präsentation SIP-Val & SIPBrowser Martin Kaiser, Claire Röthlisberger 10 KOST Die SIP-Spezifikation des BAR und ihre Umsetzung in SIP-Val 2aSind alle in metadata.xml paket/inhaltsverzeichnis referenzierten Dateien vorhanden? 2bStimmen die Prüfsummen überein? 2cSind zusätzliche Primärdateien im SIP vorhanden, welche nicht in metadata.xml verzeichnet sind?  2a kontrolliert in der Version nur, ob alle Dateien im SIP und nicht in Bezug auf den Ordner vorhanden sind.  SIP-Val kann aktuell nur MD5-Prüfsummen überprüfen, noch nicht die weiteren Prüfalgorithmen SHA1 und SHA256, welche gemäss der SIP-Spez v1 erlaubt sind.  SIP-Val überprüft nur auf zusätzliche Primärdateien und nicht auf zusätzliche Primärordner.

11 Präsentation SIP-Val & SIPBrowser Martin Kaiser, Claire Röthlisberger 11 KOST Die SIP-Spezifikation des BAR und ihre Umsetzung in SIP-Val 2dSind bei GEVER-SIP alle in (metadata.xml) /paket/inhaltsverzeichnis/content referenzierten Dateien auch in (metadata.xml) /paket/ablieferung/ordnungsystem verzeichnet? /content 2a 2c 2d /inhaltsverzeichnis /ordnungsystem  Das Gegenteil von 2d wird nicht überprüft, da diese Dateien kassiert wurden.

12 Präsentation SIP-Val & SIPBrowser Martin Kaiser, Claire Röthlisberger 12 KOST Die SIP-Spezifikation des BAR und ihre Umsetzung in SIP-Val 3aStimmen die erkannten Formate mit den erlaubten Formaten überein? 3bAlle Dateien in nicht erlaubten Formaten (gemäss 3a) mit entsprechenden Formatangaben auflisten  Die Formaterkennung erfolgt mit DROID und PRONOM.  Vorsicht: Die Erkennung von PDF/A ist bei DROID fehlerhaft. PDF/A (fmt/95) rangiert bei der Erkennung korrekt vor PDF 1.4 (fmt/18), sollte aber auch vor PDF rangieren (fmt/19, fmt/20, fmt/276). Entsprechend muss auch das Element angepasst werden.  Diese Angaben sind in der DROID_SignatureFile enthalten und in der Version V49-kc durch die KOST angepasst.

13 Präsentation SIP-Val & SIPBrowser Martin Kaiser, Claire Röthlisberger 13 KOST Die SIP-Spezifikation des BAR und ihre Umsetzung in SIP-Val 3cSind die enthaltenen Formate auch valid? - JHOVE-> TIFF, JPEG2000, WAVE - PDFTRON -> PDF/A  Die Formatvalidierung für TIFF, JPEG2000 und WAVE erfolgt mit JHOVE. JHOVE ist ein Opensource-Programm und erkennt nicht alle Fehler.  Für die Validierung von PDF/A (fmt/95) sollte ein spezielles Programm verwendet werden. Wir haben den PDF/A-Manager von PDFTron implementiert. Die Trialversion ermöglicht einen sehr guten Einblick in dessen Funktionalitäten. Die Vollversion kostet 699$.  JHOVE und PDF-Well-formed: A PDF file is well-formed if it meets the criteria defined in Chapter 3 of the PDF Reference 1.6 (5th edition, 2004)

14 Präsentation SIP-Val & SIPBrowser Martin Kaiser, Claire Röthlisberger 14 KOST Die SIP-Spezifikation des BAR und ihre Umsetzung in SIP-Val 3dStimmen die verschiedenen Entstehungszeiträume überein? - Ablieferung [von bis] - Dossier bis von - Dokument [von ---- bis]  Verletzt ein Element mindestens eines der nachfolgenden Kriterien, wird es (und der Zeitraums-Validierungsschritt) als invalid eingestuft:  „Bis“ muss grösser oder gleich als „Von“ sein, und keines der beiden darf in der Zukunft liegen.  Die Zeitangaben eines Elements müssen innerhalb des Entstehungszeitraums des übergeordneten Elements liegen. heute

15 Präsentation SIP-Val & SIPBrowser Martin Kaiser, Claire Röthlisberger 15 KOST Zusammenfassung SIP-Val Konsolenausgabe: Validierungsschritte (mit Bezeichnung wenn invalid) Ergebnisse valid oder invalid Gesamtergebnis Pfade (SIP und Log-Datei) Weitere Informationen, insbesondere die Fehlermeldungen, werden in die Log-Datei geschrieben.

16 Präsentation SIP-Val & SIPBrowser Martin Kaiser, Claire Röthlisberger 16 KOST Installation SIP-Val & Systemvoraussetzungen Installation: Extrahieren von SIP-Val.zip Erstellen der Logverzeichnisse Extrahieren von jhove-1_5.zip, pdfa.zip, (jre6.zip) Systemvoraussetzungen Microsoft Windows 98, ME, NT, 2000, XP, VISTA oder Windows 7 Mindestens 128 MB RAM (512 MB oder mehr empfohlen) Mindestens 20 GB Festplattenspeicher Java Runtime Environment (JRE) Version 6 oder neuer cmd: java -version

17 Präsentation SIP-Val & SIPBrowser Martin Kaiser, Claire Röthlisberger 17 KOST Konfiguration von SIP-Val Sipvalidator.conf.xml möglicherweise anpassen xml-TagBeschreibung Erlaubte maximale Anzahl Zeichen in Pfadlängen Erlaubte maximale Anzahl Zeichen in Dateinamen Vorgaben zum Aufbau des SIP-Namens Pfadangabe zu PDFTRON Pfadangabe zum Outputverzeichnis von PDFTRON Pfadangabe zu JHOVE Pfadangabe zur Konfigurationsdatei von JHOVE Pfadangabe zum Outputverzeichnis von JHOVE Pfadangabe zum temporären Arbeitsverzeichnis des SIP-Validators Pfadangabe zur verwendeten DROID-Signaturdatei Auflistung der erlaubten xsd-Dateien bestehend aus Untertags mit Detailinformationen Auflistung der erlaubten Dateiformate bestehend aus Untertags mit Detailinformationen Auflistung der zu validierenden Dateiformate mit JHOVE oder PDFTRON

18 Präsentation SIP-Val & SIPBrowser Martin Kaiser, Claire Röthlisberger 18 KOST cmd_Script-Example '_Start.cmd' Validiert alle vorhandenen SIPs, welche sich im Ordner "Workshop_SIP-Val\SIPS" befinden '_Start_+3c_+3d.cmd' Wie '_Start.cmd', aber mit zusätzlicher Formatvalidierung (3c) und Zeitraumvalidierung (3d) 'manuelle_Eingabe.cmd' Vereinfachter Aufruf für die manuelle Eingabe 'neues_logs_verzeichnis.cmd' Legt neue Log-Verzeichnisse "logs", "logs\pdftron" und "logs\jhove" an

19 Präsentation SIP-Val & SIPBrowser Martin Kaiser, Claire Röthlisberger 19 KOST SIPBrowser

20 Präsentation SIP-Val & SIPBrowser Martin Kaiser, Claire Röthlisberger 20 KOST SIPBrowser: Programm starten

21 Präsentation SIP-Val & SIPBrowser Martin Kaiser, Claire Röthlisberger 21 KOST SIPBrowser: Metadaten browsen

22 Präsentation SIP-Val & SIPBrowser Martin Kaiser, Claire Röthlisberger 22 KOST SIPBrowser: Unterlagen einsehen

23 Präsentation SIP-Val & SIPBrowser Martin Kaiser, Claire Röthlisberger 23 KOST Fragen und Anregungen zu den KOST.tools

24 Präsentation SIP-Val & SIPBrowser Martin Kaiser, Claire Röthlisberger 24 KOST KOST.tools SIP-Val Offene Punkte: Ausdeutschen der Logausgabe im Bezug auf die PUID (3a – 3c) Prüfsummenvalidierung (2b) mit SHA1 und SHA256 ergänzen Zusätzliche Primärdateien (2a) inkl. korrekten Ordner Fortschrittsanzeige oder "Windrad", damit man sieht, dass das Programm noch läuft und nicht abgestürzt ist SIPBrowser


Herunterladen ppt "SIP-Val & SIPBrowser 4. Erfa-Anlass Staatsarchiv Bern, 14. Juni 2011."

Ähnliche Präsentationen


Google-Anzeigen