PDF und PDF/A Universität zu Köln Historisch Kulturwissenschaftliche Informationsverarbeitung WS 2011/2012 Digitale Langzeitarchivierung Dozent:

Slides:



Advertisements
Ähnliche Präsentationen
Dokumentformate ABC Text Bild Hyperlink Ton.
Advertisements

Digitale Langezeitarchivierung in den Medien
Übung Datenbanksysteme WS 2003/ Übung Datenbanksysteme Entwurf eines Bibliothekssystems
WML – Wireless Markup Language Vortrag von Eduard Jakel.
Software Ergonomie von Dennis Gloth SK03.
MI4-Konfigurator ab V 6.01.
Kapitel 4 Datenstrukturen
MS Office-Paket: Access
Angebote zur digitalen Langzeitarchivierung
Content Management Systems
Concurrent Use.
Browser Von Anna Zietek und Peter Paulus Verwendung Aufbau Anwendung.
HTML - Einführung Richard Göbel.
Anfragesprachen – Dipl. Ing. Ulrich Borchert / FH Merseburg1/7 Datenbanken werden als Anhäufung von Werten eines Wertebereiches aufgefasst und Datenbankabfragen.
DOM (Document Object Model)
Internetstruktur Das Internet besteht aus vielen Computern, die weltweit untereinander vernetzt sind.
XINDICE The Apache XML Project Name: Jacqueline Langhorst
Virtuelle Forschungsumgebungen Hintergrundbeitrag: HTML5: Video Player und VideoJS Universität zu Köln Historisch-Kulturwissenschaftliche Informationsverarbeitung.
Eine Biografie aus ADB/NDB als XML Datenbanken vs. Markup Prof Dr. Manfred Thaller WS 2009 / 2010 Referent: Bilal Erkin.
© 2002 Prof. Dr. G. Hellberg 1 XML-Seminar XML-Technologie: XML in Theorie und Praxis Prof. Dr. G. Hellberg XML-Technologie: XML in Theorie und Praxis.
Praxis der Metadatenerfassung Markus Enders Goettingen State and University Library
Jürgen-Maria Mustermensch ... sonstiges ...
Intelligentes Crawling im WWW mit Hilfe intuitiver Suchbedingungen
AkadOR W. Wagner, Didaktik der Chemie, Universität Bayreuth Sicherung auf HD: Beschreibung z.B. HD 500 GB: 1.Partition 1: Laufwerk C:, ca. 250GB Inhalt:
Barrierefreiheit ( Accessibility ).
Seite Common Gateway Interface. Konzepte. Übersicht 1Einleitung 2Was ist CGI? 3Wozu wird CGI verwendet? 4Geschichtlicher Überblick 5Grundvoraussetzungen.
1 Grundlagen und Anwendung der Extensible Markup Language (XML ) Peter Buxmann Institut für Wirtschaftsinformatik Johann Wolfgang Goethe-Universität Frankfurt.
Scanner.
Druckmodus (Print Mode)
MS Excel, Open-/LibreOffice Calc Die Menüs I Office-Logo (Excel2007) bzw. Datei (andere): die Standard-Datei- und Druckoperationen; bei MS Excel hier auch.
Nestor Workshop im Rahmen der GES 2007 Digitale Langzeitarchivierung und Grid: Gemeinsam sind wir stärker? Anforderungen von eScience und Grid-Technologie.
Formular- und Dokumentenarchivierung
Online -System des Projekts Tomáš Baxa. Inhalt der Präsentation Einzelne Teile des Websystems Registrierung und Anmeldung (Einloggen) im System Eingabe.
PDF-Datei erstellen Wir wollen nicht auf Papier drucken, sondern in eine PDF-Datei. (Portable Document Format) Wir öffnen das heruntergeladene Dokument.
Kostenlose Alternative zu Microsoft Office
Projektarbeit PHP 5.3 / MySQL & Content Management Systems
Grafikformate.
BILDFORMATE von Margarita Isjurowa.
Grundlagen: Client-Server-Modell
Das Client/Server – Modell und die XAMPP-Distribution
Nicolas Frings Maximilian Bernd Stefan Piernikarcyk
HTML-Editoren Eine Präsentation von Erik Kulisch.
Tim Gehrke Projektlabor WS 12/13
Wird ganz am Anfang der HTML-Datei geschrieben Doctype html public bedeutet, dass man sich auf die Öffentlichkeit der html-dtd bezieht Html ist die meist.
Theorie Praktische Beispiele
Allgemeines zu Datenbanken
Ausgabe vom Seite 1, XML Eine Einführung XML - Eine Einführung.
Theorie Praktische Beispiele
Automatische Texterkennung
Auf ins Web!. Das World Wide Web 1990 in Genf am Hochenergieforschungszentrum CERN Ziele: neuer wissenschaftlicher Informationsaustausch über das Internet.
Kommandozeile und Batch-Dateien Molekulare Phylogenetik – Praktikum
Theorie Praktische Beispiele
Ist das DANRW vertrauenswürdig? Manfred Thaller Universität zu Köln Köln, Die Herausforderung der Elektronischen Archivierung 16. Januar 2013.
An Approach to the Preservation of Digital Records National Archives of Australia Universität zu Köln Institut für Historisch-Kulturwissenschaftliche Informationsverarbeitung.
->Prinzip ->Systeme ->Peer – to – Peer
Software Design Patterns
Sicherung von elektronischer Kunst und Games von Maximilian Humpert.
OnlineForum ´99 1Windows-Online-Hilfen mit Zusatznutzen Windows-Online-Hilfen mit Zusatznutzen Das Tanner Funktionsdesign schafft die Voraussetzung für.
Digitale Langzeitarchivierung Sustainability of Digital Formats Universität zu Köln Historisch-kulturwissenschaftliche Informationsverarbeitung Hauptseminar.
Agenda 1. Definition Smartphone App Seite 2 2.
Unit Testing Universität zu Köln Historisch-kulturwissenschaftliche Informationsverarbeitung Planung von Softwareprojekten WS 2014/15 Christoph Stollwerk.
Webserver Apache & Xampp Referenten: Elena, Luziano und Sükran
Open Source und Open Office Referenten: Anja Stadler & Fabian Gebauer.
XML Schema Universität zu Köln Historisch-Kulturwissenschaftliche Informationsverarbeitung WS2011/2012 Hist.-kult.wiss. Informationsverarbeitung (Teil.
WINDOWS 2003 Server. Standart Varianten für 32 Bit: Web Edition: Unterstützt Single(1)- oder Dual(2)-Prozessor-Systeme und bis zu 2 GB RAM 32-Bit Standard.
Pool Informatik, Sj 11/12 GZG FN W.Seyboldt 1 Pool Informatik 5 GZG FN Sj. 11/12 Kopieren, Daten, Programme.
1 Grafikformate. 2 Grafikformate 3 Grafikformate 1.Bild mit Hilfe eines Rasters von Punkten beschreiben 2.Bild in geometrische Objekte unterteilen Bitmap-Grafik.
Seminar Digitale Bibliotheken Thema: Nutzen von digitalen Bibliotheken.
Digitale Bildbearbeitung
 Präsentation transkript:

PDF und PDF/A Universität zu Köln Historisch Kulturwissenschaftliche Informationsverarbeitung WS 2011/2012 Digitale Langzeitarchivierung Dozent: M.Thaller verfasst von: Jana Köllmann

Inhalt 1.Das Adobe Grafikmodell 2. Das Dateiformat PDF 3. Wege zur PDF 4. Grenzen von PDF 5. Tagged PDF 6. Warum PDF/A? 7. Wege zur Archiv-PDF 8. Welche Datenformate sind archivtauglich? 9. Was tun mit „alten“ Archivformaten? 10. Quellen

Das Adobe Grafikmodell Bildet Grundlage der Kerntechnologie von PDF Zusätzlich Grundlage für Modelle anderer Softwareentwickler Modell ist gerätunabhängig → ohne Bezug auf Eigenschaften des Geräts → Graphiken werden in abstrakter Beschreibung gespeichert und von Acrobat wieder hergestellt Basiert auf Berechnung von Vektorgraphiken

Eigenschaften der Basiselemente Vektorgraphiken: alle Elemente, die aus Linien und Kurven gebildet werden können Text: Untermenge der Vektorgraphik Rastergraphiken: Rechteckiges Fläche mit Pixeln

Warum Text nicht als Vektorgraphik speichern? Verarbeitungsgeschwindigkeit zu gering, da jeder Buchstabe immer wieder berechnet werden müsste Hoher Anspruch an Ausgabegenauigkeit, da Menschliches Auge sehr sensibel

Zusatzfunktionen Farbseparation Farbverläufe Maskierung von Bildern Transparenz und Alphakanal

Zusatzfunktionen Farbverläufe

Technische Eigenschaften Kompression: Einzelne Objekte der Datei werden selektiv komprimiert, da nicht jede Kompression für jeden Datentyp sinnvoll Wiederverwendbare Grafikmodelle: Durch einmalige Speicherung und Wiederverwendung von Grafiken kann die Dateigröße optimiert werden

Schriften in Acrobat Schriften könnenin PDF eingebettet werden → stehen auch Benutzern zu Verfügung wenn sie nicht auf dem Rechner installiert sind Fontdeskriptor: beschreibt die wichtigsten Strukturen einer Schrift (z.B. Serifen, Ober- /Unterlänge) Mit diesen Angaben kann Acrobat eine Ersatzschrift generieren

Das Dateiformat PDF

Das Dateiformat PDF 2

Bedeutung der Pfade

Wege zur PDF Acrobat Distiller: Umwandlung von PostScript zu PDF Acrobat PDFWriter: - Druckertreiber für Windows und Mac - Einschränkungen zu Distiller (kann z.B. kein PostScript verarbeiten) - meist schlechte Qualität, da mit Bitmap-Fassung der Graphik gearbeitet wird

Wege zur PDF Acrobat Web Capture: - Konvertierung von Webseiten zu PDF - Wandelt HTML zu PDF um mit internen Mitteln der Software Konvertieren von Bilddateien: in Acrobat über das „Datei“-Menü möglich, hat jedoch viele Nachteile

Wege zur PDF Konvertierung gescannter Seiten mit Acrobat Paper Capture: - ist für Umwandlung gedruckter Dokumente zuständig - Software versucht Gescanntes als Text zu erkennen und umzuwandeln

Direkte Erzeugung mit Anwenderprogrammen Immer mehr Software unterstützt die Exportmodeule für PDF Oft ist nicht der komplette Funktionsumfang von PDF unterstützt In vielen Programmen läuft die Konvertierung versteckt über Distiller

Grenzen von PDF Text aus PDF selten weiterverwendbar Weiterverwendung durch fehlende Strukturinformationen zusätzlich erschwert Inhalt eines PDF-Dokuments schwer für Sehbehinderte zugänglich, da Screenreader sie nicht verarbeiten können

Unicode Internationales Codesystem Langfristig wird für jedes bestehende Schriftzeichen ein digitaler Code festgelegt Ziel ist die unterschiedliche und inkompatible Kodierungen aus verschiedenen Ländern zu beseitigen Mittlerweile sind 109.242 Zeichen aus 93 Schriftsystemen genormt

Tagged PDF Kündigt an Probleme der PDF zu lösen Screenraeder sollen Text Problemlos auslesen können zuverlässige Konvertierung von PDF in andere Dateiformate Dynamische Umformatierung am Bildschirm

Tagged PDF liegt vor, wenn:... Dokument enthält PDF-Strukturbaum Bedeutungen aller Zeichen sind bekannt und Unicode-Zuordnung Dokumentinhalte sind nach Wichtigkeit geordnet Lesereihenfolge ist dokumentiert

Warum PDF/A? Erforderliche Schriften MÜSSEN eingebettet werden Einige PDF Elemente beeinträchtigen die Beständigkeit (z.B. Ebenen, interaktive Elemente) PDF-Dokument das bestimmte Anforderungen der DLZA erfüllt

Informationen zu PDF/A Erster Standard besteht seit 2005, zugrunde liegt PFD-Version 1.4 Zweiter Standard aufgrund von Version 1.7 besteht seit Frühjahr 2011 Spezifiziert zwei Übereinstimmungsgrade für Version 1: PDF/A_1a, PDF/A_1b Spezifiziert drei Übereinstimmungsgrade für Version 2: PDF/A_2a, PDF/A_2b, PDF/A_2u

PDF/A_1b Betrifft die visuelle Integrität Jede PDF/A_1a-Datei entspricht auch dem nicht so strengen Standard der PDF/A_1b-Datei Referenzen auf Resorsen ausserhalb des Dokuments sind nicht erlaubt Transparenz darf nicht verwendet werden Eindeutige Farbdarstellung Verschlüsselung ist untersagt

PDF/A_1a Bezieht sich auf semantische Korrektheit und Struktur Struktur basiert auf Tagged PDF Schriftzeichen müssen Unicode-Entsprecchung haben Lesbar durch den Screenreader

Wege zur Archiv-PDF PDF/A aus Dateien oder Daten: - Über Export durch Ursprungsprogramme, Distiller oder PDF Konverter - auch Programme zur „Massenabvertigung“ erhältlich Gescannte Papiervorlage zu PDF/A - Text wird durch OCR durchsuchbar gemacht - Durch das Scannen mit Acrobat Professional umwandelbar (ab Version 8)

Wege zur PDF/A PDF/A aus PDF: - Acrobat 8 Professional erledigt dies - kann ausserdem prüfen ob zugesannte Datei wirklich PDF/A und nicht PDF ist - weitere zahlreiche andere Software ist in der Lage zu konvertieren

Wer kann von PDF/A profitieren? Emails als PDF/A um den Umstieg zwischen Mailkonten zu erleichtern Online PDFs alternativ als PDF/A speichern Pläne, kartographische Werke, Konstruktionszeichnungen, da sie oft über Jahrzehnte aufbewahrt werden müssen Signierte digitale Verträge Sichere Farbe in Bilddokumenten Druckvorlagen Barrierefreie PDF-Dateien

Welche Dateiformate sind archivtauglich?

Was tun mit „alten“ Archivformaten? Beliebt zur Archivierung waren bei Bildern bisher vor allem JPEG oder TIFF-G4 Man kann permanent oder temporär umwandeln: permanent: besonders bei überschaubaren Datenmengen von Vorteil temporär: bei vielen Daten sinnvoll, Daten können bei Aufruf „on the fly“ umgewandelt werden

Quellen Merz, Thomas; Drümmer, Olaf: Die PostScript- & PDF-Bibel, dpunkt Verlag, 2. Auflage, 2002. http://de.wikipedia.org/wiki/Unicode http://www.callassoftware.com/callas/doku.php/ de:pdfakompakt:start http://unicode.org/ http://de.wikipedia.org/wiki/PDF/A http://www.einfach-fuer-alle.de/artikel/pdf- barrierefrei-umsetzen/