Identifikation Von Digitalen Dokumenten Marco Kuhrmann Institut für Softwaretechnologie Fakultät für Informatik Universität der Bundeswehr München DBMS für spezielle Anwendungen
Gliederung Einleitung Lösungsansätze URL ISBN/ISSN PURL Persistent-Identifier-Systems - URN -DOI Speichern in Datenbanken
Einleitung File not found, Error 404 tote Links aufgrund verzogener/gelöschter Dateien bes. ärgerlich bei Newsbeiträgen, Nachrichtenartikeln, Videos... digitale Dokumente eindeutig zu identifizieren, archivieren und verfügbar lassen größte Motivation: Vermeidung toter Links, Verfügbarkeit von Informationen eCommerce, kommerzielle Anwendung z.B. bei eBooks Worum geht es?
Lösungsansätze URL (Uniform Resource Location) ISBN/ISSN PURL (Persistent Uniform Resource Location) Persistent-Identifier-Systems: URN (Uniform Resource Name) DOI (Digital Object Identifier)
ISBN/ISSN ISBN/ISSN eindeutige Identifikatoren für Bücher, Zeitschriften, etc. eindeutig identifizierbar, persistent ISSN auch für digitale Publikationen, beschränkt Online-Antrag auf ISSN möglich kein Verweis auf Ort der Resource keine einzelnen Artikel keine Videos, Audio-Dateien, etc.
PURL Entwickelt von OCLC (Online Computer Library Center), Datenbank weltweit verfügbar im Prinzip URL mit HTTP-redirect Beispiel: Bildung der PURL: verwaltender Server als Hostadresse und Entsprechende Top-Level-Domain bzw. Namespace, evtl. weitere Subdomains Beispiel:
PURL Registrierung „NET“ Standard-Top-Level-Domain beliebige Subdomains möglich doppelte Einträge durch entsprechendes Programm verhindert Erstellen einer PURL: Vorteile: Links in Hypertexten bedürfen keiner Veränderung bei Änderung der URL nur Änderung in DB erforderlich für jeden frei verfügbar Protokolle
PURL Nachteile: registrierte Nutzer müssen Änderungen der URLs an Datenbank melden keine Metadaten nur für Texte von wahrscheinlicher bleibender Bedeutung keine einzelnen Kapitel keine Grafiken, Videos,... keine vergänglichen Meldungen keine Überprüfung bestehender PURLs
Persistent Identifier (PI) „dauerhafter Identifikator“ weltweite eindeutige Identifikation digitaler Dokumente ähnlich ISBN/ISSN alle Formate (Audio, Video, Text,...) verwendbar für alle Artikel, Absätze, Kapitel... Konzept: Trennung von Bezeichnung und Location Beispiele: URN, DOI
URN – Spezifikation (1) „Uniform Resource Name“, seit 1992 entwickelt im Auftrag von Internet Engineering Task Force (IETF) Spezifikation in RFC 1737: standortunabhängig (global scope) weltweit einmalig (global uniqueness) dauerhaft gültig (persistence) Skalierbarkeit (scalability) URN-Schema muss leicht erweiterbar sein (extensibility)
URN – Spezifikation (2) Integrierbarkeit bestehender Ressourcenidentifikationssysteme (z.B. ISBN) (legacy support) Unabhängigkeit URNs vergebender Autoritäten (independence) feste Gestaltung von URNs (resolution) Spezifikation in RFC 1737 (Forts.): Sub-Namespaces ermöglichen feinere Granularität unabhängig vom referenzierten Objekt
URN - Syntax 1. Angabe „urn“ 2. Standard bzw. Normbezeichnung, Namespace Identifier (INET, ISBN, ISSN) 3. spezifische Identifikation: Syntax der URN (nach RFC 2141 und 1737): urn:[Namespace Identifier -- NID]:[Namespace Specific String -- NSS] [Naming Authority]:[Opaque String] a)Verantwortliche/vergebende Stelle b)Vergebene Ziffern- oder Buchstabenfolge für spezielles Objekt
URN - Beispiele Beispiele für URNs: NIDNaming Authority URN:ISBN_Publisher_ID:519:A3282DC8DXX Opaque String URN:NBN:DE: NIDNaming AuthorityOpaque StringPrüfziffer
URN – Auflösung (1)
URN – Auflösung (2) optimal: Eingabe URN in Browser aber: bisher keine Unterstützung von Browser oder DNS bisherige Lösung mit Proxy-Servern oder Plugins Erweiterung des DNS um „Naming Authority PointR“-Komponente (RFC 2168) Integration vorhandener Namensräume in URN-Schema, Einbettung in gängige Protokolle, z.B.: / / ?urn=urn:inet:dstc.edu.au:017A5d24
URN – Metadaten Metadaten sollten als Teil der URN spezifiziert werden URN, URL spezifiziert als URI (Uniform Resource Identifier) URI enthält noch URC (Uniform Resource Character) speichern von URN in Datenbank mit (mehreren) URLs URC ebenfalls in DB abgelegt Metadaten enthalten, komplexe Suche möglich
URN – Implementation Projekt CARMEN-AP4 Partner: Deutsche Bibliothek (DDB) vertraut machen als nationale Agentur zur URN-Vergabe Vergabe von persistent Identifier im Rahmen des NBN-Namespace (NBN:DE) seit September 2001URNs für Online-Dissertationen administriert und aufgelöst Erprobung und Weiterentwicklung Integration von bestehenden Systemen (ISSN, ISBN, PURL, DOI...) bereits große Verbreitung in bibliothekarischen und nicht-kommerziellen Bereichen
DOI - Spezifikation „Digital Object Identifier“, begann 1994 als Teil des allgemeinen Copyrights Spezifikation nach RFC 1737 ab 1998 weiterentwickelt von IDF (International DOI Foundation) Ziel: eindeutige Identifizierung, Verwaltung von Rechten Ergebnis: DOI, DOI System (Verwaltung) eindeutiger Identifikator für beliebiges digitales Objekt unabhängig von Location „unintelligente“ Zahlenfolge
DOI - Syntax DOI bestehend aus Präfix und Suffix: Präfix: Bezeichnung für Anbieter, Produktlinie,... Suffix: Identifikatoren, Produktnummern, Bezeichnungen oder Codes beschreibt beliebige Größe oder Granularität Integration von bestehenden Systemen möglich (ISBN, ISSN,...)
DOI - Auflösung optimal: Eingabe in Browser, derzeit nicht unterstützt Auflösung durch Proxy-Server oder Plugins DOI-System, bestehend aus 3 Komponenten: Metadaten von Anbieter gepflegt Mindestmenge verlangt mehrere Projekte zur Standardisierung von Metadaten DOI als Persistent Identifier technische Implementation des Handle-Systems
Handle-System entwickelt von Corporation for National Research Initiatives (CNRI) stellt Funktionen für PIs in Form von Handles bereit Syntax ist Basis für DOIs:
DOI – Implementation Registrierungsagenturen IDF unterstellt CrossRef (USA), Content Directions (USA), Enpia Systems (Asien) seit Juli 2003 „mEDRA“ offizielle Europäische DOI-Agentur kommerzielle Nutzung, Online-Verlage Problem: IDF fehlen finanzielle Mittel zur Durchsetzung Durchsetzung des Standards nur langsam Kritik: kryptische Identifier
PIs und Datenbanken PIs aufgrund Eindeutigkeit gut geeignet für Primärschlüssel in DB unterschiedliche DB/Tabellen aufbaubar: URLsRelationen PI DOI/URN - Datenbank Metadaten PI Archiv Dokument1 PI1 Metadaten1 Dokument2 PI2 Metadaten2