Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

RDA Deutschland 2016 Trainingskurs #1: Datenobjekte in zuverlässigen Repositorien Teil #2: Persistent Identifiers Tibor Kálmán Gesellschaft für wissenschaftliche.

Ähnliche Präsentationen


Präsentation zum Thema: "RDA Deutschland 2016 Trainingskurs #1: Datenobjekte in zuverlässigen Repositorien Teil #2: Persistent Identifiers Tibor Kálmán Gesellschaft für wissenschaftliche."—  Präsentation transkript:

1 RDA Deutschland Trainingskurs #1: Datenobjekte in zuverlässigen Repositorien Teil #2: Persistent Identifiers Tibor Kálmán Gesellschaft für wissenschaftliche Datenverarbeitung mbH Göttingen (GWDG) Tibor [dot] Kalman [at] gwdg [dot] de

2 RDA-DE: T1 - Datenobjekte in zuverlässigen Repositorien
Agenda Motivation Nachhaltigkeit durch Technik Handle System Wie verwalte ich meine PIDs? Einfache Beispiele (Webbrowser & Kommandos) Auflösung, Erzeugung Fortgeschrittene Beispiele (Kommandos) Auflösung, Verwaltung, Metadaten-Suche Vorhandene IDs, Fragment IDs Nachhaltigkeit durch Organisationsstrukturen PID Replication, Profiles, Types RDA-DE: T1 - Datenobjekte in zuverlässigen Repositorien

3 RDA-DE: T1 - Datenobjekte in zuverlässigen Repositorien
Motivation RDA-DE: T1 - Datenobjekte in zuverlässigen Repositorien

4 RDA-DE: T1 - Datenobjekte in zuverlässigen Repositorien
Motivation Diese Session zeigt einfache und fortgeschrittene Anwendungsbeispiele für Handle-System basierten Persistent Identifiers (PIDs), die von ePIC bereitgestellt werden. Das Ziel ist zu verstehen, wie PIDs aufgelöst und verwaltet werden. Diese Session verwendet die folgenden Dienste: PID Auflösung: der Handle Proxy für generische PID Auflösung PID Verwaltung: Demo PID-Service der GWDG und ePIC-API-v2 ePIC-API-v2 Handle System DB ePIC-API-v2 GWDG API v1 SURFsara API v1 Other API v1 RDA-DE: T1 - Datenobjekte in zuverlässigen Repositorien

5 RDA-DE: T1 - Datenobjekte in zuverlässigen Repositorien
Hands-On Session: Zum Lesen: ePIC FAQ: ePIC Policy & QoS: ePIC API Dokumentation: Zum Ausprobieren (Handle PID Beispiele): 21.T11998/4B7335BF-CA0C AAF-F36AE8AC88AB 21.T11998/TEMPLATEHANDLE /182 11148/ B00-1 /11148/ B00-1 Zum Nutzen: ePIC PID Service (DEMO): User: (wird am Ende der Session verteilt) Passwd: (wird am Ende der Session verteilt) RDA-DE: T1 - Datenobjekte in zuverlässigen Repositorien

6 Nachhaltigkeit Durch Technik: Das Handle System
RDA-DE: T1 - Datenobjekte in zuverlässigen Repositorien

7 Persistent Identifier
Definierte Schicht, welche zwischen Referenz und Objekt vermittelt. Die Referenz wird beim PID Service aufgelöst, welcher zur aktuellen Position des Objekts vermittelt. Sollte das Objekt nicht mehr existieren, kann dies ebenfalls im PID hinterlegt werden. Aufbau von Mehrwertdiensten möglich. RDA-DE: T1 - Datenobjekte in zuverlässigen Repositorien

8 Nachhaltigkeit durch Technik
Die Identifikatoren müssen langfristig und dezentral aufgelöst und verwaltet werden Es ist eine große technische Herausforderung, eine PID-Infrastruktur aufzubauen: Sie muss zuverlässig sein Sie muss robust sein Sie muss langfristig betrieben werden Die meisten Organisationen setzen auf bewährte PID Technologien Handle, DOI, URN, ARK und vieles mehr... Ein konkreter Beispiel: die Handle-PIDs des Persitent Identifier Consortiums for eResearch (ePIC) RDA-DE: T1 - Datenobjekte in zuverlässigen Repositorien

9 RDA-DE: T1 - Datenobjekte in zuverlässigen Repositorien
Beispiel: Handle PID Das Handle System: Das Handle System ist weltweit verbreitet ~ Namensräume (Prefixes) wurden vergeben Monatlich über ~100+ Millionen Auflösungen durch die globale Handle Infrastruktur Finanziert durch Einnahme für Registrierung von Namensräumen Das eintragen eines Handles in den Namensraum ist kostenlos Die grundlegende Technologie des Handle-Systems existiert seit ca. 20 Jahren Es ist ein verteiltes System (Globaler und Lokaler Server) Sehr gut skalierbar Mehrere globale Handle Server (für Europa) wird bei der GWDG betrieben Beispiel: / E80-3 [Prefix oder Namensraum] / [Suffix] RDA-DE: T1 - Datenobjekte in zuverlässigen Repositorien

10 Wie verwalte ich meine PIDs? Einfache Beispiele
RDA-DE: T1 - Datenobjekte in zuverlässigen Repositorien

11 Auflösung (Resolution)
RDA-DE: T1 - Datenobjekte in zuverlässigen Repositorien

12 RDA-DE: T1 - Datenobjekte in zuverlässigen Repositorien
Resolution (1) Use the Handle Proxy server to resolve the example PIDs above Use the online form at the web page of the Handle Proxy. Use the Handle Proxy to directly resolve a PID without the form (PID is part of the URL). Use the Handle Proxy server to get the metadata of the example PIDs above. (Hint: look at the documentation of the proxy) Handle Proxy: URL: User/Pwd: öffentlich, also ohne Passwort RDA-DE: T1 - Datenobjekte in zuverlässigen Repositorien

13 RDA-DE: T1 - Datenobjekte in zuverlässigen Repositorien
Resolution (2) Use the ePIC PID Service (DEMO) to resolve the example PID 21.T11998/ DA4-2 Use a web browser to get the metadata of the PID Hint: PID is part of the URL Use a (command line) HTTP client Hint: look at the documentation of the ePIC-API-v2 ePIC PID Service (DEMO) URL: User: (wird am Ende der Session verteilt) Passwd: (wird am Ende der Session verteilt) RDA-DE: T1 - Datenobjekte in zuverlässigen Repositorien

14 RDA-DE: T1 - Datenobjekte in zuverlässigen Repositorien
Solutions (1) RDA-DE: T1 - Datenobjekte in zuverlässigen Repositorien

15 RDA-DE: T1 - Datenobjekte in zuverlässigen Repositorien
Solutions (2) RDA-DE: T1 - Datenobjekte in zuverlässigen Repositorien

16 RDA-DE: T1 - Datenobjekte in zuverlässigen Repositorien
PIDs Verwalten RDA-DE: T1 - Datenobjekte in zuverlässigen Repositorien

17 RDA-DE: T1 - Datenobjekte in zuverlässigen Repositorien
Management Use a REST client (e.g. curl command line client) to manage PIDs with the ePIC PID Service Create a PID with your test user Show the metadata of your PID Modify your PID Hint: update the location (URL) ePIC PID Service (DEMO) URL: User: (wird am Ende der Session verteilt) Passwd: (wird am Ende der Session verteilt) RDA-DE: T1 - Datenobjekte in zuverlässigen Repositorien

18 RDA-DE: T1 - Datenobjekte in zuverlässigen Repositorien
Solutions (1) curl -v -u 'rdademo1:PaSsWoRd‘ -H "Accept:application/json" -H "Content-Type:application/json" -X POST --data '[{"type":"URL", "parsed_data":" Request Response (Header) Response (Body) RDA-DE: T1 - Datenobjekte in zuverlässigen Repositorien

19 RDA-DE: T1 - Datenobjekte in zuverlässigen Repositorien
Solutions (2) curl -v -u 'rdademo1:PaSsWoRd‘ -H "Accept:application/json" -X GET Response (Body) RDA-DE: T1 - Datenobjekte in zuverlässigen Repositorien

20 Wie verwalte ich meine PIDs? Fortgeschnittene Beispiele
RDA-DE: T1 - Datenobjekte in zuverlässigen Repositorien

21 CREATE a PID with DC5 Metadata
RDA-DE: T1 - Datenobjekte in zuverlässigen Repositorien

22 ‘Basic‘ PID vs PID with DC5 metadata
RDA-DE: T1 - Datenobjekte in zuverlässigen Repositorien

23 RDA-DE: T1 - Datenobjekte in zuverlässigen Repositorien
Management Use a REST client (e.g. curl command line client) to manage PIDs with the ePIC PID Service Create a PID with your test user Show the metadata of your PID ePIC PID Service (DEMO) URL: User: (wird am Ende der Session verteilt) Passwd: (wird am Ende der Session verteilt) RDA-DE: T1 - Datenobjekte in zuverlässigen Repositorien

24 RDA-DE: T1 - Datenobjekte in zuverlässigen Repositorien
Solutions curl -v -u 'Rdademo1:Training2016' -H "Accept:application/json" -H "Content-Type:application/json" -X POST --data '[{"type":"URL", "parsed_data":" {"type":"TITLE", "parsed_data":"European Persistent Identifier Consortium - PIDs ..."}, {"type":"AUTHORS", "parsed_data":"Tibor Kálmán, Daniel Kurzawe, Ulrich Schwardmann"}, {"type":"PUBDATE", "parsed_data":"2012"}, {"type":"PUBLISHER","parsed_data":"Scivero"}, {"type":"METADATA_URL","parsed_data":" " RDA-DE: T1 - Datenobjekte in zuverlässigen Repositorien

25 existing ID as an epic PID
RDA-DE: T1 - Datenobjekte in zuverlässigen Repositorien

26 RDA-DE: T1 - Datenobjekte in zuverlässigen Repositorien
Using ID ‘ABCD-1234‘ curl -v -u 'rdademo1:Training2016' -H "Accept:application/json" -H "Content-Type:application/json" -X PUT --data '[{"type":"URL","parsed_data":" RDA-DE: T1 - Datenobjekte in zuverlässigen Repositorien

27 RDA-DE: T1 - Datenobjekte in zuverlässigen Repositorien
Metadaten-Suche RDA-DE: T1 - Datenobjekte in zuverlässigen Repositorien

28 RDA-DE: T1 - Datenobjekte in zuverlässigen Repositorien
Metadata Search Reverse Lookup for an object: Checking whether the object with the exact URL has already had a PID: curl -u 'tkalman:passMyPaSsWoRd' -H "Accept:application/json" (Note the ?URL=... Parameter.) Reverse Lookup: generic search: Getting the list of PIDs, where the URL contains “gwdg.de": curl -u 'tkalman:pass‘ [...headers...] (Note the ?URL=*pattern* parameter. The generic search works for all registered fields. The pattern can be an exact string or can contain wildcards. Interested readers might also check the limit=0 parameter.) Reverse Lookup: generic search with more patterns: Getting the list of PIDs, where the AUTHORS contains "Tibor" and the URL contains "gwdg.de" and the PIDs were registered by the institute with id: 1001: curl -u 'tkalman:pass‘ [...headers...] (Note the ?AUTHORS=*pattern*, the URL=*pattern* and the INST=... parameters. Interested readers might also check the limit=0 parameter in the "VIEW all details" example above.) RDA-DE: T1 - Datenobjekte in zuverlässigen Repositorien

29 RDA-DE: T1 - Datenobjekte in zuverlässigen Repositorien
Common Parameters Additional PREFIX & SUFFIX for the PID: curl -v -u 'rdademo1:Training2016' -H "Accept:application/json" -H "Content-Type:application/json" -X POST --data '[{"type":"URL","parsed_data":" TRAINING Result: 21.T11998/RDA-DE TRAINING Using generators (for example, PID string is UUID): curl -v -u 'rdademo1:Training2016' -H "Accept:application/json" -H "Content-Type:application/json" -X POST --data '[{"type":"URL","parsed_data":" Result: 21.T11998/2A571CF2-6FC0-11E6-96B0-E41F1343FB94 RDA-DE: T1 - Datenobjekte in zuverlässigen Repositorien

30 Fragment Identifiers /Template Handles
RDA-DE: T1 - Datenobjekte in zuverlässigen Repositorien

31 PIDs in der Wissenschaft: Anwendungsbeispiele
Was kann alles referenziert werden? Pragmatisch: Alle abgrenzbaren Objekte, welche unter einem eindeutigen Namen angesprochen werden können. PIDs in den Kultur- und Geisteswissenschaften (wie etwa DARIAH-DE, TextGRID oder CLARIN Projekt): PIDs identifizieren Sammlungen, Inhalte und Objekte PIDs werden nicht nur zur Referenzierung von Objekten, sondern auch zur Referenzierung von Objektbereichen (Fragments) verwendet. Beispiele sind etwa die Referenzierung von Textstellen und Abbildungen in Dokumenten oder der Verweis auf genaue Bereiche innerhalb von digitalen Medien. RDA-DE: T1 - Datenobjekte in zuverlässigen Repositorien

32 Fragment Identifiers/Template Handles
Eine Entität und Große Anzahl von Fragments: Fragment Identifiers/Template Handles können eine unbegrenzte Anzahl von Fragments einer Entität referenzieren Zwar so, dass die Fragments keinen eigenen registrierten PID brauchen werden mit Hilfe von 'base' und 'extension‘ definiert Ein ​‘Template Delimiter' teilt den Handle in Base​ und Extension, Wird gewöhnlich für den Namensraum (Präfix) verwendet Beispiel: PID: URL: RDA-DE: T1 - Datenobjekte in zuverlässigen Repositorien

33 Fragment Identifiers/Template Handles
Hands-On excercise: Find out, which delimiter is used for templates in 21.T11998 and with which character it is replaced. Hint: look for the content of 0.NA/21.T11998 at the Proxy Use this delimiter, to address a fragment together with the PID 21.T11998/TEMPLATEHANDLE Hint: resolve at the Handle Proxy Handle Proxy: URL: User/Pwd: öffentlich, also ohne Passwort RDA-DE: T1 - Datenobjekte in zuverlässigen Repositorien

34 RDA-DE: T1 - Datenobjekte in zuverlässigen Repositorien
Lösung (1) Standardisierter Weg um Templates zu definieren Beispiel Handle System: Prefix Handle ‘0.NA/21.T11998‘ ‘HS_NAMESPACE‘ type Notizen (Erfahrungen und offene Fragen) Granularität (Buch, Seite,usw) Replizieren von PIDs ePIC: 1+2 replicas Gleiche Regel für Auflösung von Replikaten: Bei ePIC ist das Teil der Replication-Policies PID Audit kann problematisch werden Metadaten in jedem Fragment PID Lebensdauer der Fragment-IDs Auflösung folgendes PIDs: RDA-DE: T1 - Datenobjekte in zuverlässigen Repositorien

35 Nachhaltigkeit Durch Organisationsstrukturen
RDA-DE: T1 - Datenobjekte in zuverlässigen Repositorien

36 Nachhaltigkeit durch Organisationsstrukturen
Technologien unterliegen einem ständigen Wandel Formate und Schnittstellen veralten Die Anforderungen wachsen mit dem wachsenden Datenaufkommen Technologien alleine sind nicht nachhaltig Projektmitttel sind begrenzt: Nicht immer können Dienste weit über das Projekt hinaus betrieben werden. Bei dem technologischen Wandel veraltet ein nicht mehr gepflegtes Projekt Auch einzelne Institute können ihre Finanzierung verlieren oder die Ausrichtung ändern Nur durch eine nachhaltige Organisationsstruktur können Dienste nachhaltig betrieben werden Möglichst lange auf bewährte und einfach zugängliche Technologien setzen Offenheit Nachhaltigkeit durch Vielfalt Langfristige Finanzierung RDA-DE: T1 - Datenobjekte in zuverlässigen Repositorien

37 Nachhaltigkeit durch Organisations- strukturen – Beispiel ePIC
Nicht alle Institute können oder wollen einen eigenen Dienst zum Verwalten von PIDs betreiben Zusammen mit anderen europäischen Partnern wurde ein Konsortium gebildet, um diese Dienstleistungen Wissenschaftlern zur Verfügung zu stellen Persistent Identifier Consortium for eResearch (ePIC) Ziel: Erzeugen, Verwalten und Auflösen von Identifikatoren von Forschungsdaten (wissentschaftliche digitale Objekte) Replizierung von PIDs Policies Data Type Registry für PID Information Types RDA-DE: T1 - Datenobjekte in zuverlässigen Repositorien

38 Nachhaltigkeit Durch Organisationsstrukturen: Replizierung von PIDs
RDA-DE: T1 - Datenobjekte in zuverlässigen Repositorien

39 RDA-DE: T1 - Datenobjekte in zuverlässigen Repositorien
PID replication Hands-On excercise: Find out, which mirrors are used for replicate all PIDs under 11858 Hint: look for the content of 0.NA/11858 at the Proxy and search for HS_SITE entries Use the Siteinfo service of ePIC Handle Proxy: URL: User/Pwd: öffentlich, also ohne Passwort Siteinfo Service von ePIC: URL: User/Pwd: öffentlich, also ohne Passwort RDA-DE: T1 - Datenobjekte in zuverlässigen Repositorien

40 RDA-DE: T1 - Datenobjekte in zuverlässigen Repositorien
Solution (1) hier hier RDA-DE: T1 - Datenobjekte in zuverlässigen Repositorien

41 RDA-DE: T1 - Datenobjekte in zuverlässigen Repositorien
Solution (2) RDA-DE: T1 - Datenobjekte in zuverlässigen Repositorien

42 Solution (3): ePIC Siteinfo (JSON)
Response (Body) RDA-DE: T1 - Datenobjekte in zuverlässigen Repositorien

43 ePIC siteinfo Higher Level Services
Replication OK Nagios Plugin Replication WARNING Replication CRITICAL RDA-DE: T1 - Datenobjekte in zuverlässigen Repositorien

44 Nachhaltigkeit Durch Organisationsstrukturen: Profiles
RDA-DE: T1 - Datenobjekte in zuverlässigen Repositorien

45 RDA-DE: T1 - Datenobjekte in zuverlässigen Repositorien
PID Profile Bisher identifizierte Profile: NO_DELETE Deleting PIDs NO_URL_DUPLICATE Enabling DUPLICATE registrations ENABLE_USER_SUFFIX Using SUFFIX defined by users ENABLE_USER_PREFIX Using PREFIX defined by users ENABLE_GENERATOR_UUID UUID string ENABLE_GENERATOR_GWDGPID GWDG-like string ENABLE_GENERATOR_FREESTRING Supporting free ‘PID string‘ syntaxes REQUIRE_PROFILE checking whether a profile of mandatory and optional attributes (types) is defined for a CREATE or UPDATE query REQUIRE_MINIMAL_PID, SIMPLE A 'simple' PID with 1 field only (URL and nothing else) REQUIRE_DC checking whether the Dublin Core attributes are defined REQUIRE_INST Adding additional, [administrative] metadata to the PID RDA-DE: T1 - Datenobjekte in zuverlässigen Repositorien

46 RDA-DE: T1 - Datenobjekte in zuverlässigen Repositorien
NO_DELETE Profile Hands-On excercise: Delete an existing PID Hint: use the HTTP method ‘DELETE‘ (-X DELETE) ePIC PID Service (DEMO) URL: User: (wird am Ende der Session verteilt) Passwd: (wird am Ende der Session verteilt) RDA-DE: T1 - Datenobjekte in zuverlässigen Repositorien

47 RDA-DE: T1 - Datenobjekte in zuverlässigen Repositorien
Thank you! Tibor Kálmán Gesellschaft für wissenschaftliche Datenverarbeitung mbH Göttingen (GWDG) Tibor [dot] Kalman [at] gwdg [dot] de PID dieses Vortrages: RDA-DE: T1 - Datenobjekte in zuverlässigen Repositorien

48 RDA-DE: T1 - Datenobjekte in zuverlässigen Repositorien
Backup slides RDA-DE: T1 - Datenobjekte in zuverlässigen Repositorien

49 EPIC PID vs DataCite DOI
Metadata „schema“ in EPIC GWDG v1: Dublin Core 5 Metadata in EPIC v2: depends on the community PID records are managed by the PID-Service Metadata is stored in the PID DataCite Metadata Schema More services are involved in the management of a DOI record (incl. Metadata) Registration and management is a 2-steps process Metadata is not stored in the DOI, but in the MetaData Store RDA-DE: T1 - Datenobjekte in zuverlässigen Repositorien

50 RDA-DE: T1 - Datenobjekte in zuverlässigen Repositorien
Using DOIs at EPIC Policy for DOI „migration“: Community requirements are not clear at the moment Idea: Register EPIC PIDs by PID-Service Maintain metadata of the EPIC PID Register DOI (PID metadata would be automatically transformed to DataCite metadata) DOI has the same „ID“ EPIC PID: 11148/ B00-1 DataCite DOI: /11148/ B00-1 RDA-DE: T1 - Datenobjekte in zuverlässigen Repositorien

51 Sequence Diagram (PIDDOI)
RDA-DE: T1 - Datenobjekte in zuverlässigen Repositorien

52 PID-Service View of EPIC PID
RDA-DE: T1 - Datenobjekte in zuverlässigen Repositorien

53 RDA-DE: T1 - Datenobjekte in zuverlässigen Repositorien
DONA Digital Object Naming Authority (DONA) DONA is a Swiss foundation hosting an international consortium that governs the Handle structure at the top level in close collaboration with ITU-T DONA was founded 2012 in Geneva current partners: CNRI, CHC, GWDG on behalf of ePIC the consortium will moderately grow in future RDA-DE: T1 - Datenobjekte in zuverlässigen Repositorien

54 RDA-DE: T1 - Datenobjekte in zuverlässigen Repositorien
DONA – bis September 2015 RDA-DE: T1 - Datenobjekte in zuverlässigen Repositorien

55 DONA – Multi Primary Administrators
RDA-DE: T1 - Datenobjekte in zuverlässigen Repositorien

56 ePIC PIT DTR registration GUI (candidates)
RDA-DE: T1 - Datenobjekte in zuverlässigen Repositorien

57 ePIC PIT DTR registration GUI (candidates)
RDA-DE: T1 - Datenobjekte in zuverlässigen Repositorien


Herunterladen ppt "RDA Deutschland 2016 Trainingskurs #1: Datenobjekte in zuverlässigen Repositorien Teil #2: Persistent Identifiers Tibor Kálmán Gesellschaft für wissenschaftliche."

Ähnliche Präsentationen


Google-Anzeigen