Schlankes OAI Data Providing mit Aleph 500

Slides:

Advertisements

Ähnliche Präsentationen

Object Relational Mapping

Advertisements

Dynamische Seiten mit Dreamweaver Zugriff auf (mysql) Datenbank mit PHP.

Sebastian Peters TIB-Workshop zur DOI-Registrierung 3. November 2011 DataCite Technik.

Sebastian Peters TIB-Workshop zur DOI-Registrierung 3. November 2011 DataCite Technik Vertiefung.

IT-Zertifikat der Phil.Fak

Objektrelationales Mapping mit JPA Working with Persistent Objects Jonas Bandi Simon Martinelli.

METS/MODS Referat im Rahmen des IT-Zertifikats f ü r Geisteswissenschaftler Leitung: P. Sahle Referentin: C. Ottnad.

Digitale Bibliotheken Universität zu Köln IT-Zertifikat Dedizierte Systeme Susanne Kurz Martina Matuschik & Nadine Hendarman.

Vernetzung von verteilten Informationssystemen Michael Hohlfeld Institute for Science Networking Oldenburg GmbH an der C.V.O. Universität Oldenburg

Überlegungen zur Architektur eines Fachinformations-Netzwerkes am Beispiel des CeGIM Mehrwert ist es nicht nur, Daten von ihren Quellen zu den Nutzern.

JUWEL – Open Access Server des Forschungszentrums Jülich

Bidirektionales VFX-XML-Interface für Daten-Import/Export Visual Extend Anwendertreffen 2009 Rainer Becker, Frank Kropp deutschsprachige FoxPro User Group.

Semantic Web-Anwendungen auf Basis des BAM-Portals Ein Prototyp Volker Conradt.

1 Produktive ZDB-Schnittstellen : OAI Bernd Althaus / 10| Produktive ZDB-Schnittstellen: OAI| Althaus | 14. Oktober 2013.

RL-Schichtbuch V1.3 Aufbau und Struktur © 2003 Rainer Lang Url:

Von Isabelle Spörl und Simon Schausberger

Zauberwort Metadaten Elementares Handwerkszeug des Content- und Wissensmanagement.

Webseiten mit PHP, SQL, XML und Webservices Anhand praktischer Beispiele.

Mag. Andreas Starzer weloveIT – EDV Dienstleistungen

Informationsdienste Torsten Rathmann (Deutsches Klimarechenzentrum, Hamburg) Workshop: Virtuelle Forschungsumgebungen aufbauen – mit D-Grid Abstract: Thema.

IT-Zertifikat der Phil.Fak Kurs 4: Daten- und Metadatenstandards Patrick Sahle BAM-SektorWS 08/09.

OAi-Protokoll: Data Provider, Service Provider Uwe Müller Humboldt-Universität zu Berlin Rechenzentrum.

OAISter wichtigste Verbundkatalog für digitale Ressourcen Open Access wissenschaftliche Literatur und Materialien im Internet frei zugänglich zu machen.

Möglichkeiten des elektronischen Publizierens Workshop der AG Physikalische Praktika der DPG Projektidee Möglichkeiten des elektronischen.

Funktionsweise eines Funambolservers Natascha Graf Aachen, 01. Februar 2010.

Božana Bokan, Albert Geukes, Katja Mruck Center für Digitale Systeme (CeDiS) PKP Scholarly Publishing Conference 2011 Workshop on functional extensions.

Herzlich Willkommen! Flüchtlingshilfe in Heidenheim.

Key-Value Paare (KVP) - Metadaten für Kanäle speichern und nach MDF4 exportieren PM (V1.0)

Übungsart: Seite: Bearbeitet von: Siegbert Rudolph Lesemotivationstraining Titel: Quelle: Nächste Folie 1 Übungsart: Titel: Testquelle: Leseübungen: Inhalt:

Center for Biotechnology Bielefeld Bioinformatics Service Netzwerk - Programmierung Threads Alexander Sczyrba Jan Krüger.

1 Bibliothekarstag 2009 ( ) DBoD im Kontext von Shibboleth in Sachsen Dipl.-Inf. Christoph Poley, Dipl.-Inf. Falk Niederlein.

LINUX II Unit 9 Network File Server NFS. NFS Überblick ● Zugriff von lokalen Rechner über Netzwerk auf Dateien oder Ordnern auf entfernten Servern ● Entwickelt.

Dedizierte Systeme - Anna Job Universität zu Köln – IT-Zertifikat – WS 08/09 Digital library software Greenstone.

Christine Stohn.

Daniel Opitz Dr. Elmar Haake

Geräteverwaltung mit der Cloud

Erfahrungen mit dem neuen Primo-UI

Nationalparkverwaltung Niedersächsisches Wattenmeer

Robert Stephan:. PND Beacon. Verknüpfung von

Global denken ~~ lokal handeln

6.3 Verteilte Transaktionen

Metadaten als Grundlage der MDI-DE

Vorlesung #7 Fehlerbehandlung

Häufigkeitswörter nach dem ABC ohne Verben und Nomen

OAI Protocol for Metadata Harvesting

Schulungsunterlagen der AG RDA

Metadaten und Recherche

Quick Tips Tutorial Statistiken für EBSCOhost and EBSCO Discovery Service in EBSCOadmin abrufen support.ebsco.com.

DQM (Data Quality Management)

Sport, Entspannung und Gesundheit flexibel vereint!

Sequential Function Chart

Änderungen im Urheberrecht und ihre Auswirkungen für die Fernleihe

Rechnungen elektronisch erhalten

Basiskomponente Bibliothek Informationsveranstaltung

BEDIENUNGSANLEITUNG FÜR DAS UPDATE DES NAVIGATIONSSYSTEMS

Präsentation der AMS Job APP durch das AMS Wien

AG Berlin Brandenburgischer Leihverkehr

Suche in der Aufsatzdatenbank

Bibliotheks- Verbund Bayern (BVB)

eSciDoc als Plattform für die Wissenschaft Anwendungen und Szenarien

PI Infrastruktur in der Max-Planck-Gesellschaft

Da·ten·bank /Dátenbank/ Substantiv, feminin [die]

Spanning Tree Protocol

Häufige gebrauchte Wörter in Gruppen

LFRZ Schulung GeoNetwork & GeoServer

Konzeption und Institutionalisierung des FDM — aus der Erfahrung eines Forschungsprojekts in den digitalen Geisteswissenschaften Teil 2: Die Perspektive.

Software Ham Radio Trainer

Präsentation transkript:

Schlankes OAI Data Providing mit Aleph 500 oder: Wie mittels Perl & XSLT aus einem realen beliebig viele virtuelle OAI-Sets am Rande der Protokoll-Konformität werden…

Inhalt OAI Protocol for Metadata Harvesting (OAI-PMH) Standard OAI Data Providing mit Aleph 500 Schlankes OAI Data Providing mit Aleph 500 Cavete! Wozu braucht man das?

1 OAI Protocol for Metadata Harvesting (OAI-PMH)

OAI Basics OAI-PMH ist eine Methode zum „Daten-Abgrasen“. Standard-Use-Case: Synchronisation mit Masterdatenbank

Aufbau eines lokalen Spiegels Download des Gesamtabzugs zum Stichzeitpunkt T0 B3Kat Lokaler Spiegel Teilpaket

Schritt 2: Laufendes Harvesting ListRecords from T0 until T1, from T1 until T2, … Data Provider (OAI Repository) OAI Harvester Service Provider Identify ListSets ListMetadataFormats GetRecord ListIdentifiers ListRecords

2 Standard OAI Data Providing mit Aleph 500

Wer O sagt, muss auch P sagen Aleph 500 kommt mit eingebautem OAI Data Provider Base-URL: http://<host>:<port>/OAI Konfiguration: $alephe_tab/oai/oaipubconf.xml Grundprinzip: Bereitstellung der Metadaten zum Harvesting erfolgt nicht „on the fly“ sondern per Publishing vorab, d. h. unmittelbar nach Erst- bzw. jeder Neuindexierung, in sämtlichen potentiell angefragten Formaten und für alle definierten Sets, zu denen ein Datensatz gehört.

Publishing mit Aleph 500 Base-abhängig oder Gesamtbestand Konfigurationsdatei: $data_tab/tab_publish Zieltabelle Z00P, u.a. mit den Spalten Publishing Set (Z00P_SET) Zeitstempel (Z00P_TIMESTAMP) Metadatensatz (Z00P_STR) initiales Publishing mit Aleph-Service publish_04 laufendes (Re-)Publishing durch den mit UE_01 „in Serie geschalteten“ UE_21

Vorteile dieser Implementierung sehr performantes Data Providing, da bereitzustellende Metadaten direkt anhand der Anfrageparameter aus der Datenbank (Z00P) gelesen werden können sichere Synchronisation bei sukzessivem Harvesting, da OAI-Zeitstempel = Publishing-Zeitstempel (im Allg. nicht der Indexierungs-Zeitstempel!) Bereitstellung von Updates in Quasi-Echtzeit, sofern die Indexierung von Aleph nicht gerade hinterherhinkt aktuelle

Nachteile dieser Implementierung Soll ein Metadatensatz in m (≥2) Formaten und n Sets angeboten werden, so muss er (m × n)-mal in die Z00P geschrieben werden.  Hoher Platzverbrauch! initiales Publishing sehr langsam (B3Kat-Gesamtbestand braucht mehrere Monate!) initiales Publishing „sperrt“ Titeldatenbank für schreibende Zugriffe (z.B. Katalogisierung) laufendes Publishing kann durch Massenimporte evtl. weit hinter den Gegenwartshorizont zurückfallen

Initiales Publishing des B3Kat Klonen der Titeldatenbank BVB01 unter Oracle Gesamtabzug der BVB01 in MARCXML und Start des UE_21 auf leerer Z00P zum selben Zeitpunkt T0 initiales Publishing des BVB01-Klons in einer exklusiv hierfür gesperrten Aleph-Testumgebung mit „Z00PK“ satzweises Übertragen aus Z00PK nach Z00P, sofern dort keine neuere Version existiert (OAI-Zeitstempel übertragener Sätze hinter T0 zurückshiften!)

3 Schlankes OAI Data Providing mit Aleph 500

Weerchattserrrfunden?! Dr. Stefan Brecheisen Brigitte Kudszus Dr. Petra Schröder Bernhard Weitzhofer

Wo ist es dokumentiert? https://www.bib-bvb.de/web/b3kat/open-data

Request oai_opendata.pl Aleph OAI Data Provider OAI Harvester ohne Set mit Set

Response oai_opendata.pl XSLT-Filter OAI Harvester Aleph Treffer OAI Provider OAI Harvester Treffer alle oai_opendata.pl Set- Treffer XSLT-Filter

4 Cavete!

Resumption Tokens Qualifizieren sich „zu viele“ Treffer für die Response, wird sie in Portionen mit zugehörigem Resumption Token ausgeliefert. Gegen das Resumption Token der jeweils letzten Portion gibt es die nächste. Wo „zu viel“ beginnt, ist ein Parameter des Repositorys. Im Falle von Aleph liegt das Limit hartcodiert bei 31. Resumption Tokens sind nicht ewig gültig!

Kleine Schritte, schneller am Ziel! Auch wer nicht laufend, sondern z.B. nur einmal am Tag harvestet, sollte sukzessive kleinere Zeitstempel- bereiche abfragen, statt alles mit einem Request. Ansonsten drohen Responses in so vielen Teilportionen, dass nicht alle abgeholt werden können, bevor die Resumption Tokens ablaufen. Im schlimmsten Fall tritt der Harvester dauerhaft auf der Stelle (z.B. wegen regelmäßiger Wartungsfenster des Repositorys).

Leere Response? – Immer weiter! Durch die XSLT-Filterung von oai_opendata.pl enthalten Teilportionen neben dem Resumption Token in aller Regel keine 30 Datensätze mehr … … sondern können bis auf das Resumption Token sogar völlig leer sein! Was menschliche „Harvester“ irritiert, sollte maschinelle nicht aus der Bahn werfen, denn OAI-PMH verbietet leere Teilportionen nicht.

5 Wozu braucht man das?

Nutzungsszenarien OAI-Sets für alle B3Kat-Teilnehmer! Titelversorgung von Lokalsystemen (z.B. Koha) Export on demand für selbst nicht am B3Kat teilnehmende FID-Partner von B3Kat-Teilnehmern Aktualisierung von Suchmaschinenindices: Gateway Bayern, KOBV-Portal, GVI und Primo Central GetRecord wahlweise auch mit B3Kat-ID statt SYS-ID … [Open Data!] …

Requestaufkommen [Messzeitraum 08.05. bis 18.06.2017] im Schnitt etwas mehr als 81.100 Harvester- Requests pro Woche Tagesmittel über eine Woche schwankt zwischen knapp 6.000 und etwas mehr als 31.000 Harvester-Requests Wochen

… gerne auch an kratzer@bsb-muenchen.de ! Fragen? … gerne auch an kratzer@bsb-muenchen.de !