Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

OAi-Protokoll: Data Provider, Service Provider Uwe Müller Humboldt-Universität zu Berlin Rechenzentrum.

Ähnliche Präsentationen


Präsentation zum Thema: "OAi-Protokoll: Data Provider, Service Provider Uwe Müller Humboldt-Universität zu Berlin Rechenzentrum."—  Präsentation transkript:

1 OAi-Protokoll: Data Provider, Service Provider Uwe Müller Humboldt-Universität zu Berlin Rechenzentrum

2 HU Berlin, Rechenzentrum, Uwe Müller2 Überblick n OAi-Protokoll n Data Provider – Voraussetzungen und Vorüberlegungen – Realisierung Humboldt-Universität zu Berlin – Spezielle Probleme n Service Provider – Vorüberlegungen – Realisierung – Problemfelder

3 HU Berlin, Rechenzentrum, Uwe Müller3 OAi-Protokoll n Austauschprotokoll für Metadaten n basiert auf offenen Standards – HTTP, XML, Dublin Core n Vernetzung heterogener Dokumenten- Archive mit Service-Anbietern – Suchmaschinen n 2 Klassen von Teilnehmern – Data-Provider, Service-Provider

4 HU Berlin, Rechenzentrum, Uwe Müller4 OAi-Protokoll: Definitionen n Repository – über Netzwerk verfügbarer Server, der OAi- Anfragen akzeptiert n Record – XML-codierte Antwort einer OAi-Anfrage nach einem Metadatensatz für ein Dokument („item“: Objekt) n Unique Identifier – eindeutiger Schlüssel, der den Metadatensatz eines Objektes in einem Repository referenziert

5 HU Berlin, Rechenzentrum, Uwe Müller5 OAi-Protokoll: Definitionen (2) n Datestamp – Zeitpunkt der letzten Änderung eines Objekts, die sich auf die Metadaten ausgewirkt hat n Set – Konstrukt zum Gruppieren von Objekten in einem Repository – Ermöglichen selektiver Anfragen – optional

6 HU Berlin, Rechenzentrum, Uwe Müller6 OAi-Protokoll: Eigenschaften n leichte Implementierbarkeit – Aufwand Data-Provider << Service-Provider n geringe Anforderungen an Archiv – formale / inhaltliche Struktur (Hierarchie...) – Metadaten n hohe Allgemeingültigkeit – kaum Vorgaben / Empfehlungen n Qualifizierte Recherche nur mit Zusatzvereinbarungen möglich!

7 HU Berlin, Rechenzentrum, Uwe Müller7 OAi-Protokoll: Aufbau Data Provider Data Provider Data Provider Service Provider HTTP Anfrage XML

8 HU Berlin, Rechenzentrum, Uwe Müller8 OAi-Protokoll: Anfragen 6 unterschiedliche Anfragetypen: (Argumente in Klammern, [optionale Argumente]) n Identify () – Informationen über Archiv n ListSets () – Hierarchie des Archivs (Untermengen etc.) n ListIdentifiers ([until], [from], [set]) – Liste der eindeutigen Bezeichner von Datensätzen

9 HU Berlin, Rechenzentrum, Uwe Müller9 OAi-Protokoll: Anfragen (2) n ListMetadataFormats ([identifier]) – Verfügbare Metadatenformate n ListRecords ([until], [from], [set], metadataPrefix) – Datensätze des Archivs n GetRecord (identifier, metadataPrefix) – ein Datensatz

10 HU Berlin, Rechenzentrum, Uwe Müller10 OAi-Protokoll: Flusskontrolle n ResumptionToken – exklusives Argument für n ListSets, ListIdentifiers, ListRecords – ermöglicht begrenzte Antwort-Mengen – wird bei weiterer Anfrage als einziges Argument verwendet

11 HU Berlin, Rechenzentrum, Uwe Müller11 OAi-Protokoll: Flusskontrolle (2) n Beispiel: Service Provider Data Provider ListRecords (from: ) 100 Records, ResumptionToken:r86 ListRecords (ResToken:r86) 100 Records, ResumptionToken:q54 ListRecords (ResToken:q54) 77 Records

12 HU Berlin, Rechenzentrum, Uwe Müller12 OAi-Protokoll: Sets n Gruppieren von Dokumenten / Objekten n optional n keine Empfehlungen n weder erschöpfend noch streng hierarchisch – Dokumente, die in keinem Set vorkommen – überlappende Sets n z.B. fachliche und formale Unterteilung

13 HU Berlin, Rechenzentrum, Uwe Müller13 OAi-Protokoll: Metadaten n Mindestanforderung: – Dublin Core n beliebige andere Metadatensätze – OAi – MARC – RFC 1807 n eigene Metadatensätze – fachspezifisch

14 HU Berlin, Rechenzentrum, Uwe Müller14 OAi-Protokoll: Informationen n Offizielle Internet-Seiten – n Repository-Explorer bei Virginia Tech – oai.dlib.vt.edu/cgi-bin/Explorer/oai1.1/testoai oai.dlib.vt.edu/cgi-bin/Explorer/oai1.1/testoai n Mailing-Listen

15 HU Berlin, Rechenzentrum, Uwe Müller15 n Archiv von Objekten n stellt Metadaten über OAi zur Verfügung n Policy! n muss HTTP-Anfragen beantworten können n liefert Antworten in XML-Syntax Data Provider

16 HU Berlin, Rechenzentrum, Uwe Müller16 Data Provider: Voraussetzungen n Gespeicherte Metadaten – Dateisystem – Datenbank n Webserver – Apache, IIS n Programmiererweiterung – CGI, PHP, JavaServlets

17 HU Berlin, Rechenzentrum, Uwe Müller17 Data Provider: Vorüberlegungen n Metadaten – Welche Daten / Metadatensatz – Art der Speicherung (Datenmodell etc.) n Definitionen – Identifier für Archiv, offizieller Name – Eindeutige Dokumentbezeichner – Set-Benennungen – Basis-URL

18 HU Berlin, Rechenzentrum, Uwe Müller18 Data Provider: Dokumente n Dokumentenserver der Humboldt-Universität – dochost.rz.hu-berlin.de dochost.rz.hu-berlin.de n ca. 600 Dokumente im Volltext – Dissertationen, Habilschriften, Konferenzbände, Öffentliche Vorlesungen,... n Metadaten – werden im Geschäftsgang erfasst – Dublin Core

19 HU Berlin, Rechenzentrum, Uwe Müller19 Data Provider: Identifier n Archiv-Identifier – HUBerlin ( oai:HUBerlin ) n eindeutige Bezeichner für Records – dokumenttyp:name-vorname-yyyy-mm-dd n Beispiel – oai:HUBerlin:dissertationen:dissertat ionen:kemps-christoph n Bestrebungen der Vereinheitlichung – z.B. oai:de.hu-berlin.rz.dochost

20 HU Berlin, Rechenzentrum, Uwe Müller20 Data Provider: Set-Definitionen n formale Unterteilung nach Dokumenttyp – Dissertationen – Konferenzbände –... n fachliche Unterteilung nach der DNB – Medizin – Biologie –...

21 HU Berlin, Rechenzentrum, Uwe Müller21 Data Provider: Realisierung n Metadaten – in Datenbank gespeichert (Sybase) – sehr einfaches Datenmodell n Webserver – Apache unter Solaris n Programmiererweiterung – PHP4 – Modulare Struktur

22 HU Berlin, Rechenzentrum, Uwe Müller22 Data Provider: Realisierung (2) n PHP-Script verarbeitet HTTP-Anfrage n Parsen des QueryStrings – Anfragetyp ( Identify, ListRecords...) – Parameter ( from, set, identifier... ) n Erzeugen einer DB-Anfrage n Lieferung des Ergebnisses als XML n evtl. Fehlermeldung

23 HU Berlin, Rechenzentrum, Uwe Müller23 Data Provider: Datenmodell Metadaten URL DNB Sprache Datum Abstract Keywords Titel Autor DNB Nummer Bezeichnung n vorhandene Datenbank n sehr einfaches Datenmodell – eine Tabelle n muss evtl. erweitert werden

24 HU Berlin, Rechenzentrum, Uwe Müller24 Data Provider: Architektur DBS HTTP-Server PHP Tabellen- zeilen SQL- Anfrage XML HTTP- Anfrage Browser / Service Provider FS Data-Provider

25 HU Berlin, Rechenzentrum, Uwe Müller25 Data Provider: ResumptionToken n muss nicht implementiert werden n keine offiziellen Empfehlungen für Größe der Teillieferungen bei großen verfügbaren Datenmengen aber sinnvoll (z.B. Records&metdataPrefix=oai_dc liefert alle Metadaten des Archivs )

26 HU Berlin, Rechenzentrum, Uwe Müller26 Data Provider: ResumptionToken (2) n serverseitige „Zwischenspeicherung“ von Anfragen bzw. Ergebnissen n eindeutige Zuordnung der Resumption- Token zu den gespeicherten Daten n 1. Möglichkeit: – Anlegen einer Datenbanktabelle pro Anfrage n 2. Möglichkeit: – Lokale Speicherung der Anfrage

27 HU Berlin, Rechenzentrum, Uwe Müller27 Data Provider: ResumptionToken (3) n für Dokumentenserver der HU (noch) nicht erforderlich n trotzdem implementiert n lokale Datei – Parameter der Anfrage – Anzahl der schon gelieferten Datensätze n wird nach Anfrage mit ResumptionToken ausgewertet und gelöscht

28 HU Berlin, Rechenzentrum, Uwe Müller28 Data Provider: ResumptionToken (4) n Lieferung umfasst maximal – 50 Datensätze (ca. 200kB) oder – 200 Identifier n automatisiertes Löschen der nicht „abgeholten“ ResumptionToken (Cron-Job)

29 HU Berlin, Rechenzentrum, Uwe Müller29 Data Provider: Anpassung n Aufwand hängt ab von – Erfüllung der technischen Voraussetzungen n Programmiererweiterung – Datenmodell – Metadatensatz – Datenbank – Verwendete Identifier / URLs – Eigene Set-Definitionen

30 HU Berlin, Rechenzentrum, Uwe Müller30 Data Provider: Anpassung (2) n Datenbank – evtl. Tabelle erzeugen, Daten einstellen n DB-Schnittstelle – Zugriffsfunktionen anpassen (z B. mySQL) – Anfragen n Identifier, Set-Benennungen

31 HU Berlin, Rechenzentrum, Uwe Müller31 Data Provider: Informationen n Offizielle Seite – dochost.rz.hu-berlin.de/oai/ dochost.rz.hu-berlin.de/oai/ n Beispiele – dochost.rz.hu-berlin.de/oai/test.html dochost.rz.hu-berlin.de/oai/test.html n Download des Scripts – dochost.rz.hu-berlin.de/oai/huberlin-script.tar.gz dochost.rz.hu-berlin.de/oai/huberlin-script.tar.gz n –

32 HU Berlin, Rechenzentrum, Uwe Müller32 n stellt Service nach „außen“ zur Verfügung n muss HTTP-Anfragen an Data Provider generieren und XML auswerten können n muss Daten zwischenspeichern – Online-Anfragen zu langsam n eigene Datenstruktur! n hält i.d.R. nur die Metadaten vor Service Provider

33 HU Berlin, Rechenzentrum, Uwe Müller33 Service Provider: Voraussetzungen n Datenbanksystem – Speicherung der Metadaten n Programmiersprache – Einbettung von HTTP-Anfragen – Parsen, Auswerten von XML-Code – Datenbankzugriff n Benutzerschnittstelle

34 HU Berlin, Rechenzentrum, Uwe Müller34 n Metadatenformate – Dublin Core – weitere n Erfassen von Metadaten – nur Veränderungen – jedes mal alles neu abholen n Sets der abgefragten Data-Provider Service Provider: Vorüberlegungen

35 HU Berlin, Rechenzentrum, Uwe Müller35 n Datenbanksystem – Sybase – einfaches Datenmodell n Programmiersprache – PHP4 n Benutzerschnittstelle – Web-Formular Service Provider: Realisierung

36 HU Berlin, Rechenzentrum, Uwe Müller36 n Erfassen von Archivnamen (Basis-URL) – Benutzereingabe an Web-Formular (Administrator) n Speichern von Metadaten eines Archivs – durch Benutzerinteraktion ausgelöst (Administrator) – PHP-Script sendet HTTP-Anfragen n ListSets, ListIdentifiers, ListRecords – Auswertung: Nur DC-Datensätze – eingebauter XML-Parser – Vorverarbeitung der Daten – speichert Daten in DB (vorheriges Löschen) Service Provider: Realisierung (2)

37 HU Berlin, Rechenzentrum, Uwe Müller37 n Vorverarbeitung der Daten – Normalisierung – Zusammenfassen von Multi-Value-Elementen n Suche – Web-Schnittstelle – Kriterien: DC-Elemente Service Provider: Realisierung (3)

38 HU Berlin, Rechenzentrum, Uwe Müller38 Service Provider: Datenmodell Metadaten title format url publisher description date creator OAi-Server name country url OAi-Set server-id setname setspec Setmember record-id set-id Language record-id name

39 HU Berlin, Rechenzentrum, Uwe Müller39 Service Provider: Architektur DBS HTTP-Server PHP SQL „Metadaten speichern“ Admin Data-Provider HTTP- Anfrage XML- Antwort Vorver- arbeitung Service-Provider

40 HU Berlin, Rechenzentrum, Uwe Müller40 n Normalisierung – Sprache (ger, de, deutsch, german,...) – Datum ( , 2001, 2001-xx-xx, Nov ) n Multi-Value-Attribute – Autor, URL,... – XML-Datenbank? n Set-Definitionen – unterschiedliche Semantik n Scheduler n Error 503 Flow Control Service Provider: Probleme

41 HU Berlin, Rechenzentrum, Uwe Müller41 Service Provider: Anpassung n Aufwand hängt von gleichen Faktoren ab wie bei Data-Provider, außerdem: – Art der Archive – Einheitlichkeit der Set-Benennungen – Berücksichtigung von Metadatensätzen n Hinzufügen neuer Archive – sehr geringer Anpassungsaufwand

42 HU Berlin, Rechenzentrum, Uwe Müller42 n Suchmaschine – n – Service Provider: Informationen

43 HU Berlin, Rechenzentrum, Uwe Müller43 Vielen Dank... n Fragen? Weitere Informationen: – Uwe Müller Tel.: 0 30 /


Herunterladen ppt "OAi-Protokoll: Data Provider, Service Provider Uwe Müller Humboldt-Universität zu Berlin Rechenzentrum."

Ähnliche Präsentationen


Google-Anzeigen