OAi-Protokoll: Data Provider, Service Provider Uwe Müller Humboldt-Universität zu Berlin Rechenzentrum.

Slides:



Advertisements
Ähnliche Präsentationen
Einer der Dienste im Internet
Advertisements

Kurzberichte der Arbeitsgruppen
Datenbankanbindung mit ASP Wilhelm-Schickard-Schule Tübingen
Dynamische Seiten mit Dreamweaver Zugriff auf (mysql) Datenbank mit PHP.
Dublin Core Antje Schregel, Dublin Core Was ist DC? Architektur von DC (Elements, Qualifiers) Anwendung Aktuelle Situation Projekte.
Natascha Schumann TU Darmstadt IuK-Konferenz, März 2003
IT-Zertifikat der Phil.Fak
Lightweight Directory Access Protocol
Projekt von Rechenzentrum und Universitätsbibliothek Erste Inhalte: Linguistik-Server Essen (LINSE), Semesterapparate Physik Ziel: Bereitstellung einer.
Daniel Höfler Markus Thurner XMLApplicationPlatform Siemens OpenStage 60/80.
SendEplanung Datenbank
Colibi Bibliothekssystem der Computerlinguistik. Einführung Motivation Was braucht Colibi? Software Datenbankdesign.
DOM (Document Object Model)
XINDICE The Apache XML Project Name: Jacqueline Langhorst
MySQL Der Einstieg.
Digitale Bibliotheken Universität zu Köln IT-Zertifikat Dedizierte Systeme Susanne Kurz Martina Matuschik & Nadine Hendarman.
Datenbankanbindung mit ASP Wilhelm-Schickard-Schule Tübingen
WIESEL – Integration von Wissensmanagement und E-Learning auf der Basis von Semantic Web Technologien Matthias Rust, XML-Tage 2004, Berlin WIESEL Integration.
<XML-Portal> Uwe Müller 16. Juni 2003
Oracle WebServer - Einführung. © Prof. T. Kudraß, HTWK Leipzig Oracle Web Application Server HTML WebServer ® File system Static HTML PL/SQL Packages.
Spezielle Aspekte der Anbindung von Datenbanken im Web.
Technik Gestaltung Navigation Daten. Übersicht Client Webbrowser InternetServer.
Access 2000 Datenbanken.
Einführung Dateisystem <-> Datenbanksystem
Vernetzung von verteilten Informationssystemen Michael Hohlfeld Institute for Science Networking Oldenburg GmbH an der C.V.O. Universität Oldenburg
Einführung MySQL mit PHP
Dokumenten- und Objektverwaltung mit OPUS
Wizards & Builders GmbH Schulung Visual SourceSafe für Visual FoxPro Norbert Abb W&B.
Einführung und Überblick
Seite Common Gateway Interface. Konzepte. Übersicht 1Einleitung 2Was ist CGI? 3Wozu wird CGI verwendet? 4Geschichtlicher Überblick 5Grundvoraussetzungen.
FH-Hof 1 XML-Parser Richard Göbel. FH-Hof 2 XML-Parser- DOM Object Tree Parser Objekt der Klasse 'DocumentBuilderFactory' mit 'newInstance()' erzeugen.
Datenmodelle, Datenbanksprachen und Datenbankmanagementsysteme
... und alles was dazugehört
1 Produktive ZDB-Schnittstellen : OAI Bernd Althaus / 10| Produktive ZDB-Schnittstellen: OAI| Althaus | 14. Oktober 2013.
Webservice Grundlagen
Erstellen einer Webseitenstatistik mithilfe eines OLAP-Servers
Erstellen einer Webseitenstatistik mithilfe eines OLAP-Servers
Grundlagen: Client-Server-Modell
Proseminar: „Webtechnologien für Ecommerce“
1 MEDEA3 / IWC-RLO Medea3 System-Übersicht Haupt-Komponenten von Medea 3 –Medea 3 SERVER SUN/SOLARIS System ORACLE 8i Datenbank Server Medea 3 Kernel Apache.
Datenbanken Dantenbanksystem Data Base System Datenbasis (Daten)
Allgemeines zu Datenbanken
WINlearn Technische Spezifikation der Benutzerstruktur Gruppe 4.
(D.h. „Hallo MausFans!“ auf Japanisch).
verstehen planen bearbeiten
Dissertationsserver mit miless / MyCoRe: Workflow und Funktionalität
Dokumenten- und Publikationsserver
Eine kurze Einführung.  Software zur Erstellung eines Dokumenten- servers  Dient zur Aufbewahrung von allen Typen von digitalen Inhalten (Texte, Bilder,
Dublin Core IT-Zertifikat Daten- und Metadatenstandards.
PHP PHP ( „PHP Hypertext Preprocessor") ist eine Skriptsprache
Erst Theorie… …dann Praxis. Erst Theorie… …dann Praxis.
Semantic Web.
Dedizierte Systeme – Opus Eva Cynkar Dedizierte Systeme - Digital Library.
Datenbanken im Web 1.
MareNet Marine Research Institutions & Documents Worldwide Ein elektronischer Informationsdienst für die Meeresforschung Michael Hohlfeld, Institute for.
Webserver Apache & Xampp Referenten: Elena, Luziano und Sükran
IT-Zertifikat der Phil.Fak Kurs 4: Daten- und Metadatenstandards Patrick Sahle BAM-SektorWS 08/09.
Datenbank System (DBS) - Warum?
IST Uwe Müller, , Berliner Herbsttreffen zur Museumsdokumentation: Offene Archive - OAI - OAForum Offene Archive, die Open Archives.
Workflow in der Bibliothek am Beispiel der Humboldt-Universität
1 2nd Review, 13. Oktober 2000, Dortmund BMBF: IR 803 Erweitertes DSMS Lars-Olof Burchard.
OAISter wichtigste Verbundkatalog für digitale Ressourcen Open Access wissenschaftliche Literatur und Materialien im Internet frei zugänglich zu machen.
DSpace IT Zertifikat Blockseminar Dedizierte Systeme Dozentin: Susanne Kurz, M.A. Referentin: Camilla Ottnad, B.A.
Opacc, CH-Kriens/LucerneOpaccConnect DMAS Überblick und neue Möglichkeiten 1 A2.
XML Technologie für NOKIS Software Wassilios Kazakos, Andreas Schmidt, Alexei Valikov, Alexei Akhounov FZI Forschungszentrum Informatik Karlsruhe
XML-Erweiterungen in ORDBMS Seminar: DBMS für spezielle Anwendungen Florian Brieler.
Schlankes OAI Data Providing mit Aleph 500
OAI Protocol for Metadata Harvesting
Von Wietlisbach, Lenzin und Winter
Datenbanken
 Präsentation transkript:

OAi-Protokoll: Data Provider, Service Provider Uwe Müller Humboldt-Universität zu Berlin Rechenzentrum

HU Berlin, Rechenzentrum, Uwe Müller2 Überblick n OAi-Protokoll n Data Provider – Voraussetzungen und Vorüberlegungen – Realisierung Humboldt-Universität zu Berlin – Spezielle Probleme n Service Provider – Vorüberlegungen – Realisierung – Problemfelder

HU Berlin, Rechenzentrum, Uwe Müller3 OAi-Protokoll n Austauschprotokoll für Metadaten n basiert auf offenen Standards – HTTP, XML, Dublin Core n Vernetzung heterogener Dokumenten- Archive mit Service-Anbietern – Suchmaschinen n 2 Klassen von Teilnehmern – Data-Provider, Service-Provider

HU Berlin, Rechenzentrum, Uwe Müller4 OAi-Protokoll: Definitionen n Repository – über Netzwerk verfügbarer Server, der OAi- Anfragen akzeptiert n Record – XML-codierte Antwort einer OAi-Anfrage nach einem Metadatensatz für ein Dokument („item“: Objekt) n Unique Identifier – eindeutiger Schlüssel, der den Metadatensatz eines Objektes in einem Repository referenziert

HU Berlin, Rechenzentrum, Uwe Müller5 OAi-Protokoll: Definitionen (2) n Datestamp – Zeitpunkt der letzten Änderung eines Objekts, die sich auf die Metadaten ausgewirkt hat n Set – Konstrukt zum Gruppieren von Objekten in einem Repository – Ermöglichen selektiver Anfragen – optional

HU Berlin, Rechenzentrum, Uwe Müller6 OAi-Protokoll: Eigenschaften n leichte Implementierbarkeit – Aufwand Data-Provider << Service-Provider n geringe Anforderungen an Archiv – formale / inhaltliche Struktur (Hierarchie...) – Metadaten n hohe Allgemeingültigkeit – kaum Vorgaben / Empfehlungen n Qualifizierte Recherche nur mit Zusatzvereinbarungen möglich!

HU Berlin, Rechenzentrum, Uwe Müller7 OAi-Protokoll: Aufbau Data Provider Data Provider Data Provider Service Provider HTTP Anfrage XML

HU Berlin, Rechenzentrum, Uwe Müller8 OAi-Protokoll: Anfragen 6 unterschiedliche Anfragetypen: (Argumente in Klammern, [optionale Argumente]) n Identify () – Informationen über Archiv n ListSets () – Hierarchie des Archivs (Untermengen etc.) n ListIdentifiers ([until], [from], [set]) – Liste der eindeutigen Bezeichner von Datensätzen

HU Berlin, Rechenzentrum, Uwe Müller9 OAi-Protokoll: Anfragen (2) n ListMetadataFormats ([identifier]) – Verfügbare Metadatenformate n ListRecords ([until], [from], [set], metadataPrefix) – Datensätze des Archivs n GetRecord (identifier, metadataPrefix) – ein Datensatz

HU Berlin, Rechenzentrum, Uwe Müller10 OAi-Protokoll: Flusskontrolle n ResumptionToken – exklusives Argument für n ListSets, ListIdentifiers, ListRecords – ermöglicht begrenzte Antwort-Mengen – wird bei weiterer Anfrage als einziges Argument verwendet

HU Berlin, Rechenzentrum, Uwe Müller11 OAi-Protokoll: Flusskontrolle (2) n Beispiel: Service Provider Data Provider ListRecords (from: ) 100 Records, ResumptionToken:r86 ListRecords (ResToken:r86) 100 Records, ResumptionToken:q54 ListRecords (ResToken:q54) 77 Records

HU Berlin, Rechenzentrum, Uwe Müller12 OAi-Protokoll: Sets n Gruppieren von Dokumenten / Objekten n optional n keine Empfehlungen n weder erschöpfend noch streng hierarchisch – Dokumente, die in keinem Set vorkommen – überlappende Sets n z.B. fachliche und formale Unterteilung

HU Berlin, Rechenzentrum, Uwe Müller13 OAi-Protokoll: Metadaten n Mindestanforderung: – Dublin Core n beliebige andere Metadatensätze – OAi – MARC – RFC 1807 n eigene Metadatensätze – fachspezifisch

HU Berlin, Rechenzentrum, Uwe Müller14 OAi-Protokoll: Informationen n Offizielle Internet-Seiten – n Repository-Explorer bei Virginia Tech – oai.dlib.vt.edu/cgi-bin/Explorer/oai1.1/testoai oai.dlib.vt.edu/cgi-bin/Explorer/oai1.1/testoai n Mailing-Listen

HU Berlin, Rechenzentrum, Uwe Müller15 n Archiv von Objekten n stellt Metadaten über OAi zur Verfügung n Policy! n muss HTTP-Anfragen beantworten können n liefert Antworten in XML-Syntax Data Provider

HU Berlin, Rechenzentrum, Uwe Müller16 Data Provider: Voraussetzungen n Gespeicherte Metadaten – Dateisystem – Datenbank n Webserver – Apache, IIS n Programmiererweiterung – CGI, PHP, JavaServlets

HU Berlin, Rechenzentrum, Uwe Müller17 Data Provider: Vorüberlegungen n Metadaten – Welche Daten / Metadatensatz – Art der Speicherung (Datenmodell etc.) n Definitionen – Identifier für Archiv, offizieller Name – Eindeutige Dokumentbezeichner – Set-Benennungen – Basis-URL

HU Berlin, Rechenzentrum, Uwe Müller18 Data Provider: Dokumente n Dokumentenserver der Humboldt-Universität – dochost.rz.hu-berlin.de dochost.rz.hu-berlin.de n ca. 600 Dokumente im Volltext – Dissertationen, Habilschriften, Konferenzbände, Öffentliche Vorlesungen,... n Metadaten – werden im Geschäftsgang erfasst – Dublin Core

HU Berlin, Rechenzentrum, Uwe Müller19 Data Provider: Identifier n Archiv-Identifier – HUBerlin ( oai:HUBerlin ) n eindeutige Bezeichner für Records – dokumenttyp:name-vorname-yyyy-mm-dd n Beispiel – oai:HUBerlin:dissertationen:dissertat ionen:kemps-christoph n Bestrebungen der Vereinheitlichung – z.B. oai:de.hu-berlin.rz.dochost

HU Berlin, Rechenzentrum, Uwe Müller20 Data Provider: Set-Definitionen n formale Unterteilung nach Dokumenttyp – Dissertationen – Konferenzbände –... n fachliche Unterteilung nach der DNB – Medizin – Biologie –...

HU Berlin, Rechenzentrum, Uwe Müller21 Data Provider: Realisierung n Metadaten – in Datenbank gespeichert (Sybase) – sehr einfaches Datenmodell n Webserver – Apache unter Solaris n Programmiererweiterung – PHP4 – Modulare Struktur

HU Berlin, Rechenzentrum, Uwe Müller22 Data Provider: Realisierung (2) n PHP-Script verarbeitet HTTP-Anfrage n Parsen des QueryStrings – Anfragetyp ( Identify, ListRecords...) – Parameter ( from, set, identifier... ) n Erzeugen einer DB-Anfrage n Lieferung des Ergebnisses als XML n evtl. Fehlermeldung

HU Berlin, Rechenzentrum, Uwe Müller23 Data Provider: Datenmodell Metadaten URL DNB Sprache Datum Abstract Keywords Titel Autor DNB Nummer Bezeichnung n vorhandene Datenbank n sehr einfaches Datenmodell – eine Tabelle n muss evtl. erweitert werden

HU Berlin, Rechenzentrum, Uwe Müller24 Data Provider: Architektur DBS HTTP-Server PHP Tabellen- zeilen SQL- Anfrage XML HTTP- Anfrage Browser / Service Provider FS Data-Provider

HU Berlin, Rechenzentrum, Uwe Müller25 Data Provider: ResumptionToken n muss nicht implementiert werden n keine offiziellen Empfehlungen für Größe der Teillieferungen bei großen verfügbaren Datenmengen aber sinnvoll (z.B. Records&metdataPrefix=oai_dc liefert alle Metadaten des Archivs )

HU Berlin, Rechenzentrum, Uwe Müller26 Data Provider: ResumptionToken (2) n serverseitige „Zwischenspeicherung“ von Anfragen bzw. Ergebnissen n eindeutige Zuordnung der Resumption- Token zu den gespeicherten Daten n 1. Möglichkeit: – Anlegen einer Datenbanktabelle pro Anfrage n 2. Möglichkeit: – Lokale Speicherung der Anfrage

HU Berlin, Rechenzentrum, Uwe Müller27 Data Provider: ResumptionToken (3) n für Dokumentenserver der HU (noch) nicht erforderlich n trotzdem implementiert n lokale Datei – Parameter der Anfrage – Anzahl der schon gelieferten Datensätze n wird nach Anfrage mit ResumptionToken ausgewertet und gelöscht

HU Berlin, Rechenzentrum, Uwe Müller28 Data Provider: ResumptionToken (4) n Lieferung umfasst maximal – 50 Datensätze (ca. 200kB) oder – 200 Identifier n automatisiertes Löschen der nicht „abgeholten“ ResumptionToken (Cron-Job)

HU Berlin, Rechenzentrum, Uwe Müller29 Data Provider: Anpassung n Aufwand hängt ab von – Erfüllung der technischen Voraussetzungen n Programmiererweiterung – Datenmodell – Metadatensatz – Datenbank – Verwendete Identifier / URLs – Eigene Set-Definitionen

HU Berlin, Rechenzentrum, Uwe Müller30 Data Provider: Anpassung (2) n Datenbank – evtl. Tabelle erzeugen, Daten einstellen n DB-Schnittstelle – Zugriffsfunktionen anpassen (z B. mySQL) – Anfragen n Identifier, Set-Benennungen

HU Berlin, Rechenzentrum, Uwe Müller31 Data Provider: Informationen n Offizielle Seite – dochost.rz.hu-berlin.de/oai/ dochost.rz.hu-berlin.de/oai/ n Beispiele – dochost.rz.hu-berlin.de/oai/test.html dochost.rz.hu-berlin.de/oai/test.html n Download des Scripts – dochost.rz.hu-berlin.de/oai/huberlin-script.tar.gz dochost.rz.hu-berlin.de/oai/huberlin-script.tar.gz n –

HU Berlin, Rechenzentrum, Uwe Müller32 n stellt Service nach „außen“ zur Verfügung n muss HTTP-Anfragen an Data Provider generieren und XML auswerten können n muss Daten zwischenspeichern – Online-Anfragen zu langsam n eigene Datenstruktur! n hält i.d.R. nur die Metadaten vor Service Provider

HU Berlin, Rechenzentrum, Uwe Müller33 Service Provider: Voraussetzungen n Datenbanksystem – Speicherung der Metadaten n Programmiersprache – Einbettung von HTTP-Anfragen – Parsen, Auswerten von XML-Code – Datenbankzugriff n Benutzerschnittstelle

HU Berlin, Rechenzentrum, Uwe Müller34 n Metadatenformate – Dublin Core – weitere n Erfassen von Metadaten – nur Veränderungen – jedes mal alles neu abholen n Sets der abgefragten Data-Provider Service Provider: Vorüberlegungen

HU Berlin, Rechenzentrum, Uwe Müller35 n Datenbanksystem – Sybase – einfaches Datenmodell n Programmiersprache – PHP4 n Benutzerschnittstelle – Web-Formular Service Provider: Realisierung

HU Berlin, Rechenzentrum, Uwe Müller36 n Erfassen von Archivnamen (Basis-URL) – Benutzereingabe an Web-Formular (Administrator) n Speichern von Metadaten eines Archivs – durch Benutzerinteraktion ausgelöst (Administrator) – PHP-Script sendet HTTP-Anfragen n ListSets, ListIdentifiers, ListRecords – Auswertung: Nur DC-Datensätze – eingebauter XML-Parser – Vorverarbeitung der Daten – speichert Daten in DB (vorheriges Löschen) Service Provider: Realisierung (2)

HU Berlin, Rechenzentrum, Uwe Müller37 n Vorverarbeitung der Daten – Normalisierung – Zusammenfassen von Multi-Value-Elementen n Suche – Web-Schnittstelle – Kriterien: DC-Elemente Service Provider: Realisierung (3)

HU Berlin, Rechenzentrum, Uwe Müller38 Service Provider: Datenmodell Metadaten title format url publisher description date creator OAi-Server name country url OAi-Set server-id setname setspec Setmember record-id set-id Language record-id name

HU Berlin, Rechenzentrum, Uwe Müller39 Service Provider: Architektur DBS HTTP-Server PHP SQL „Metadaten speichern“ Admin Data-Provider HTTP- Anfrage XML- Antwort Vorver- arbeitung Service-Provider

HU Berlin, Rechenzentrum, Uwe Müller40 n Normalisierung – Sprache (ger, de, deutsch, german,...) – Datum ( , 2001, 2001-xx-xx, Nov ) n Multi-Value-Attribute – Autor, URL,... – XML-Datenbank? n Set-Definitionen – unterschiedliche Semantik n Scheduler n Error 503 Flow Control Service Provider: Probleme

HU Berlin, Rechenzentrum, Uwe Müller41 Service Provider: Anpassung n Aufwand hängt von gleichen Faktoren ab wie bei Data-Provider, außerdem: – Art der Archive – Einheitlichkeit der Set-Benennungen – Berücksichtigung von Metadatensätzen n Hinzufügen neuer Archive – sehr geringer Anpassungsaufwand

HU Berlin, Rechenzentrum, Uwe Müller42 n Suchmaschine – n – Service Provider: Informationen

HU Berlin, Rechenzentrum, Uwe Müller43 Vielen Dank... n Fragen? Weitere Informationen: – Uwe Müller Tel.: 0 30 /