24. November 2009 GLR-Abschluss-Workshop OL2OC DFG-Projekt Generischer Link-Resolver Ziele, Methoden und Ergebnisse Matthias Groß Dr. Mathias Kratzer Dr. Rolf Siepmann Bibliotheksverbund Bayern (BVB)
24. November 2009 GLR-Abschluss-Workshop OL2OC Der rote Faden 1.Wozu soll das gut sein? 2.Wie soll das gehen? 3.Warum das alles andere als trivial ist... 4.Erste Schritte auf vielen neuen Wegen
24. November 2009 GLR-Abschluss-Workshop OL2OC Journal of ABC ISSN Click here for latest issue... Journal of ABC TOC vol. 42, iss. 4 Article 1... p. 8 Article 2... p. 15 Linking Level Linking-Level Der Linking-Level ist die Dokumentebene, auf die ein Volltextlink den Benutzer führt. Ideal: so tief wie die vorhandenen Meta- daten es erlauben bei freien Angeboten häufig nur bis auf die Journal-Homepage Volltext bei Anbieter XYZ Journal of ABC vol. 42, iss. 4, p. 108
24. November 2009 GLR-Abschluss-Workshop OL2OC Problem & Ziel 1 inbound linking syntax Link-Konstruktors Erschließung einer tief reichenden inbound linking syntax (ILS) und Implementierung eines entsprechenden Link-Konstruktors ist mit einigem Aufwand verbunden. Problem 1: geringe Effizienz bei vielen freien Zeitschriften (~1 Titel pro Server!) motiviert nicht zur Tiefenerschließung Ziel 1: Verbesserung der Integration freier Volltextangebote ins Open Linking
24. November 2009 GLR-Abschluss-Workshop OL2OC SFX im BVB BVB- Gastinstanz SFX-Instanz Bibliothek A SFX-Instanz Bibliothek B Link-Menü Service B 1 Service B 2 Service 1 Service 2 Link-Menü Service A 1 Service A 2 Service 1 Service 2 Service A OpenURL
24. November 2009 GLR-Abschluss-Workshop OL2OC Problem & Ziel 2 Warum operiert eine solche Gastinstanz eigentlich nur auf regionaler Ebene? generischer Ziel 2: generischer Link-Resolver in dem Sinne, dass jeder institutionelle Link- Resolver freie Volltext-Services von dort beziehen kann Problem 2: Ohne produktübergreifende Schnittstellen ist nur ein geringes Maß an Akzeptanz zu erwarten.
24. November 2009 GLR-Abschluss-Workshop OL2OC Der rote Faden 1.Wozu soll das gut sein? 2.Wie soll das gehen? 3.Warum das alles andere als trivial ist... 4.Erste Schritte auf vielen neuen Wegen
24. November 2009 GLR-Abschluss-Workshop OL2OC : Green Crawling URL-Datenbank
24. November 2009 GLR-Abschluss-Workshop OL2OC Clustering URL- Daten- bank Nicht- Volltext- URLs Volltext- URLs pro Journal nach Editierdistanz:
24. November 2009 GLR-Abschluss-Workshop OL2OC Neuronales Netz URL- Daten- bank Nicht- Volltext- URLs Volltext- URLs ? R L U 1010
24. November 2009 GLR-Abschluss-Workshop OL2OC URL-Schablonen Base- URL Jahr Band Heft Seite Base- URL Jahr Band Heft Seite
24. November 2009 GLR-Abschluss-Workshop OL2OC Link-Konstruktor Base- URL Jahr Band Heft Seite #!/usr/bin/perl package Link::Constructor::OAJ; use base qw(Link::Constructor); use URI; use strict; use warnings; sub linkToFullTxt { my ($this) my $base = $this->{'base'}; my $year = $this->{'year'}; my $vol = $this->{'volume'}; my $iss = $this->{'issue'}; my $page = $this->{'spage'}; my %qry = (...); : return URI->new($base,\%qry); }
24. November 2009 GLR-Abschluss-Workshop OL2OC Der rote Faden 1.Wozu soll das gut sein? 2.Wie soll das gehen? 3.Warum das alles andere als trivial ist... 4.Erste Schritte auf vielen neuen Wegen
24. November 2009 GLR-Abschluss-Workshop OL2OC Crawler-Hürden Volltexte mitunter nicht auf derselben Domain wie die Journal-Homepage Volltexte mitunter nur über interaktive Such-Applets zugänglich, keine Hyperlinks Nicht alles was ist, ist frei genug: Wir müssen leider draußen bleiben! EZB
24. November 2009 GLR-Abschluss-Workshop OL2OC Analyse-Hürden 1 Fehlende semantische Information bei teilweise oder völlig pfadbasierter ILS: Rein ID-basierte ILS (z.B. quasi-zufällige Dokumentnummern in CMSen), die sich auch aus noch so guten bibliographischen Metadaten nicht rekonstruieren lässt:
24. November 2009 GLR-Abschluss-Workshop OL2OC Analyse-Hürden 2 Keine praktikabel evaluierbaren Kriterien für eine regel-basierte Klassifikation von URL-Clustern: Cluster sind nur wenig übersichtlicher als URLs! Keine hinreichend scharfen Trainingssets für das eine universelle neuronale Netz (ohne DOAJ gar keine!)
24. November 2009 GLR-Abschluss-Workshop OL2OC Der rote Faden 1.Wozu soll das gut sein? 2.Wie soll das gehen? 3.Warum das alles andere als trivial ist... 4.Erste Schritte auf vielen neuen Wegen
24. November 2009 GLR-Abschluss-Workshop OL2OC URL-Datenbank insgesamt URLs von 275 verschiedenen Journals Minimum: 12 URLs / Jnl Maximum: URLs / Jnl Durchschnitt: URLs / Jnl URL- Daten- bank
24. November 2009 GLR-Abschluss-Workshop OL2OC Abgeschrieben URL- Daten- bank Nicht- Volltext- URLs Volltext- URLs ? R L U 1010
24. November 2009 GLR-Abschluss-Workshop OL2OC Journal B 1010 Brauchbar? Journal A 1010 Journal C 1010
24. November 2009 GLR-Abschluss-Workshop OL2OC Statistik Heuristik Query Query: Kette von Parameter-Wert-Paaren in URLs, eingeleitet durch das '?' formal standardisiert (in RFC 3986) trägt semantische Informationen, sofern hinreichend sprechende Parameternamen benutzt werden Webfrontend zur strukturierten Analyse von Query-URLs pro Hostname: Wie viele Parameter braucht ein Volltext-URL?
24. November 2009 GLR-Abschluss-Workshop OL2OC Webfrontend
24. November 2009 GLR-Abschluss-Workshop OL2OC OpenLinking 2.0 user generated knowledge base Besondere Motivation für user = vendor? Webformular zur interaktiven Registrierung einer metadatenbasierten ILS: 4 möglichst einfache Arbeitsschritte Neuregistrierungen warten auf Freigabe objektorientierte Datenstruktur implementiert URL-Schablone und Link-Konstruktor in einem
24. November 2009 GLR-Abschluss-Workshop OL2OC Webformular
24. November 2009 GLR-Abschluss-Workshop OL2OC Registrierung
24. November 2009 GLR-Abschluss-Workshop OL2OC Freigabe
24. November 2009 GLR-Abschluss-Workshop OL2OC GLR-Volltextlink
24. November 2009 GLR-Abschluss-Workshop OL2OC Integration OpenURL-Schnittstelle (Version 0.1 & 1.0) damit auch als sog. Target in SFX bzw. analog durch andere institutionelle Link- Resolver nutzbar dediziertere Schnittstellen (z.B. auf SOAP- Basis) bei Bedarf nachrüstbar, solange sie produktübergreifend einsetzbar sind Erfassung grüner Titel in der EZB künftig mit Registrierung der zugehörigen ILS?
24. November 2009 GLR-Abschluss-Workshop OL2OC DANKE... an die DFG für den Mut zur Förderung eines hochgradig experimentellen Projekts!... an das DOAJ für seinen Rettungsanker!... und an Sie für Ihre Aufmerksamkeit!