Plenum UB Bochum Integration von Literaturdaten aus Open Data Universitätsbibliothek Bochum
Ausgangssituation: Geringe Anzahl von Daten aus den Projektdatenbanken Ziel Anreicherung der vorhandenen Daten durch Integration offener bibliographischer Daten Derzeit Bearbeitung der Open Data aus der British National Library, British National Bibliography (Aufnahme aller in Großbritannien veröffentlichten Titel seit 1950)
Offene bibliographische Daten der British National Library Metadaten verfügbar in RDF/ XML Problem: Verwendung verschiedenster Vokabulare: RDF, rdfs, DublinCore, skos, isbd, OWLT keine direkte Konvertierung der Daten nach FRBR
Vorgehen: Schritt 1 - Erstellen einer Konkordanz des vorliegenden Datenformates zu MODS
Schritt 2 - Transformation der vorhandenen Datenformate in das MODS- Format Weg: Erstellen eines XSLT-Stylesheets
Schritt 3 - Auswahl archäologisch relevanter Titel Insgesamt verfügbar: ca. 3 Millionen Titel (British National Bibliography) Notwendig: Filtern der archäologisch relevanten Titel über Schlagwörter und Klassifizierungen Verschlagwortung der BNB: Library of Congress Subject Headings, freie Schlagworte Klassifizierung der BNB: Dewey Decimal Classification System Filtern über DDC-Klasse 930 und ihre Unterklassen
Relevante DDC-Klassen 930 History of ancient world to ca. 499 (umfasst auch alles Archäologische) 931 China to Egypt to Palestine to India to Mesopotamia & Iranian Plateau to Europe north & west of Italy to ca Italy & adjacent territories to Greece to Other parts of ancient world to ca. 640 Erfassung von rund 4000 Titeln
Ausblick Ähnliches Vorgehen bei weiteren offenen Daten: –Library of Congress (Stand 2007, heute > 14 Millionen Titel) –Universitätsbibliothek Tübingen (> 2,6 Mio. Titeldatensätze plus verknüpfte Lokal- und Normdaten, Stand ) –Universitäts- und Stadtbibliothek Köln (ca. 3,1 Millionen Titelaufnahmen, allnächtliche Aktualisierung ) –Open Library –Eventuell Europeana (aktuelle Freigabe der Daten, 3,5 Millionen Texte, Bilder) Arbeitsaufwand: variiert je nach Metadatenformat der jeweils verfügbaren Daten und nach der Art der Verschlagwortung/Klassifizierung