Gezielt Recherchieren durch Kataloganreicherung Das HeBIS-Konzept, seine Realisierung und Ausblick 08.09.2009 Gezielt Recherchieren durch Kataloganreicherung Dr. Thomas Striffler 1
Gezielt Recherchieren durch Kataloganreicherung Was ist Kataloganreicherung? Beispiele und Formen Umsetzung Geschichte Kataloganreicherung bei HeBIS Recherchebeispiel Technische Umsetzung Verarbeitung verbundsintern erzeugter Daten Verarbeitung von Daten der Firma Bowker In Vorbereitung: Verarbeitung von Daten des OBVSG 08.09.2009 Gezielt Recherchieren durch Kataloganreicherung Dr. Thomas Striffler 2
Gezielt Recherchieren durch Kataloganreicherung Was ist Kataloganreicherung? Kataloganreicherung: Ergänzung der Einträge eines Bibliothekskatalogs um weiterführende Informationen, die über die reguläre Formal- und Sacherschließung hinaus- gehen. Quelle http://de.wikipedia.org/wiki/Kataloganreicherung 08.09.2009 Gezielt Recherchieren durch Kataloganreicherung Dr. Thomas Striffler 3
Gezielt Recherchieren durch Kataloganreicherung Beispiele und Formen Inhaltsverzeichnisse (Tables of Content, TOCs) Inhaltsangaben und Abstracts Rezensionen Volltexte Empfehlungsdienste Coverabbildungen … 08.09.2009 Gezielt Recherchieren durch Kataloganreicherung Dr. Thomas Striffler 4
Gezielt Recherchieren durch Kataloganreicherung Umsetzung Zwei mögliche Formen der Anreicherung: Einbringung der Informationen selbst in den Katalogeintrag Verlinkung zu einer Quelle auf einem Server der Bibliothek eines externen Anbieters 08.09.2009 Gezielt Recherchieren durch Kataloganreicherung Dr. Thomas Striffler 5
Gezielt Recherchieren durch Kataloganreicherung Geschichte Bereits seit mehreren Jahren: Viele Formen der Kataloganreicherung finden Anwendung durch Buchhändler im Internet Anfang der 90er-Jahre: Universitätsbibliothek Düsseldorf erweiterte die Menge der suchbaren Worte durch maschinelle Indexierung der Titel und Untertitel um: Grundformen, Komposita-Zerlegung Synonyme und Schlagworte aus der Deutschen Schlagwortnormdatei 08.09.2009 Gezielt Recherchieren durch Kataloganreicherung Dr. Thomas Striffler 6
Gezielt Recherchieren durch Kataloganreicherung seit 2002 State-of-the-Art im deutschsprachigen Raum: Kataloganreicherung mit Inhaltsverzeichnissen und daraus maschinell generierten Deskriptoren Abfrage der zusätzlichen Inhalte: über maschinell generierte Deskriptoren über meist kurze in den Katalog übertragene Texte 08.09.2009 Gezielt Recherchieren durch Kataloganreicherung Dr. Thomas Striffler 7
Gezielt Recherchieren durch Kataloganreicherung Kataloganreicherung bei HeBIS Ziel: Bereitstellung von Kataloganreicherungsobjekten zur Unterstützung einer gezielten Literaturrecherche Vermeidung von Fehlbestellungen Umsetzung: Anzeige von pdf-Dateien eingescannter Inhaltsverzeichnisse innerhalb der Titeldatenanzeige im OPAC Suchmöglichkeit nach Stichwörtern innerhalb volltextindexierter Inhaltsverzeichnisse 08.09.2009 Gezielt Recherchieren durch Kataloganreicherung Dr. Thomas Striffler 8
Gezielt Recherchieren durch Kataloganreicherung Dateiformate: txt, html, jpg, doc, tif pdf Verarbeitung ist bereits realisiert! Inhalte: Inhaltsverzeichnisse (Table of Contents) Inhaltsangaben (Summaries) Erzeuger: verbundintern: ULB Darmstadt, UB Frankfurt, UB Gießen, UB Mainz verbundextern: OBVSG, Bowker 08.09.2009 Gezielt Recherchieren durch Kataloganreicherung Dr. Thomas Striffler 9
Gezielt Recherchieren durch Kataloganreicherung Ein Recherchebeispiel Suche nach dem “richtigen Suchbegriff“ 08.09.2009 Gezielt Recherchieren durch Kataloganreicherung Dr. Thomas Striffler 10
Gezielt Recherchieren durch Kataloganreicherung Ein Recherchebeispiel Suche nach dem “richtigen Suchbegriff“ 08.09.2009 Gezielt Recherchieren durch Kataloganreicherung Dr. Thomas Striffler 11
Gezielt Recherchieren durch Kataloganreicherung Ein Recherchebeispiel Suche nach dem “richtigen Suchbegriff“ 08.09.2009 Gezielt Recherchieren durch Kataloganreicherung Dr. Thomas Striffler 12
Gezielt Recherchieren durch Kataloganreicherung Ein Recherchebeispiel Suche nach dem “richtigen Suchbegriff“ 08.09.2009 Gezielt Recherchieren durch Kataloganreicherung Dr. Thomas Striffler 13
Gezielt Recherchieren durch Kataloganreicherung Ein Recherchebeispiel Suche nach dem “richtigen Suchbegriff“ 08.09.2009 Gezielt Recherchieren durch Kataloganreicherung Dr. Thomas Striffler 14
Gezielt Recherchieren durch Kataloganreicherung Ein Recherchebeispiel Suche nach dem “richtigen Suchbegriff“ 08.09.2009 Gezielt Recherchieren durch Kataloganreicherung Dr. Thomas Striffler 15
Gezielt Recherchieren durch Kataloganreicherung Ein Recherchebeispiel Suche nach dem “richtigen Suchbegriff“ 08.09.2009 Gezielt Recherchieren durch Kataloganreicherung Dr. Thomas Striffler 16
Gezielt Recherchieren durch Kataloganreicherung Ein Recherchebeispiel Suche nach dem “richtigen Suchbegriff“ 08.09.2009 Gezielt Recherchieren durch Kataloganreicherung Dr. Thomas Striffler 17
Gezielt Recherchieren durch Kataloganreicherung Ein Recherchebeispiel Suche nach dem “richtigen Suchbegriff“ 08.09.2009 Gezielt Recherchieren durch Kataloganreicherung Dr. Thomas Striffler 18
Gezielt Recherchieren durch Kataloganreicherung Technische Umsetzung Ziel: Vollkommen automatisierte und formatunabhängige Verarbeitung aller von den Erzeugern gelieferten Kataloganreicherungsobjekte regelmäßiger Aufruf von shell-Scripten als cronjob pdf-, tif-, txt-Dateien, xml-Metadatendatei Unterscheidung: Verbundintern erzeugte Daten: verbundextern erzeugte Daten: pdf-, html-Dateien, MAB2-Metadatendatei 08.09.2009 Gezielt Recherchieren durch Kataloganreicherung Dr. Thomas Striffler 19
Gezielt Recherchieren durch Kataloganreicherung Verarbeitung verbundintern erzeugter Daten Verarbeitungschritte für eingescannte Inhaltsverzeichnisse im pdf-Format: 1. Download der von den Erzeugern eingescannten Inhaltsverzeichnisse 2. Aus den Inhaltsverzeichnissen extrahierte Texte sammeln 3. Speichern der Texte in eine Textdatenbank 08.09.2009 Gezielt Recherchieren durch Kataloganreicherung Dr. Thomas Striffler 20
Gezielt Recherchieren durch Kataloganreicherung Verarbeitungschritte für eingescannte Inhaltsverzeichnisse im pdf-Format: 4. Bereitstellung der Inhaltsverzeichnisse für Anzeige im OPAC 5. Neuerstellung des Indexes für die Volltextindexierung 08.09.2009 Gezielt Recherchieren durch Kataloganreicherung Dr. Thomas Striffler 21
Gezielt Recherchieren durch Kataloganreicherung Dateinnamen enthalten die PPN Metadatendatei enthält Dandelon-ID txt-Dateien enthalten die mittels Texterkennung extrahierten Texte 08.09.2009 Gezielt Recherchieren durch Kataloganreicherung Dr. Thomas Striffler 22
Gezielt Recherchieren durch Kataloganreicherung Gepackte Datei name.tar.gz wird auf den ftp-Server ftp.hebis.de transferiert Cron-gesteuertes shell-script lädt täglich die auf ftp.hebis.de befindlichen Dateien herunter Beim Start der Scanstation: bat-Datei packt die Verzeichnisse in eine Datei name.tar.gz name.tar.gz scans.hebis.de ftp.hebis.de 08.09.2009 Gezielt Recherchieren durch Kataloganreicherung Dr. Thomas Striffler 23
Gezielt Recherchieren durch Kataloganreicherung Cron-gesteuertes shell-script lädt täglich die auf ftp.hebis.de befindlichen Dateien herunter name.tar.gz scans.hebis.de ftp.hebis.de 08.09.2009 Gezielt Recherchieren durch Kataloganreicherung Dr. Thomas Striffler 24
Gezielt Recherchieren durch Kataloganreicherung Cron-gesteuertes shell-script lädt täglich die auf ftp.hebis.de befindlichen Dateien herunter und entpackt sie auf scan.hebis.de name.tar.gz scans.hebis.de ftp.hebis.de 08.09.2009 Gezielt Recherchieren durch Kataloganreicherung Dr. Thomas Striffler 25
Gezielt Recherchieren durch Kataloganreicherung Alle in der Metadatendatei erwähnten pdf-Dateien in Verzeichnis kopieren 08.09.2009 Gezielt Recherchieren durch Kataloganreicherung Dr. Thomas Striffler 26
Gezielt Recherchieren durch Kataloganreicherung Zu jeder pdf-Datei im Verzeichnis wird eine Zeile in einer neuen Metadatendatei mit folgenden Informationen erstellt: Jetziger Dateiname Vorheriger Dateiname ISIL Inhaltstyp MIME-Typ Dandelon-ID 08.09.2009 Gezielt Recherchieren durch Kataloganreicherung Dr. Thomas Striffler 27
Gezielt Recherchieren durch Kataloganreicherung Zur verschobenen pdf-Datei gehörende Zeile aus Metadatendatei in Verzeichnis ausschneiden und in Metadatendatei in Verzeichnis einfügen pdf-Datei in Verzeichnis verschieben und umbenennen in <ipn>_toc.pdf Falls es keine Fehler gab, ist das Verzeichnis danach leer. Anlegen einer txt-Datei für alle extrahierten Texte im Verzeichnis Text extrahieren und in Datei für alle extrahierten Texten schreiben Falls zu einer pdf-Datei eine txt-Datei existiert Falls zu einer pdf-Datei keine txt-Datei existiert Inhalt der txt-Datei in Datei für alle extrahierten Texten schreiben 08.09.2009 Gezielt Recherchieren durch Kataloganreicherung Dr. Thomas Striffler 28
Gezielt Recherchieren durch Kataloganreicherung Einlesen aller extrahierten Texte in eine Textdatenbank Einfügen oder ändern der Werte in Kategorie 009G und 007G Erstellen einer Input-Datei mit den Inhalten für die Kategorien 007G und 009P aus den in der Metadatendatei vorhandenen Informationen Verschieben der pdf-Dateien an ihren endgültigen Standort CBS Textdatenbank 08.09.2009 Gezielt Recherchieren durch Kataloganreicherung Dr. Thomas Striffler 29
Gezielt Recherchieren durch Kataloganreicherung Verarbeitung von Daten der Firma Bowker Inhaltsverzeichisse und Inhaltsangaben im XML-Format Textdatenbank ftp.bowker.com scans.hebis.de Einmal wöchentlich: Herunterladen und Texte in Textdatenbank einlesen 08.09.2009 Gezielt Recherchieren durch Kataloganreicherung Dr. Thomas Striffler 30
Gezielt Recherchieren durch Kataloganreicherung Einmal wöchentlich: Erstellung einer xml-Datei mit allen in der Textdatenbank vorhandenenen Texten Neuerstellung des Indexes Qualitätskontrolle: e-Mail an den Administrator mit der log- Datei zu allen durchgeführten Aktionen 08.09.2009 Gezielt Recherchieren durch Kataloganreicherung Dr. Thomas Striffler 31
Gezielt Recherchieren durch Kataloganreicherung In Vorbereitung:Verarbeitung von Daten des OBVSG Ca. 52000 Titeldatensätze im MAB2-Format mit gescannten Inhaltsverzeichnisse im pdf-Format und html-Format Durchführung eines Dublettencheck im Testsystem 9380 Treffer 9380 pdf-Dateien im Verzeichnis und eine Metadatendatei Verarbeitung im Testsystem nach dem zuvor beschriebenen Verfahren erfolgreich durchgeführt Stichprobenartige Überprüfung der Korrektheit der angezeigten Inhaltsverzeichnisse und der Einträge in Kategorie 009P 08.09.2009 Gezielt Recherchieren durch Kataloganreicherung Dr. Thomas Striffler 32
Gezielt Recherchieren durch Kataloganreicherung Vielen Dank für Ihre Aufmerksamkeit! Haben Sie noch Fragen? 08.09.2009 Gezielt Recherchieren durch Kataloganreicherung Dr. Thomas Striffler 33