Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

Automatische Indexierung an der ZBW – Status quo

Ähnliche Präsentationen


Präsentation zum Thema: "Automatische Indexierung an der ZBW – Status quo"—  Präsentation transkript:

1 Automatische Indexierung an der ZBW – Status quo
Manfred Faden, Thomas Groß Abteilung Informationsdienste 14. GBV-Verbundkonferenz Workshop FAG Erschließung und Informationsvermittlung Berlin

2 Übersicht Projektauftrag (Projektziel, Ausgangslage)
Projektphase I (Allgemeines, Evaluierung) Projektphase II (Status quo) Fazit & Ausblick Copyright © ZBW 2010

3 1. Projektauftrag – Projektziel
 Allgemein: - automatisierte Sacherschließung (Indexierung, Klassifikation) elektronischer und später aller Informationsressourcen Konkret: - Auswahl, Prüfung und Evaluierung maschineller Verfahren - organisatorische Einbindung und begleitende Evaluierung  Projektphasen: - Probeläufe (2009) - Implementierung (2010- ) Firmenvortrag Recommind heute ab 17 Uhr Copyright © ZBW 2010

4 1. Projektauftrag – Ausgangslage
- Input - rund Online-Working Paper p. a. ( ) - exponentieller Anstieg elektronischer Titel ab Mitte 2009 - Goportis: ab 2020 rund 80% aller wissenschaftlichen Forschungsergebnisse nur noch online - Output - Retrievaleinbindung in EconBiz (Relaunch Sept. 2010) Personalressourcen - fehlende Skalierbarkeit manueller Sacherschließung Anwendungsdiskrepanz des STW - manuelle Indexierungsinkonsistenzen Copyright © ZBW 2010

5 1. Projektauftrag – STW - Standard-Thesaurus-Wirtschaft (STW)
- Polyhierarchischer Thesaurus (Version 8.06) - sieben Subthesauri - ca Deskriptoren, dichte semantische Relation - ca Verweise als zusätzliches Einstiegsvokabular - seit der Version 8.03 ist jeder Deskriptor mit einer englischen Vorzugsbenennung versehen - zusätzlich werden laufen englische Verweise mit in das Vokabular aufgenommen - Begriffsorientiertes Verfahren: statistischer Ansatz (MindServer) + STW Copyright © ZBW 2010

6 2. Projektphase I – Pilotprojekte (2009)
Pilotprojekt I (Frühjahr/Sommer) - Testphase zur Anbieter-/Produktauswahl - ca Datensätze aus ECONIS und EconStor - Qualifikation: alle Aufnahmen, die eine URL aufwiesen Pilotprojekt II (Herbst/Winter) - Test und Evaluierung (vgl. Auswertung) - ca Datensätze - Qualifikation: alle Datensätze aus Projekt I, deren Text gecrawlt werden konnte Copyright © ZBW 2010

7 2. Pilotprojekte – Auswertung I
Daten: Dokumente gesamt - Trainingsset = Dokumente (= 68%) - Testset = Dokumente (= 32%) Evaluierungsansätze: Quantitativ Qualitativ (Recall/Precision) (manuell) Stock/Stock (2008)*, DIN 31623/1 *Stock, Wolfgang/ Mechthild Stock (2008): Wissensrepräsentation – Informationen auswerten und bereitstellen. München: Oldenbourg. - generell - große Datensets ( …) mit quantitativen Ansatz - kleine Datensets (wenige bis 100) mit qualitativen Ansatz - ZBW: mittelgroßes Datenset, deshalb Kriterienset nach Stock - Stock/Stock (2008): - Indexierungstiefe (Indexierungsbreite + Indexierungsspezifität) - Indexierungseffektivität - Indexierungskonsistenz - zusätzlich noch : Belegungsbilanz Copyright © ZBW 2010

8 2. Pilotprojekte – Auswertung II
- Indexierungskonsistenz - Spannbreite: 0% bis 100% - Durchschnitt: 36% (andere Studien: zw %)  Automatik kann manuelles Indexierungsverhalten zu 1/3 imitieren - Indexierungstiefe - Manuell: (max.), 0.23 (Mittel) - Automatik: 0.67 (max.), 0.14 (Mittel)  Automatisches Verfahren wählt häufig Oberbegriffe und Allgemeinwörter (Trainingsverhalten!) Indexierungskonsistenz: - misst die Abweichungen unterschiedlicher Indexate der gleichen Vorlage - Anzahl der übereinstimmenden Deskriptoren pro Vorlage (A / B+C-A) - A übereinstimmende Deskriptoren, B und C: Summe der Deskriptoren pro Vorlage - Spannbreite zwischen: keine Übereinstimmungen (= 0%) und völlige Übereinstimmung (= 100%) - durchschnittlich 36% Übereinstimmungen (ordentlich, im Vergleich zum Forschungsstand) Indexierungstiefe: - Indexierungsbreite (Anzahl der Deskriptoren) + Indexierungsspezifität (Hierarchie der Deskriptoren im Thesaurus) - der manuelle Indexierer schafft es, die Vorlagen tiefer zu indexieren als die Automatik (vgl. Maximal- und Mittelwerte) - alles relative Werte! (höhere Werte nicht unbedingt besser  Nutzerstudien) Copyright © ZBW 2010

9 2. Pilotprojekte – Auswertung III
- Indexierungseffektivität - Automatik = 9.1 (im Mittel) vs. Mensch = 13.7 (im Mittel)  Manuelle Indexierung ist trennschärfer - Belegungsbilanz Manuell Automatik Benutzte Deskriptoren 71% 17% Unbenutzte Deskriptoren 29% 83%  Umfassendere STW-Nutzung durch IndexiererInnen Indexierungseffektivität (inverse Dokumentenhäufigkeit): - Wie häufig taucht ein Deskriptor im Gesamtdatensatz auf? - Bezieht sich auf die informationsstrukturierende Funktion von Deskriptoren in Bezug auf den Gesamtdatensatz Belegungsbilanz: Anzahl der benutzen Deskriptoren aus den möglichen/zur Verfügung stehenden Deskriptoren (knapp 6.000 - Indexierungseffektivität => welche benutzen Deskriptoren wurden wie oft vergeben? - hier: wie viel von den potentiell zur Verfügung stehenden Deskriptoren wurde überhaupt verwendet?  kurzes Fazit (ohne extra Folie!) - noch erheblicher Trainingsbedarf! - Verbreiterung der Datenbasis Copyright © ZBW 2010

10 3. Projektphase II – Implementierung (2010- )
- März: MindServer-Installation (EDV-Infrastruktur) April: Schulung für IT- und Content-Administratoren Mai - heute: eigenständiges Aufsetzen von Projekten und Einpflegen neuer Taxonomien Juli: MindServer-Update auf Version 7.0 September: Einarbeitung der FachreferentInnen Copyright © ZBW 2010

11 3. Projektphase II – Status quo (2010- )
Problemlagen: polyhierarchischer STW Datenbasis (technisch/ Urheberrecht) Sprachen (5% deutsch, 84% englisch) BWL vs. VWL (Nachbarwissenschaften?)  deshalb: flacher Thesaurus (A-Z) Standard-Klassifikation (STK): Geo-Begriffe, Fach (= BWL, VWL, Sektor), Nachbarwissenschaften - Verbreiterung der Datenbasis: => ca (>30% mit STW erschlossen, nicht STK!) - Standard-Klassifikation (im Groben 285 Oberbegriffe des STW) Copyright © ZBW 2010

12 4. Fazit (2010) & Ausblick (2011- ) Implementierung: technisch/organisatorisch (ab Mitte 2011) - Geschäftsabläufe (Formalerschließung, Zielsysteme) Implementierung: inhaltlich - Training der Standard-Klassifikation (ab Ende 2010) - semiautomatische Indexierung/Klassifizierung (ab Mitte 2011) - Erweiterung der Trainingsbasis (Volltexte!, prüfen: Abstracts, Inhaltsverzeichnisse)  Evaluierung - Auswertung des Klassifizierungsverhaltens (Anfang 2011) Copyright © ZBW 2010

13 Vielen Dank für Ihre Aufmerksamkeit
Manfred Faden: Thomas Groß: Copyright © ZBW 2010


Herunterladen ppt "Automatische Indexierung an der ZBW – Status quo"

Ähnliche Präsentationen


Google-Anzeigen