Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

Die ZBW ist Mitglied der Leibniz-Gemeinschaft Automatische Indexierung an der ZBW – Status quo Manfred Faden, Thomas Groß Abteilung Informationsdienste.

Ähnliche Präsentationen


Präsentation zum Thema: "Die ZBW ist Mitglied der Leibniz-Gemeinschaft Automatische Indexierung an der ZBW – Status quo Manfred Faden, Thomas Groß Abteilung Informationsdienste."—  Präsentation transkript:

1 Die ZBW ist Mitglied der Leibniz-Gemeinschaft Automatische Indexierung an der ZBW – Status quo Manfred Faden, Thomas Groß Abteilung Informationsdienste 14. GBV-Verbundkonferenz Workshop FAG Erschließung und Informationsvermittlung Berlin

2 Copyright © ZBW 2010Seite 2 Übersicht 1.Projektauftrag (Projektziel, Ausgangslage) 2.Projektphase I (Allgemeines, Evaluierung) 3.Projektphase II (Status quo) 4.Fazit & Ausblick

3 Copyright © ZBW 2010Seite 3 1. Projektauftrag – Projektziel Allgemein: -automatisierte Sacherschließung (Indexierung, Klassifikation) elektronischer und später aller Informationsressourcen Konkret: -Auswahl, Prüfung und Evaluierung maschineller Verfahren -organisatorische Einbindung und begleitende Evaluierung Projektphasen: -Probeläufe (2009) - Implementierung (2010- )

4 Copyright © ZBW 2010Seite 4 1. Projektauftrag – Ausgangslage -Input -rund Online-Working Paper p. a. ( ) -exponentieller Anstieg elektronischer Titel ab Mitte Goportis: ab 2020 rund 80% aller wissenschaftlichen Forschungsergebnisse nur noch online -Output -Retrievaleinbindung in EconBiz (Relaunch Sept. 2010) -Personalressourcen -fehlende Skalierbarkeit manueller Sacherschließung -Anwendungsdiskrepanz des STW - manuelle Indexierungsinkonsistenzen

5 Copyright © ZBW 2010Seite 5 1. Projektauftrag – STW -Standard-Thesaurus-Wirtschaft (STW) -Polyhierarchischer Thesaurus (Version 8.06) -sieben Subthesauri -ca Deskriptoren, dichte semantische Relation -ca Verweise als zusätzliches Einstiegsvokabular -seit der Version 8.03 ist jeder Deskriptor mit einer englischen Vorzugsbenennung versehen -zusätzlich werden laufen englische Verweise mit in das Vokabular aufgenommen -Begriffsorientiertes Verfahren: statistischer Ansatz (MindServer) + STW

6 Copyright © ZBW 2010Seite 6 2. Projektphase I – Pilotprojekte (2009) -Pilotprojekt I (Frühjahr/Sommer) - Testphase zur Anbieter-/Produktauswahl - ca Datensätze aus ECONIS und EconStorECONISEconStor - Qualifikation: alle Aufnahmen, die eine URL aufwiesen -Pilotprojekt II (Herbst/Winter) -Test und Evaluierung (vgl. Auswertung) - ca Datensätze - Qualifikation: alle Datensätze aus Projekt I, deren Text gecrawlt werden konnte

7 Copyright © ZBW 2010Seite 7 2. Pilotprojekte – Auswertung I -Daten: Dokumente gesamt -Trainingsset = Dokumente (= 68%) - Testset = Dokumente (= 32%) -Evaluierungsansätze: Quantitativ Qualitativ (Recall/Precision)(manuell) Stock/Stock (2008)*, DIN 31623/1 *Stock, Wolfgang/ Mechthild Stock (2008): Wissensrepräsentation – Informationen auswerten und bereitstellen. München: Oldenbourg.

8 Copyright © ZBW 2010Seite 8 2. Pilotprojekte – Auswertung II -Indexierungskonsistenz -Spannbreite: 0% bis 100% -Durchschnitt: 36% (andere Studien: zw %) Automatik kann manuelles Indexierungsverhalten zu 1/3 imitieren -Indexierungstiefe -Manuell: 1.33 (max.), 0.23 (Mittel) - Automatik: 0.67 (max.), 0.14 (Mittel) Automatisches Verfahren wählt häufig Oberbegriffe und Allgemeinwörter (Trainingsverhalten!)

9 Copyright © ZBW 2010Seite 9 2. Pilotprojekte – Auswertung III -Indexierungseffektivität -Automatik = 9.1 (im Mittel) vs. Mensch = 13.7 (im Mittel) Manuelle Indexierung ist trennschärfer -Belegungsbilanz Manuell Automatik Benutzte Deskriptoren71%17% Unbenutzte Deskriptoren29% 83% Umfassendere STW-Nutzung durch IndexiererInnen

10 Copyright © ZBW 2010Seite Projektphase II – Implementierung (2010- ) -März: MindServer-Installation (EDV-Infrastruktur) -April: Schulung für IT- und Content-Administratoren -Mai - heute: eigenständiges Aufsetzen von Projekten und Einpflegen neuer Taxonomien -Juli: MindServer-Update auf Version 7.0 -September: Einarbeitung der FachreferentInnen

11 Copyright © ZBW 2010Seite Projektphase II – Status quo (2010- ) -Problemlagen: -polyhierarchischer STW -Datenbasis (technisch/ Urheberrecht) -Sprachen (5% deutsch, 84% englisch) -BWL vs. VWL (Nachbarwissenschaften?) deshalb: -flacher Thesaurus (A-Z) -Standard-Klassifikation (STK): Geo-Begriffe, Fach (= BWL, VWL, Sektor), Nachbarwissenschaften -Verbreiterung der Datenbasis: => ca (>30% mit STW erschlossen, nicht STK!)

12 Copyright © ZBW 2010Seite Fazit (2010) & Ausblick (2011- ) Implementierung: technisch/organisatorisch (ab Mitte 2011) -Geschäftsabläufe (Formalerschließung, Zielsysteme) Implementierung: inhaltlich -Training der Standard-Klassifikation (ab Ende 2010) - semiautomatische Indexierung/Klassifizierung (ab Mitte 2011) - Erweiterung der Trainingsbasis (Volltexte!, prüfen: Abstracts, Inhaltsverzeichnisse) Evaluierung -Auswertung des Klassifizierungsverhaltens (Anfang 2011)

13 Copyright © ZBW 2010Seite 13 Vielen Dank für Ihre Aufmerksamkeit Manfred Faden: Thomas Groß:


Herunterladen ppt "Die ZBW ist Mitglied der Leibniz-Gemeinschaft Automatische Indexierung an der ZBW – Status quo Manfred Faden, Thomas Groß Abteilung Informationsdienste."

Ähnliche Präsentationen


Google-Anzeigen