Automatische Indexierung an der ZBW – Status quo

Slides:



Advertisements
Ähnliche Präsentationen
Einsatz neuer Technologien auf dem Slavistik-Portal Ivo Ulrich, Staatsbibliothek zu Berlin 32. ABDOS-Tagung, Martin (Slowakei), 19. Mai 2009.
Advertisements

Migration der Arbeitsplatzrechner und Benutzerprofile in eine neue Domänenstruktur bei der WetterOnline GmbH Alexander Wiechert Migration der Arbeitsplatzrechner.
AQUARadar: Teilprojekte A/D
Homepage: IG Metaller bei AVAYA
Temporäre Spielstraßen in Schwachhausen
Anzahl der ausgefüllten und eingesandten Fragebögen: 211
Zugänge zum Wissen der Berufsbildungsforschung
Olaf Siegert IuK-Tagung Göttingen, 28. September 2006
Vergleichstests – Kompetenztest Thüringen Ergebnisse 2008/09 Primar – Klasse 6
EconBiz – Ergebnisse der Umfrage zu Informationskompetenz und EconBiz und der GENICUS-Studie Tamara Pianos, Thorsten Meyer Hamburg, 11. September.
Dr. Klaus-Rainer Brintzinger, Universität Tübingen
Einsatz neuer Technologien bei der Virtuellen Fachbibliothek Slavistik Ivo Ulrich, Staatsbibliothek zu Berlin 98. Bibliothekartag, Erfurt, 3. Juni 2009.
Das Blütenmodell Bislang entwickelte Fachmodule: Wirtschafts- und Ingenieurswissenschaften.
1 JIM-Studie 2010 Jugend, Information, (Multi-)Media Landesanstalt für Kommunikation Baden-Württemberg (LFK) Landeszentrale für Medien und Kommunikation.
Standortfaktoren INTERN - Ausdrucksstark präsentieren.
Internet facts 2006-I Graphiken zu dem Berichtsband AGOF e.V. September 2006.
Internet facts 2006-III Graphiken zum Berichtsband AGOF e.V. März 2007.
Internet facts 2008-II Graphiken zu dem Berichtsband AGOF e.V. September 2008.
Internet facts 2005-III Graphiken aus dem Berichtsband AGOF e.V. März 2006.
Prof. Dr. Bernhard Wasmayr
Studienverlauf im Ausländerstudium
IndexierungsqualitätEinstieg
Automatische Sacherschließung an der ZBW – Status quo & Ausblick
Entitäten Extraktion Wichtige Schritte Petra Maier WS 05/06.
2 Beispiele von Wissensorganisation 2.0 del.icio.us und BibSonomy vorgestellt von Sylvia Fabricius-Wiese 08. April 2008.
Lesen macht stark-Lesekompetenztests
Bild 1.1 Copyright © Alfred Mertins | Signaltheorie, 2. Auflage Vieweg+Teubner PLUS Zusatzmaterialien Vieweg+Teubner Verlag | Wiesbaden.
Skalierbare Systeme fu ̈ r die Aus- und Weiterbildung Gustaf Neumann, Bernd Simon Nov 2011.
Im Rahmen des Netzwerktreffens
20:00.
Folie 1 Verein zur Förderung der Online Werbung IAB Werbemarktprognose 2011 Aktuelles, Zielsetzung Erste Keyfacts, Status Karin Hammer, Präsidentin.
Überblick über den Arbeitsmarkt im Agenturbezirk Dresden
Guete Morge! Roland Scheurer. Guete Morge! Roland Scheurer.
Österreich & E-Government
SK / , , in Hochkössen und der Wildschönau flow Ski- und Snowboardschule Intersport Menzel.
GBI Genios Wiso wiso bietet Ihnen das umfassendste Angebot deutsch- und englischsprachiger Literatur für die Wirtschafts- und Sozialwissenschaften. Wir.
Studentische Arbeiten im Social Web Aktuelle Nutzung und Anforderungen für die Nutzung Klaus Tochtermann Seite 1.
QS- Dekubitusprophylaxe Klinikstatistik 2007 BAQ
...ich seh´es kommen !.
Das Projekt allwiss Projektphasen, Arbeitschritte und Output im Überblick Martina Josten, Inmit Kick-off-Veranstaltung zum Projekt allwiss Trier,
Lehr- und Lehrveranstaltungsevaluation
Deutsche Digitale Bibliothek Ein großes Vorhaben nimmt Gestalt an 1.
Präsentation läuft auch vollautomatisch ab … wie du möchtest
Peter Grzybek Projekt # (FWF) Projekt # 43s9 (OEAD/SAIA) Graphem-Häufigkeiten.
RECHTSERZEUGUNGSPROZESS AUF ZEITGEMÄSSER EBENE Graz, 30. Oktober
© Fraunhofer ISI AP 1: Projektfortschritt Fallstudien (ISI, ZIRN) Die soziale Dimension des Rebound- Effekts (REBOUND) Projekttreffen, ZEW,
Publikation auf Knopfdruck Judith Riegelnig Michael Grüebler 19. Oktober 2010 / Statistiktage Neuenburg.
Ertragsteuern, 5. Auflage Christiana Djanani, Gernot Brähler, Christian Lösel, Andreas Krenzin © UVK Verlagsgesellschaft mbH, Konstanz und München 2012.
Department AFRICA Implementierung der Entscheidungen 2008 und Ergebnisse des Monitoring 2009 Steuerungsgruppe HIV/AIDS Mainstreaming B1 A. Köneke 16. November.
Küttingen 31. Generalversammlung
NIN-Arbeitsblätter Paul-Emile Müller
Kollektivverhandlungen in der Krise Christoph Hermann FORBA FORBA-Fachgespräch 27. Juni 2011.
PARTENARIAT ÉDUCATIF GRUNDTVIG PARTENARIAT ÉDUCATIF GRUNDTVIG REPERES KULTURELLER ZUSAMMENHALT UND AUSDEHNUNG DER IDEEN AUF EUROPÄISCHEM.
Bevölkerungsentwicklung und –struktur der Stadt Bozen
Kolloquium „Bilingualer Unterricht“
Erstversorgung sehr kleiner Frühgeborener „NEU“ am AKH Wien
SPD-Bundestagsfraktion Die Menschen gewinnen Elektronische Dokumente als reguläre Grundlage parlamentarischer Arbeit Ist- Stand und Planungen im Deutschen.
Schutzvermerk nach DIN 34 beachten 20/05/14 Seite 1 Grundlagen XSoft Lösung :Logische Grundschaltung IEC-Grundlagen und logische Verknüpfungen.
Evaluierung und Fortschreibung Masterplan Verkehr Wien 03/08
1 DEUTSCHES ELEKTRONEN-SYNCHROTRON NOTKESTR HAMBURG PHONE FAX KDS-Anwendertreffen K. Wittenburg.
Schülerberatertag 2010: Start-up-Check mit Qualifizierung und BIFO-Sprechtagsberatungen Mag. Susanne Gächter Bildungs- und Berufsberaterin.
Der Erotik Kalender 2005.
Kw MoDiMiDoFrSaSo 14 1 Semester- beginn: SS Vorlesungs- beginn: SS April 2008.
Informationsveranstaltung zum Mittleren Schulabschluss
Datum:17. Dezember 2014 Thema:IFRS Update zum Jahresende – die Neuerungen im Überblick Referent:Eberhard Grötzner, EMA ® Anlass:12. Arbeitskreis Internationale.
1 10 pt 15 pt 20 pt 25 pt 5 pt 10 pt 15 pt 20 pt 25 pt 5 pt 10 pt 15 pt 20 pt 25 pt 5 pt 10 pt 15 pt 20 pt 25 pt 5 pt 10 pt 15 pt 20 pt 25 pt 5 pt Wie.
Einführung in die Volkswirtschaftslehre, Mikroökonomie und Wettbewerbspolitik Lothar Wildmann ISBN: © 2014 Oldenbourg Wissenschaftsverlag.
Die Übersetzung von “Diskursdialekten” für die Suche: Das Mapping zwischen Fachsprachen und Indexierungssprachen Vivien Petras Vortrag im Berliner Bibliothekswissenschaftlichen.
E-Government AG - Umweltinformation Geodatenverbund der österreichischen Bundesländer Thomas Ebert Amt der OÖ Landesregierung Abteilung.
 Präsentation transkript:

Automatische Indexierung an der ZBW – Status quo Manfred Faden, Thomas Groß Abteilung Informationsdienste 14. GBV-Verbundkonferenz Workshop FAG Erschließung und Informationsvermittlung Berlin 08.09.2010

Übersicht Projektauftrag (Projektziel, Ausgangslage) Projektphase I (Allgemeines, Evaluierung) Projektphase II (Status quo) Fazit & Ausblick Copyright © ZBW 2010

1. Projektauftrag – Projektziel  Allgemein: - automatisierte Sacherschließung (Indexierung, Klassifikation) elektronischer und später aller Informationsressourcen Konkret: - Auswahl, Prüfung und Evaluierung maschineller Verfahren - organisatorische Einbindung und begleitende Evaluierung  Projektphasen: - Probeläufe (2009) - Implementierung (2010- ) Firmenvortrag Recommind heute ab 17 Uhr Copyright © ZBW 2010

1. Projektauftrag – Ausgangslage - Input - rund 14.000 Online-Working Paper p. a. (2005-2009) - exponentieller Anstieg elektronischer Titel ab Mitte 2009 - Goportis: ab 2020 rund 80% aller wissenschaftlichen Forschungsergebnisse nur noch online - Output - Retrievaleinbindung in EconBiz (Relaunch Sept. 2010) Personalressourcen - fehlende Skalierbarkeit manueller Sacherschließung Anwendungsdiskrepanz des STW - manuelle Indexierungsinkonsistenzen Copyright © ZBW 2010

1. Projektauftrag – STW - Standard-Thesaurus-Wirtschaft (STW) - Polyhierarchischer Thesaurus (Version 8.06) - sieben Subthesauri - ca. 6.000 Deskriptoren, dichte semantische Relation - ca. 24.000 Verweise als zusätzliches Einstiegsvokabular - seit der Version 8.03 ist jeder Deskriptor mit einer englischen Vorzugsbenennung versehen - zusätzlich werden laufen englische Verweise mit in das Vokabular aufgenommen - Begriffsorientiertes Verfahren: statistischer Ansatz (MindServer) + STW Copyright © ZBW 2010

2. Projektphase I – Pilotprojekte (2009) Pilotprojekt I (Frühjahr/Sommer) - Testphase zur Anbieter-/Produktauswahl - ca. 120.000 Datensätze aus ECONIS und EconStor - Qualifikation: alle Aufnahmen, die eine URL aufwiesen Pilotprojekt II (Herbst/Winter) - Test und Evaluierung (vgl. Auswertung) - ca. 40.000 Datensätze - Qualifikation: alle Datensätze aus Projekt I, deren Text gecrawlt werden konnte Copyright © ZBW 2010

2. Pilotprojekte – Auswertung I Daten: 38.878 Dokumente gesamt - Trainingsset = 26.645 Dokumente (= 68%) - Testset = 12.233 Dokumente (= 32%) Evaluierungsansätze: Quantitativ Qualitativ (Recall/Precision) (manuell) Stock/Stock (2008)*, DIN 31623/1 *Stock, Wolfgang/ Mechthild Stock (2008): Wissensrepräsentation – Informationen auswerten und bereitstellen. München: Oldenbourg. - generell - große Datensets (100.000…) mit quantitativen Ansatz - kleine Datensets (wenige bis 100) mit qualitativen Ansatz - ZBW: mittelgroßes Datenset, deshalb Kriterienset nach Stock - Stock/Stock (2008): - Indexierungstiefe (Indexierungsbreite + Indexierungsspezifität) - Indexierungseffektivität - Indexierungskonsistenz - zusätzlich noch : Belegungsbilanz Copyright © ZBW 2010

2. Pilotprojekte – Auswertung II - Indexierungskonsistenz - Spannbreite: 0% bis 100% - Durchschnitt: 36% (andere Studien: zw. 25-66%)  Automatik kann manuelles Indexierungsverhalten zu 1/3 imitieren - Indexierungstiefe - Manuell: 1.33 (max.), 0.23 (Mittel) - Automatik: 0.67 (max.), 0.14 (Mittel)  Automatisches Verfahren wählt häufig Oberbegriffe und Allgemeinwörter (Trainingsverhalten!) Indexierungskonsistenz: - misst die Abweichungen unterschiedlicher Indexate der gleichen Vorlage - Anzahl der übereinstimmenden Deskriptoren pro Vorlage (A / B+C-A) - A übereinstimmende Deskriptoren, B und C: Summe der Deskriptoren pro Vorlage - Spannbreite zwischen: keine Übereinstimmungen (= 0%) und völlige Übereinstimmung (= 100%) - durchschnittlich 36% Übereinstimmungen (ordentlich, im Vergleich zum Forschungsstand) Indexierungstiefe: - Indexierungsbreite (Anzahl der Deskriptoren) + Indexierungsspezifität (Hierarchie der Deskriptoren im Thesaurus) - der manuelle Indexierer schafft es, die Vorlagen tiefer zu indexieren als die Automatik (vgl. Maximal- und Mittelwerte) - alles relative Werte! (höhere Werte nicht unbedingt besser  Nutzerstudien) Copyright © ZBW 2010

2. Pilotprojekte – Auswertung III - Indexierungseffektivität - Automatik = 9.1 (im Mittel) vs. Mensch = 13.7 (im Mittel)  Manuelle Indexierung ist trennschärfer - Belegungsbilanz Manuell Automatik Benutzte Deskriptoren 71% 17% Unbenutzte Deskriptoren 29% 83%  Umfassendere STW-Nutzung durch IndexiererInnen Indexierungseffektivität (inverse Dokumentenhäufigkeit): - Wie häufig taucht ein Deskriptor im Gesamtdatensatz auf? - Bezieht sich auf die informationsstrukturierende Funktion von Deskriptoren in Bezug auf den Gesamtdatensatz Belegungsbilanz: Anzahl der benutzen Deskriptoren aus den möglichen/zur Verfügung stehenden Deskriptoren (knapp 6.000 - Indexierungseffektivität => welche benutzen Deskriptoren wurden wie oft vergeben? - hier: wie viel von den potentiell zur Verfügung stehenden Deskriptoren wurde überhaupt verwendet?  kurzes Fazit (ohne extra Folie!) - noch erheblicher Trainingsbedarf! - Verbreiterung der Datenbasis Copyright © ZBW 2010

3. Projektphase II – Implementierung (2010- ) - März: MindServer-Installation (EDV-Infrastruktur) April: Schulung für IT- und Content-Administratoren Mai - heute: eigenständiges Aufsetzen von Projekten und Einpflegen neuer Taxonomien Juli: MindServer-Update auf Version 7.0 September: Einarbeitung der FachreferentInnen Copyright © ZBW 2010

3. Projektphase II – Status quo (2010- ) Problemlagen: polyhierarchischer STW Datenbasis (technisch/ Urheberrecht) Sprachen (5% deutsch, 84% englisch) BWL vs. VWL (Nachbarwissenschaften?)  deshalb: flacher Thesaurus (A-Z) Standard-Klassifikation (STK): Geo-Begriffe, Fach (= BWL, VWL, Sektor), Nachbarwissenschaften - Verbreiterung der Datenbasis: 39.000 => ca. 200.000 (>30% mit STW erschlossen, nicht STK!) - Standard-Klassifikation (im Groben 285 Oberbegriffe des STW) Copyright © ZBW 2010

4. Fazit (2010) & Ausblick (2011- ) Implementierung: technisch/organisatorisch (ab Mitte 2011) - Geschäftsabläufe (Formalerschließung, Zielsysteme) Implementierung: inhaltlich - Training der Standard-Klassifikation (ab Ende 2010) - semiautomatische Indexierung/Klassifizierung (ab Mitte 2011) - Erweiterung der Trainingsbasis (Volltexte!, prüfen: Abstracts, Inhaltsverzeichnisse)  Evaluierung - Auswertung des Klassifizierungsverhaltens (Anfang 2011) Copyright © ZBW 2010

Vielen Dank für Ihre Aufmerksamkeit Manfred Faden: m.faden@zbw.eu Thomas Groß: t.gross@zbw.eu Copyright © ZBW 2010