Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

Automatische Klassifizierung – Präsentation für GBI © DIZ München März 2004 Automatische Klassifizierung in Erschließung und Recherche eines Pressearchivs.

Ähnliche Präsentationen


Präsentation zum Thema: "Automatische Klassifizierung – Präsentation für GBI © DIZ München März 2004 Automatische Klassifizierung in Erschließung und Recherche eines Pressearchivs."—  Präsentation transkript:

1 Automatische Klassifizierung – Präsentation für GBI © DIZ München März 2004 Automatische Klassifizierung in Erschließung und Recherche eines Pressearchivs Jahrestagung der ASpB - München Markus Schek, DIZ München GmbH – Süddeutsche Zeitung

2 Automatische Klassifizierung – Präsentation für GBI © DIZ München März 2004 Gliederung 1. Automatische Klassifizierung in Produktion 2. Wissensnetz-Visualisierung in Produktion 3. Arbeitsweise Ähnlichkeitsanalysen 4. Clustering in der Recherche 5. Möglichkeiten und Grenzen

3 Automatische Klassifizierung – Präsentation für GBI © DIZ München März 2004 DIZ und Süddeutsche Zeitung Dokumentation der Süddeutschen Zeitung Archivierung und Erschließung der SZ und zahlreicher nationaler und internationaler Publikationen DIZ-Pressedatenbank für Recherche im Intra- und Internet für Redakteure, Dokumentare und Externe Recherchedienstleistungen für die Redaktionen der SZ Vermarktung der Süddeutsche Zeitung-Daten (Verlage, Rundfunkanstalten, Content-Broker, Portale, Hosts...)

4 Automatische Klassifizierung – Präsentation für GBI © DIZ München März 2004 Bisher: Qualität der Erschließung sichern mit reduzierten Kapazitäten > Einsatz Automatische Klassifizierung und Visualisierung: Produktivitätssteigerung im Lektorat Zukünftig: Service in der Recherche erhöhen mit gleichbleibenden Kapazitäten > Weitere Automatisierung/Produktivitätssteigerung im Lektorat: Verlagerung Kapazitäten in die Recherche > Verbesserte Recherche-Werkzeuge: schnellere und zielgenauere (Eigen-) Recherche Zielvorgaben / Planung

5 Automatische Klassifizierung – Präsentation für GBI © DIZ München März Automatische Klassifizierung in Produktion Seit 01/2004 auf Basis DIZ-Dossiers Vorschläge werden mit Relevanzwert in XML-Artikeldaten SZ / Fremdpresse geschrieben und im Lektorat von Dokumentaren übernommen, ergänzt oder verworfen Integrierter Workflow mit Wissensnetz-Visualisierung Laufendes Retraining der manuellen Erschließung Steigerung des Gesamt-Recall seit Inbetriebnahme auf 75% Produktivitätssteigerung je Lektoratskapazität 47%

6 Automatische Klassifizierung – Präsentation für GBI © DIZ München März 2004 Lektorat Dossierstruktur

7 Automatische Klassifizierung – Präsentation für GBI © DIZ München März Wissensnetz-Visualisierung in Produktion Seit 02/2004 Visualisierung des DIZ-Wissensnetzes mit hierarchisch verlinkten Dossiers Darstellungskomplexität parametrierbar Verknüpfung mit DIZ-Pressedatenbank für Artikel-Anzeige, Ablage, Lektorat Recherche intuitiv und assoziativ, performanter Lektorat ohne Zwischen-Ablage, performanter

8 Automatische Klassifizierung – Präsentation für GBI © DIZ München März 2004

9

10

11 Recall-optimierter Categorizer: > Ziel Vollständigkeit: möglichst viele der korrekten Klassifizierungen vorschlagen. > Arbeitsweise: analysiert für ein unklassifiziertes Dokument seine Ähnlichkeit zu den bisher (manuell) klassifizierten Dokumenten. Die Klassifizierung der ähnlichsten Dokumente (=Dossier-Zuordnung) wird für das unklassifizierte Dokument vorgeschlagen. Die Ähnlichkeitsbewertung erfolgt aufgrund des für jedes Dokument (bei der Indexierung) berechneten sog. Dokument-Konzepts. Precision-optimierter Categorizer: > Ziel Genauigkeit: möglichst viele der vorgeschlagenen Klassifizierungen sind korrekt. > Arbeitsweise: analysiert für ein unklassifiziertes Dokument seine Ähnlichkeit zu den vorhandenen Klassifizierungen (= DIZ-Dossiers) und schlägt die ähnlichsten vor. Die Dossier-Konzepte werden anhand der (manuell) zugeordneten Artikel berechnet. 3. Arbeitsweise Ähnlichkeitsanalysen I: Categorizer

12 Automatische Klassifizierung – Präsentation für GBI © DIZ München März 2004 Freies / ungerichtetes Clustering: > Ziel: eine (Treffer-)Menge von Dokumenten nach Ähnlichkeiten frei gruppieren. > Arbeitsweise: bildet Cluster über die Ähnlichkeit der Konzepte von Dokumenten zueinander und fasst die jeweils zwei ähnlichsten Cluster sukzessive zu einem übergeordneten Cluster zusammen. Gerichtetes Clustering: > Ziel: eine (Treffer-)Menge von Dokumenten nach Ähnlichkeiten zu vorhandenen (Dossier-)Konzepten gruppieren. > Arbeitsweise: bildet Cluster über die Ähnlichkeit der Konzepte von Dokumenten zu den vorhandenen (Dossier-)Konzepten und weist ggf. die Cluster dem Dossier zu. 3. Arbeitsweise Ähnlichkeitsanalysen II: Clustering

13 Automatische Klassifizierung – Präsentation für GBI © DIZ München März 2004 Clustern von (Treffer-)Mengen: > Formal selektierte Tagesdaten werden zu Themen des Tages geclustert > Ergebnislisten von Volltextsuchen werden als Cluster strukturiert Relevance Feedback: > Trefferlisten werden interaktiv / durch Nutzer-Aktion neu sortiert Ähnliche Dokumente finden: > Ein gewähltes Dokument(-Konzept) wird zur Sucheingabe Suchen erweitern (Mehr finden): > Eine (zu) kleine Treffermenge wird zur Sucheingabe 4. Clustering und Ähnlichkeitsanalysen in der Recherche

14 Automatische Klassifizierung – Präsentation für GBI © DIZ München März 2004 Ähnlichkeitsanalysen in der Recherche: Themen des Tages-Cluster

15 Automatische Klassifizierung – Präsentation für GBI © DIZ München März 2004 Ähnlichkeitsanalysen in der Recherche: weitere Treffer eines Clusters

16 Automatische Klassifizierung – Präsentation für GBI © DIZ München März 2004 Recherche: Ergebnis einfache Suche + verbundene Dossiers

17 Automatische Klassifizierung – Präsentation für GBI © DIZ München März 2004 Recherche: Ähnliche Dokumente zu einem Artikel

18 Automatische Klassifizierung – Präsentation für GBI © DIZ München März 2004 Recherche: Dossier-Anzeige

19 Automatische Klassifizierung – Präsentation für GBI © DIZ München März 2004 Recherche: Dossier-Navigation im Wissensnetz

20 Automatische Klassifizierung – Präsentation für GBI © DIZ München März 2004 Recherche: Ergebnis Phrasensuche

21 Automatische Klassifizierung – Präsentation für GBI © DIZ München März 2004 Recherche: Expansion der Treffermenge durch Mehr finden

22 Automatische Klassifizierung – Präsentation für GBI © DIZ München März 2004 Modulare Kombination statistischer, linguistischer, heuristischer und semantischer Verfahren notwendig. Qualität eines Klassifikators ist indirekt proportional zur Anzahl der Klassifikationen / Notationen. Ein Klassifikator ist nicht selbstlernend. Für (Re-)Training / Update ist immer einer intellektuell erschlossener (Master-)Bestand notwendig. 100% korrekte Zuordnungen durch einen Klassifikator sind nicht möglich. 5. Möglichkeiten und Grenzen: Automatische Klassifizierung

23 Automatische Klassifizierung – Präsentation für GBI © DIZ München März Möglichkeiten und Grenzen: Clustering / Ähnlichkeitsanalysen Formale Informationserschließung (Verifikation) ist die Basis für valide Informationsdienstleistung. Grosse Treffermengen nach einfacher VT-Suche können mit Clustering-Technologien sinnvoll strukturiert werden. Ähnlichkeitssuche anhand eines spezifischen Dokuments führt zu hervorragenden Treffern. Der Weg zum spezifischen Dokument bleibt mühsam und bedarf der manuellen Suche und intellektuellen Auswahl. Diese wird durch inhaltliche Erschließung wesentlich erleichtert und beschleunigt. Ähnlichkeitsanalysen bändigen die Informationsmengen. Wissen kann nur der Mensch erzeugen.

24 Automatische Klassifizierung – Präsentation für GBI © DIZ München März 2004 Vielen Dank für Ihre Aufmerksamkeit! © DIZ München GmbH 2005


Herunterladen ppt "Automatische Klassifizierung – Präsentation für GBI © DIZ München März 2004 Automatische Klassifizierung in Erschließung und Recherche eines Pressearchivs."

Ähnliche Präsentationen


Google-Anzeigen