Automatische Klassifizierung in Erschließung und Recherche eines Pressearchivs Jahrestagung der ASpB - München 8.9.2005 Markus Schek, DIZ München GmbH – Süddeutsche Zeitung Automatische Klassifizierung – Präsentation für GBI © DIZ München März 2004
Gliederung Automatische Klassifizierung in Produktion Wissensnetz-Visualisierung in Produktion Arbeitsweise Ähnlichkeitsanalysen Clustering in der Recherche Möglichkeiten und Grenzen Automatische Klassifizierung – Präsentation für GBI © DIZ München März 2004
DIZ und Süddeutsche Zeitung Dokumentation der Süddeutschen Zeitung Archivierung und Erschließung der SZ und zahlreicher nationaler und internationaler Publikationen DIZ-Pressedatenbank für Recherche im Intra- und Internet für Redakteure, Dokumentare und Externe Recherchedienstleistungen für die Redaktionen der SZ Vermarktung der Süddeutsche Zeitung-Daten (Verlage, Rundfunkanstalten, Content-Broker, Portale, Hosts ...) Automatische Klassifizierung – Präsentation für GBI © DIZ München März 2004
Zielvorgaben / Planung Bisher: Qualität der Erschließung sichern mit reduzierten Kapazitäten Einsatz Automatische Klassifizierung und Visualisierung: Produktivitätssteigerung im Lektorat Zukünftig: Service in der Recherche erhöhen mit gleichbleibenden Kapazitäten Weitere Automatisierung/Produktivitätssteigerung im Lektorat: Verlagerung Kapazitäten in die Recherche Verbesserte Recherche-Werkzeuge: schnellere und zielgenauere (Eigen-) Recherche Automatische Klassifizierung – Präsentation für GBI © DIZ München März 2004
1. Automatische Klassifizierung in Produktion Seit 01/2004 auf Basis 90.000 DIZ-Dossiers Vorschläge werden mit Relevanzwert in XML-Artikeldaten SZ / Fremdpresse geschrieben und im Lektorat von Dokumentaren übernommen, ergänzt oder verworfen Integrierter Workflow mit Wissensnetz-Visualisierung Laufendes Retraining der manuellen Erschließung Steigerung des Gesamt-Recall seit Inbetriebnahme auf 75% Produktivitätssteigerung je Lektoratskapazität 47% Automatische Klassifizierung – Präsentation für GBI © DIZ München März 2004
Lektorat Dossierstruktur Automatische Klassifizierung – Präsentation für GBI © DIZ München März 2004
2. Wissensnetz-Visualisierung in Produktion Seit 02/2004 Visualisierung des DIZ-Wissensnetzes mit hierarchisch verlinkten Dossiers Darstellungskomplexität parametrierbar Verknüpfung mit DIZ-Pressedatenbank für Artikel-Anzeige, Ablage, Lektorat Recherche intuitiv und assoziativ, performanter Lektorat ohne Zwischen-Ablage, performanter Automatische Klassifizierung – Präsentation für GBI © DIZ München März 2004
Automatische Klassifizierung – Präsentation für GBI © DIZ München März 2004
Automatische Klassifizierung – Präsentation für GBI © DIZ München März 2004
Automatische Klassifizierung – Präsentation für GBI © DIZ München März 2004
3. Arbeitsweise Ähnlichkeitsanalysen I: Categorizer Recall-optimierter Categorizer: Ziel „Vollständigkeit“: möglichst viele der korrekten Klassifizierungen vorschlagen. Arbeitsweise: analysiert für ein unklassifiziertes Dokument seine Ähnlichkeit zu den bisher (manuell) klassifizierten Dokumenten. Die Klassifizierung der ähnlichsten Dokumente (=Dossier-Zuordnung) wird für das unklassifizierte Dokument vorgeschlagen. Die Ähnlichkeitsbewertung erfolgt aufgrund des für jedes Dokument (bei der Indexierung) berechneten sog. Dokument-Konzepts. Precision-optimierter Categorizer: Ziel „Genauigkeit“: möglichst viele der vorgeschlagenen Klassifizierungen sind korrekt. Arbeitsweise: analysiert für ein unklassifiziertes Dokument seine Ähnlichkeit zu den vorhandenen Klassifizierungen (= DIZ-Dossiers) und schlägt die ähnlichsten vor. Die Dossier-Konzepte werden anhand der (manuell) zugeordneten Artikel berechnet. Automatische Klassifizierung – Präsentation für GBI © DIZ München März 2004
3. Arbeitsweise Ähnlichkeitsanalysen II: Clustering Freies / ungerichtetes Clustering: Ziel: eine (Treffer-)Menge von Dokumenten nach Ähnlichkeiten frei gruppieren. Arbeitsweise: bildet Cluster über die Ähnlichkeit der Konzepte von Dokumenten zueinander und fasst die jeweils zwei ähnlichsten Cluster sukzessive zu einem übergeordneten Cluster zusammen. Gerichtetes Clustering: Ziel: eine (Treffer-)Menge von Dokumenten nach Ähnlichkeiten zu vorhandenen (Dossier-)Konzepten gruppieren. Arbeitsweise: bildet Cluster über die Ähnlichkeit der Konzepte von Dokumenten zu den vorhandenen (Dossier-)Konzepten und weist ggf. die Cluster dem Dossier zu. Automatische Klassifizierung – Präsentation für GBI © DIZ München März 2004
4. Clustering und Ähnlichkeitsanalysen in der Recherche Clustern von (Treffer-)Mengen: Formal selektierte Tagesdaten werden zu „Themen des Tages“ geclustert Ergebnislisten von Volltextsuchen werden als Cluster strukturiert „Relevance Feedback“: Trefferlisten werden interaktiv / durch Nutzer-Aktion neu sortiert „Ähnliche Dokumente“ finden: Ein gewähltes Dokument(-Konzept) wird zur Sucheingabe Suchen erweitern („Mehr finden“): Eine (zu) kleine Treffermenge wird zur Sucheingabe Automatische Klassifizierung – Präsentation für GBI © DIZ München März 2004
Ähnlichkeitsanalysen in der Recherche: „Themen des Tages“-Cluster Automatische Klassifizierung – Präsentation für GBI © DIZ München März 2004
Ähnlichkeitsanalysen in der Recherche: „weitere Treffer“ eines Clusters Automatische Klassifizierung – Präsentation für GBI © DIZ München März 2004
Recherche: Ergebnis einfache Suche + verbundene Dossiers Automatische Klassifizierung – Präsentation für GBI © DIZ München März 2004
Recherche: „Ähnliche Dokumente“ zu einem Artikel Automatische Klassifizierung – Präsentation für GBI © DIZ München März 2004
Recherche: Dossier-Anzeige Automatische Klassifizierung – Präsentation für GBI © DIZ München März 2004
Recherche: Dossier-Navigation im Wissensnetz Automatische Klassifizierung – Präsentation für GBI © DIZ München März 2004
Recherche: Ergebnis Phrasensuche Automatische Klassifizierung – Präsentation für GBI © DIZ München März 2004
Recherche: Expansion der Treffermenge durch „Mehr finden“ Automatische Klassifizierung – Präsentation für GBI © DIZ München März 2004
5. Möglichkeiten und Grenzen: Automatische Klassifizierung Modulare Kombination statistischer, linguistischer, heuristischer und semantischer Verfahren notwendig. Qualität eines Klassifikators ist indirekt proportional zur Anzahl der Klassifikationen / Notationen. Ein Klassifikator ist nicht selbstlernend. Für (Re-)Training / Update ist immer einer intellektuell erschlossener (Master-)Bestand notwendig. 100% korrekte Zuordnungen durch einen Klassifikator sind nicht möglich. Automatische Klassifizierung – Präsentation für GBI © DIZ München März 2004
5. Möglichkeiten und Grenzen: Clustering / Ähnlichkeitsanalysen Formale Informationserschließung (Verifikation) ist die Basis für valide Informationsdienstleistung. Grosse Treffermengen nach einfacher VT-Suche können mit Clustering-Technologien sinnvoll strukturiert werden. Ähnlichkeitssuche anhand eines spezifischen Dokuments führt zu hervorragenden Treffern. Der Weg zum spezifischen Dokument bleibt mühsam und bedarf der manuellen Suche und intellektuellen Auswahl. Diese wird durch inhaltliche Erschließung wesentlich erleichtert und beschleunigt. Ähnlichkeitsanalysen bändigen die Informationsmengen. Wissen kann nur der Mensch erzeugen. Automatische Klassifizierung – Präsentation für GBI © DIZ München März 2004
Vielen Dank für Ihre Aufmerksamkeit. markus. schek@diz-muenchen Vielen Dank für Ihre Aufmerksamkeit! markus.schek@diz-muenchen.de markus.schek@sueddeutsche.de © DIZ München GmbH 2005 Automatische Klassifizierung – Präsentation für GBI © DIZ München März 2004