Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

Jahrestagung der ASpB - München

Ähnliche Präsentationen


Präsentation zum Thema: "Jahrestagung der ASpB - München"—  Präsentation transkript:

1 Automatische Klassifizierung in Erschließung und Recherche eines Pressearchivs
Jahrestagung der ASpB - München Markus Schek, DIZ München GmbH – Süddeutsche Zeitung Automatische Klassifizierung – Präsentation für GBI © DIZ München März 2004

2 Gliederung Automatische Klassifizierung in Produktion
Wissensnetz-Visualisierung in Produktion Arbeitsweise Ähnlichkeitsanalysen Clustering in der Recherche Möglichkeiten und Grenzen Automatische Klassifizierung – Präsentation für GBI © DIZ München März 2004

3 DIZ und Süddeutsche Zeitung
Dokumentation der Süddeutschen Zeitung Archivierung und Erschließung der SZ und zahlreicher nationaler und internationaler Publikationen DIZ-Pressedatenbank für Recherche im Intra- und Internet für Redakteure, Dokumentare und Externe Recherchedienstleistungen für die Redaktionen der SZ Vermarktung der Süddeutsche Zeitung-Daten (Verlage, Rundfunkanstalten, Content-Broker, Portale, Hosts ...) Automatische Klassifizierung – Präsentation für GBI © DIZ München März 2004

4 Zielvorgaben / Planung
Bisher: Qualität der Erschließung sichern mit reduzierten Kapazitäten Einsatz Automatische Klassifizierung und Visualisierung: Produktivitätssteigerung im Lektorat Zukünftig: Service in der Recherche erhöhen mit gleichbleibenden Kapazitäten Weitere Automatisierung/Produktivitätssteigerung im Lektorat: Verlagerung Kapazitäten in die Recherche Verbesserte Recherche-Werkzeuge: schnellere und zielgenauere (Eigen-) Recherche Automatische Klassifizierung – Präsentation für GBI © DIZ München März 2004

5 1. Automatische Klassifizierung in Produktion
Seit 01/2004 auf Basis DIZ-Dossiers Vorschläge werden mit Relevanzwert in XML-Artikeldaten SZ / Fremdpresse geschrieben und im Lektorat von Dokumentaren übernommen, ergänzt oder verworfen Integrierter Workflow mit Wissensnetz-Visualisierung Laufendes Retraining der manuellen Erschließung Steigerung des Gesamt-Recall seit Inbetriebnahme auf 75% Produktivitätssteigerung je Lektoratskapazität 47% Automatische Klassifizierung – Präsentation für GBI © DIZ München März 2004

6 Lektorat Dossierstruktur
Automatische Klassifizierung – Präsentation für GBI © DIZ München März 2004

7 2. Wissensnetz-Visualisierung in Produktion
Seit 02/2004 Visualisierung des DIZ-Wissensnetzes mit hierarchisch verlinkten Dossiers Darstellungskomplexität parametrierbar Verknüpfung mit DIZ-Pressedatenbank für Artikel-Anzeige, Ablage, Lektorat Recherche intuitiv und assoziativ, performanter Lektorat ohne Zwischen-Ablage, performanter Automatische Klassifizierung – Präsentation für GBI © DIZ München März 2004

8 Automatische Klassifizierung – Präsentation für GBI © DIZ München März 2004

9 Automatische Klassifizierung – Präsentation für GBI © DIZ München März 2004

10 Automatische Klassifizierung – Präsentation für GBI © DIZ München März 2004

11 3. Arbeitsweise Ähnlichkeitsanalysen I: Categorizer
Recall-optimierter Categorizer: Ziel „Vollständigkeit“: möglichst viele der korrekten Klassifizierungen vorschlagen. Arbeitsweise: analysiert für ein unklassifiziertes Dokument seine Ähnlichkeit zu den bisher (manuell) klassifizierten Dokumenten. Die Klassifizierung der ähnlichsten Dokumente (=Dossier-Zuordnung) wird für das unklassifizierte Dokument vorgeschlagen. Die Ähnlichkeitsbewertung erfolgt aufgrund des für jedes Dokument (bei der Indexierung) berechneten sog. Dokument-Konzepts. Precision-optimierter Categorizer: Ziel „Genauigkeit“: möglichst viele der vorgeschlagenen Klassifizierungen sind korrekt. Arbeitsweise: analysiert für ein unklassifiziertes Dokument seine Ähnlichkeit zu den vorhandenen Klassifizierungen (= DIZ-Dossiers) und schlägt die ähnlichsten vor. Die Dossier-Konzepte werden anhand der (manuell) zugeordneten Artikel berechnet. Automatische Klassifizierung – Präsentation für GBI © DIZ München März 2004

12 3. Arbeitsweise Ähnlichkeitsanalysen II: Clustering
Freies / ungerichtetes Clustering: Ziel: eine (Treffer-)Menge von Dokumenten nach Ähnlichkeiten frei gruppieren. Arbeitsweise: bildet Cluster über die Ähnlichkeit der Konzepte von Dokumenten zueinander und fasst die jeweils zwei ähnlichsten Cluster sukzessive zu einem übergeordneten Cluster zusammen. Gerichtetes Clustering: Ziel: eine (Treffer-)Menge von Dokumenten nach Ähnlichkeiten zu vorhandenen (Dossier-)Konzepten gruppieren. Arbeitsweise: bildet Cluster über die Ähnlichkeit der Konzepte von Dokumenten zu den vorhandenen (Dossier-)Konzepten und weist ggf. die Cluster dem Dossier zu. Automatische Klassifizierung – Präsentation für GBI © DIZ München März 2004

13 4. Clustering und Ähnlichkeitsanalysen in der Recherche
Clustern von (Treffer-)Mengen: Formal selektierte Tagesdaten werden zu „Themen des Tages“ geclustert Ergebnislisten von Volltextsuchen werden als Cluster strukturiert „Relevance Feedback“: Trefferlisten werden interaktiv / durch Nutzer-Aktion neu sortiert „Ähnliche Dokumente“ finden: Ein gewähltes Dokument(-Konzept) wird zur Sucheingabe Suchen erweitern („Mehr finden“): Eine (zu) kleine Treffermenge wird zur Sucheingabe Automatische Klassifizierung – Präsentation für GBI © DIZ München März 2004

14 Ähnlichkeitsanalysen in der Recherche: „Themen des Tages“-Cluster
Automatische Klassifizierung – Präsentation für GBI © DIZ München März 2004

15 Ähnlichkeitsanalysen in der Recherche: „weitere Treffer“ eines Clusters
Automatische Klassifizierung – Präsentation für GBI © DIZ München März 2004

16 Recherche: Ergebnis einfache Suche + verbundene Dossiers
Automatische Klassifizierung – Präsentation für GBI © DIZ München März 2004

17 Recherche: „Ähnliche Dokumente“ zu einem Artikel
Automatische Klassifizierung – Präsentation für GBI © DIZ München März 2004

18 Recherche: Dossier-Anzeige
Automatische Klassifizierung – Präsentation für GBI © DIZ München März 2004

19 Recherche: Dossier-Navigation im Wissensnetz
Automatische Klassifizierung – Präsentation für GBI © DIZ München März 2004

20 Recherche: Ergebnis Phrasensuche
Automatische Klassifizierung – Präsentation für GBI © DIZ München März 2004

21 Recherche: Expansion der Treffermenge durch „Mehr finden“
Automatische Klassifizierung – Präsentation für GBI © DIZ München März 2004

22 5. Möglichkeiten und Grenzen: Automatische Klassifizierung
Modulare Kombination statistischer, linguistischer, heuristischer und semantischer Verfahren notwendig. Qualität eines Klassifikators ist indirekt proportional zur Anzahl der Klassifikationen / Notationen. Ein Klassifikator ist nicht selbstlernend. Für (Re-)Training / Update ist immer einer intellektuell erschlossener (Master-)Bestand notwendig. 100% korrekte Zuordnungen durch einen Klassifikator sind nicht möglich. Automatische Klassifizierung – Präsentation für GBI © DIZ München März 2004

23 5. Möglichkeiten und Grenzen: Clustering / Ähnlichkeitsanalysen
Formale Informationserschließung (Verifikation) ist die Basis für valide Informationsdienstleistung. Grosse Treffermengen nach einfacher VT-Suche können mit Clustering-Technologien sinnvoll strukturiert werden. Ähnlichkeitssuche anhand eines spezifischen Dokuments führt zu hervorragenden Treffern. Der Weg zum spezifischen Dokument bleibt mühsam und bedarf der manuellen Suche und intellektuellen Auswahl. Diese wird durch inhaltliche Erschließung wesentlich erleichtert und beschleunigt. Ähnlichkeitsanalysen bändigen die Informationsmengen. Wissen kann nur der Mensch erzeugen. Automatische Klassifizierung – Präsentation für GBI © DIZ München März 2004

24 Vielen Dank für Ihre Aufmerksamkeit. markus. schek@diz-muenchen
Vielen Dank für Ihre Aufmerksamkeit! © DIZ München GmbH 2005 Automatische Klassifizierung – Präsentation für GBI © DIZ München März 2004


Herunterladen ppt "Jahrestagung der ASpB - München"

Ähnliche Präsentationen


Google-Anzeigen