Jahrestagung der ASpB - München

Slides:



Advertisements
Ähnliche Präsentationen
Einsatz neuer Technologien auf dem Slavistik-Portal Ivo Ulrich, Staatsbibliothek zu Berlin 32. ABDOS-Tagung, Martin (Slowakei), 19. Mai 2009.
Advertisements

Projekt GEMRISDOK „Gemeinderecht im RIS und GEMRISDOK Gemeinderechtsdokumentation online“ 28. September 2005, Linz Kärntner Verwaltungsakademie,
Die neue Sulzer Website Internet Core Team | Juli 2012.
Kohonennetze für Information Retrieval mit User Feedback
Der Prototyp des Verbundfindmittels – Aufbau und Funktionen Kerstin ArnoldErfurt, 16. September 2008 DFG-Projekt "Ausbau des Netzwerks SED-Archivgut zu.
12. Jahrestagung der IuK 28. September 2006, Göttingen
1 Das Presseportal als Werkzeug für die Pressearbeit und Presserecherche Der Einsatz von Datenbank-Hyperlinks zur Vernetzung von Presseartikeln.
PADLR Submodul Modular Content Archives Ein Content Browser für Lehr- materialien aus der Elektrotechnik Dipl.-Ing. Mark Painter Institut für Nachrichtentechnik.
Forum Information and Communication in Mathematics Jahrestagung der ÖMG/DMV Graz.
Einsatz neuer Technologien bei der Virtuellen Fachbibliothek Slavistik Ivo Ulrich, Staatsbibliothek zu Berlin 98. Bibliothekartag, Erfurt, 3. Juni 2009.
WS 05/06Automatische Akquisition linguistischen Wissens1 Partielles Wissen erweitern 1.Zusammenhang mit bisherigen Algorithmen 2.Vom offensichtlichen zum.
Inhaltlich orientierter Zugriff auf unstrukturierte Daten
Digitale Bibliotheken
Leistungszentren für Forschungsinformation II – Sicherung und Bereitstellung von Textquellen und Primärdaten DINI – AG Informationsmanagement Essen, 17.
„Philosopher‘s Index“ by OvidSP
Literaturverwaltung und Wissensorganisation
FH-Hof Effizienz - Grundlagen Richard Göbel. FH-Hof Inhalt Einführung Aufwand für Anfragen ohne Indexierung Indexstrukturen für Anfragen an eine Tabelle.
Anfragesprachen – Dipl. Ing. Ulrich Borchert / FH Merseburg1/7 Information Retrieval auf Texten An ihre Grenzen stoßen relationale Datenbanken bei der.
Anfragesprachen – Dipl. Ing. Ulrich Borchert / FH Merseburg1/4 Manuelle Verfahren Klassifizierung Hier werden Dokumente in ein fest vorgegebenes System.
PinK Plattform für intelligente Kollaborationsportale Dr. Joachim Quantz, e.V. Berlin, 13. September 2005.
DER SPEZIALIST FÜR IHRE INFORMATIONSARCHITEKTUR neofonie neofonie Forschung und Entwicklung: Innovative Suchmethoden Präsentiert von Ronald.
Erzeugung von Fahrgemeinschaftsplänen für Lehrer
Qualitätskriterien zur Beurteilung von Dokumentationen
Relevanz Ranking Bisher: Sind wir davon ausgegangen, dass das Ergebnis des Rankings des statistischen Verfahrens in den Index geschrieben wird und dem.
Relevanz Ranking Bisher:
Qualität einer Dokumentation Relevanz- und Vollständigkeitsrate
Die Inhalte der STARK Loseblatt-Sammlungen und vielfältige Zusatzangebote gibt es für Abonnentinnen und Abonnenten ab sofort auch im Internet zum.
Grundschutztools
1 Nutzen Sie diese Powerpoint-Präsentation beim Selbstlernen oder in Veranstaltungen zur Einführung in das jeweilige Thema. Einführung Lernmodul Nutzungsbedingungen:
Entitäten Extraktion Wichtige Schritte Petra Maier WS 05/06.
Arbeiten im Content Management System (CMS) Komplette Web- Seite mit Bildern und Dokumenten.
Vom Image zum Volltext – Texterkennung im Projekt „OstDok“
GlobalStorehouseGlobalStorehouse Institut für Modellbildung und Simulation IMS Bemerkung: Mit diesem "MB" und "WBM" lässt sich der ganze Zyklus abdecken.
Der Einsatz des Linksolvers in der ThULB – verbesserter Service für den Bibliotheksnutzer.
Beispiel FREIANLAGEN Terrasse.
Wolfgang Heymans Bibliotheksservice-Zentrum Baden-Württemberg
Datenbanken finden und nutzen
Christian Schulz, Marc Thielbeer, Sebastian Boldt
Dokumentenerstellung mit rs&p-Dossier - kurze Programmvorstellung -
BASE Bauverwaltung eGovernment Bauverwaltung - ONLINE Copyright © Boll und Partner Software GmbH klick für weiter.
Entwurf und Realisierung einer digitalen Bibliothek zur Verwaltung von Notenhandschriften Dipl.-Ing. Temenushka Ignatova Datenbank- und Informationssysteme,
Beispiel HOCHBAU Umkehrdach.
Tipps für die Einfache Suche. Setzt du deine zusammengehörigen Suchbegriffe in Anführungszeichen, erhältst du dann nur jene Ergebnisse die genau die eingegebene.
Suchen im Internet - Systematisch !!!
Fehlerlösungen für Installateure per Handy oder Internet.
BarMix Die Software zur Organisation Ihrer Cocktailbar.
Zeitgeschichte online Recherchieren von 1955 bis 2005 mit modernsten Retrievalkomponenten Rüdiger Baumberger, Content Manager APA-DeFacto ODOK05, Bozen.
Folie 1 © IAB Austria, Presseinformation Roland M. Kreutzer, 4/2005.
1 Nutzen Sie diese Powerpoint-Präsentation beim Selbstlernen oder in Veranstaltungen zur Einführung in das jeweilige Thema. Einführung Lernmodul Nutzungsbedingungen:
Publikation auf Knopfdruck Judith Riegelnig Michael Grüebler 19. Oktober 2010 / Statistiktage Neuenburg.
Liske Informationsmanagementsysteme 2005 Informationen managen Strategisches Kalkül und technische Wirksamkeit.
Copyright: Vomicon GmbH, Oer-Erkenschwick - orgAnice Application Day, Import externer Dokumente in orgAnice Pi - Datenbanken.
Berufsbild InformationsmanagerIn / InformationsspezialistIn
TamaraArchiv TamaraArchive Volltextsuche Die optionale Volltextsuche in Tamara-Archiv ist eine funktionale Erweiterung der hierarchischen Suchstruktur.
Pfad Akt.Nr.: xxxx/xxxxx/xxxx Analyse Medizinischer Freitexte Lukas Faulstich, ID GmbH & Co. KGaA Projekttreffen ByMedConnect | München,
Die Management-Tools von Z&H COACH beinhalten zentrale Hilfsmittel für ein Management-System. Sorgfältig angewendet führen diese Tools Ihr Unternehmen.
Neue Medien Geschichte - Hagen Februar 2004
IT Zertifikat Dedizierte Systeme Dozentin: S. Kurz CMS Content Management Systeme Anwendungsbereiche, Grenzen, Möglichkeiten Blockseminar März 2009.
1 Referenten: M.Damm Web Was ist dran? Neue Dot-Com Blase oder echte Chance? Web 2.0.
Oracle Portal think fast. think simple. think smart. Dieter Lorenz, Christian Witt.
MareNet Marine Research Institutions & Documents Worldwide Ein elektronischer Informationsdienst für die Meeresforschung Michael Hohlfeld, Institute for.
1 Wolfgang Wiese, Regionales RechenZentrum Erlangen WCMS 3. August 2000 Wolfgang Wiese RRZE / Lehrstuhl für Informatik VII
Topic Maps: Personal Brain
SGML, die Basis für eine optimierte Produktion von Windows-Online- Hilfen Thomas Bergerhoff, Tanner Dokuments Nürnberg.
Einleitung NEVARIS FINANCE ist das ideale Programm für mittlere und größere Baufirmen. In Verbindung mit unseren zuverlässigen DMS- Ergänzungen (DMS =
© Verkaufsentwicklung / Anzeigen und Marketing Kleine Zeitung ARGUMENTATIONSLEITFADEN Upselling-Produkte willhaben.at/immobilien.
E-Archiv Durch die Präsentation führt sie: Jack Kraus ScanView ist ein Produkt der Allgeier IT GmbH (Feb 2010)
CL Tree MW 31.1 Business Intelligence Wintersemester 2015 / 2016 Stanislav Prokupetz.
BUNDESANSTALT FÜR WASSERBAU Karlsruhe Hamburg Ilmenau BAW - DH / NOKIS Folie-Nr. 1 NOKIS-Workshop 10. und 11. März 2004 FTZ Westküste der CAU Kiel,
 Präsentation transkript:

Automatische Klassifizierung in Erschließung und Recherche eines Pressearchivs Jahrestagung der ASpB - München 8.9.2005 Markus Schek, DIZ München GmbH – Süddeutsche Zeitung Automatische Klassifizierung – Präsentation für GBI © DIZ München März 2004

Gliederung Automatische Klassifizierung in Produktion Wissensnetz-Visualisierung in Produktion Arbeitsweise Ähnlichkeitsanalysen Clustering in der Recherche Möglichkeiten und Grenzen Automatische Klassifizierung – Präsentation für GBI © DIZ München März 2004

DIZ und Süddeutsche Zeitung Dokumentation der Süddeutschen Zeitung Archivierung und Erschließung der SZ und zahlreicher nationaler und internationaler Publikationen DIZ-Pressedatenbank für Recherche im Intra- und Internet für Redakteure, Dokumentare und Externe Recherchedienstleistungen für die Redaktionen der SZ Vermarktung der Süddeutsche Zeitung-Daten (Verlage, Rundfunkanstalten, Content-Broker, Portale, Hosts ...) Automatische Klassifizierung – Präsentation für GBI © DIZ München März 2004

Zielvorgaben / Planung Bisher: Qualität der Erschließung sichern mit reduzierten Kapazitäten Einsatz Automatische Klassifizierung und Visualisierung: Produktivitätssteigerung im Lektorat Zukünftig: Service in der Recherche erhöhen mit gleichbleibenden Kapazitäten Weitere Automatisierung/Produktivitätssteigerung im Lektorat: Verlagerung Kapazitäten in die Recherche Verbesserte Recherche-Werkzeuge: schnellere und zielgenauere (Eigen-) Recherche Automatische Klassifizierung – Präsentation für GBI © DIZ München März 2004

1. Automatische Klassifizierung in Produktion Seit 01/2004 auf Basis 90.000 DIZ-Dossiers Vorschläge werden mit Relevanzwert in XML-Artikeldaten SZ / Fremdpresse geschrieben und im Lektorat von Dokumentaren übernommen, ergänzt oder verworfen Integrierter Workflow mit Wissensnetz-Visualisierung Laufendes Retraining der manuellen Erschließung Steigerung des Gesamt-Recall seit Inbetriebnahme auf 75% Produktivitätssteigerung je Lektoratskapazität 47% Automatische Klassifizierung – Präsentation für GBI © DIZ München März 2004

Lektorat Dossierstruktur Automatische Klassifizierung – Präsentation für GBI © DIZ München März 2004

2. Wissensnetz-Visualisierung in Produktion Seit 02/2004 Visualisierung des DIZ-Wissensnetzes mit hierarchisch verlinkten Dossiers Darstellungskomplexität parametrierbar Verknüpfung mit DIZ-Pressedatenbank für Artikel-Anzeige, Ablage, Lektorat Recherche intuitiv und assoziativ, performanter Lektorat ohne Zwischen-Ablage, performanter Automatische Klassifizierung – Präsentation für GBI © DIZ München März 2004

Automatische Klassifizierung – Präsentation für GBI © DIZ München März 2004

Automatische Klassifizierung – Präsentation für GBI © DIZ München März 2004

Automatische Klassifizierung – Präsentation für GBI © DIZ München März 2004

3. Arbeitsweise Ähnlichkeitsanalysen I: Categorizer Recall-optimierter Categorizer: Ziel „Vollständigkeit“: möglichst viele der korrekten Klassifizierungen vorschlagen. Arbeitsweise: analysiert für ein unklassifiziertes Dokument seine Ähnlichkeit zu den bisher (manuell) klassifizierten Dokumenten. Die Klassifizierung der ähnlichsten Dokumente (=Dossier-Zuordnung) wird für das unklassifizierte Dokument vorgeschlagen. Die Ähnlichkeitsbewertung erfolgt aufgrund des für jedes Dokument (bei der Indexierung) berechneten sog. Dokument-Konzepts. Precision-optimierter Categorizer: Ziel „Genauigkeit“: möglichst viele der vorgeschlagenen Klassifizierungen sind korrekt. Arbeitsweise: analysiert für ein unklassifiziertes Dokument seine Ähnlichkeit zu den vorhandenen Klassifizierungen (= DIZ-Dossiers) und schlägt die ähnlichsten vor. Die Dossier-Konzepte werden anhand der (manuell) zugeordneten Artikel berechnet. Automatische Klassifizierung – Präsentation für GBI © DIZ München März 2004

3. Arbeitsweise Ähnlichkeitsanalysen II: Clustering Freies / ungerichtetes Clustering: Ziel: eine (Treffer-)Menge von Dokumenten nach Ähnlichkeiten frei gruppieren. Arbeitsweise: bildet Cluster über die Ähnlichkeit der Konzepte von Dokumenten zueinander und fasst die jeweils zwei ähnlichsten Cluster sukzessive zu einem übergeordneten Cluster zusammen. Gerichtetes Clustering: Ziel: eine (Treffer-)Menge von Dokumenten nach Ähnlichkeiten zu vorhandenen (Dossier-)Konzepten gruppieren. Arbeitsweise: bildet Cluster über die Ähnlichkeit der Konzepte von Dokumenten zu den vorhandenen (Dossier-)Konzepten und weist ggf. die Cluster dem Dossier zu. Automatische Klassifizierung – Präsentation für GBI © DIZ München März 2004

4. Clustering und Ähnlichkeitsanalysen in der Recherche Clustern von (Treffer-)Mengen: Formal selektierte Tagesdaten werden zu „Themen des Tages“ geclustert Ergebnislisten von Volltextsuchen werden als Cluster strukturiert „Relevance Feedback“: Trefferlisten werden interaktiv / durch Nutzer-Aktion neu sortiert „Ähnliche Dokumente“ finden: Ein gewähltes Dokument(-Konzept) wird zur Sucheingabe Suchen erweitern („Mehr finden“): Eine (zu) kleine Treffermenge wird zur Sucheingabe Automatische Klassifizierung – Präsentation für GBI © DIZ München März 2004

Ähnlichkeitsanalysen in der Recherche: „Themen des Tages“-Cluster Automatische Klassifizierung – Präsentation für GBI © DIZ München März 2004

Ähnlichkeitsanalysen in der Recherche: „weitere Treffer“ eines Clusters Automatische Klassifizierung – Präsentation für GBI © DIZ München März 2004

Recherche: Ergebnis einfache Suche + verbundene Dossiers Automatische Klassifizierung – Präsentation für GBI © DIZ München März 2004

Recherche: „Ähnliche Dokumente“ zu einem Artikel Automatische Klassifizierung – Präsentation für GBI © DIZ München März 2004

Recherche: Dossier-Anzeige Automatische Klassifizierung – Präsentation für GBI © DIZ München März 2004

Recherche: Dossier-Navigation im Wissensnetz Automatische Klassifizierung – Präsentation für GBI © DIZ München März 2004

Recherche: Ergebnis Phrasensuche Automatische Klassifizierung – Präsentation für GBI © DIZ München März 2004

Recherche: Expansion der Treffermenge durch „Mehr finden“ Automatische Klassifizierung – Präsentation für GBI © DIZ München März 2004

5. Möglichkeiten und Grenzen: Automatische Klassifizierung Modulare Kombination statistischer, linguistischer, heuristischer und semantischer Verfahren notwendig. Qualität eines Klassifikators ist indirekt proportional zur Anzahl der Klassifikationen / Notationen. Ein Klassifikator ist nicht selbstlernend. Für (Re-)Training / Update ist immer einer intellektuell erschlossener (Master-)Bestand notwendig. 100% korrekte Zuordnungen durch einen Klassifikator sind nicht möglich. Automatische Klassifizierung – Präsentation für GBI © DIZ München März 2004

5. Möglichkeiten und Grenzen: Clustering / Ähnlichkeitsanalysen Formale Informationserschließung (Verifikation) ist die Basis für valide Informationsdienstleistung. Grosse Treffermengen nach einfacher VT-Suche können mit Clustering-Technologien sinnvoll strukturiert werden. Ähnlichkeitssuche anhand eines spezifischen Dokuments führt zu hervorragenden Treffern. Der Weg zum spezifischen Dokument bleibt mühsam und bedarf der manuellen Suche und intellektuellen Auswahl. Diese wird durch inhaltliche Erschließung wesentlich erleichtert und beschleunigt. Ähnlichkeitsanalysen bändigen die Informationsmengen. Wissen kann nur der Mensch erzeugen. Automatische Klassifizierung – Präsentation für GBI © DIZ München März 2004

Vielen Dank für Ihre Aufmerksamkeit. markus. schek@diz-muenchen Vielen Dank für Ihre Aufmerksamkeit! markus.schek@diz-muenchen.de markus.schek@sueddeutsche.de © DIZ München GmbH 2005 Automatische Klassifizierung – Präsentation für GBI © DIZ München März 2004