Zeitgeschichte online Recherchieren von 1955 bis 2005 mit modernsten Retrievalkomponenten Rüdiger Baumberger, Content Manager APA-DeFacto ODOK05, Bozen
Die APA-Gruppe
APA-DeFacto einer der mächtigsten Medienhosts im deutschsprachigen Raum ist spezialisiert auf: Individuelle Informationslösungen Qualitative Analyse der Medieninhalte Beschlagwortung und Verknüpfen relevanter Inhalte Aufbau und Integration von Wissensportalen
APA-DeFacto - Datenbankpool Multimediale Datenbanken –175 Agentur-Datenbanken –175 nationale und internationale Zeitungen/Zeitschriften teilweise im Original-Design (PDF) –Firmeninformationen –Bilder, Grafiken, Audios –Termine > 52 Mio. Dokumente Täglich neue Dokumente in Real Time
1849 Oesterreichische Correspondenz Joseph Tuwora 1859 Telegraphen-Korrespondenz-Bureau ab 1867 k.k Amtliche Nachrichtenstelle ANA unter staatlicher Leitung 1938 Zweigstelle Wien des Deutschen Nachrichten-Büros 1946 APA - Austria Presse Agentur 1988 Erste APA-Datenbank Die Geschichte der APA
Das APA-Archiv
Deckblatt des Tagesdossiers vom 1. Jänner 1955
Das Dossier Jochen Rindt
APA
1200 Archivordner 1,3 Millionen Seiten 3 Millionen Meldungen 6 Monate OCR-Durchlauf 250 GB Daten Eckdaten
Spiritusabzüge Endlosdruck Keine Titel und Stichworte Originalnummerierungen nicht verwertbar Fehlbestände Herausforderungen
Rettung des Archivs(?) Lückenlose Digitalisierung des gesamten Bestandes Einbindung in bestehende Retrievalsysteme Recherche im Volltext Faksimile Dossiers Ziele
weltweit einziges digitales Agenturarchiv – Volltext! einmaliges historisches Material Volltextdatenbank inkl. Faksimiles der Originale 52 Dossiers AOM und Ergebnis
APA-OnlineManager (AOM) Recherchetool für Datenbankabfragen Über 7500 User 1500 User gleichzeitig 21 Millionen Recherchen/Suchen pro Jahr 36 Millionen Objekt/Artikel-Abrufe pro Jahr 24 Stunden / 7 Tage Hotline Hohe Ausfallsicherheit durch Unix-Cluster und EMC-Plattensysteme
Bestand versus Nutzung Dokumentbestand reicht zurück bis 1955 Die meisten der Abfragen beziehen sich auf Dokumente der letzten Wochen
Zielsetzung des Projektes mit Know-Center Graz Durch Erweiterung der Suchmöglichkeiten um intelligenten Retrievalkomponenten soll der User –ohne komplexe Suchanfragen schnellstmöglich relevante Treffer erzielen –einen raschen Überblick über die Suchergebnisse bekommen (großer Archivbestand) –weiterführende Informationen zu Suchthema erhalten
Themen Clustering Aussagekräftige Clusterbeschreibungen (Uniwords und Phrasen) –Extraktion aus Volltext –Keine a priori Themenvorgabe Effiziente Implementierung –Clustering von 2000 Artikel dauert etwa 3 Sekunden
Themen-Visualisierung Visualisierung der Treffermenge –basierend auf Clustern –Zeitliche Visualisierung von Themenverläufen –Ein-, zwei- und dreidimensionale Darstellung (Landscape Visualisierung) Navigation in der Treffermenge über die Visualisierungsmetaphern
Ähnlichkeitssuche Suche von ähnlichen Meldungen –Basis ist das Vector Space Model –Extraktion von Schlüsselwörter der aktuellen Meldung Verweis auf weiterführende Dokumente über (semiautomatisch) extrahierte Personen/Firmen
Beispiel: Bibliothekar
Trefferliste mit Visualisierung der Themencluster Anzeige Trefferstatistik Natürlichsprachliche Formulierung der Suchanfrage
Auswahl eines Themas per Mouseclick Link zu weiterführender Information
Auswahl eines Dokumentes und Durchführen einer Ähnlichkeitssuche
Neue Trefferliste, neue Cluste
Herzlichen Dank! Rüdiger Baumberger