Präsentation herunterladen
Die Präsentation wird geladen. Bitte warten
Veröffentlicht von:Adeltrudis Schlueter Geändert vor über 10 Jahren
1
Zeitgeschichte online Recherchieren von 1955 bis 2005 mit modernsten Retrievalkomponenten Rüdiger Baumberger, Content Manager APA-DeFacto ODOK05, Bozen
2
Die APA-Gruppe
3
APA-DeFacto einer der mächtigsten Medienhosts im deutschsprachigen Raum ist spezialisiert auf: Individuelle Informationslösungen Qualitative Analyse der Medieninhalte Beschlagwortung und Verknüpfen relevanter Inhalte Aufbau und Integration von Wissensportalen
4
APA-DeFacto - Datenbankpool Multimediale Datenbanken –175 Agentur-Datenbanken –175 nationale und internationale Zeitungen/Zeitschriften teilweise im Original-Design (PDF) –Firmeninformationen –Bilder, Grafiken, Audios –Termine > 52 Mio. Dokumente Täglich 60.000 neue Dokumente in Real Time
6
1849 Oesterreichische Correspondenz Joseph Tuwora 1859 Telegraphen-Korrespondenz-Bureau ab 1867 k.k. 1922 Amtliche Nachrichtenstelle ANA unter staatlicher Leitung 1938 Zweigstelle Wien des Deutschen Nachrichten-Büros 1946 APA - Austria Presse Agentur 1988 Erste APA-Datenbank Die Geschichte der APA
7
Das APA-Archiv
9
Deckblatt des Tagesdossiers vom 1. Jänner 1955
10
Das Dossier Jochen Rindt
11
APA 02.07.1960
12
1200 Archivordner 1,3 Millionen Seiten 3 Millionen Meldungen 6 Monate OCR-Durchlauf 250 GB Daten Eckdaten
13
Spiritusabzüge Endlosdruck Keine Titel und Stichworte Originalnummerierungen nicht verwertbar Fehlbestände Herausforderungen
14
Rettung des Archivs(?) Lückenlose Digitalisierung des gesamten Bestandes Einbindung in bestehende Retrievalsysteme Recherche im Volltext Faksimile Dossiers Ziele
15
weltweit einziges digitales Agenturarchiv – Volltext! einmaliges historisches Material Volltextdatenbank inkl. Faksimiles der Originale 52 Dossiers AOM und www.defacto.at Ergebnis
16
APA-OnlineManager (AOM) Recherchetool für Datenbankabfragen Über 7500 User 1500 User gleichzeitig 21 Millionen Recherchen/Suchen pro Jahr 36 Millionen Objekt/Artikel-Abrufe pro Jahr 24 Stunden / 7 Tage Hotline Hohe Ausfallsicherheit durch Unix-Cluster und EMC-Plattensysteme
17
Bestand versus Nutzung Dokumentbestand reicht zurück bis 1955 Die meisten der Abfragen beziehen sich auf Dokumente der letzten Wochen
18
Zielsetzung des Projektes mit Know-Center Graz Durch Erweiterung der Suchmöglichkeiten um intelligenten Retrievalkomponenten soll der User –ohne komplexe Suchanfragen schnellstmöglich relevante Treffer erzielen –einen raschen Überblick über die Suchergebnisse bekommen (großer Archivbestand) –weiterführende Informationen zu Suchthema erhalten
19
Themen Clustering Aussagekräftige Clusterbeschreibungen (Uniwords und Phrasen) –Extraktion aus Volltext –Keine a priori Themenvorgabe Effiziente Implementierung –Clustering von 2000 Artikel dauert etwa 3 Sekunden
20
Themen-Visualisierung Visualisierung der Treffermenge –basierend auf Clustern –Zeitliche Visualisierung von Themenverläufen –Ein-, zwei- und dreidimensionale Darstellung (Landscape Visualisierung) Navigation in der Treffermenge über die Visualisierungsmetaphern
21
Ähnlichkeitssuche Suche von ähnlichen Meldungen –Basis ist das Vector Space Model –Extraktion von Schlüsselwörter der aktuellen Meldung Verweis auf weiterführende Dokumente über (semiautomatisch) extrahierte Personen/Firmen
22
Beispiel: Bibliothekar
24
Trefferliste mit Visualisierung der Themencluster Anzeige Trefferstatistik Natürlichsprachliche Formulierung der Suchanfrage
25
Auswahl eines Themas per Mouseclick Link zu weiterführender Information
28
Auswahl eines Dokumentes und Durchführen einer Ähnlichkeitssuche
29
Neue Trefferliste, neue Cluste
30
Herzlichen Dank! Rüdiger Baumberger ruediger.baumberger@apa.at www.apa-defacto.at www.defacto.at
Ähnliche Präsentationen
© 2024 SlidePlayer.org Inc.
All rights reserved.