Digitale Langzeitarchivierung Internet Universität zu Köln WS 2011/12 Dozent: Prof. Dr. Manfred Thaller AM 2: Digitale Langzeitarchivierung Referentin: Rasa Sommer
Gliederung ● Methoden der Web-Archivierung ● Webarchivierungs-Projekte ● Webarchivierungs Formate
Methoden der Web-Archivierung ● „Domain Harvesting“ ● „Selektives Harvesting“ ● „Event Harvesting“
● Domain Harvesting ● - Sammlung von Startseiten (sog. Seed – URLs) nationalen Webspace ● - nationale gesamte Top-Level Domain ● (z.B. „.de“ für Deutschland) ● - Andere Top-Level Domains mit Deutschland Bezug ● (z.B..com,.org,.net, etc.) ● - Software z.B. Crawler HERITRIX ● -Durchführung im Halbjahres- oder Jahresrhythmus ● Nachteil: ● - Nur Zeitschnitte einer Webseite
● Selektives Harvesting ● - Ausgewählte Seiten, die häufigen Änderungen unterliegen ● - Harvesting in geeigneten Intervallen ● (z.B. täglich, wöchentlich etc.) ● - Inhalte: ● ○ Medien national und regional; ● ○ Gesellschaft, Wirtschaft, Kultur; ● ○ Wissenschaft/Universitäten etc.; ●
● Event Harvesting ● - Spezielle Anläse und Großereignisse ● - Webseiten, die nur für den Zeitraum des Ereignisses ● zur Verfügung stehen ● (z.B. Nationalratswahl, Bundespräsidentenwahl, Olympische Spiele )
Mängel des Harvesting ● Datenbanken werden nicht erfasst ● Keine Inhalte ohne Authentisierung ● Hyperlinks nicht erreichbar
Webarchivierungs-Projekte Internet Archive ● Anfänge der Webarchivierung Brewster Khale 1996 (USA) ● Ziel → „Bibliothek des Internet“ ● Archiviert werden Momentaufnahmen von Webseiten, Filme, Tonaufnahmen, Bücher, Software ● Open Source Software „Heritrix“ durchsucht und ● archiviert Webseiten ● Zugriff auf archivierte Seiten → Wayback Maschine ● Gespeicherte Daten im Archiv ca. 3 Petabyte ● Nachteile: ● Inhalte bleiben erhalten, die Autoren nicht mehr vertreten, sowie rechtswidrige Inhalte ● Wird nicht alles gesichert z.B. Bilder
Formate ● ARC_IA Internet Archive ARC File Format ● - verlustfreie Datenkompression und Archivierung von Daten ● Speichert: Bilder wie GIF,JPEG, HTML-Seiten ect. ● Enthält Header Info: das Dokumentenformat, die Dokumentengröße, Links die das Dokument beinhaltet, etc. ● WARC Web Archive File Format ● - Erweiterung des Formats ARC ● Speichert : auch Metadaten
Quellen ● ● ● ● ● ● ● handbuch_23.pdf handbuch_23.pdf