Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

Digitale Langzeitarchivierung Internet Universität zu Köln WS 2011/12 Dozent: Prof. Dr. Manfred Thaller AM 2: Digitale Langzeitarchivierung Referentin:

Ähnliche Präsentationen


Präsentation zum Thema: "Digitale Langzeitarchivierung Internet Universität zu Köln WS 2011/12 Dozent: Prof. Dr. Manfred Thaller AM 2: Digitale Langzeitarchivierung Referentin:"—  Präsentation transkript:

1 Digitale Langzeitarchivierung Internet Universität zu Köln WS 2011/12 Dozent: Prof. Dr. Manfred Thaller AM 2: Digitale Langzeitarchivierung Referentin: Rasa Sommer

2 Gliederung ● Methoden der Web-Archivierung ● Webarchivierungs-Projekte ● Webarchivierungs Formate

3

4 Methoden der Web-Archivierung ● „Domain Harvesting“ ● „Selektives Harvesting“ ● „Event Harvesting“

5 ● Domain Harvesting ● - Sammlung von Startseiten (sog. Seed – URLs) nationalen Webspace ● - nationale gesamte Top-Level Domain ● (z.B. „.de“ für Deutschland) ● - Andere Top-Level Domains mit Deutschland Bezug ● (z.B..com,.org,.net, etc.) ● - Software z.B. Crawler HERITRIX ● -Durchführung im Halbjahres- oder Jahresrhythmus ● Nachteil: ● - Nur Zeitschnitte einer Webseite

6 ● Selektives Harvesting ● - Ausgewählte Seiten, die häufigen Änderungen unterliegen ● - Harvesting in geeigneten Intervallen ● (z.B. täglich, wöchentlich etc.) ● - Inhalte: ● ○ Medien national und regional; ● ○ Gesellschaft, Wirtschaft, Kultur; ● ○ Wissenschaft/Universitäten etc.; ●

7 ● Event Harvesting ● - Spezielle Anläse und Großereignisse ● - Webseiten, die nur für den Zeitraum des Ereignisses ● zur Verfügung stehen ● (z.B. Nationalratswahl, Bundespräsidentenwahl, Olympische Spiele )

8 Mängel des Harvesting ● Datenbanken werden nicht erfasst ● Keine Inhalte ohne Authentisierung ● Hyperlinks nicht erreichbar

9 Webarchivierungs-Projekte Internet Archive ● Anfänge der Webarchivierung Brewster Khale 1996 (USA) ● Ziel → „Bibliothek des Internet“ ● Archiviert werden Momentaufnahmen von Webseiten, Filme, Tonaufnahmen, Bücher, Software ● Open Source Software „Heritrix“ durchsucht und ● archiviert Webseiten ● Zugriff auf archivierte Seiten → Wayback Maschine ● Gespeicherte Daten im Archiv ca. 3 Petabyte ● Nachteile: ● Inhalte bleiben erhalten, die Autoren nicht mehr vertreten, sowie rechtswidrige Inhalte ● Wird nicht alles gesichert z.B. Bilder

10 Formate ● ARC_IA Internet Archive ARC File Format ● - verlustfreie Datenkompression und Archivierung von Daten ● Speichert: Bilder wie GIF,JPEG, HTML-Seiten ect. ● Enthält Header Info: das Dokumentenformat, die Dokumentengröße, Links die das Dokument beinhaltet, etc. ● WARC Web Archive File Format ● - Erweiterung des Formats ARC ● Speichert : auch Metadaten

11 Quellen ● ● ● ● ● ● ● handbuch_23.pdf handbuch_23.pdf


Herunterladen ppt "Digitale Langzeitarchivierung Internet Universität zu Köln WS 2011/12 Dozent: Prof. Dr. Manfred Thaller AM 2: Digitale Langzeitarchivierung Referentin:"

Ähnliche Präsentationen


Google-Anzeigen