Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

Wissensnetzwerk „Digitale Langzeitarchivierung“: 3. Arbeitssitzung 15.10.2008, Österreichische Nationalbibliothek 1 Österreich Von der rechtlichen.

Ähnliche Präsentationen


Präsentation zum Thema: "Wissensnetzwerk „Digitale Langzeitarchivierung“: 3. Arbeitssitzung 15.10.2008, Österreichische Nationalbibliothek 1 Österreich Von der rechtlichen."—  Präsentation transkript:

1 Wissensnetzwerk „Digitale Langzeitarchivierung“: 3. Arbeitssitzung , Österreichische Nationalbibliothek 1 Österreich Von der rechtlichen Basis bis zur Umsetzung Michaela Mayr Österreichische Nationalbibliothek

2 Wissensnetzwerk „Digitale Langzeitarchivierung“: 3. Arbeitssitzung , Österreichische Nationalbibliothek 2 Umfeld Rechtliche Basis in Ö: Mediengesetz Mitgliedschaft beim International Internet Preservation Consortium Internet Archive (www.archive.org) USA, Gründung 1996 –Derzeit ca. 2 Petabyte Daten –Zuwachs von 20 Terabyte/Monat –85 Milliarden Seiten

3 Wissensnetzwerk „Digitale Langzeitarchivierung“: 3. Arbeitssitzung , Österreichische Nationalbibliothek 3 Eine kleine Zeitreise (1) BKA Juli 1997 Quelle:

4 Wissensnetzwerk „Digitale Langzeitarchivierung“: 3. Arbeitssitzung , Österreichische Nationalbibliothek 4 Eine kleine Zeitreise (2) BKA Jänner 2001 Quelle:

5 Wissensnetzwerk „Digitale Langzeitarchivierung“: 3. Arbeitssitzung , Österreichische Nationalbibliothek 5 Eine kleine Zeitreise (3) BKA Februar 2007 Quelle:

6 Wissensnetzwerk „Digitale Langzeitarchivierung“: 3. Arbeitssitzung , Österreichische Nationalbibliothek 6 Strategien (1) Domain Harvesting –Gesamte Top-Level-Domain.at (Stand Okt. 2008: ca Domains, Quelle: nic.at) –andere Top-Level-Domains, die geografisch in Österreich angesiedelt sind, –Seiten mit Österreich-Bezug –Durchführung 1-2mal pro Jahr

7 Wissensnetzwerk „Digitale Langzeitarchivierung“: 3. Arbeitssitzung , Österreichische Nationalbibliothek 7 Entwicklung.at Domain Quelle: nic.at

8 Wissensnetzwerk „Digitale Langzeitarchivierung“: 3. Arbeitssitzung , Österreichische Nationalbibliothek 8 Strategien (2) Selektives Harvesting –Ausgewählte Seiten, die häufigen Änderungen unterliegen –Harvesting in geeigneten Intervallen –Inhalte: Medien national und regional, dynamische Seiten aus den Bereichen Gesellschaft, Wirtschaft, Kultur, Verwaltung/Behörden, Wissenschaft/Universitäten sowie experimentelle und/oder einzigartige Webseiten zur Dokumentation von neuen Techniken (z.B. net art).

9 Wissensnetzwerk „Digitale Langzeitarchivierung“: 3. Arbeitssitzung , Österreichische Nationalbibliothek 9 Strategien (3) Event Harvesting –Spezielle Anlässe und Großereignisse (z.B. Wahlen) –Webseiten, die nur für den Zeitraum des Ereignisses zur Verfügung stehen –Derzeit Nationalratswahl 2008

10 Wissensnetzwerk „Digitale Langzeitarchivierung“: 3. Arbeitssitzung , Österreichische Nationalbibliothek 10 Zeitplan Derzeit Pilotphase (nicht öffentlich zugänglich) Permanentes Service ab 2009 Domain Harvesting: ab 2009 (abhängig vom Mediengesetz) Selektives Harvesting: ab 2009 (abhängig vom Mediengesetz) Event Harvesting: –EURO 2008: Beginn 2 Wochen vor EURO, Ende 2 Wochen nach EURO –Neuwahlen: Beginn („Es reicht!“) Ende mit neuer Regierung

11 Wissensnetzwerk „Digitale Langzeitarchivierung“: 3. Arbeitssitzung , Österreichische Nationalbibliothek 11 Infrastruktur Hardware –4 Maschinen zum Harvesting –Ab 2009 weitere 2 Maschinen zur Indexierung –Ab 2009 Speicher BRZ –Zusätzliche Kopie der Daten im Hochsicherheits- Datenspeicher des Bundes in St. Johann im Pongau Software - ausschließlich Open Source –Sammlung: NetarchiveSuite, Crawler Heritrix –Anzeige: Wayback Machine –Volltextsuche: NutchWAX Personal –2,5 VZÄ

12 Wissensnetzwerk „Digitale Langzeitarchivierung“: 3. Arbeitssitzung , Österreichische Nationalbibliothek 12 Workflow

13 Wissensnetzwerk „Digitale Langzeitarchivierung“: 3. Arbeitssitzung , Österreichische Nationalbibliothek 13 EURO 2008 Zeitraum: Inhalte – 78 Domains, 171 Seeds: –Offizielle Seiten, z.B. Host Cities, Österr. Fußballbund, Ministerien, Sicherheitskräfte, etc. –Unternehmensseiten mit speziellen Produkten/Services – z.B. Bahn, Post, Sponsoren –ORF –Sportportale –Seiten der Nationalspieler –private Seiten Durchlauf täglich, sport.orf.at alle 4h Ca. 160 GB Daten gesammelt (inkl. Dublettenabgleich, 10 GB Logs) Ca. 12,4 Mio. Dateien Keine Rückmeldung von Seitenbetreibern

14 Wissensnetzwerk „Digitale Langzeitarchivierung“: 3. Arbeitssitzung , Österreichische Nationalbibliothek 14 Verteilung nach Anzahl Text: HTML, CSS, XML etc. Application: pdf, zip, Flash, MS Office, Javascript etc.

15 Wissensnetzwerk „Digitale Langzeitarchivierung“: 3. Arbeitssitzung , Österreichische Nationalbibliothek 15 Verteilung nach Speicherbedarf Text: HTML, CSS, XML etc. Application: pdf, zip, Flash, MS Office, Javascript etc.

16 Wissensnetzwerk „Digitale Langzeitarchivierung“: 3. Arbeitssitzung , Österreichische Nationalbibliothek 16 Nationalratswahl 2008 Zeitraum: – neue Regierung Inhalte – 55 Domains / 154 Seeds: –Parteien –Ministerien, Parlament, help.gv.at –Medien: ORF, div. Tageszeitungen –Wahlblogs Durchlauf täglich Bisher ca. 102 GB Daten gesammelt (inkl. Dublettenabgleich, 8 GB Logs) Ca. 7,8 Mio. Dateien Keine Rückmeldung von Seitenbetreibern

17 Wissensnetzwerk „Digitale Langzeitarchivierung“: 3. Arbeitssitzung , Österreichische Nationalbibliothek 17 Verteilung nach Anzahl Text: HTML, CSS, XML etc. Application: pdf, zip, Flash, MS Office, Javascript etc.

18 Wissensnetzwerk „Digitale Langzeitarchivierung“: 3. Arbeitssitzung , Österreichische Nationalbibliothek 18 Verteilung nach Speicherbedarf Text: HTML, CSS, XML etc. Application: pdf, zip, Flash, MS Office, Javascript etc.

19 Wissensnetzwerk „Digitale Langzeitarchivierung“: 3. Arbeitssitzung , Österreichische Nationalbibliothek 19 Demonstration Applikation Seedliste EURO Unterschiedliche Zeitpunkte: –Archivversion –Archivversion –Archivversion Navigation mit Zeitleiste Volltextsuche

20 Wissensnetzwerk „Digitale Langzeitarchivierung“: 3. Arbeitssitzung , Österreichische Nationalbibliothek 20 Herausforderungen Steigende Datenmengen  Ressourcen Kurze Lebenszeit von Internet-Seiten: durchschnittlich 44 Tage (Quelle: Library of Congress)  Informationsverlust Neue Technologien  Reaktionszeit, Qualität Spam, Viren  Ressourcen, Qualität Langzeitarchivierung  Migration, Emulation?

21 Wissensnetzwerk „Digitale Langzeitarchivierung“: 3. Arbeitssitzung , Österreichische Nationalbibliothek 21 Herzlichen Dank für Ihre Aufmerksamkeit!


Herunterladen ppt "Wissensnetzwerk „Digitale Langzeitarchivierung“: 3. Arbeitssitzung 15.10.2008, Österreichische Nationalbibliothek 1 Österreich Von der rechtlichen."

Ähnliche Präsentationen


Google-Anzeigen