Wissensnetzwerk „Digitale Langzeitarchivierung“: 3. Arbeitssitzung , Österreichische Nationalbibliothek 1 Österreich Von der rechtlichen Basis bis zur Umsetzung Michaela Mayr Österreichische Nationalbibliothek
Wissensnetzwerk „Digitale Langzeitarchivierung“: 3. Arbeitssitzung , Österreichische Nationalbibliothek 2 Umfeld Rechtliche Basis in Ö: Mediengesetz Mitgliedschaft beim International Internet Preservation Consortium Internet Archive ( USA, Gründung 1996 –Derzeit ca. 2 Petabyte Daten –Zuwachs von 20 Terabyte/Monat –85 Milliarden Seiten
Wissensnetzwerk „Digitale Langzeitarchivierung“: 3. Arbeitssitzung , Österreichische Nationalbibliothek 3 Eine kleine Zeitreise (1) BKA Juli 1997 Quelle:
Wissensnetzwerk „Digitale Langzeitarchivierung“: 3. Arbeitssitzung , Österreichische Nationalbibliothek 4 Eine kleine Zeitreise (2) BKA Jänner 2001 Quelle:
Wissensnetzwerk „Digitale Langzeitarchivierung“: 3. Arbeitssitzung , Österreichische Nationalbibliothek 5 Eine kleine Zeitreise (3) BKA Februar 2007 Quelle:
Wissensnetzwerk „Digitale Langzeitarchivierung“: 3. Arbeitssitzung , Österreichische Nationalbibliothek 6 Strategien (1) Domain Harvesting –Gesamte Top-Level-Domain.at (Stand Okt. 2008: ca Domains, Quelle: nic.at) –andere Top-Level-Domains, die geografisch in Österreich angesiedelt sind, –Seiten mit Österreich-Bezug –Durchführung 1-2mal pro Jahr
Wissensnetzwerk „Digitale Langzeitarchivierung“: 3. Arbeitssitzung , Österreichische Nationalbibliothek 7 Entwicklung.at Domain Quelle: nic.at
Wissensnetzwerk „Digitale Langzeitarchivierung“: 3. Arbeitssitzung , Österreichische Nationalbibliothek 8 Strategien (2) Selektives Harvesting –Ausgewählte Seiten, die häufigen Änderungen unterliegen –Harvesting in geeigneten Intervallen –Inhalte: Medien national und regional, dynamische Seiten aus den Bereichen Gesellschaft, Wirtschaft, Kultur, Verwaltung/Behörden, Wissenschaft/Universitäten sowie experimentelle und/oder einzigartige Webseiten zur Dokumentation von neuen Techniken (z.B. net art).
Wissensnetzwerk „Digitale Langzeitarchivierung“: 3. Arbeitssitzung , Österreichische Nationalbibliothek 9 Strategien (3) Event Harvesting –Spezielle Anlässe und Großereignisse (z.B. Wahlen) –Webseiten, die nur für den Zeitraum des Ereignisses zur Verfügung stehen –Derzeit Nationalratswahl 2008
Wissensnetzwerk „Digitale Langzeitarchivierung“: 3. Arbeitssitzung , Österreichische Nationalbibliothek 10 Zeitplan Derzeit Pilotphase (nicht öffentlich zugänglich) Permanentes Service ab 2009 Domain Harvesting: ab 2009 (abhängig vom Mediengesetz) Selektives Harvesting: ab 2009 (abhängig vom Mediengesetz) Event Harvesting: –EURO 2008: Beginn 2 Wochen vor EURO, Ende 2 Wochen nach EURO –Neuwahlen: Beginn („Es reicht!“) Ende mit neuer Regierung
Wissensnetzwerk „Digitale Langzeitarchivierung“: 3. Arbeitssitzung , Österreichische Nationalbibliothek 11 Infrastruktur Hardware –4 Maschinen zum Harvesting –Ab 2009 weitere 2 Maschinen zur Indexierung –Ab 2009 Speicher BRZ –Zusätzliche Kopie der Daten im Hochsicherheits- Datenspeicher des Bundes in St. Johann im Pongau Software - ausschließlich Open Source –Sammlung: NetarchiveSuite, Crawler Heritrix –Anzeige: Wayback Machine –Volltextsuche: NutchWAX Personal –2,5 VZÄ
Wissensnetzwerk „Digitale Langzeitarchivierung“: 3. Arbeitssitzung , Österreichische Nationalbibliothek 12 Workflow
Wissensnetzwerk „Digitale Langzeitarchivierung“: 3. Arbeitssitzung , Österreichische Nationalbibliothek 13 EURO 2008 Zeitraum: Inhalte – 78 Domains, 171 Seeds: –Offizielle Seiten, z.B. Host Cities, Österr. Fußballbund, Ministerien, Sicherheitskräfte, etc. –Unternehmensseiten mit speziellen Produkten/Services – z.B. Bahn, Post, Sponsoren –ORF –Sportportale –Seiten der Nationalspieler –private Seiten Durchlauf täglich, sport.orf.at alle 4h Ca. 160 GB Daten gesammelt (inkl. Dublettenabgleich, 10 GB Logs) Ca. 12,4 Mio. Dateien Keine Rückmeldung von Seitenbetreibern
Wissensnetzwerk „Digitale Langzeitarchivierung“: 3. Arbeitssitzung , Österreichische Nationalbibliothek 14 Verteilung nach Anzahl Text: HTML, CSS, XML etc. Application: pdf, zip, Flash, MS Office, Javascript etc.
Wissensnetzwerk „Digitale Langzeitarchivierung“: 3. Arbeitssitzung , Österreichische Nationalbibliothek 15 Verteilung nach Speicherbedarf Text: HTML, CSS, XML etc. Application: pdf, zip, Flash, MS Office, Javascript etc.
Wissensnetzwerk „Digitale Langzeitarchivierung“: 3. Arbeitssitzung , Österreichische Nationalbibliothek 16 Nationalratswahl 2008 Zeitraum: – neue Regierung Inhalte – 55 Domains / 154 Seeds: –Parteien –Ministerien, Parlament, help.gv.at –Medien: ORF, div. Tageszeitungen –Wahlblogs Durchlauf täglich Bisher ca. 102 GB Daten gesammelt (inkl. Dublettenabgleich, 8 GB Logs) Ca. 7,8 Mio. Dateien Keine Rückmeldung von Seitenbetreibern
Wissensnetzwerk „Digitale Langzeitarchivierung“: 3. Arbeitssitzung , Österreichische Nationalbibliothek 17 Verteilung nach Anzahl Text: HTML, CSS, XML etc. Application: pdf, zip, Flash, MS Office, Javascript etc.
Wissensnetzwerk „Digitale Langzeitarchivierung“: 3. Arbeitssitzung , Österreichische Nationalbibliothek 18 Verteilung nach Speicherbedarf Text: HTML, CSS, XML etc. Application: pdf, zip, Flash, MS Office, Javascript etc.
Wissensnetzwerk „Digitale Langzeitarchivierung“: 3. Arbeitssitzung , Österreichische Nationalbibliothek 19 Demonstration Applikation Seedliste EURO Unterschiedliche Zeitpunkte: –Archivversion –Archivversion –Archivversion Navigation mit Zeitleiste Volltextsuche
Wissensnetzwerk „Digitale Langzeitarchivierung“: 3. Arbeitssitzung , Österreichische Nationalbibliothek 20 Herausforderungen Steigende Datenmengen Ressourcen Kurze Lebenszeit von Internet-Seiten: durchschnittlich 44 Tage (Quelle: Library of Congress) Informationsverlust Neue Technologien Reaktionszeit, Qualität Spam, Viren Ressourcen, Qualität Langzeitarchivierung Migration, Emulation?
Wissensnetzwerk „Digitale Langzeitarchivierung“: 3. Arbeitssitzung , Österreichische Nationalbibliothek 21 Herzlichen Dank für Ihre Aufmerksamkeit!