Digitale Langzeitarchivierung Internet Universität zu Köln WS 2011/12 Dozent: Prof. Dr. Manfred Thaller AM 2: Digitale Langzeitarchivierung Referentin:

Slides:



Advertisements
Ähnliche Präsentationen
Topic Map zur Darstellung der Beziehungen
Advertisements

Pfade durch den Informationsdschungel – Die Virtuelle Fachbibliothek Ibero-Amerika / Spanien / Portugal Gefördert durch Partner von.
Angebote zur digitalen Langzeitarchivierung
Content Management Systems
Projekt von Rechenzentrum und Universitätsbibliothek Erste Inhalte: Linguistik-Server Essen (LINSE), Semesterapparate Physik Ziel: Bereitstellung einer.
Haus Potsdamer Straße | 4. Mai 2011 | 10–17 Uhr
SaarDok - der Archivserver für das Saarland
Universität zu Köln Historisch-Kulturwissenschaftliche Informationsverarbeitung Kapitel 12: „Variablen und Konstanten verwenden und Spiele.
Das DANRW - Einführung Manfred Thaller Universität zu Köln
Der Geo-Guide als ein Modul für eine Virtuelle Fachbibliothek Virtuelle Fachbibliothek: Wofür & Was Zentrale Anlaufstelle für den Fachwissenschaftler zur.
Oracle WebServer - Einführung. © Prof. T. Kudraß, HTWK Leipzig Oracle Web Application Server HTML WebServer ® File system Static HTML PL/SQL Packages.
Technik Gestaltung Navigation Daten. Übersicht Client Webbrowser InternetServer.
Erstellen einer Webseite Fortbildung am FPGZ Stephan Best.
Wie funktionieren Suchmaschinen?
Die Dokumenttradition
Ringvorlesung Einführung in das Wissenschaftliche Arbeiten Literaturrecherche I – ZBS-OPAC und Sportdatenbanken Andreas Amendt.
Intelligentes Crawling im WWW mit Hilfe intuitiver Suchbedingungen
MultiMedia in der Lehre: Universitätsbibliothek Campus Essen Dokumenten- und Publikationsserver miless Semesterapparate online Dipl.-Wirt.Inform. Frank.
Im Internet geht alles schneller, aber es dauert länger
Referentinnen: Marlena Waldthausen, Kim Löchel
Digitale Bibliotheken. Dient zum Aufbau und zur Verbreitung digitaler Bibliotheken Basiert auf Java Existiert seit 2000 Entwickelt wurde sie von dem New.
Metadata Encoding & Transmission Standard
Entwicklung verteilter Anwendungen I, WS 13/14 Prof. Dr. Herrad Schmidt WS 13/14 Kapitel 9 Folie 2 ASP.NET Seitenübergänge
Eine kurze Einführung.  Software zur Erstellung eines Dokumenten- servers  Dient zur Aufbewahrung von allen Typen von digitalen Inhalten (Texte, Bilder,
Daten- und Metadatenstandards SoSe 2009 IT-Zertifikat der Philosophischen Fakultät der Universität zu Köln Dozent: Patrick Sahle 26. Juni 2009: Dublin.
Backup der FTP-Daten mit BYSU (Back Your Space Up von George Ruinelli) Eine mögliche Variante, um FTP- Daten bei dem Provider „All-Inkl“ zu sichern.
Prototyping Augmented Reality Universität zu Köln Historisch-kulturwissenschaftliche Informationsverarbeitung Aktuelle Probleme digitaler Medien / Medien.
Erst Theorie… …dann Praxis. Erst Theorie… …dann Praxis.
BADI – Barrierefreie Aufbereitung Digitaler Inhalte
An Approach to the Preservation of Digital Records National Archives of Australia Universität zu Köln Institut für Historisch-Kulturwissenschaftliche Informationsverarbeitung.
Digitale Langzeitarchivierung Sustainability of Digital Formats Universität zu Köln Historisch-kulturwissenschaftliche Informationsverarbeitung Hauptseminar.
IT-Zertifikat der Phil.Fak Kurs 4: Daten- und Metadatenstandards Patrick Sahle Semantic WebWS 08/09.
Datenbanken im Web 1.
Random & Probability Universität zu Köln Institut für Medienkultur und Theater AM3: Visuelle Programmierung II WS 2013/2014 Dozent: Prof. Manfred Thaller.
Virtuelle Forschungsumgebung in Musikwissenschaft
Carolin Schneider Hauptseminar Annotationssysteme Prof. Dr. Manfred Thaller WS 2014/15.
Benutzerprofil "Laie" Editionsphilologie -Historisch kulturwissenschaftliche Informationsverarbeitung- Universität zu Köln WS 2006/07 unter Leitung von:
Virtuelle Forschungsumgebung in Musikwissenschaft Universität zu Köln Historisch Kulturwissenschaftliche Informationsverarbeitung Dozent: Prof. Dr. Manfred.
Entwicklung einer Suchmaschine für Verbraucher im Bundesamt für Verbraucherschutz und Lebensmittelsicherheit Dr. Thomas Firley Dr. Soumaya Lhafi Bundesamt.
Greenstone. Theoretischer Teil Entstehung: Entwickelt vom New Zealand Digital Library Project an der Universität von Waikato Kooperation mit der UNESCO.
Die digitale Langzeitarchivierung Referentin: Marietta Steinhöfel Seminar: Digitale Langzeitarchivierung Prof. Dr. Manfred Thaller
Das Internet Ein Netzwerk, das viele Rechner miteinander verbindet
WordPress Digital Objects Processing SS 2015 Susanne Kurz
Minecraft Universität zu Köln Historisch-kulturwissenschaftliche Informationsverarbeitung Re-usable Content in 3D und Simulationssystemen SS 2015 Prof.
OAISter wichtigste Verbundkatalog für digitale Ressourcen Open Access wissenschaftliche Literatur und Materialien im Internet frei zugänglich zu machen.
DSpace IT Zertifikat Blockseminar Dedizierte Systeme Dozentin: Susanne Kurz, M.A. Referentin: Camilla Ottnad, B.A.
Kirchliche Archive im Web Prägnant und übersichtlich – Das Archiv im Internet Michael Hofferberth Köln, 9. November
Ein Referat von: Lilyana Sharlandzhieva und Dragana Vucicevic Seminar: Digital Objects Processing – CMS vs. Digital Library Dozentin: Susanne Kurz WS:2015/2016.
Digital Repository Auffindbare Publikationen. Was sind Repositorien ? Als Repositorium bezeichnet man eine Struktur in der Dokumente Organisiert abgelegt.
Wissensnetzwerk „Digitale Langzeitarchivierung“: 3. Arbeitssitzung , Österreichische Nationalbibliothek 1 Österreich Von der rechtlichen.
SFX in der ULB Sachsen-Anhalt Monika Lützkendorf.
Eidgenössisches Departement des Innern EDI Bundesamt für Kultur BAK Schweizerische Nationalbibliothek NB Digitalisieren und Archivieren: technische und.
Apps in der Bibliotheken Universität zu Köln Seminar: Re-usable Content in 3D und Simulationssystemen Dozent: Prof. Dr. Manfred Thaller Referent: Rasa.
Virtuelle Forschungsumgebung TV Konzept & Anforderungen Universität zu Köln Institut für Historisch-Kulturwissenschaftliche Informationsverarbeitung Virtuelle.
Text Encoding Initiative (TEI) Universität zu Köln, SS 2009, HKI Seminar: Daten- und Metadatenstandards Dozent: Herr Sahle Referentin: Ulrike Henny Datum:
Annotationssysteme ____________________________________________________________________ Universität zu Köln | Historisch-kulturwissenschaftliche Informationsverarbeitung.
Internet Universität zu Köln WS 2011/12 Dozent: Prof. Dr. Manfred Thaller AM 2: Digitale Langzeitarchivierung Referentin: Rasa Sommer.
SOAP - WSDL Universität zu Köln Institut für Historisch-Kulturwissenschaftliche Informationsverarbeitung Prof. Dr. Manfred Thaller AM 2 Hauptseminar: Virtuelle.
Open Access Freier Zugang zu Forschungsergebnissen.
Dedizierte Systeme - Anna Job Universität zu Köln – IT-Zertifikat – WS 08/09 Digital library software Greenstone.
SaarDok - der Archivserver für das Saarland
Game Studies User & Datenmanagement
Google Maps API 3 Universität zu Köln Medien zwischen Technologie und Gesellschaft Prof. Dr. Manfred Thaller Referentin: Saeideh Safat Zadeh.
Lifecycle-Management von Websites
Universität zu Köln | Hauptseminar Annotationssysteme
1 Tobias Steinke Langzeitarchivierungs-Policy der Deutschen Nationalbibliothek: Theorie und Praxis | 18 | Langzeitarchivierungs-Policy der DNB: Theorie.
… digitalisieren statt fernleihen
Friederike Kleinfercher Abteilung Forschung und Entwicklung
TRACKING Quelle: Fotolia by Adobe.
„Online Recherche – Google & Co. richtig nutzen“
 Präsentation transkript:

Digitale Langzeitarchivierung Internet Universität zu Köln WS 2011/12 Dozent: Prof. Dr. Manfred Thaller AM 2: Digitale Langzeitarchivierung Referentin: Rasa Sommer

Gliederung ● Methoden der Web-Archivierung ● Webarchivierungs-Projekte ● Webarchivierungs Formate

Methoden der Web-Archivierung ● „Domain Harvesting“ ● „Selektives Harvesting“ ● „Event Harvesting“

● Domain Harvesting ● - Sammlung von Startseiten (sog. Seed – URLs) nationalen Webspace ● - nationale gesamte Top-Level Domain ● (z.B. „.de“ für Deutschland) ● - Andere Top-Level Domains mit Deutschland Bezug ● (z.B..com,.org,.net, etc.) ● - Software z.B. Crawler HERITRIX ● -Durchführung im Halbjahres- oder Jahresrhythmus ● Nachteil: ● - Nur Zeitschnitte einer Webseite

● Selektives Harvesting ● - Ausgewählte Seiten, die häufigen Änderungen unterliegen ● - Harvesting in geeigneten Intervallen ● (z.B. täglich, wöchentlich etc.) ● - Inhalte: ● ○ Medien national und regional; ● ○ Gesellschaft, Wirtschaft, Kultur; ● ○ Wissenschaft/Universitäten etc.; ●

● Event Harvesting ● - Spezielle Anläse und Großereignisse ● - Webseiten, die nur für den Zeitraum des Ereignisses ● zur Verfügung stehen ● (z.B. Nationalratswahl, Bundespräsidentenwahl, Olympische Spiele )

Mängel des Harvesting ● Datenbanken werden nicht erfasst ● Keine Inhalte ohne Authentisierung ● Hyperlinks nicht erreichbar

Webarchivierungs-Projekte Internet Archive ● Anfänge der Webarchivierung Brewster Khale 1996 (USA) ● Ziel → „Bibliothek des Internet“ ● Archiviert werden Momentaufnahmen von Webseiten, Filme, Tonaufnahmen, Bücher, Software ● Open Source Software „Heritrix“ durchsucht und ● archiviert Webseiten ● Zugriff auf archivierte Seiten → Wayback Maschine ● Gespeicherte Daten im Archiv ca. 3 Petabyte ● Nachteile: ● Inhalte bleiben erhalten, die Autoren nicht mehr vertreten, sowie rechtswidrige Inhalte ● Wird nicht alles gesichert z.B. Bilder

Formate ● ARC_IA Internet Archive ARC File Format ● - verlustfreie Datenkompression und Archivierung von Daten ● Speichert: Bilder wie GIF,JPEG, HTML-Seiten ect. ● Enthält Header Info: das Dokumentenformat, die Dokumentengröße, Links die das Dokument beinhaltet, etc. ● WARC Web Archive File Format ● - Erweiterung des Formats ARC ● Speichert : auch Metadaten

Quellen ● ● ● ● ● ● ● handbuch_23.pdf handbuch_23.pdf