nestor Workshop im Rahmen der GES 2007 Digitale Langzeitarchivierung und Grid: Gemeinsam sind wir stärker? Synergiepotentiale zwischen GRID- und eScience-Technologien für die Langzeitarchivierung Prof. Dr. W. Schiffmann FernUniversität Hagen Baden-Baden, 2. Mai 2007
Ziele Langzeitarchivierung (LZA) bedeutet: Digitale Information (Daten, Texte, Multimedia, Software) langfristig speichern, wiederfinden und für die menschlichen Sinne zugänglich machen. Im Rahmen der Expertise sollen Ansatzpunkte für die Nutzung von Synergien zwischen existierenden F&E- Aktivitäten identifiziert, technische Integrationsmodelle abgeleitet und mögliche Kooperationsinfrastrukturen aufbereitet werden.
Vorgehen Phasen: -Potentialanalyse -Varianten für zukünftige Integration -Organisatorische Kooperationsinfrastrukturen
Grid-Ressourcen Der Zugriff auf die GRID-Ressourcen erfolgt über standardisierte Dienste (grid services), die mittels einer Middleware bereitgestellt werden. Im Wesentlichen können Compute- und Data- Grids unterschieden werden. Wichtige Funktionalitäten: Workflows und Scheduling RMS mit Advance Reservation Service Level Agreements (SLA)
eScience-Szenarien 1. Experimente oder Simulationen erzeugen Rohdaten 2. Kollaborative Interpretation von Ergebnissen 3. Wissen organisieren und vernetzen 4. Prozesse und Kontexte verwalten 5. Große Datenmengen visualisieren
Architektur/Schichtenmodell Verteilte Computersysteme Grid Grid-Middleware eScienceLZA
Prozessmodell
LZA-Referenzmodell OAIS-Referenzmodell (Open Archival Information System) klärt grundlegende Begriffe der Archivierung: Informationsmodell: Daten und deren Interpretation Prozessmodell: Erzeuger, Verbraucher, Management (DSEP=Deposit System for Electronic Publications)
LZA-Kernprobleme Persistente Speicherung der Bitfolgen Charakterisierung der gespeicherten Inhalte Wiedergabe der digital codierten Information
1. Persistente Speicherung der Bitfolgen Wahl der Codierung: Verhältnis Dokumentinhalt : Dokumentbeschreibung binäre vs. textuelle Formate (z.B. pdf vs. XML) Lesbarkeit vs. Overhead Auffrischung in regelmäßigen Abständen Synergiepotentiale: Data-GRID-Dienste können eingesetzt werden, um die Daten verteilt zu speichern. Durch Repliken erreicht man Redundanz/Fehlertoleranz.
2. Charakterisierung der gespeicherten Inhalte Charakterisierung mit Hilfe von Metadaten = Daten über Daten Semantische Beschreibung unterstützt den Suchprozess eingebettetes vs. externes Markup manuelle vs. maschinelle Erstellung URI (Uniform Resource Identifier): URN+URL (PURL, Resolutionsdienste) Synergiepotentiale: eScience kann Ontologien bereitstellen, die den manuellen Annotationsprozess unterstützen Compute-GRIDs erlauben rechenintensive Operationen wie Datamining
3. Wiedergabe der digital codierten Information Bei Wechsel der Hardware-/Software-Plattform ist entweder Migration der gespeicherten Inhalte oder Emulation der alten Plattform notwendig. Migration: Authentizität ist eventuell gefährdet – Aktuelle Plattformen optimal nutzbar Emulation: Erheblicher Aufwand zur Bereitstellung sämtlicher antiquierter Plattformen – Originale werden gespeichert. Synergiepotentiale: Migration bedeutet hohen Rechenaufwand zur Transformation großer Datenbestände. Hier bieten sich Compute-GRIDs an. Emulation mit Hochleistungsrechnern des GRIDs. Remote Desktops bieten Zugang zu virtuellen Lesesälen
Analyse existierender F&E- Projekte Prioritäten – National (22) – Europa (63) – Weltweit (8) Kategorien – Grid – LZA – eScience – Grid & eScience eScienceGrid LZA Synergiepotentiale
Zusammenfassung Kernprobleme der LZA Architektur/Schichtenmodell Prozessmodell Synergiepotentiale identifiziert DataGrid – Dienste zur Speicherung ComputeGrid – Dienste Migration Metadaten Abspielumgebungen
Vielen Dank für Ihre Aufmerksamkeit. Univ.-Prof. Dr.-Ing. Wolfram Schiffmann Fernuniversität Hagen Fakultät für Mathematik und Informatik Lehrgebiet Rechnerarchitektur Universitätsstrasse 1 D Hagen Telefon: Telefax: