Stand der Expertise Workshop am 17.4.07 SUB Göttingen Synergiepotentiale zwischen GRID- und eScience-Technologien für die Langzeitarchivierung Stand der Expertise Workshop am 17.4.07 SUB Göttingen
Ziele und Vorgehen Langzeitarchivierung bedeutet: Digitale Information (Daten, Texte, Multimedia, Software) langfristig speichern, wiederfinden und für die menschlichen Sinne zugänglich machen. Im Rahmen der Expertise sollen Ansatzpunkte für die Nutzung von Synergien zwischen existierenden F&E-Aktivitäten identifiziert, technische Integrationsmodelle abgeleitet und mögliche Kooperationsinfrastrukturen aufbereitet werden. Phasen: Potentialanalyse Varianten für zukünftige Integration Organisatorische Kooperationsinfrastrukturen
GRID-Computing Als GRID-Computing bezeichnet man die gemeinsame Nutzung geographisch verteilter, heterogener Ressourcen, die nicht unter derselben Administration stehen. Bei den Ressourcen kann es sich um Computer, Speicher oder aber auch andere fernsteuerbare Geräte (z.B. Messgeräte) handeln. Der Zugriff auf die GRID-Ressourcen erfolgt über standardisierte Dienste (grid services), die mittels einer Middleware bereitgestellt werden. Im Wesentlichen können Compute- und Data-Grids unterschieden werden. Weitere benötigte Funktionalitäten: Workflows und Scheduling RMS mit Advance Reservation Service Level Agreements (SLA)
eScience John Taylor‘s Definition: eScience is about global collaboration in key areas of science and the next generation of infrastructure that will enable it. Wie kann globale Zusammenarbeit unterstützt werden? Experimente oder Simulationen erzeugen Rohdaten Kollaborative Interpretation von Ergebnissen Wissensmanagement und –vernetzung Prozess- und Kontextmanagement Visualiserung
Langzeitarchivierung OAIS-Referenzmodell (Open Archival Information System) klärt grundlegende Begriffe der Archivierung: Informationsmodell: Daten und deren Interpretation Prozessmodell: Erzeuger, Verbraucher, Management (DSEP=Deposit System for Electronic Publications) Drei Kernprobleme: Persistente Speicherung der Bitfolgen Charakterisierung der gespeicherten Inhalte Wiedergabe der digital codierten Information
1. Persistente Speicherung der Bitfolgen Wahl der Codierung: Verhältnis Dokumentinhalt : Dokumentbeschreibung binäre vs. textuelle Formate (z.B. pdf vs. XML) Lesbarkeit vs. Overhead Auffrischung in regelmäßigen Abständen Synergiepotentiale: Data-GRID-Dienste können eingesetzt werden, um die Daten verteilt zu speichern. Durch Repliken erreicht man Fehlertoleranz.
2. Charakterisierung der gespeicherten Inhalte Charakterisierung mit Hilfe von Metadaten = Daten über Daten Semantische Beschreibung verbessert den Suchprozess eingebettetes vs. externes Markup manuelle vs. maschinelle Erstellung URI (Uniform Resource Identifier): URN+URL (PURL, Resolutionsdienste) Synergiepotentiale: eScience kann Ontologien bereitstellen, die den Annotationsprozess unterstützen Compute-GRIDs unterstützen rechenintensive Operationen wie Datamining
3. Wiedergabe der digital codierten Information Bei Wechsel der Hardware-/Software-Plattform ist entweder Migration der gespeicherten Inhalte oder Emulation der alten Plattform notwendig. Migration: Authentizität ist eventuell gefährdet – Aktuelle Plattformen optimal nutzbar Emulation: Erheblicher Aufwand zur Bereitstellung sämtlicher „antiquierter“ Plattformen – Originale werden gespeichert. Synergiepotentiale: Migration bedeutet hohen Rechenaufwand zur Transformation großer Datenbestände. Hier bieten sich Compute-GRIDs an. Emulation mit Hochleistungsrechnern des GRIDs. Remote Desktops bieten Zugang zu virtuellen „Lesesälen“
Analyse von F&E-Projekten
Fragen Was soll archiviert werden? Nur die Originale? Wie viele Repliken sollen erstellt werden? Welche Archive sollen auf GRIDs portiert werden? Zugangskontrolle: - Wie werden Zugangsberechtigungen überprüft? - Single Sign On? Wer garantiert die Verfügbarkeit der zur LZA genutzten eScience- und GRID-Dienste? ....
Vielen Dank für Ihre Aufmerksamkeit. Univ.-Prof. Dr.-Ing. Wolfram Schiffmann Fernuniversität Hagen Fakultät für Mathematik und Informatik Lehrgebiet Rechnerarchitektur Universitätsstrasse 1 D-58087 Hagen email: Wolfram.Schiffmann@FernUni-Hagen.de Telefon: +49-2231-987-325 Telefax: +49-2331-987-332