Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

<XML-Portal> Uwe Müller 16. Juni 2003

Ähnliche Präsentationen


Präsentation zum Thema: "<XML-Portal> Uwe Müller 16. Juni 2003"—  Präsentation transkript:

1 <XML-Portal> Uwe Müller 16. Juni 2003
Humboldt-Universität zu Berlin Computer- und Medienservice Arbeitsgruppe Elektronisches Publizieren

2

3 Thema Exemplarischer Aufbau eines Internet-Portals zur Erschließung, Archivierung und Recherche von komplexen Dokumenten mit multimedialen Inhalten unter Nutzung XML-basierter Technologien am Beispiel des Dokumentenservers und der Sammlungsobjekte der Humboldt-Universität Laufzeit: Oktober 2001 bis September 2003 (März 2004) Förderung: Deutsche Forschungsgemeinschaft

4 Agenda Historie und Einordnung
Technologischer und Organisatorischer Rahmen Ziele des Projekts Metadaten-Modell Dokumenten-Modellierung Document Management Medienportal Recherche und Datenaustausch Zusammenfassung und Ausblick

5 Elektronisches Publizieren – Dissertationen
NDLTD (Networked Digital Library for Theses and Dissertatations) und ETD-Konferenz “Digitale Dissertationen” (Humboldt-Universität) “Dissertationen Online” (DFG-Projekt mit HU als Partner)

6 Elektronisches Publizieren – sonstige Projekte
Proprint (Humboldt-Universität, SUB Göttingen) GAP (German Academic Publishers) / FIGARO OAI (Open Archives Initiative) OAForum (Open Archives Forum, EU-Projekt) eprints.org DSpace Projekt Langzeitarchivierung (Die Deutsche Bibliothek)

7 Elektronisches Publizeren – Motivation
direkte und permanente Verfügbarkeit (Recherchemöglichkeiten, Browsing, Volltexte) Integration heterogener und verteilter Bestände zusätzliche Präsentationsmöglichkeiten (Multimediaobjekte, Lernmodule, ...) niedrige Produktionskosten Langzeitarchivierung Lösung der “Zeitschriftenkrise”

8 Agenda Historie und Einordnung
Technologischer und Organisatorischer Rahmen Ziele des Projekts Metadaten-Modell Dokumenten-Modellierung Document Management Medienportal Recherche und Datenaustausch Zusammenfassung und Ausblick

9 Technologische Kernpunkte
Verwendung von SGML / XML als Speicherformat Gründe Langzeitarchivierung qualifizierte Recherchefähigkeit automatisierte Weiterverarbeitung zukünftige Mehrwertdienste Konsequenzen Konvertierung aus Quellformaten Unterstützung der Autoren bei der Erstellung Styles / Skripts zur Präsentation

10 Technologische Kernpunkte (2)
zusätzliches Speicherformat zur Präsentation: PDF Digitale Signatur Erfassung der Metadaten Workflow-System

11 Organisatorischer Rahmen
gemeinsame Arbeitsgruppe “Elektronisches Publizieren” von Universitätsbibliothek und Computer- und Medienservice 5 feste Mitarbeiter, 10 Projektmitarbeiter (4 + 6) Verantwortung für Routine- und Projektaufgaben Einbindung der Arbeitsgruppe in andere Zusammenhänge DINI (Deutsche Initiative für Netzwerkinformation) NDLTD

12 Agenda Historie und Einordnung
Technologischer und Organisatorischer Rahmen Ziele des Projekts Metadaten-Modell Dokumenten-Modellierung Document Management Medienportal Recherche und Datenaustausch Zusammenfassung und Ausblick

13 Ausgangspunkt steigende Zahl elektronischer Publikationen im universitären Bereich heterogene Datenbestände (inhaltlich, formal, strukturell) gesucht: Standardlösungen für Erschließung, Zugang, Archivierung anpassbar an Bedürfnisse der Nutzer und an neue Publikationstypen Idee: Entwicklung eines Portals auf der Basis von XML Berücksichtigung bibliothekarischer, dokumentarischer und rechentechnischer Gesichtspunkte

14 „Portal“ Zusammenführung verteilter und heterogener Ressourcen zu einer einheitlichen und integrierten Schnittstelle / Oberfläche an unterschiedlichen Nutzergruppen orientierte Sichten (z.B. differenzierte Suchmasken) Portal Portal Datenbestände

15 Hauptziele Multimedia-Erweiterung der bisher verwendeten Technologien
Metadaten (modulares, erweiterbares, hierarchisches Datenmodell; Eingabe- und Verwaltung der Daten) Dokumenten-Modellierung Autorenunterstützung (Empfehlungen, Richtlinien, …) Recherche (in Metadaten und im Volltext) Digitale Signatur / Wasserzeichen

16 Hauptziele (2) integrative Lösung für heterogene Inhalte (Frontends, Speicherung, Verwaltung, Beschreibung) Entwicklung eines exemplarischen Bibliotheksportals Beispielanwendung: Kustodie, digitale Diathek Aufbereitung der Erfahrungen im Bereich textorientierter Dokumente (Hochschulschriften)

17 Multimedia-Objekte Bilder (Diagramme, Fotos, Vektorgrafiken)
mathematische und chemische Formeln, Noten Video-Clips, Audio-Dateien Landkarten 3D-Visualisierungen Textdokumente mit Multimedia-Teilen Standards: MathML, CML, SMIL, SVG, MusicML, VoiceML

18 Arbeitspakete (6 + 1) Untersuchung existierender XML- Standards und DTDs Entwurf eines modularen Dokumentenmodells für die Beschreibung komplexer digitaler Dokumente mit Multimedia-Inhalten Richtlinien und Empfehlungen für Autoren, Schulungskonzept exemplarisches Bibliotheksportal mit fach- bzw. nutzerspezifischen Sichten Rechercheschnittstelle zur Suche in unterschiedlich strukturierten XML-Dokumenten Prüfen und evtl. Anpassen vorhandener Lösungen zur Sicherung Integrität, Authentizität und Urheberrecht digitaler Dokumente mit Multimedia-Inhalten Dokumentation

19 Agenda Historie und Einordnung
Technologischer und Organisatorischer Rahmen Ziele des Projekts Metadaten-Modell Dokumenten-Modellierung Document Management Medienportal Recherche und Datenaustausch Zusammenfassung und Ausblick

20 Metadaten beschreiben Dokumente / Objekte („Daten über Daten“)
diverse Standards und Entwicklungen Dublin Core MAB Marc21 DLmeta formale Definition in der Regel auch als XSD / DTD Speicherung / Austausch in XML

21 Bisheriges Metadaten-Modell
id numeric geb varchar datumveroeff title text gebort datum_change titlealt url sprache titlelang rvk mime titletrans dnb doctype titlealttrans nof vahrchar source titletranslang beschreibung keywords_de heftnr gutachter1 keywords_en name gutachter2 abstract_de a_vorname gutachter3 abstract_en a_nachname fachbereich seitenanzahl int a_titel datumantrag adresse datum

22 Anforderung für neues Modell
modular und erweiterbar für die Beschreibung heterogener Ressourcen Ermöglichung von Mehrfach-Werten für hierarchische Strukturen geeignet (Zeitschriften, Konferenzbände, MM-Teile in einem Dokument), Abbildung von Beziehungen zwischen Ressourcen spezifischer Publikationstyp über XML-Datei konfigurierbar (DB-Abfragen, Darstellung eines Metadatensatzes als XML-Instanz) generische Erfassungs-, Recherche- und Browsing-Schnittstellen auf der Basis einer XML-Konfiguration

23 Modulares Datenmodell für Metadaten
Erweiterte Daten A Res_ID Spezifische Daten 1 Res_ID n 0/1 1 1 Grunddaten 1 1 Erweiterte Daten B Res_ID Spezifische Daten 2 Res_ID n 0/1

24 IsPartOf Res_ID Contain_ID Journal Res_ID Number Year Resource Rights
Konferenz - Paper, Zeitschrift - Artikel Zeitschrift IsPartOf Res_ID Contain_ID Journal Res_ID Number Year Resource Rights Type_ID OPAC_ID State Created Modified Deleted Type Res_ID DC_Type Name Note PartOf_ID Unit Subject Res_ID Key_ID Title Res_ID Lang_ID Monographie Keyword Schema Value Text Res_ID Description Res_ID Type Content Lang_ID Editor Res_ID Person_ID Author Res_ID Person_ID Referee Res_ID Person_ID Thesis Res_ID Date_Exam Date_Acc Publisher Res_ID Institut_ID Konferenz, Zeitschrift Location Res_ID Schema Identifier Format_ID Dissertation, Habilitation Institution Name Address PartOf_ID Person Lastname Firstname

25 Spezifikation eines Metadaten-Modells mit XML
Eingabe-Frontend SQL-Queries Metadaten- DB XML XSD Datenmodell Recherche-Frontend SQL-Queries

26 XML-Konfiguration der Datenbank (Beispiel)
<db name="metadb" > <table name="Person"> <id>Person_ID</id> <export_table to_table="Author"> <pair to_field="Person_ID" from_field="Person_ID" /> </export_table> <field name="Person_ID" type="int">...</field> <field name="PersonalName_F"> <input_style label="Vorname" type="text" mode="edit" constraint="not_null"> </input_style> </field> ... </table> <table name="Title" > <field name="Title"> <input_style label="Title" type="textarea" mode="edit" constraint="not_null"> <field name="Lang">...</field> <table name="Resource" max="single"> <id>Resource_ID</id> <export_table to_table="IsPartOf"> <pair to_field="Resource_ID" from_field="Resource_ID" /> <field name="Resource_ID" type="int" >...</field> <field name="MD_Date_Created" type="insert_date">...</field> </db>

27 XML-Konfiguration der Eingabemaske (Beispiel)
<site name="heft"> <page id="a" name="RZM-Aufnahme" label="RZM-Aufnahme" style="virtuell"></page> <page id="aa" name="Resource" label="RZM-Eingabe Start" style="dataform"> <navig prev="aa" next="ab"/><!-- next="aab" --> <dataform c_table_name="Resource"> <preset_field name="Type_ID">1</preset_field> <preset_field name="MD_State">p</preset_field> <form_button name="CLEAR" /> <form_button name="ENTER" /> <option_list_button name="EDIT" /> </dataform> </page> <page id="ab" name="Heft" label="Heft-Daten eingeben" style="dataform"> <navig prev="aa" next="ac"/> <dataform c_table_name="Journal"> <form_button name="CLEAR"/> <form_button name="ENTER"/> <option_list_button name="EDIT"/> ... <page id="db" name="Corporation" label="Neues Institut eingeben" style="dataform"> <navig prev="ab" next="ab" dual="da"/> <dataform c_table_name="Corporation"> <option_list_button name="REMOVE" /> <option_list_button name="TO_DATABASE" /> </site>

28 Beispiel für eine Eingabe-Frontend

29 Agenda Historie und Einordnung
Technologischer und Organisatorischer Rahmen Ziele des Projekts Metadaten-Modell Dokumenten-Modellierung Document Management Medienportal Recherche und Datenaustausch Zusammenfassung und Ausblick

30 Dokumenten-Modellierung
XML-basiert xDiML (Dissertation Markup Language) an der HU entwickelt (aus der ETD-DTD von Virginia Tech) modularer Aufbau Erzeugungssystem für modulare DTDs erzeugt „auf Knopfdruck“ individuelle DTD aus vorgegebenen Modulen und einer benutzerdefinierten Auswahl Generierung von Styles und Dokumentationen

31 Architektur des Erzeugungssystems

32 DTD-Erzeugungssystem: Details
Vortrag von Jakob Voß am 6. Februar 2003 im Kolloqium des XML-Clearinghouse: “Verwaltung dokumentenorientierter DTDs für den Dokument- und Publikationsserver der Humboldt-Universität“

33 Beschreibung von MM-Inhalten
bisher als Ersatz für die 1998 entwickelte SGML-DTD (DiML) im Einsatz keine wesentlichen funktionalen Erweiterungen aber durch modularen Ansatz lassen sich beliebige andere DTDs (z.B. Standards für Multimedia-Objekte) einbinden aus der DTDBase können Dokumentationen und Styles z.B. zur Präsentation in HTML erzeugt werden

34 Agenda Historie und Einordnung
Technologischer und Organisatorischer Rahmen Ziele des Projekts Metadaten-Modell Dokumenten-Modellierung Document Management Medienportal Recherche und Datenaustausch Zusammenfassung und Ausblick

35 Document Management bisherige Technologie: statische Speicherung von SGML und HTML im Dateisystem Gründe Performance fehlende Technologien für SGML Probleme zusätzlicher Konvertierungsschritt Fehlerquelle Migrationsaufwand bei Änderung von Styles

36 Document Management (2)
Ziel: Speicherung der Dokumente in einem DMS (Document Management System) XML-basiert (validierte Dokumente) dynamisches Erzeugen der HTML-Sichten qualifizierte Volltextsuche in unterschiedlich strukturierten XML-Dokumenten Schnittstellen für Verwaltungs- und Portalfunktionen Zugriff auf Untereinheiten eines XML-Dokuments (Performance!)

37 Document Management (3)
Lösung: Content Management Suite der Firma Sörman / CORENA basiert auf POET-Datenbank Server: Solaris Client: Windows Komponenten-Konzept Versionierung / Varianten LDAP-Authentifizierung Verity Search Engine JavaSDK für Input und Output über eine Web-Schnittstelle (plattformunabhängig)

38 DMS-Anbindung – Funktionsweise
CMS Content Server (Solaris) Browser Tomcat/JSP Cocoon/XSLT OID DOM XML TOC HTML Link Liste Nodes Suche OQL CMS Content Client (Windows) PubSpec

39 DMS-Anwendung: Prototyp

40 Agenda Historie und Einordnung
Technologischer und Organisatorischer Rahmen Ziele des Projekts Metadaten-Modell Dokumenten-Modellierung Document Management Medienportal Recherche und Datenaustausch Zusammenfassung und Ausblick

41 Medienportal Unterstützen des Lehrens und Lernens an der Universität
einheitliche Schnittstelle („Portal“) zu multimedialen Ressourcen Metadaten-Modellierung (Recherche!) unterschiedliche Datenpools Sammlungsobjekte (Kustodie) Diathek Video-Datenbank Portrait-Datenbank Dokumentenserver OPAC

42 Medienportal (2) Funktionen
Einstellen und Bearbeiten, Verschlagwortung, Präsentation und Archivierung von Studienmaterialien Semesterapparate, Skripten, Präsentationen, Referate Einbeziehung von Objekten aus importierten oder referenzierten Datenpools persönliche Arbeitsumgebung mit entsprechenden Zugriffsrechten Authentifizierung über NIS

43 Agenda Historie und Einordnung
Technologischer und Organisatorischer Rahmen Ziele des Projekts Metadaten-Modell Dokumenten-Modellierung Document Management Medienportal Recherche und Datenaustausch Zusammenfassung und Ausblick

44 OAI-PMH Protokoll zum Austausch von Metadaten der Open Archives Initiative (http://www.openarchives.org), Harvest-Ansatz sehr einfaches Protokoll, sechs unterschiedliche Anfragetypen basiert auf HTTP / XML Austausch beliebiger Metadatenformate Data Provider Skript zwischen Datenbank und Web (z.B. Perl, PHP, ...) antwortet auf OAI-PMH-Anfragen Service Provider sammelt Metadaten mit OAI-PMH ein speichert sie in eigener DB bietet Service “nach außen” an (Suchmaschine, Fachportal, ...)

45 OAI-PMH (2) Service Provider Requests: Responses: Data Provider
e-prints OAI-PMH (2) e-print Requests: Identify ListMetadataformats ListSets ListIdentifiers ListRecords GetRecord Repository Data Provider Images e-print Repository Service Provider Data Provider OPAC e-print Harvester Repository Data Provider Responses: General information Metadata formats Set structure Record identifier Metadata Data Provider Museum e-print Repository Data Provider Archive e-print Repository

46 OAI-PMH – Einsatz im XML-Portal
Data Provider für Dokumentenserver der HU Mitarbeit in der DINI-Arbeitsgruppe – Empfehlungen für deutsche Data Provider EU-Projekt OAForum (UKOLN Bath, CNR Pisa, HU Berlin) eigener Service Provider Schnittstelle für eigene Daten Integration weiterer Archive  “Portal” Austausch von Metadaten mit anderen Datenpools an der Universität

47 Recherche Suche in Metadaten
allgemeine und spezialisierte Suchmasken entsprechend Metadatenmodell Volltextsuche qualifiziert in XML-Elementen Suchkriterien entsprechend verwendeter DTD-Module Verity Search Engine

48 Integration in MetaLib
Bibliotheks-Software von ExLibris stellt Portal-Funktionen bereit kann neben OPAC viele weitere Ressourcen einbinden SFX-Technologie / OpenURL OAI-Service-Provider dient als “Aggregat” für Publikationsserver

49 Agenda Historie und Einordnung
Technologischer und Organisatorischer Rahmen Ziele des Projekts Metadaten-Modell Dokumenten-Modellierung Document Management Medienportal Recherche und Datenaustausch Zusammenfassung und Ausblick

50 Zusammenfassung modulares (MM-fähiges) Metadatenmodell
auf XML basierende Konfigurations- und Generierungsfunktionen modulares (MM-fähiges) Dokumentenmodell Erzeugungssystem für DTDs XML-basiertes Document Management System modulare Rechercheschnittstelle (Metadaten und Volltext) Integration ins Medienportal und in MetaLib

51 Ausblick Anwendung des Metadatenmodells auf andere Publikationstypen (u.a. MM-Objekte) Anwendung des DTD-Erzeugungssystems auf Dokument-DTDs mit multimedialen Inhalten prototypische Portal-Implementation LDAP-Authentifizierung für DMS-Zugriff Signaturen / Wasserzeichen für MM-Objekte

52 Vielen Dank ... Fragen? Uwe Müller u.mueller@cms.hu-berlin.de
Humboldt-Universität zu Berlin Computer- und Medienservice Arbeitsgruppe Elektronisches Publizieren Informationen:


Herunterladen ppt "<XML-Portal> Uwe Müller 16. Juni 2003"

Ähnliche Präsentationen


Google-Anzeigen