Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

Verwaltung dokumentenorientierter DTDs für den Dokument- und Publikationsserver der Humboldt Universität Jakob Voß (6.2.2003)

Ähnliche Präsentationen


Präsentation zum Thema: "Verwaltung dokumentenorientierter DTDs für den Dokument- und Publikationsserver der Humboldt Universität Jakob Voß (6.2.2003)"—  Präsentation transkript:

1 Verwaltung dokumentenorientierter DTDs für den Dokument- und Publikationsserver der Humboldt Universität Jakob Voß ( )

2 Übersicht Historie Archivierung mit SGML/XML an der HU Berlin
Dokumentenorientierte XML-Formate Aufbau und Verwaltung der DiML-DTD Zusammenfassung und Ausblick

3 Historie 1 1987 — erste Dissertations DTD (ETD) von Juri Rubinski
1997 — Überarbeitung zur Version 1.1 von Neil Kipp Ab September 1997 Projekte an der Humboldt Universität Anpassung der ETD als DiML zur SGML-Archivierung Promovendenbefragung Dokumentenvorlage für Word Konvertierung mit SGML Author for Word

4 Historie 2 April 1998 — Änderung der Promotionsordnung
Autorenschulungen zur Dokumentenvorlage Beitritt der NDLTD (als erste dt. Universität) Veranstaltung eines DTD-Workshops (Mai 1999) DFG-Projekt Dissertationen Online Unterstützung weiterer Publikationsverfahren in der Universität (Öffentliche Vorlesungen, Zeitschriften) Knapp 250 Dokumente in SGML in Bearbeitung Die NDLTD (Networked Digital Library of Theses and Dissertations) ist eine Virtuelle Bibliothek mit digitalen Diplom/Magister/Habilitationsarbeiten (Electronic Theses and Dissertations (ETD)). Die NDLTD ist eine Initiative zur Verbesserung der Ausbildung, zur besseren Verteilung von Wissen, zur Unterstützung der Universitäten beim Aufbau einer Informations-Infrastruktur sowie zur Erhöhung des Wertes und der Akzeptanz digitaler Bibliotheken. Die Konferenz ETD 2003 findet im Mai an der HU statt (erstmals in Europa).

5 Warum SGML/XML als Archivformat?
Internationale Normierung durch ISO8879 Plattformunabhängig lesbar Langzeitarchivierung (> 10 Jahre) Medienneutrale Präsentation durch Transformation Strukturierte Recherche und Weiterverarbeitung durch Informationsextraktion ISO: Normung z.B. bei PDF nicht gegeben! Plattformunabhängig lesbar: Menschen- und Maschinenlesbar Langzeitarchivierung: Erleichtert Migration Anwendung: Suche in XML, Informationsextraktion Print On Demand (Proprint):

6 Arbeitsablauf Publikationsvorhaben des Autors
Dokumentenvorlage, Schulung und Hilfe Korrektur und endgültige Abgabe Aufnahme von Metadaten und PDF Konvertierung nach SGML/XML Archivierung Weiterverarbeitung (HTML, Recherche, PoD...)

7 Workflow (technisch)

8 Grundstruktur eines (DiML)-Dokumentes
<etd> <front>..title...author...abstract...</front> <body> <chapter> <section> ... </body> <back>..bibliography...appendix...vita...</back> </etd> Die Grundstruktur einer Dissertation (oder eines anderen Dokumentes) ist ziemlich einfach. Zusätzlich gibt es einige Feinheiten wie Literaturverweise und Fußnoten sowie Gestaltungsmittel wie Listen, Graphiken und Tabellen. Je spezieller Die Anforderungen an Semantik/Form/Struktur und verschiedene Möglichkeiten der Weiterverarbeitung sind, desto mehr Besonderheiten und Eigenheiten wird das Dokumentenformat aufweisen.

9 Dokumentenorientierte XML-Formate
XHTML Hypertexte DocBook Technische Dokumentation TEI Retrodigitalisierung, Textanalyse OpenOffice Office-Dokumente ISO (AAP/EPSIG), NITF, OeB... Warum eine eigene DTD: -1997 war keine geeignete DTD vorhanden -Konvertierung aus Word u.a. -Dissertationen und andere wissenschaftliche Publikationen -Als Module können gewünschte Formate hinzugefügt werden

10 Kooperation Siehe http://edoc.hu-berlin.de/epdiss/dtd-workshop DiML
Partner HU Berlin Virginia Tech Univ. of Iowa Univ. of Montreal/ Lyon Tech. Univ. Helsinki Univ. of Michigan Univ. Oslo DTD DiML ETD TDM TEI-Light HutPubl ISO-Book Konv. nach SGML/ XML SGML-Author for Word SGML-Author Majix Omnimark rtf2sgml Frame-Maker+ SGML Omni-mark rtf2sgml Balise SGML nach HTML, PDF Perl-script, DSSSL Perl-script CSS XSL DSSSL, Frame-Maker - Siehe

11 Anforderungen an ein Dokumentenformat
Verschiedene Arten von Dokumenten Spezielle Anforderungen (MathML, SVG, RDF...) -> modularisiert einfach benutzbar -> DTD dokumentiert und wartbar Arten von Dokumenten: Dissertationen, Tagungsbände, Zeitschriftenartikel Dokumentation der DTD soll immer auf dem gleichen Stand sein wie die DTD selber -> Erzeugung von Dokumentation und DTD aus einer Quelle

12 Modularisierung Basis-DTD Front, Body, Back Titelblatt Bibliographie
Medien SVG, SMIL, weitere Bitmapformate Geisteswiss. Gedichte, Rezension Weitere Offene definierte Schnittstelle z.B. TEI-Module, Dublin Core Warum Modularisierung? Anpassung an internationale Entwicklungen Mai 1999 DTD-Workshop HU Berlin Vereinheitlichung von Standards, um Strategien, Konvertierungen, Tools, Schulungsunterlagen mehrfach zu nutzen (Migration nach XML) Integration einer Recherche

13 Möglichkeiten der Verwaltung
DDML (1/1999) ist nie über eine W3C Note hinaus und unterstützt keine Modularisierung XML Schema ist zu komplex (DTD-Generierung!) Entity-Konstrukte sind schlecht wartbar und beschränkt <!ENTITY % elements-1 "foo | bar"> <!ENTITY % elements-2 "baz | foo"> <!ENTITY % elements-3 ""> <!ELEMENT doz (%elements-1; | %elements-2; | %elements-3;)*> NOTE-ddml : Document Definition Markup Language (DDML) Specification, Version 1.0 XHTML, DocBook und TEI arbeiten mit Entities

14 Architektur

15 Inhalte der DTDBase Elemente (und Enumerations, Notations) Gruppen
Module Externe DTDs Beschreibung Beispiele

16 Module text br, em, strong, sup, sub, u, tt, pre
common p, head, caption, url, name, foreign… structure chapter, section, subsection… citation Zitate und Literaturangaben documents Seitenzahlen, Fußnoten… diml front, body, back, abstract… lists (Listen), CALStable (Tabellen), media (Grafik) mathematics (MathML), verse (Gedichte)

17 Gruppen Klassen gleichartiger Elemente Beispiel: Gruppe inline
foreign, url... [module common] footnote, citation [module citation] imath [module mathematics] Benutzung der Gruppe in anderen Elementen p := (#PCDATA | %inline.group; | ...)*

18 Beispiel: Modul lists Elemente: ol, ul, dl, def, dd, li Gruppen: block
ul,ol := (caption?, li+) (block.group) dl := (caption?, def+) " " def := ((term | foreign) , (dd | term)+) dd,li := (%paragraph.group;) Elemente: ol, ul, dl, def, dd, li Gruppen: block Benötigte Elemente: caption Benötigte Gruppen: paragraph

19 Abhängigkeiten zwischen Module
Aufgrund benötigter Elemente und Gruppen Demo Anhand der HTML-Datei

20 Konflikte zwischen Modulen
= Alternative Definition von gleichnamigen Elementen Modul lists li := (%paragraph.group;) (paragraph=p|example) <li><p>List Entry</p></li> Modul simple-lists li := (#PCDATA | %format.group; | %inline.group;)* <li>List Entry</li>

21 Auswahl von Module DTD wird generiert, gleichzeitig kann Dokumentation generiert werden

22 Elementdefinition <element name="imath">
<refpurpose lang="en">... <refdescription lang="en">... <refpurpose lang="de">... <refdescription lang="de">... <group>inline</group> <contentspec type="children"> ... </contentspec> <attribute name="label" type="CDATA"/> </element>

23 Content Specification
DTDSys-Syntax in XML DTD-Syntax <contentspec type="mixed"> <contentspec type="children"> <contentspec type="EMPTY"> <!ELEMENT x (#PCDATA | ...)> <!ELEMENT x (...)> <!ELEMENT x EMPTY> <dtd-sequence> <dtd-choice> ( ... , ... , ... ) ( ... | ... | ... ) <dtd-element name= "foo"> <dtd-inclusion name="bar"> foo %bar.group; <... occurence="any|more|optional"> * | + | ?

24 Enumerations, Notations
Wie bei Elementen in Gruppen Notation plaintext gehört zu Gruppe altFormat Element alt, attribut notation = Gruppe altFormat <alt notation="plaintext">Ein Foto</alt> Modul mathematics: TeX, LaTeX <alt notation="TeX">e=mc^2</alt>

25 Externe DTDs Einbindung fremder Formate (MathML, SVG, CML…) durch Zuweisung eines festen Namensraumes. <imath> <alt notation="TeX">W^3</alt> <mathml:math> <mathml:apply> <mathml:power/> <mathml:ci>W</mathml:ci><mathml:cn>3</mathml:cn> </mathml:apply> </mathml:math> </imath>

26 DiML-Styles Erzeugung von HTML mit XSLT
Aufbau der Style-Bibliothek 1:1 wie in den Modulen module-lists/html.xsl module-lists/html/li.xsl module-lists/html/dl.xsl module-lists/html/ol.xsl module-lists/html/ul.xsl

27 Grenzen DTDSys geht nicht über DTD hinaus, da ja eine DTD weitergegeben werden soll (XML Schema?) Die Grenzen liegen letztendlich beim Autor Noch nicht vollständig implementiert Beispiele (mit Verknüpfung zu Definitionen) Mehrsprachigkeit der Dokumentation Styles und andere Werkzeuge Desweiteren: Neue Module (z.B. RDF)

28 Zusammenfassung Langzeitarchivierung und Weiterverarbeitung elek-tronischer Publikationen setzt XML o.ä. voraus DiML ist ein XML-basiertes Dokumentenformat für wissenschaftliche Publikationen Es ist einfach benutzbar (DTD) und trotzdem flexibel Mit Konverter und Styles bildet DTDSys ein voll-ständiges Toolkit zur XML-basierten Publikation Der CMS kann weitere XML-basierte Publikations-vorhaben (Konferenzbände...) einfach realisieren

29 Quellen Server http://edoc.hu-berlin.de
Die DiML-DTD Zur Konvertierung ProPrint NDLTD

30 Vielen Dank für Ihre Aufmerksamkeit! :-)

31 Warum nicht XML Schema? Dokumente haben keine Datentypen
DTD wird breiter unterstützt XML Schema ist zu komplex Müsste sowieso angepasst werden keep it simple, stupid!

32 Word mit Formatvorlage

33 Staroffice 6.0

34 XML-Output aus Staroffice 6.0

35 FrameMaker + SGML 6.0

36 XML-Output aus FrameMaker + SGML 6.0

37

38 Output aus Word + XMLWriter Add-IN Mediatext Jena


Herunterladen ppt "Verwaltung dokumentenorientierter DTDs für den Dokument- und Publikationsserver der Humboldt Universität Jakob Voß (6.2.2003)"

Ähnliche Präsentationen


Google-Anzeigen