Verwaltung dokumentenorientierter DTDs für den Dokument- und Publikationsserver der Humboldt Universität Jakob Voß (6.2.2003)

Slides:



Advertisements
Ähnliche Präsentationen
Online-Dissertationen für die Praxis
Advertisements

Entwicklung von Schemata für den XML-Dokumentenaustausch mit Hilfe des Resource Description Framework (RDF) John McClure Präsentation.
Stefan Lohrum Konrad-Zuse-Zentrum für Informationstechnik Berlin (ZIB)
Online Publikationsverbund der Universität Stuttgart (OPUS) Frank Scholze Universitätsbibliothek Stuttgart.
TeXDocC Ein gemeinsames Projekt der SUB Göttingen und der Universität Duisburg-Essen geleitet von Elmar Mittler and Günter Törner.
Institut für Bibliotheks- und Informationswissenschaft Literaturverwaltung mit Plone Matti Stöhr Vortrag auf dem Plone-Workshop im Rahmen der Multimedia-Tage.
Dublin Core Antje Schregel, Dublin Core Was ist DC? Architektur von DC (Elements, Qualifiers) Anwendung Aktuelle Situation Projekte.
12. Jahrestagung der IuK 28. September 2006, Göttingen
GESIS Bernd Hermes, Heiko Hellweg, Dr. Maximilian Stempfhuber Informationszentrum Sozialwissenschaften, Bonn Unterstützung kooperativer Verfahren beim.
ELML – Flexibilität und Nachhaltigkeit dank XML Dipl. natw. Jo ë l Fisler - GITTA Koordinator MNF eLearning Tag
PADLR Submodul Modular Content Archives Ein Content Browser für Lehr- materialien aus der Elektrotechnik Dipl.-Ing. Mark Painter Institut für Nachrichtentechnik.
Elektronisch Publizieren im Verbund: GAP – German Academic Publishers
Druck / Ausgaben unter LSF
Anmerkungen zu XML Im September 2000 Entwicklung/Anspruch von XML
Prof. Dr. Günter Törner Dipl-Math. Thorsten Bahne
Dr. P. Schirmbacher DINI – Zertifikat für Dokumenten- und Publikationsserver AG Elektronisches Publizieren.
Projektpartner, Förderer und Beteiligungen: Was gestatten deutsche Verlage? Zugang zur Open Access-Politik deutscher Verlage über die deutsche Schnittstelle.
Archivierung und Erschließung von Audio/Video-Material mit miless und MyCoRe F. Lützenkirchen Universitätsbibliothek.
Universitätsbibliographie online ZIM / UB Kolloquiumsreihe
Literaturverwaltung und Wissensorganisation
XML - Aufbau und Struktur - mit Einsatz im B2B
IMS Universität Stuttgart 1 Einführung in XML Hannah Kermes HS: Elektronische Wörterbücher Do,
XML-Schema HKI Proseminar Wintersemester 2010/11 Dozentin: Frau Kurz von Jan Kohl und Christian Lütticke.
METS / MODS. METS – Metadata Encoding and Transmission Standard – 2002 veröffentlicht – XML Schema – Reale Objekte digital abbilden – hierarchische Struktur.
Eine Einführung in OpenOffice. Was? Freies Office-Paket mit offenem Quellcode Erste funktionierende Version im Oktober 2001 veröffentlicht Basiert auf.
Welcome to MIAMI - dem digitalen Gedächtnis der WWU.
XHTML 1.1 C. Nimz Abstrakte Module XHTML 1.1 C. Nimz Was ist ein abstraktes Modul? Definition eines XHTML-Moduls in spezieller leichter.
Modularization of XHTML™
<XML-Portal> Uwe Müller 16. Juni 2003
Cross-Search in Renardus Göttingen State and University Library, Germany (SUB) Dr. Heike Neuroth The Academic Subject.
Edgar - Ein Texteditor Ein Vortrag von Carsten Severin.
XML in Datenbanksystemen. © Prof. T. Kudraß, HTWK Leipzig 2 2 Warum wird XML eingesetzt? Antworten von Unternehmen: erweiterte Suchmöglichkeiten im Unternehmen.
Einführung XML XML Einführung Andreas Leicht.
Sebastian Hirsch Sascha Neuhaus
Praxis der Metadatenerfassung Markus Enders Goettingen State and University Library
Dublin Core Metadata Thea Spiridonidou Institut für Informatik Humboldt Universität zu Berlin SE: Grundlegende Aspekte des Semantic Web WS 02/03.
1 Barrierefreier Umgang mit Dokumenten mit Hilfe von offenen Dokumentenformatstandards und DAISY Michael Grözinger National Technology Officer Microsoft.
1 Grundlagen und Anwendung der Extensible Markup Language (XML ) Peter Buxmann Institut für Wirtschaftsinformatik Johann Wolfgang Goethe-Universität Frankfurt.
Austauschformate für Terminologie
Humboldt-Universität zu Berlin Dr. N. Martin Norbert Martin Elektronisches Publizieren von Dissertationen Von der Herstellung bis zum Dokumentenserver.
Arbeitsgruppe Dokumentenrepositorium Integration von Open Data Universitätsbibliothek.
German Academic Publishers 1 Wätjen / Gradmann: Bibliotheken und Universitäten als Verleger German Academic Publishers... DFG-gefördertes Projekt GAP für.
1. Metadaten-Workshop der AfS / META-LIB-Abschluss-Workskop, 21./22. Oktober 2002 Metadaten an Der Deutschen Bibliothek: Ergebnisse des DFG-Projekts META-LIB.
Citavi im Prozess der wissenschaftlichen Arbeit
Entwurf und Realisierung einer digitalen Bibliothek zur Verwaltung von Notenhandschriften Dipl.-Ing. Temenushka Ignatova Datenbank- und Informationssysteme,
SSD 1, WS05/06 Gruppe 1 Newsfeed-Standards Newsfeed-Standards (RSS & Atom) Site Syndication mit XML Gruppe 1.
Ausgabe vom Seite 1, XML Eine Einführung XML - Eine Einführung.
3. Juni 2003Moritz Petersen Minimales Markup und Templates zur Erstellung von strukturierten Texten Ein Zwischenbericht zur Diplomarbeit.
Archivierung von Digitalisaten
XML (Extensible Markup Language)
Kurzpräsentation von Herbert Schlechta
XML1 XML-Motivation HTML definiert nur einen bestimmten Dokumenttyp Viele Web-Technologien benötigen eine allgemeinere Sprache zur Dokumentstrukturierung.
© Computer- und Medienservice, Humboldt-Universität zu Berlin Dr. Peter Schirmbacher Open Access in Deutschland - eine persönliche Sicht - Humboldt-Universität.
IT-Zertifikat Kurs IV Gunther Sarling
Integration existierender digitaler Bibliotheken in Lernumgebungen LEBONED (Learning Environment Based On Non Educational Digital Libraries) Dipl.-Inform.
Dokumenten- und Publikationsserver
Eike Schallehn, Martin Endig
Eike Schallehn, Martin Endig
Daten- und Metadatenstandards SoSe 2009 IT-Zertifikat der Philosophischen Fakultät der Universität zu Köln Dozent: Patrick Sahle 26. Juni 2009: Dublin.
© Computer- und Medienservice, Humboldt-Universität zu Berlin Qualitätssicherung und Authoringtools Uwe Müller Peter Schirmbacher Matthias Schulz.
Semantic Web.
Hauptseminar Web-Services und verteilte Datenbanken Thema XML, DTDs und XML-Schema XML, DTDs und XML-Schema - Stefan Kurz, 25. April 2003.
Vom Dokumentenserver MIAMI zum service-orientierten OAIS-konformen Archivsystem Burkard Rosenberger Universitäts- und Landesbibliothek Münster Düsseldorf,
1 Wolfgang Wiese, Regionales RechenZentrum Erlangen WCMS 3. August 2000 Wolfgang Wiese RRZE / Lehrstuhl für Informatik VII
Text Encoding Initiative Universität zu Köln Daten- und Metadatenstandards Seminarleitung: Patrick Sahle Seminarleitung: Patrick Sahle Referentin: Anna.
XML Schema Universität zu Köln Historisch-Kulturwissenschaftliche Informationsverarbeitung WS2011/2012 Hist.-kult.wiss. Informationsverarbeitung (Teil.
Semantic Markup für Zwecke der Langzeitarchivierung in digitalen Bibliotheken Neubiberg,
5.Februar 2007 – 1Vorlesung Elektronisches Publizieren: Formatierung von XML-Dokumenten mit XSL Formatierung von XML-Dokumenten — XSL — Anne Brüggemann-Klein.
13.Dezember 2006–1Elektronisches Publizieren: Schemasprachen — Relax NG Schemasprachen für XML — Relax NG — Anne Brüggemann-Klein TU München.
Text Encoding Initiative (TEI) Universität zu Köln, SS 2009, HKI Seminar: Daten- und Metadatenstandards Dozent: Herr Sahle Referentin: Ulrike Henny Datum:
 Präsentation transkript:

Verwaltung dokumentenorientierter DTDs für den Dokument- und Publikationsserver der Humboldt Universität Jakob Voß (6.2.2003)

Übersicht Historie Archivierung mit SGML/XML an der HU Berlin Dokumentenorientierte XML-Formate Aufbau und Verwaltung der DiML-DTD Zusammenfassung und Ausblick

Historie 1 1987 — erste Dissertations DTD (ETD) von Juri Rubinski 1997 — Überarbeitung zur Version 1.1 von Neil Kipp Ab September 1997 Projekte an der Humboldt Universität Anpassung der ETD als DiML zur SGML-Archivierung Promovendenbefragung Dokumentenvorlage für Word Konvertierung mit SGML Author for Word

Historie 2 April 1998 — Änderung der Promotionsordnung Autorenschulungen zur Dokumentenvorlage Beitritt der NDLTD (als erste dt. Universität) Veranstaltung eines DTD-Workshops (Mai 1999) DFG-Projekt Dissertationen Online Unterstützung weiterer Publikationsverfahren in der Universität (Öffentliche Vorlesungen, Zeitschriften) Knapp 250 Dokumente in SGML + 150 in Bearbeitung Die NDLTD (Networked Digital Library of Theses and Dissertations) ist eine Virtuelle Bibliothek mit digitalen Diplom/Magister/Habilitationsarbeiten (Electronic Theses and Dissertations (ETD)). Die NDLTD ist eine Initiative zur Verbesserung der Ausbildung, zur besseren Verteilung von Wissen, zur Unterstützung der Universitäten beim Aufbau einer Informations-Infrastruktur sowie zur Erhöhung des Wertes und der Akzeptanz digitaler Bibliotheken. Die Konferenz ETD 2003 findet im Mai an der HU statt (erstmals in Europa).

Warum SGML/XML als Archivformat? Internationale Normierung durch ISO8879 Plattformunabhängig lesbar Langzeitarchivierung (> 10 Jahre) Medienneutrale Präsentation durch Transformation Strukturierte Recherche und Weiterverarbeitung durch Informationsextraktion ISO: Normung z.B. bei PDF nicht gegeben! Plattformunabhängig lesbar: Menschen- und Maschinenlesbar Langzeitarchivierung: Erleichtert Migration Anwendung: Suche in XML, Informationsextraktion Print On Demand (Proprint): http://edoc.hu-berlin.de/proprint/

Arbeitsablauf Publikationsvorhaben des Autors Dokumentenvorlage, Schulung und Hilfe Korrektur und endgültige Abgabe Aufnahme von Metadaten und PDF Konvertierung nach SGML/XML Archivierung Weiterverarbeitung (HTML, Recherche, PoD...)

Workflow (technisch)

Grundstruktur eines (DiML)-Dokumentes <etd> <front>..title...author...abstract...</front> <body> <chapter> <section> ... </body> <back>..bibliography...appendix...vita...</back> </etd> Die Grundstruktur einer Dissertation (oder eines anderen Dokumentes) ist ziemlich einfach. Zusätzlich gibt es einige Feinheiten wie Literaturverweise und Fußnoten sowie Gestaltungsmittel wie Listen, Graphiken und Tabellen. Je spezieller Die Anforderungen an Semantik/Form/Struktur und verschiedene Möglichkeiten der Weiterverarbeitung sind, desto mehr Besonderheiten und Eigenheiten wird das Dokumentenformat aufweisen.

Dokumentenorientierte XML-Formate XHTML Hypertexte DocBook Technische Dokumentation TEI Retrodigitalisierung, Textanalyse OpenOffice Office-Dokumente ISO 12083 (AAP/EPSIG), NITF, OeB... Warum eine eigene DTD: -1997 war keine geeignete DTD vorhanden -Konvertierung aus Word u.a. -Dissertationen und andere wissenschaftliche Publikationen -Als Module können gewünschte Formate hinzugefügt werden

Kooperation Siehe http://edoc.hu-berlin.de/epdiss/dtd-workshop DiML Partner HU Berlin Virginia Tech Univ. of Iowa Univ. of Montreal/ Lyon Tech. Univ. Helsinki Univ. of Michigan Univ. Oslo DTD DiML ETD TDM TEI-Light HutPubl ISO-Book Konv. nach SGML/ XML SGML-Author for Word SGML-Author Majix Omnimark rtf2sgml Frame-Maker+ SGML Omni-mark rtf2sgml Balise SGML nach HTML, PDF Perl-script, DSSSL Perl-script CSS XSL DSSSL, Frame-Maker - Siehe http://edoc.hu-berlin.de/epdiss/dtd-workshop

Anforderungen an ein Dokumentenformat Verschiedene Arten von Dokumenten Spezielle Anforderungen (MathML, SVG, RDF...) -> modularisiert einfach benutzbar -> DTD dokumentiert und wartbar Arten von Dokumenten: Dissertationen, Tagungsbände, Zeitschriftenartikel Dokumentation der DTD soll immer auf dem gleichen Stand sein wie die DTD selber -> Erzeugung von Dokumentation und DTD aus einer Quelle

Modularisierung Basis-DTD Front, Body, Back Titelblatt Bibliographie Medien SVG, SMIL, weitere Bitmapformate Geisteswiss. Gedichte, Rezension Weitere Offene definierte Schnittstelle z.B. TEI-Module, Dublin Core Warum Modularisierung? Anpassung an internationale Entwicklungen Mai 1999 DTD-Workshop HU Berlin Vereinheitlichung von Standards, um Strategien, Konvertierungen, Tools, Schulungsunterlagen mehrfach zu nutzen (Migration nach XML) Integration einer Recherche

Möglichkeiten der Verwaltung DDML (1/1999) ist nie über eine W3C Note hinaus und unterstützt keine Modularisierung XML Schema ist zu komplex (DTD-Generierung!) Entity-Konstrukte sind schlecht wartbar und beschränkt <!ENTITY % elements-1 "foo | bar"> <!ENTITY % elements-2 "baz | foo"> <!ENTITY % elements-3 ""> <!ELEMENT doz (%elements-1; | %elements-2; | %elements-3;)*> NOTE-ddml-19990119: Document Definition Markup Language (DDML) Specification, Version 1.0 XHTML, DocBook und TEI arbeiten mit Entities

Architektur

Inhalte der DTDBase Elemente (und Enumerations, Notations) Gruppen Module Externe DTDs Beschreibung Beispiele

Module text br, em, strong, sup, sub, u, tt, pre common p, head, caption, url, name, foreign… structure chapter, section, subsection… citation Zitate und Literaturangaben documents Seitenzahlen, Fußnoten… diml front, body, back, abstract… lists (Listen), CALStable (Tabellen), media (Grafik) mathematics (MathML), verse (Gedichte)

Gruppen Klassen gleichartiger Elemente Beispiel: Gruppe inline foreign, url... [module common] footnote, citation [module citation] imath [module mathematics] Benutzung der Gruppe in anderen Elementen p := (#PCDATA | %inline.group; | ...)*

Beispiel: Modul lists Elemente: ol, ul, dl, def, dd, li Gruppen: block ul,ol := (caption?, li+) (block.group) dl := (caption?, def+) " " def := ((term | foreign) , (dd | term)+) dd,li := (%paragraph.group;) Elemente: ol, ul, dl, def, dd, li Gruppen: block Benötigte Elemente: caption Benötigte Gruppen: paragraph

Abhängigkeiten zwischen Module Aufgrund benötigter Elemente und Gruppen Demo Anhand der HTML-Datei

Konflikte zwischen Modulen = Alternative Definition von gleichnamigen Elementen Modul lists li := (%paragraph.group;) (paragraph=p|example) <li><p>List Entry</p></li> Modul simple-lists li := (#PCDATA | %format.group; | %inline.group;)* <li>List Entry</li>

Auswahl von Module DTD wird generiert, gleichzeitig kann Dokumentation generiert werden

Elementdefinition <element name="imath"> <refpurpose lang="en">... <refdescription lang="en">... <refpurpose lang="de">... <refdescription lang="de">... <group>inline</group> <contentspec type="children"> ... </contentspec> <attribute name="label" type="CDATA"/> </element>

Content Specification DTDSys-Syntax in XML DTD-Syntax <contentspec type="mixed"> <contentspec type="children"> <contentspec type="EMPTY"> <!ELEMENT x (#PCDATA | ...)> <!ELEMENT x (...)> <!ELEMENT x EMPTY> <dtd-sequence> <dtd-choice> ( ... , ... , ... ) ( ... | ... | ... ) <dtd-element name= "foo"> <dtd-inclusion name="bar"> foo %bar.group; <... occurence="any|more|optional"> * | + | ?

Enumerations, Notations Wie bei Elementen in Gruppen Notation plaintext gehört zu Gruppe altFormat Element alt, attribut notation = Gruppe altFormat <alt notation="plaintext">Ein Foto</alt> Modul mathematics: TeX, LaTeX <alt notation="TeX">e=mc^2</alt>

Externe DTDs Einbindung fremder Formate (MathML, SVG, CML…) durch Zuweisung eines festen Namensraumes. <imath> <alt notation="TeX">W^3</alt> <mathml:math> <mathml:apply> <mathml:power/> <mathml:ci>W</mathml:ci><mathml:cn>3</mathml:cn> </mathml:apply> </mathml:math> </imath>

DiML-Styles Erzeugung von HTML mit XSLT Aufbau der Style-Bibliothek 1:1 wie in den Modulen module-lists/html.xsl module-lists/html/li.xsl module-lists/html/dl.xsl module-lists/html/ol.xsl module-lists/html/ul.xsl

Grenzen DTDSys geht nicht über DTD hinaus, da ja eine DTD weitergegeben werden soll (XML Schema?) Die Grenzen liegen letztendlich beim Autor Noch nicht vollständig implementiert Beispiele (mit Verknüpfung zu Definitionen) Mehrsprachigkeit der Dokumentation Styles und andere Werkzeuge Desweiteren: Neue Module (z.B. RDF)

Zusammenfassung Langzeitarchivierung und Weiterverarbeitung elek-tronischer Publikationen setzt XML o.ä. voraus DiML ist ein XML-basiertes Dokumentenformat für wissenschaftliche Publikationen Es ist einfach benutzbar (DTD) und trotzdem flexibel Mit Konverter und Styles bildet DTDSys ein voll-ständiges Toolkit zur XML-basierten Publikation Der CMS kann weitere XML-basierte Publikations-vorhaben (Konferenzbände...) einfach realisieren

Quellen Server http://edoc.hu-berlin.de Die DiML-DTD http://edoc.hu-berlin.de/diml/ Zur Konvertierung http://edoc????????? ProPrint http://edoc.hu-berlin.de/proprint/ http://db2-www.sub.uni-goettingen.de/ NDLTD http://www.ndltd.org

Vielen Dank für Ihre Aufmerksamkeit! :-)

Warum nicht XML Schema? Dokumente haben keine Datentypen DTD wird breiter unterstützt XML Schema ist zu komplex Müsste sowieso angepasst werden keep it simple, stupid!

Word mit Formatvorlage

Staroffice 6.0

XML-Output aus Staroffice 6.0

FrameMaker + SGML 6.0

XML-Output aus FrameMaker + SGML 6.0

Output aus Word + XMLWriter Add-IN Mediatext Jena