Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

25.Oktober 2006 ― 1Elektronisches Publizieren: Dokumenten-Modellierung Grundlagen — Modellierung von Dokumenten und Daten — Anne Brüggemann-Klein TU München.

Ähnliche Präsentationen


Präsentation zum Thema: "25.Oktober 2006 ― 1Elektronisches Publizieren: Dokumenten-Modellierung Grundlagen — Modellierung von Dokumenten und Daten — Anne Brüggemann-Klein TU München."—  Präsentation transkript:

1 25.Oktober 2006 ― 1Elektronisches Publizieren: Dokumenten-Modellierung Grundlagen — Modellierung von Dokumenten und Daten — Anne Brüggemann-Klein TU München

2 25.Oktober 2006 ― 2Elektronisches Publizieren: Dokumenten-Modellierung Dokumentenbegriff: Drei Entwicklungsstufen Schriftform: kodierter Text o Ursprüngliche Dokumente o gebunden an Trägermedium o Neuere Dokumente o Informationsgehalt o unabhängig von Informationsträger und Format o Moderne Dokumente: Daten o computerlesbar mit API o computergestützt verarbeitbar: aktiv und dynamisch o automatisierte Verarbeitung, z.B. intelligente Anfragebearbeitung, präzise Profildienste

3 25.Oktober 2006 ― 3Elektronisches Publizieren: Dokumenten-Modellierung Zwischentest o Personalausweis o Geldschein o Gemälde o Veranstaltungsplakat o Privatbrief o E-Mail-Nachricht o Memo an die Geschäftsleitung o Gedichtband o Roman o Bestellung o Produktbeschreibung o Fragebogen o Nachricht in einem Protokoll zum digitalen Zahlungsverkehr (Electronic Banking) Überlegen Sie, ob auf die folgenden Dokumente eher der ursprüngliche, der neuere oder der moderne Dokumentenbegriff paßt oder ob es sich vielleicht gar nicht um Dokumente handelt

4 25.Oktober 2006 ― 4Elektronisches Publizieren: Dokumenten-Modellierung Leitfrage Dokumente o Was ist ein geeignetes Datenmodell für moderne Dokumente (Dokumente als Daten)? o aktiv o dynamisch o multi-channel-fähig o cross-media-fähig o weiterverarbeitbar o von Programmen semantisch interpretierbar o Was macht das Wesen eines modernen Dokuments aus?

5 25.Oktober 2006 ― 5Elektronisches Publizieren: Dokumenten-Modellierung Dokumentenbestandteile … Erarbeitung der Dokumentenbestandteile am Beispiel o [../../compProp/Konzept.htm]../../compProp/Konzept.htm o Buchstaben, Interpunktionszeichen, Wortzwischenräume: Inhalt o [../../compProp/Konzept.txt]../../compProp/Konzept.txt o Typographische Ausprägungen, geometrische Anordnung (Layout): Format (im Sinne von Präsentationsformat) o [../../compProp/KonzeptCSS.htm]../../compProp/KonzeptCSS.htm o Rollen von Textpassagen, Strukturierung in logische Einheiten (Strukturelemente): (logische) Struktur

6 25.Oktober 2006 ― 6Elektronisches Publizieren: Dokumenten-Modellierung … Dokumentenbestandteile … Zusammenhang der Bestandteile für Menschen o Präsentation des Dokuments mit Inhalt und Format (z.B. mit Browser) o Konstruktion von Struktur und Aussage durch gedankliche Arbeit unter Rückgriff auf Sprachverständnis und kulturelles Wissen um die Verwendung von Formatmerkmalen o Auf Basis von Struktur und Aussage weitere intellektuelle Informationsverarbeitung

7 25.Oktober 2006 ― 7Elektronisches Publizieren: Dokumenten-Modellierung … Dokumentenbestandteile NB: o Konstruierte Struktur nicht eindeutig o Konstruktion von im wesentlichen identischen Strukturen aus verschiedenen, eventuell vom Präsentationsmedium abhängigen Formaten o Dokumentenidentität aus Inhalt und konstruierter Struktur, nicht Format o Strukturelemente und Strukturierungstiefe abhängig vom Nutzungszweck/Informationsbedarf (Information ist Wissen in Aktion)  Können Maschinen das auch?

8 25.Oktober 2006 ― 8Elektronisches Publizieren: Dokumenten-Modellierung Zentrale Idee … o Relevante Aspekte von Dokumenten: Inhalt, Struktur (Gliederungsebene, Semantik), Format o Informationsverarbeitung möglich auf Basis von (1) Inhalt und Format oder (2) Inhalt und Struktur o Intelligente Computerprogramme mit Zeichenerkennung, Sprachverstehen und Strukturerkennung in weiter Ferne  Maschinelle Bearbeitung nur möglich auf Basis von expliziter Repräsentation von Inhalt und Struktur Mit Einschränkungen als HTML-Code (u.a. Metadaten), in voller Allgemeinheit als XML-Code

9 25.Oktober 2006 ― 9Elektronisches Publizieren: Dokumenten-Modellierung … Zentrale Idee Dokumentenmodell: Modell der strukturierten Dokumente o explizite Repräsentation von textuellem Inhalt und (logischer) Struktur (Annotation von Textbereichen mit semantisch bedeutsamer Metainformation)  Dokumente als computerbearbeitbare Daten Inhalt und Struktur für sich alleine von intelligenten Anwendungen nutzbar o separate, auswechselbare Formatvorlage (Stylesheet) o Format aus beiden zusammen berechenbar o weitere separate und ausführbare Bearbeitungsvorschriften, mit Dokument kombinierbar (z.B. intelligente Tags, XSP, Logicsheets in Cocoon)

10 25.Oktober 2006 ― 10Elektronisches Publizieren: Dokumenten-Modellierung Präzisierung des Dokumentenmodells o Wesentlich die freie Wahl der Strukturelemente o bei festem Satz von Strukturelementen Simulation von Anwendungselementen unausweichlich  Verwässerung der Vorteile des Dokumentenmodells o Beispiele HTML, TEI  XML o Logische Strukturierung streng hierarchisch (hierarchische Schachtelung, keine Überlappungen von Strukturelementen) o Strukturelemente attributierbar (Liste von Name-Werte-Paaren)

11 25.Oktober 2006 ― 11Elektronisches Publizieren: Dokumenten-Modellierung Strukturdarstellungen o Zwei Darstellungsweisen o graphisch, oft Schwerpunkt auf Struktur: [../../compProp/KonzeptTree.gif] [../../compProp/KonzeptIcons.gif] [../../compProp/KonzeptSpy.gif]../../compProp/KonzeptTree.gif../../compProp/KonzeptIcons.gif]../../compProp/KonzeptSpy.gif o mit in den Inhalt eingebetteter Klammerstruktur (Tags, Markup): [../../compProp/Konzept.xml] [../../compProp/KonzeptMSIExml.gif]../../compProp/Konzept.xml../../compProp/KonzeptMSIExml.gif

12 25.Oktober 2006 ― 12Elektronisches Publizieren: Dokumenten-Modellierung Baummodell für strukturierte Dokumente o Baummodell: Konzeptuell (Domain Model, Datenmodell) o Baum von Knoten o benannt, optional mit Attributierung [Elementknoten, für Strukturelemente] o anonym, mit Stringwert (nur bei Blättern) [Textknoten, für Inhaltstext] o Attributierung: Menge von Schlüssel-Wert-Paaren o Schlüssel sind Namen o Werte haben Typ o Kodierung: z.B. XML [../../compProp/Konzept.xml] linearisierte Kodierung als Zeichenfolge (Text) Unterscheidung Inhaltstext/Markup durch Syntax../../compProp/Konzept.xml

13 25.Oktober 2006 ― 13Elektronisches Publizieren: Dokumenten-Modellierung Baummodell und XML-Kodierung am Beispiel o Formatiertes Dokument [../../xmlSamples/compBook.pdf]../../xmlSamples/compBook.pdf o XML-Kodierung [../../xmlSamples/compBook.xml]../../xmlSamples/compBook.xml o semantisch reich o normalisiert o bearbeitbar o Als Baummodell [../../xmlSamples/compBookModel.pdf]../../xmlSamples/compBookModel.pdf

14 25.Oktober 2006 ― 14Elektronisches Publizieren: Dokumenten-Modellierung Formalisierung des Dokumentenmodells o Dokument als mathematisches Objekt (Element einer in bestimmter Weise strukturierten Menge) o Paarweise disjunkte Ausgangsmengen o endliche Menge Character von Zeichen o Mengen DocSort, AttSort, DocID, AttValue o DocInstance enthält Strukturelemente (rekursiv definiert) o DocInstance = DocSort  DocID  Attributes  Content. o Attributes = F fin (AttSort  AttValue  Character*  DocID). o Content = (DocInstance  Character)*. o Eindeutigkeit von IDs o Gleichheit von Strukturelementen o Erweiterungen: Typen für Attributwerte und Textinhalte

15 25.Oktober 2006 ― 15Elektronisches Publizieren: Dokumenten-Modellierung Vorteile des Dokumentenmodells Flexibilität, besonders bei großen Dokumentenbeständen o Dokumentenverwaltung: Automatisches Generieren von Katalogeinträgen und Verzeichnissen, Sortieren, automatisches Generieren von Numerierungen und Querverweisen  Normalform o Konsistente Formatierung innerhalb eines Dokuments und zwischen Dokumenten gleichen Typs bei gleichem Präsentationsmedium (n:1); angepaßte Formatierung (1:n) o Navigationsunterstützung (logischer Cursor) und Sichtendefinition (Outline-Sicht) beim Erstellen und Lesen, Information Retrieval nach logischen Kriterien o Automatische, semantisch gesteuerte Verarbeitbarkeit

16 25.Oktober 2006 ― 16Elektronisches Publizieren: Dokumenten-Modellierung Verfeinerung des Dokumentenmodells o Optional Festlegung von Strukturelementen mit formalen Mitteln als Strukturvorgabe (Definition des Vorrats an Strukturelementen sowie Vorschriften zu ihrer Verwendung, Definition von Integritätsbedingungen) o Kommunikation, Herstellen einer Verständnisbasis in Community o Überprüfung/Validierung o syntaxgestütztes Editieren o Basis für die Verarbeitung (Compilerbau: Actions in Parsergenerierung, XML: Data Binding) o In XML mit DTDs (Dokumenttypdefinitionen) oder Satellitenstandards XML Schema und Relax NG

17 25.Oktober 2006 ― 17Elektronisches Publizieren: Dokumenten-Modellierung Klassifizierung von Strukturelementen … o Metaelemente, z.B. Katalogdaten o Beispiele: AutorIn, Verlag, Titel o Status: allgemeingültig, standardisiert o Vorkommen: ein Block pro Dokument o Gliederungselemente o Beispiele: Kapitel, Abschnitt, Anhang, Index o Status: allgemeingültig, semi-standardisiert o Vorkommen: Hierarchie mit Wiederholungen

18 25.Oktober 2006 ― 18Elektronisches Publizieren: Dokumenten-Modellierung … Klassifizierung von Strukturelementen … o Informationsbausteine, in sich verständlich o Beispiele: Absatz, Liste, Zitat, Literatureintrag, Aufgabe, Lösungshinweis (evtl. flach strukturiert) o Status: allgemeingültig oder anwendungsspezifisch o Vorkommen: freie Auswahl aus Grundvorrat innerhalb von Gliederungselementen

19 25.Oktober 2006 ― 19Elektronisches Publizieren: Dokumenten-Modellierung … Klassifizierung von Strukturelementen o Informationsschnitzel, nur im Zusammenhang verständlich o Beispiele: Hervorhebung, Fachbegriff, Telefonnummer, Status, Gültigkeitsbereich o Status: allgemeingültig oder anwendungsspezifisch o Vorkommen: freie Auswahl aus Grundvorrat innerhalb von Bausteinen oder Schnitzeln, eingebettet in Text  Leitlinie für Schema-Definition

20 25.Oktober 2006 ― 20Elektronisches Publizieren: Dokumenten-Modellierung Typische Klausuraufgaben o Aufgabe Was sind die wichtigsten Bestandteile des Modells der strukturierten Dokumente? o Aufgabe Beschreiben Sie strukturierte Dokumente in Baumterminologie. o Aufgabe Wozu wurde das Modell der strukturierten Dokumente eingeführt? o Aufgabe Wie werden strukturierte Dokumente in der Praxis kodiert? o Aufgabe: Nennen Sie mindestens drei Vorteile des Modells der strukturierten Dokumente.

21 25.Oktober 2006 ― 21Elektronisches Publizieren: Dokumenten-Modellierung Eine Antwort o Antwort o In strukturierten Dokumenten werden Inhalt und logische Struktur kodiert, nicht jedoch Vorgaben zum Präsentationsformat. o Die Vorgaben zum Format werden separat vom Dokument gehalten und sind somit austauschbar und mehrfach anwendbar.

22 25.Oktober 2006 ― 22Elektronisches Publizieren: Dokumenten-Modellierung Eine weitere Antwort o Antwort o In strukturierten Dokumente ist semantische Information explizit kodiert; verarbeitende Programme können diese semantische Information ausnutzen. o Strukturierte Dokumente können durch Stylesheets einheitlich formatiert werden (innerhalb von Dokumenten und über Dokumentgrenzen hinweg). o Strukturierte Dokumente können durch Kombination mit geeigneten Stylesheets über unterschiedliche Kanäle angeboten werden. o Strukturierte Dokumente unterstützen Funktionen der Dokumentenverwaltung (Nummerierungen, Verzeichnisse)

23 25.Oktober 2006 ― 23Elektronisches Publizieren: Dokumenten-Modellierung Diskussion o Analogie zu Normalformen im Datenbankbereich (Freiheit von Redundanzen, Datenunabhängigkeit) o Vom Document Management zum Knowledge Management o Dokumentenmodell vs. Dokumentenarchitektur o Offenlegung der Kodierung vs. Datenkapselung o Pragmatischer Kompromiss I: Positionierung des Modells im Spektrum zwischen Bitmap-Repräsentationen und Sprachverstehen/semantischem Verständnis o Pragmatischer Kompromiss II: Markup-Sprache o Pragmatischer Kompromiss III: Hierarchische Struktur Aber: Overlhappens

24 25.Oktober 2006 ― 24Elektronisches Publizieren: Dokumenten-Modellierung Umsetzungen des Dokumentenmodells Umsetzungen des Modells o LaTeX mit Makropaketen [../../compProp/Konzept.tex] [../../compProp/KonzeptTeX.eps]../../compProp/Konzept.tex../../compProp/KonzeptTeX.eps o MS Word durch Formatvorlagen../../compProp/Konzept.doc../../compProp/Konzept.doc o HTML mit CSS/XSL o Standard Generalized Markup Language (SGML) mit DSSSL o Extended Markup Language (XML) mit CSS oder XSL

25 25.Oktober 2006 ― 25Elektronisches Publizieren: Dokumenten-Modellierung Hausaufgabe (Abgabe Sa, 28.10., 12.00 Uhr) o Zählen Sie einige Beispiele auf, in denen Sie eine tiefere Schachtelung von Strukturelementen für sinnvoll halten als Word es zuläßt. o Wandeln Sie das Dokument../../compProp/Konzept.xml mit allen Strukturelementen und Attributen in ein Baumdiagramm um, analog zu der Darstellung../../xmlSamples/compBookModel.pdf.../../compProp/Konzept.xml../../xmlSamples/compBookModel.pdf

26 25.Oktober 2006 ― 26Elektronisches Publizieren: Dokumenten-Modellierung Modell der semistrukturierten Daten … o Datenbanken (z.B. relationales Modell): strukturierte Daten o Schema o Instanz des Schemas o Aufgabe o Information Integration o heterogene Datenquellen und Strukturen o dynamische Datenquellen, auch Textdaten o Lösung o Verzicht auf Schema o selbstbeschreibende Daten, freie Strukturen

27 25.Oktober 2006 ― 27Elektronisches Publizieren: Dokumenten-Modellierung … Modell der semistrukturierten Daten … o Beispiel-Format für selbstbeschreibende Daten (OEM) {person: &o1 { name:"Mary", age:45, child:&o2, child:&o3 }, person: &o2 { name:"John", age:17, relatives:{mother: &01, sister: &03} }, person: &o3 { name:"Jane", country:"Canada", mother: &o1 }}

28 25.Oktober 2006 ― 28Elektronisches Publizieren: Dokumenten-Modellierung … Modell der semistrukturierten Daten … &o1&o2&o3 person agename agerelativesnamecountry child mother "Mary""John""Jane" mothersister "Canada"4517

29 25.Oktober 2006 ― 29Elektronisches Publizieren: Dokumenten-Modellierung … Modell der semistrukturierten Daten … o Präzisierung Datenmodell semistrukturierte Daten o Menge von Knoten o atomar: Typ/Wert o komplex: Menge von beschrifteten Kanten zu Knoten o Einstiegsknoten o alle Knoten von Einstiegsknoten erreichbar o alle referenzierten Knoten definiert o Syntax o ssdExpr = value | oid value | oid. o value = atomicValue | complexValue. o complexValue = { label: ssdExpr, …, label: ssdExpr }.

30 25.Oktober 2006 ― 30Elektronisches Publizieren: Dokumenten-Modellierung … Modell der semistrukturierten Daten … o Kodierung: XML (andere Semantik als strukturierte Dokumente)  Daten als Dokumente o Herkunft o Projekt Tsimmis zum Datenaustausch zwischen heterogenen Systemen o Datenmodell OEM (Object Exchange Model) o Stanford University, 1995

31 25.Oktober 2006 ― 31Elektronisches Publizieren: Dokumenten-Modellierung … Modell der semistrukturierten Daten Semistrukturierte DatenStrukturierte Dokumente freier Graph, ungeordnet, gerichtet, mit Kantenbeschriftungen Baum, geordnet, gerichtet, mit Knotenbeschriftungen Kanten mit zwei Funktionen: Aggregation und Relation Aggregation durch Hierarchie, Relation durch ID-Attribute Atomare Daten immer mit semantischen Rollen Mixed Content Einstiegsknoten ohne LabelWurzel mit Label Kodierung mit XML

32 25.Oktober 2006 ― 32Elektronisches Publizieren: Dokumenten-Modellierung Diskussion o Zwei Entwicklungen treffen sich "in der Mitte" o Einführung von semantischer Struktur in Text  strukturierte Dokumente, Dokumente als Daten o Auflösung von Schemainformation zu eingebetteter Selbstbeschreibung, Kodierung als Text  semistrukturierte Daten, Daten als Dokumente o Ähnliche Modelle o Gemeinsame Verwendung von XML zur Kodierung, unter Verdeckung der semantischen Unterschiede oder unter Angleichung an die originäre XML-Semantik

33 25.Oktober 2006 ― 33Elektronisches Publizieren: Dokumenten-Modellierung Typische Klausuraufgaben o Aufgabe Beschreiben Sie das Modell der semistrukturierten Daten in Graphterminologie. o Aufgabe Nennen Sie mindestens drei Unterschiede zwischen dem Modell der strukturierten Dokumente und dem Modell der semistrukturierten Daten. o Aufgabe Zu welchem Zweck wurde das Modell der semistrukturierten Daten eingeführt?

34 25.Oktober 2006 ― 34Elektronisches Publizieren: Dokumenten-Modellierung Informatik-Paradigmen o Late Binding: Entscheidungen werden so lange hinausgezögert, bis sie unumgänglich sind. Beispiel: Polymorphie Hier: Stylesheets erst zum Präsentationszeitpunkt o Separation of Concerns: Systeme werden so gestaltet, daß unterschiedliche Aufgaben unabhängig voneinander durchgeführt werden können. Beispiel: Datenbankanwendungen: Trennung in Anwendungsschicht, konzeptionelle und physikalische Schicht (Datenunabhängigkeit) Hier: Trennung von Inhalt+Struktur und Präsentation im Dokumentenmodell

35 25.Oktober 2006 ― 35Elektronisches Publizieren: Dokumenten-Modellierung Literatur o Skript o J. Bosak: XML, Java and the Future of the Web. http://sunsite.unc.edu/pub/sun-info/standards/xml/why/xmlapps.htm. http://sunsite.unc.edu/pub/sun-info/standards/xml/why/xmlapps.htm o J.P. Morgenthal: Portable Data / Portable Code: XML & Java Technologies. http://java.sun.com/xml/ncfocus.html. http://java.sun.com/xml/ncfocus.html o T. Berners-Lee, J. Hendler, O. Lassila: The Semantic Web. Scientific American 2001. o E.R. Harold, W.S. Means: XML in a Nutshell. O'Reilly 2001. o E.T. Ray: Einführung in XML. O'Reilly 2001. o S. Abiteboul, P. Buneman, D. Suciu: Data on the Web. Morgan Kaufmann Publishers 2000.


Herunterladen ppt "25.Oktober 2006 ― 1Elektronisches Publizieren: Dokumenten-Modellierung Grundlagen — Modellierung von Dokumenten und Daten — Anne Brüggemann-Klein TU München."

Ähnliche Präsentationen


Google-Anzeigen