IT-Zertifikat der Phil.Fak Kurs 4: Daten- und Metadatenstandards Patrick Sahle Daten- und Metadaten SS 09
TEI (Text Encoding Initiative) Einstieg homesick-blues homesick-blues content/uploads/tei/Encoded_Dylan_Lyrics.xml content/uploads/tei/Encoded_Dylan_Lyrics.xml
TEI (Text Encoding Initiative) Basics: Wikipedia Grundansatz (Auszeichnung als Abstraktion) Schieflagen? Anwendungsbereich?
TEI (Text Encoding Initiative) Ein Beispiel: site: file: TEI verstehen und benutzen Einstieg: Elemente: ELEMENTS.htmlhttp:// ELEMENTS.html
TEI (Text Encoding Initiative) TEI Strukturen P5: ongoing activities:
TEI (Text Encoding Initiative) TEI anwenden Das Roma-Tool:
Dublin Core (DC) Einstieg: (besser!) Organisatorischer, historischer und konzeptioneller Hintergrund
Dublin Core einfacher Satz an Elementen/Begriffen zur Beschreibung von Objekten auf der Metadatenebene core elements, version 1.1, ISO (2003): identifier format, type, language title, subject, coverage, description creator, publisher, contributor, rights, provenance relation, source date
Dublin Core "Dublin Core Simple" (15 Elemente) vs. "Dublin Core Qualified" (element refinements) "Begriffe im Namensraum DCTerms" (55 Elemente):
Dublin Core … definiert Begriffe / Konzepte, keine Syntax … kann ausgedrückt werden z.B. mittels HTML oder XML DC Einführung Patrick Sahle
Dublin Core Anwendungsbeispiel: BSB-Digitalisate an der OAI-Schnittstelle Reichstagshandbuch. Reichsdr text/xml 6 Reichstagshandbuch. Reichsdr text/xml 1
DC revisited Vor und Nachteile? Lob der Einfachheit! Informationsreduktion? (Strategien) Gebunden an Perspektiven und Wissensbereiche Was ist das Objekt? Granularität, Seitenbezug Typ, Ontologischer Status
Rekapitulation: Dublin Core (DC) "Scope" Ansatz Datenstandard, kein Datenformat Syntax? HTML und XML. Dublin Core Simple / Dublin Core Qualified Vor- und Nachteile? Problematisierung?
Dublin Core Anwendungsbeispiel: OPAL
Dublin Core Anwendungsbeispiel: OPAL myOpal xmlDownload ein Beispiel aussuchen Was ist hier los? Ist das noch Dublin Core? Lokale Anwendung! Dokumentation: "Application Profile" Leicht übersetzbar auf Standard-"Dublin Core"
DC revisited Vor und Nachteile? Lob der Einfachheit! Informationsreduktion? (Strategien) Gebunden an Perspektiven und Wissensbereiche Was ist das Objekt? Granularität, Seitenbezug Typ, Ontologischer Status
OAI = Open Archives Initiative (eigentlich: OAI-PMH = Protocol for Metadata Harvesting)
OAI Einstieg: Beispiel für eine Schnittstelle zur Kommunikation von (Meta-)Daten über das Internet Wichtige Begriffe: Data-Provider, Service-Provider
OAI Datenkommunikation über http-Request Basisadresse + Script (+ Verb (+ Argument) ? )* Sechs "Verben" zur Kommunikation Identify [wer bist du?] ListMetadataFormats [was sprichst du?] ListSets[was hast du für Sammlungen?] ListIdentifiers[gib mir deine Identifier] ListRecords[gib mir Datensätze] GetRecords[gib mir Datensätze] Sechs "Argumente": metadataPrefix, identifier, from, until, set, resumptionToken
OAI Beispielanwendungen OAISTER (Service Provider): ZVDD (Data Provider): BSB (Data Provider): CEEC (Data Provider):
OAI Beispielanwendung CEEC Handschrift Dom 213 Bild: cgi/kleioc/0010/exec/pagesma/%22kn _001.jpg%22/segment/%22body%22http:// cgi/kleioc/0010/exec/pagesma/%22kn _001.jpg%22/segment/%22body%22 Beschreibung: cgi/kleioc/0010/exec/katl/%22kn %22http:// cgi/kleioc/0010/exec/katl/%22kn %22 XML (TEI-like): koeln.de/projekte/CEEC/database/descriptions/kn xmlhttp:// koeln.de/projekte/CEEC/database/descriptions/kn xml OAI (oai_dc): oai/kleioc?verb=GetRecord&metadataPrefix=oai_dc&identifier=kn http:// oai/kleioc?verb=GetRecord&metadataPrefix=oai_dc&identifier=kn
Rekapitulation: OAI (PMH) "Scope" http-Requests "Schnittstelle"; Data-Provider, Service-Provider Sechs "Verben" ( Identify, ListMetadataFormats, ListSets, ListIdentifiers, ListRecords, GetRecords ), mehrere "Argumente" oai_dc plus weitere Metadatenformate
Metadaten im BAM-Sektor (Bibliotheken / Archive / Museen – a.k.a Cultural Heritage) Bibliotheken: METS Archive: EAD Museen: museumdat
Metadaten in Bibliotheken Bibliographische Daten MAB2 MARC ( RDA) MODS DC Komplexe digitale Objekte METS / MODS
METS / MODS (Zusammenfassung) "Scope" Problemlage verschiedene Sichten auf ein Objekt Grundprinzip Verbindung verschiedener Arten von Metadaten (METS-header, descriptive metadata, administrative metadata, files, structural map, links) Nochmals ein Beispiel? (Ponickau)
7 Abschnitte eines METS-Dokuments - Der Kopfteil - METS Header - Erschließungsangaben - Descriptive Metadata -Verwaltungsangaben - Administrative Metadata - Dateiabschnitt - File Section - Strukturbeschreibung – Structural Map - Strukturverknüpfungen – Structural Links - Verhalten – Behavior
… … METS als Containerformat
Konkurrierende Hierarchien?
Rekapitulation: Metadaten in Bibliotheken Traditionell: Bibliographische Daten Ausweitung: Komplexe digitale Objekte Standard: METS / MODS "Scope" Problemlage verschiedene Sichten auf ein Objekt Grundprinzipien Verbindung unterschiedlicher Metadaten (METS-header, descriptive metadata, administrative metadata, files, structural map, links) "Containerformat"
Metadaten im Archiv: EAD Die Heimat von EAD: wikipedia: Scope Bestandteile: 146 Elemente zur Beschreibung von Findmitteln und Archivalien eadHeader (über die EAD-Datei) archDesc did (Zum Gesamtbestand) dsc / c… (Beschreibung über geschachtelte Container) Beispiel:
Rekapitulation: Metadaten in Archiven; EAD Scope Findmittel, nicht Archivalien Bestandteile: eadHeader (über die EAD-Datei) archDesc did (Zum Gesamtbestand) dsc / c… (Beschreibung über geschachtelte Container) Übung: Vergleichen Sie EAD mit TEI und METS …
Metadaten in Museen HIDA-MIDAS (Marburger Informations-, Dokumentations- und Administrations-System) VRA Core 4.0 ( CDWA ( museumdat ( )
Rekapitulation: Metadaten im Museum; Beispiel: Museumdat Scope Zielstellung Harvesting, Datenaustausch Bezug zu anderen Standards CDWA Lite, CIDOC CRM Beschreibungsbereiche: Objektklassifikation, Identi- fikation, Beschreibung, Ereignisse, Beziehungen, Administration
Semantic Web – Zusammenfassung Problem: Wie kann die "Bedeutung" von Daten für den Computer verwertbar gemacht werden? Lösung: Explikation, Annotation, Metadaten, Taxonomien, Authority Files (Normdaten), eindeutige Identifikatoren (z.B. auch URIs), Ontologien, standardisierte Ausdrucksformen
RDF – Zusammenfassung (Fallback: RDF – Resource Description Framework Formale Beschreibung von Informationen ("Resourcen") Aussagen werden als Tripel modelliert Subjekt – Prädikat – Objekt … sind selbst wieder als URI identifiziert (oder auch nur Strings) RDF als Datenmodell und als Syntax (XML, N3) Frage: Verhältnis von RDF und DC? RDFS als Schema für die formale Beschreibung ein- facher Ontologien (Konstrukte: Klassen und Eigenschaften)
OWL – Zusammenfassung (Fallback: Web Ontology Language Sprache zur formalen Beschreibung von Ontologien Baut auf RDF auf und geht über RDFS hinaus Konstrukte: Klassen, Eigenschaften, Instanzen
Noch Zeit? Übung: Wir semantisieren Regest 9 (nur konzeptionell natürlich)
CDWA / CDWA Lite Die Heimat von CDWA: wikipedia: Scope CDWA vs. CDWA Lite Charakteristika
CDWA-Lite Beispiel: nting_gm_816.cdwalite
Museumdat Die Heimat von Museumdat: Scope Zielstellung Harvesting, Datenaustausch Bezug zu anderen Standards CDWA Lite, CIDOC CRM Beschreibungsbereiche: Objektklassifikation, Identi- fikation, Beschreibung, Ereignisse, Beziehungen, Administration
CIDOC-CRM Ausgangspunkte Die Heimat von CIDOC-CRM:
Semantic Web – Zusammenfassung Problem: Wie kann die "Bedeutung" von Daten für den Computer verwertbar gemacht werden? Lösung: Explikation, Annotation, Metadaten, Taxonomien, Authority Files (Normdaten), eindeutige Identifikatoren (z.B. auch URIs), Ontologien, standardisierte Ausdrucksformen
RDF – Zusammenfassung (Fallback: RDF – Resource Description Framework Formale Beschreibung von Informationen ("Resourcen") Aussagen werden als Tripel modelliert Subjekt – Prädikat – Objekt … sind selbst wieder als URI identifiziert (oder auch nur Strings) RDF als Datenmodell und als Syntax (XML, N3) Frage: Verhältnis von RDF und DC? RDFS als Schema für die formale Beschreibung ein- facher Ontologien (Konstrukte: Klassen und Eigenschaften)
RDF – Beispiel <rdf:RDF xmlns:rdf=" xmlns:dc=" Tony Benn Wikipedia
OWL – Zusammenfassung (Fallback: Web Ontology Language Sprache zur formalen Beschreibung von Ontologien Baut auf RDF auf und geht über RDFS hinaus Konstrukte: Klassen, Eigenschaften, Instanzen