Präsentation herunterladen
Die Präsentation wird geladen. Bitte warten
Veröffentlicht von:Aldrik Arenz Geändert vor über 10 Jahren
1
Wissenschaftliche Übung Metadatenformate und -standards Volker Herrmann Philosophikum, Raum 232 (2.Stock) Tel. 470 5228 Sprechstunde nach Vereinbarung per Mail: herrmanv@uni-koeln.de
2
Metadaten sind… Metadata is sometimes defined literally as 'data about data,' but the term is normally understood to mean structured data about resources that can be used to help support a wide range of operations. (M.Day, 2001)
3
Metadaten sind… Metadata is sometimes defined literally as 'data about data,' but the term is normally understood to mean structured data about resources that can be used to help support a wide range of operations. (M.Day, 2001) Daten über Daten: Kanzler Schröder Autor Harold Pinter
4
Metadaten sind… Metadata is sometimes defined literally as 'data about data,' but the term is normally understood to mean structured data about resources that can be used to help support a wide range of operations. (M.Day, 2001) Daten über Daten: Kanzler Schröder Autor Harold Pinter in strukturierter Form: Schröder 100: Pinter, Harold
5
Metadaten sind… Metadata is sometimes defined literally as 'data about data,' but the term is normally understood to mean structured data about resources that can be used to help support a wide range of operations. (M.Day, 2001) Daten über Daten: Kanzler Schröder Autor Harold Pinter in strukturierter Form: Schröder 100: Pinter, Harold Semantik Kanzler= Vom deutschen Bundestag gewählter Regierungschef
6
Metadaten sind… Metadata is sometimes defined literally as 'data about data,' but the term is normally understood to mean structured data about resources that can be used to help support a wide range of operations. (M.Day, 2001) Daten über Daten: Kanzler Schröder Autor Harold Pinter in strukturierter Form: Schröder 100: Pinter, Harold Semantik Kanzler= Vom deutschen Bundestag gewählter Regierungschef Syntax Ein xml-Element (tag) muß immer in spitze Klammern gefasst sein, ein Endtag enthält zusätzlich vor dem Elementnamen einen Slash
7
Metadaten – wozu? 1.Information Retrieval: Suchen und Finden von Daten - Suchen nach bestimmten Kriterien - ähnliche Quellen zusammenfassen, verschiedenenartige Quellen auseinanderhalten - den Ort der Datenquelle festhalten
8
Das World Wide Web – Growing and growing … Source: http://news.netcraft.com/archives/web_server_survey.html
9
Einige weitere Fakten (nach Gill, 2000): -Überwiegende Suchstrategien der User: Suchmaschinen und Hyperlinks -Nur ein Teil der Gesamtmenge der Daten im Web machen den eigentlichen Gehalt an Informationen aus (40 %) User statistics
10
Informationssuche über Suchmaschinen: Google -Page Ranking -Verankerter Text -Visuelle Merkmale -Volltext Parser -Location information -Verteiltes System
14
Probleme von Suchmaschinen -Hohes Recall, niedrige Precision Relevanz der Ergebnisse Ergebnismenge -Aktualität der Suchergebnisse -Erfasste Datenmenge Qualität Indexierungstiefe -versteckte Daten dynamisch generierte Daten
15
Metadaten zur Beschreibung von Webseiten? Meta-Tags für Suchmaschinen: Dublin Core Metadata Initiative (DCMI) Resource Description Framework (RDF)
16
DC Elemente Webseite als HTML mit eingebetteten DC Elementen
17
Metadaten zur Beschreibung von Webseiten? Ja, aber… Problem 1: Spamming Problem 2: Wie zuverlässig sind die Metadaten bzgl. ihrer Inhaltsbeschreibung? Problem 3: Interoperabilität Problem 4: Zusatzkosten Lösung: z.B.: Mechanismen finden, um Webseiten bzgl. ihrer Vertrauenswürdigkeit einstufen zu können.
18
Beispiel: PICS (Platform for Internet Content Selection) Grundprinzipien: Rating einer Webseite nach bestimmten Themenbereichen Rating System Software, die PICS-Metadaten lesen und verarbeiten kann
19
Beispiel: Vancouver Webpages Rating Service Multiculturalism Educational Content Environmental Awareness Tolerance ----------------------------------- Violence Sex Profanity Safety Canadian Content Commercial Content Gambling Category: Tolerance Promotion: Promotion of tolerant behaviour. Positive: Portrayal of tolerant behaviour. Neutral: No Intolerant content; reference works, etc. Negative: Portrayal of intolerant behaviour by minor characters Intolerance: Portrayal of intolerant behaviour by role-model figures. Active Intolerance: Promoting hatred based on differences in religion, culture, race, sexual orientation etc. Unlimited Intolerance: Active promotion of intolerant behaviour; calling for ethnic cleansing, Jihad, genocide etc.
20
Metadaten – wozu? 2.Daten eindeutig identifizieren Daten(-objekte) lokalisieren durch Persistent Identifier: - DOI (Digital Object Identifier) - PURL (Persistent Uniform Resource Locator) Metadatenelemente zur standardisierten Identifikation, z.B. über standardisierte Nummerierungen
21
Beispiel: PURL (Persistent Uniform Resource Locator)
26
PURL - Funktionsprinzip PURL ist funktional ein URL PURL verweist auf einen Resolvermechanismus Quelle:http://purl.oclc.org/docs/purl_faq.html#toc1.1 URL= http://my.address.org/very/long/path/name/and/obscure/file_name.txt PURL= http://purl.oclc.org/foo/bar
28
Metadaten - wozu? 3.Daten Aufbewahren und Bereitstellen - in geordnetem System ablegen - Indexieren - Katalogisieren - Organisieren - Beschreiben - Langfristige digitale Erhaltung
29
Bibliothekarische Metadaten
30
Bibliographische Metadaten
33
MAB2 und MARC - Metadatenformate für bibliothekarische Daten Bibliographische Angaben werden in bibliothekarischen Metadatenformaten in Kategorien gefasst. Die MAB2 Felder Jedem MAB2 Feld sind Regeln zugeordnet, mit welchem Inhalt und in welcher Syntax das Feld gefüllt werden darf. Das Basisregelwerk für die Katalogisierung in der BRD sind die Regeln für die Formalkatalogisierung (früher RAK). RFK GBV Katalogisierungsrichtlinien
34
MAB2 und MARC - Metadatenformate für bibliothekarische Daten Bibliographische Angaben werden in bibliothekarischen Metadatenformaten in Kategorien gefasst. Die MAB2 Felder Jedem MAB2 Feld sind Regeln zugeordnet, mit welchem Inhalt und in welcher Syntax das Feld gefüllt werden darf. Das Basisregelwerk für die Katalogisierung in der BRD sind die Regeln für die Formalkatalogisierung (früher RAK). RFK GBV Katalogisierungsrichtlinien
36
TEI (Text Encoding Initiative) Gedruckte und elektronische Dokumente enthalten i.d.R. mehr Information als den eigentlichen Text. Z.B.: –Ein Dokument kann durch mehrgliedrige Überschriften strukturiert sein; –Bücher verfügen typischerweise über Einleitung und Register. –Sowohl gedruckte als auch elektronische Texte können Kommentare, Fußnoten und Varianten aufweisen. Elektronische Texte sind dynamisch. Man kann elektronischem Text ständig neue Zusatzinformation hinzufügen. Ausgewählt werden kann z.B., welche Informationen bei der Wiedergabe des Textes, aufgeführt werden sollen.
37
TEI (Text Encoding Initiative) TEI hat ein unabhängiges, portables und offenes Format zu Speicherung, Austausch und Analyse von Texten in den Geisteswissenschaften entwickelt. Das TEI folgte in der Kodierung zunächst der SGML, neuere Versionen folgen der XML. Nach TEI ausgezeichnete Texte sind also in SGML oder XML gehalten, wobei die verwendeten Elemente über eine zugehörige DTD (=Datei, die angibt, welche Kodierungsregeln in den dazugehörigen Dokumenten erlaubt sind) validiert werden. Beispiel einer TEI Kodierung
38
Encoded Archival Description (EAD) EAD basiert ebenfalls auf SGML/ XML. Mit EAD lassen sich digitalisierte Dokumente in ihrem Zusammenhang beschreiben und über das WWW präsentieren. Beispiel EAD Archive und Findhilfen
Ähnliche Präsentationen
© 2024 SlidePlayer.org Inc.
All rights reserved.