Open Access Netzwerk als Linked (Open) Data

Open Access Netzwerk als Linked (Open) Data
Osnabrück, 2-4 März 2011 Open Access Netzwerk als Linked (Open) Data Ich möchte heute über mögliche Lösungen und Szenarien für eine Semantik Web Applikation im OA-Netzwerk berichten. Ich werde die Standardtechnologien im Bereich Linked Data ansprechen und anschließend über die Aktivitäten vom OA-Netzwerk auf dem Weg in das Semantische Netz berichten. In meinem Vortrag benutze ich vorwiegend den Linked Data Begriff und verzichte stellenweise auf den Open Data Kategorie. Ich tue dies, weil ich mich in meiner Präsentation mit den technischen Gegebenheiten hinter der Linked Open Data Bezeichnung auseinandersetzte, und diese verbergen sich meiner Meinung nach hinter dem Linked Data Bezeichnung. Der Open Data Begriff Open Knowlege steht meiner Meinung nach für die rechtliche

Linked Data Definition Standards für Linked Data
Maximalziele im OA-Netzwerk Lösungsansätze D2R Server OA-Netzwerk als Linked Open Data: ein Beispiel Zukunft von OA-Netzwerk: mögliche Prozessierungsketten Zunächst möchte ich ganz kurz die Definition vom Linked Data und die Grundtechnologien und Standards für L(O)D in Erinnerung rufen. Welche Maximalziele wir verfolgen und den aktuellen Stand unserer Arbeit sind der zweite Teil meiner Präsentation. Anschließend werde ich anhand eines Beispiels die Mapping-Struktur erläutern und unsere Ansätze für die zukunftige Entwicklung vom OA-Netzwerk darlegen.

Linked Data Regeln Linked Data im Semantic Web sind Links, die sowohl vom menschlichen User als auch von einem Software-Client verarbeitet werden können. URIs im Semantic-Web-Sinne können sowohl reale Objekte als auch abstrakte Konzepte referenzieren. Tim Berners-Lee formulierte 4 Grundregeln für Linked Data Netzwerke: Alle Informations-Ressoursen benötigen einen eindeutigen und referenzierbaren Identifier, kurz eine URI. Es müssen HTTP URIs sein, um auch dem menschlichen User gerecht zu werden. Um ein globales semantisches Netzwerk aufzubauen bedarf es einheitlicher Standards. Und die letzte Grundregel fordert die Verlinkung innerhalb verschiedener Ressourcen (URI‘s).

RDF (S) W3C-Standard für die Modellierung von Informationen
WWW Entitäten ('Resources') werden durch URIs identifiziert RDF macht Aussagen über Entitäten in Form von 'Tripeln': Resource Description Framework Schema (RDFS) W3C-Standard, der RDF-Tripeln elementare Semantik hinzufügt Basis für (einfache) Ontologien: domänenspezifische Vokabularien mit (Sub-)Klassen, (Sub-)Eigenschaften und Schlussregeln Subjekt Objekt Der Grundbaustein vom Linked Data ist das Resource Description Framework, kurz RDF. RDF ist das W3C Standard für die Modellierung von Informationen. Laut RDF werden alle Web-Ressourcen duch URI’s identifiziert. In RDF werden Aussagen über Ressourcen als einfache sprachliche Triple modelliert. Das Subjekt ist die Ressource über die eine Aussage getroffen wird, das Prädikat ist die Eigenschaft oder Erläuterung des Subjektes und das Objekt ist das Argument bzws. den Eigenschaftwert des Prädikates. Eine Menge solcher RDF-Tripel ist ein RDF-Graph. Durch RDF sollen Anwendungen in die Lage versetzt werden, Daten im Web Auszutauschen, ohne dass ihre ursprungliche Bedeutung dabei verloren geht. Das RDF-Schema ist die Schemasprache für RDF. RDFS liefert neben der Informationen über Daten auch Informatioenen über deren Bedeutung. RDFS ist geignet für einfachere, weniger komplexe Anwendungsfälle, s.g. leichtgewichtige Ontologien. beschreibt Resourssen in Form von Tripeln. Ein Triple ist ein gerichteter Graph mit zwei Knoten und eine gerichtete Kante als Beziehung dazwischen. Die Beziehungskante ist im RDF eine gleichwertige Informationseinheit, die keinem der beiden Knoten hierarchisch untergeorndet ist, was den Unterschied zu einem XML-Dokument ausmacht. Tripeln können beliebig zusammengefügt werden und somit Teil eines globalen semantischen Graphen werden. die dadurch miteinander kombiniert und weiterverarbeitet werden können.

Triple Sets und Reasoning (1)
Hier könnte ein Exkurs zu RTP Doc ansetzen, wenn ich mehr als 20 Minuten Zeit hätte

Hier könnte ein Exkurs zu RTP Doc ansetzen, wenn ich mehr als 20 Minuten Zeit hätte

Hier könnte ein Exkurs zu RTP Doc ansetzen, wenn ich mehr als 20 Minuten Zeit hätte → Potential für Digitale Heuristiken!

Inferenzen: Beispiele aus der Wirtschaft
Gibt es eine direkte Zugverbindung zwischen Berlin Hbf. und dem Hauptbahnhof Sants in Barcelona? Nein, weil jedes Land seine eigene Schienenführungssysteme Kann man eine Solaranlage in Marokko bauen, die Strom in das Schwedische Stromnetz einspeist? Nein, weil auch hier einheitliche Standards fehlen In der Wirtschaft arbeitet man schon seit Jahren an die Standardisierung und Vernetzung der vorhandenen heterogenen Netzwerke Und warum nicht in der Wissenschaft? Auch wenn alle europäischen Länder über gut ausgebaute Schienennetzwerke verfügen, ist es heute immer noch schwierig mit dem Zug von Berlin nach z.B. Barcelona zu fahren, ohne diesen zu verlassen. Neben der wirtschaftlichen Interessen, die sicherlich diesen Zustand fördern, mangelt es gleichzeitig aber an einheitliche Schienenführungssysteme und die Länder arbeiten seit Jahren an die einheitliche Standardisierung und Vernetzung der vorhandenen heterogenen Netzwerke. Aus meiner Sicht sind solche

OAI-ORE Herbert Van de Sompel, Carl Lagoze
Standardspezifikation seit Oktober 2008 Erweiterung des OAI-PMH Standard Versionen und Formate (Volltext in PDF und HTML, Metadaten in RDF etc.) Teile (Kapitel, Bilder, Dateien) Verknüpfungen zu anderen Objekten (Zitation,Versionierung) Aggregationen mittels URI‘s identifizeren Dokumenten-Binnenstruktur in Resource Maps abbilden Austausch und Nachnutzung von digitalen Objekten Ein weiterer Standard, der die Zusammenführung und die eindeutige Identifizierung von Web-Ressourcen unterstützt verteilte ist die ORE- Spezifikation. Diese wurde von Herbert Van de Sompel und Carl Lagoze entwickelt und im Oktober 2008 vom W3C-Konsortium als Standardspezifikation in der Version 1.0 veröffentlicht. ORE ist eine Erweiterung vom OAI-PHM Standard, um die Binnenstruktur von digitalen Objekten in Repositorien und die Verknüpfungen zwischen ihnen abzubilden. Die Dokumentenstruktur von digitalen Objekten in Repositorien kann aus verschiedenen Versionen und Formaten bestehen. Der Volltext kann in PDF und HTML vorliegen. Die Metadaten des Objektes können z.B. in RDF-Form existieren. Desweiteren kann ein digitales Objekt unterschiedliche Teile wie Kapitel, Bilder und Dateien beinhalten. Es können Verknüpfungen zu anderen Objekten in Form von Zitationen oder Versionierungen existieren. Die Gesamtheit dieser Ressourcen wird im ORE als Aggregation bezeichnet. Die Grundideel von OAI ORE ist es, mittels URIs die Binnenstruktur der Aggregation - d. h. die Beziehungen, die aus den einzelnen Objekten eine Aggregation machen - zu identifizieren und gleichzeitig die Komponenten und Grenzen der Aggregation zu beschreiben. Das Ziel von ORE ist diese Binnenstruktur eines Dokumentes maschinenlesbar zu machen und in einer Resource Map abzubilden. Somit wird der Austausch und die Nachnutzung von digitalen Objekten und deren Aggregationen ermöglicht. Digitale Objekte werden mittels URIs eindeutig identifiziert, um Interoperabilität auf Objektebene zu schaffen. Durch die Objektidentifikation wird das Wiederverwenden und veränderte Zusammensetzen von publizierten Inhalten vereinfacht

Europeana Datenmodell
Globalziel: Granularität und Ausdrucksstärke der Originaldaten erhalten – und doch Interoperabilität herstellen Basiert auf OAI-ORE, DCTerms, SKOS und CIDOC-CRM Erlaubt Spezialisierung durch Communities (AP) RDF-graphenbasiert Unterscheidung zwischen Objekt und Beschreibungsdaten Mehrere Repräsentationen eines Objektes zulassen, die potentiell einander wiedersprechende Aussagen enthalten Zusammengesetzte Objekte modellierbar machen Standard-Metadatenformat mit Spezialisierungsoption Standard-Vokabular mit Spezialisierungsoption EDM basiert wo immer möglich auf existierenden Standards Nun es liegt auf der Hand! Wir haben die Grundbausteine RDF, RDFS und ORE, und brauchen nun ein domänenespezifisches Vokabular mit der dazugehörigen Grammatik bzws. Ontologie, die es möglich macht eine standardisierte Lösung für die Vernetzung heterogener Datenprovider im kulturellen Bereich zu etablieren. Dies ist das Ziel vom Europeana Datenmodell. Es ermöglicht den Erhalt der Originaldaten und erreicht dennoch Interoperabilität der Daten.

Klassen –Taxonomie EDM Version 5
Hier sehen Sie die Klassenhierarchie des EDM-Datenmodells.

Taxonomie der EDM-Eigenschaften Version 5
Und die Eigenschafthierarchie vom Europeana-Ontologie.

EDM-Aggregation und Kontext

EDM in der Gesamtarchitektur von Europeana
First a few words about the envisioned information architecture of Europeana: This is how the information space of Europeana will be restructured: At the “bottom” we have the objects which are provided to Europeana. Above we have the “Semantic Data Layer” which is new. It contains various kinds of KOSs with knowledge about people, places, concepts, and so on. These concepts are linked to the objects below and thereby contextualize and enrich them. 14

EDM und Linked Open Data
Kontextdaten DBpedia PND and SWD (prototype) Geonames LCSH … Europeana intends to connect to the Linked Open Data community. In the Linked Open Data cloud we find many more knowledge sources like Dbpedia, Geonames, or Library of Congress Subject Headings. Europeana wants to use them to further contextualize and enrich the objects in its information space. At the same time Europeana wants to make its own data available to other communities. The EDM is crucial for realizing this vision. [ LOD cloud July 2009 ] Europeana Informationsraum 15

Maximalziele im OAN Semantische Resource Maps erstellen
Metadatensätze nach RDF/RDFS mappen Europeana Data Model integrieren RDF Triple Store Automatisiertes Update SPARQL Schnittstelle für Client-Zugriff HTML und RDF Browsing der Daten Content als Linked Open Data freigeben Um eine Datenintegration und Kontextualisierung zwischen Europeana und OA-Netzwerk zu erreichen, haben wir diese Maximalziele als notwendige Bausteine einer Semantic Web Applikation im OA-Netzwerk formuliert. Erstellung Semantischer Resource Map und Mapping der Metadatensätze nach RDF bzw. RDFS in RDF/XML-Syntax. Unter Berücksichtigung des Europeana Datenmodells (EDM) werden die RDF- Tripels idealerweise in einen RDF-Triplestore gespeichert. Ein Synchronizationstool könnte dafür sorgen die Datenbank bei Aktualisierung der Datenbasis neu zu konvertieren. Der Zugriff auf den Triplestore könnte durch eine SPARQL-Schnittstelle ermöglicht werden. Die RDF-Triples können so als Linked Open Data im Semantic Web freigegeben werden. Es stellt sich nun die Frage für mich: Welche Lösungsmöglichkeiten habe ich, um diese Ziele zu erreichen?

Lösungsansätze dezentral auf Repositorienseite zentral im OA-Netzwerk
EDM Ontologie integrieren Jena oder Sesame Framework Webserver Um semantische Beziehungen der Metadatensätze zu identifizieren wären ideallerweise Zusatzangaben seitens der Repositorien notwendig. Eine dezentrale Lösung auf Repositirienseite für eine semantische Anreicherung der Daten wäre erstrebenswert ist aber in der Projektlaufzeit nicht realisierbar, wir haben uns jedoch auf die zentrale im OA-Netzwerk semantische Anreicherung der geharvesten Dublin-Core- Metadaten beschränkt. Dabei wurde die Ontologie vom Europeana Datenmodell als eine übergreifende universelle Datenstruktur berücksichtigt. Für eine prototypische Semantic-Web-Applikation ist folgende Entwicklungsumgebung erforderlich: Ein RDF-Framework, wie z.B. das Jena Semantic Web Framework für Java. Jena bietet eine RDF- und OWL-API(Applikation Programming Interface), ermöglicht das Lesen und Schreiben von RDF in unterschiedlichen Syntaxen. Um die RDF Daten auch für menschliche USER erreichbar zu machen, ist ein Webserver erforderlich.

D2RQ-Plattform D2RQ Mapping Language D2RQ Engine D2R Server
Deklarative Sprache Beziehungen zu beschreiben D2RQ Engine Plug-in für Jena und Sesame API D2R Server Linked Data Ansicht HTML Ansicht zur Browsing SPARQL Protocol Schnittstelle Fast alle diese Anforderungen und Lösungen sind in der D2R Plattform integriert. Die Plattform besteht aus dem D2RQ Mapping language. Das ist eine deklarative Sprache für die Beschreibung von Beziehungen zwischen Ontologien und Relationellen Datenmodelle. Die D2RQ Engine ist implementiert als ein Jena graph. Der Jena Graph ist das Basis-Informations-Objekt in das Jena Framework. Der D2RQ graph wrapt bzw. überführt eine lokale relationale Datenbank in einen virtuellen RDF-Graph, der nur über einen lesenden Zugriff erreichbar ist. Es überschreibt Jena oder Sesam-API-Aufrufe und SPARQL-Anfragen zu anwendungs-spezifischen Daten-Modell SQL-Abfragen. Das Ergebnis dieser SQL-Abfragen werden in RDF Tripel oder SPARQL Ergebnismengen transformiert und an den D2R Server weitergeleitet. Die D2RQ Sesame Schnittstelle überführt den D2RQ Jena Graph in eine Sesame RDF Schnittstelle. Diese Schnittstelle bietet eine Sesam- Schnittstelle mit lesendem Zugriff zur Abfrage mit RDF und RDF Schema. Die D2RQ Engine ist ein Plug-in für die Jena and Sesame API’s. Diese Software-Komponente benutzt die Mapping-Struktur, um SPARQL-Anfragen in SQL-Format und umgekehrt zu umwandeln und an die DB weiterzuleiten. Die dritte Komponente ist der D2R Server. Ein HTTP Server, der eine Linked Data Ansicht, eine HTML-Browser-Ansicht der Daten und eine SPARQL Schnittstelle zur Datenbank ermöglicht. D2R Server ist die Schnittstelle zur Publikation der Daten aus einer Relationalen Datenbank im Semantic Web. RDF and HTML Browser können somit über den Inhalt der Datenbank navigieren. Client-Applicationen können Anfragen an die DB über die SPARQL Schnittstelle senden mit Hilfe der SPARQL query language. Der D2R Server basiert auf die D2RQ Engine.

D2R-Server Relationale DB im Semantic Web publizieren
Datennavigation mit HTML oder RDF Browser Client-Zugriff über eine SPARQL-Schittstelle D2RQ Plattform (D2RQ API) ermöglicht Abfrage von non-RDF DB mit SPARQL query language Informationszugriff auf non-RDF DB mit Jena/Sesame API DB als Linked Data im Web SPARQL queries über SPARQL Protocol Der D2R-Server ermöglicht das Publizieren der Inhalte aus relationalen Datenbanksysteme im Semantic Web als RDF Daten. Die RDF Daten können entweder mit herkömmlichen HTML Browser oder aber mit einem RDF Browser durchsucht und angezeigt werden. Eine SPARQL Schnittstelle ist integriert und kann sowohl von menschlichen als auch von maschinellen Clients aufgerufen werden. Das Abfragen der Relationalen DB ist mit Hilfe der SPARQL query languge möglich. Die Daten aus der Datenbank können als Linked Data veröffentlicht werden und zwar on the fly. Die Software ermöglicht die Erzeugnung eines RDF- Dumps der gesammten Datenbank.

Wir haben das OA-Netzwerk Datenbank Schema mit Hilfe des D2RQ Framework auf das Europeana Datenmodell gemappt. Die Zeichnung, die sie gerade sehen, visualisiert die Mappingstruktur an Beispiel von einem Metadata Record aus der OA-Netzwerk Datenbank. Jede Ovale repräsentiert eine reale und eindeuitig identifizierbare Resource im Netz. Jede Resource wird einer Klasse aus dem Europeana Datenmodell zugeordnet und erbt somit die semantische Beziehungen dieser Klasse. Diese semantische Relationen und Beziehungen werden in der übergeordneten Europeana Ontologie festgelegt. Die Pfeile stellen die Relationen zwischen der einzelnen Resourcen dar und können auch in einer hierarchischen Beziehung zueinander stehen. Der Aggregationsknoten bündelt alle vorhanden Informationnen im OA- Netzwerk. Die Aggregation aggregiert den Knoten, der das Objekt “1844” identifiziert, alle digitale Repräsentationen des Dokuments und den domänen spezifischen Proxyknoten. Alle Knoten in diesem Graphen haben entweder eine eindeutig identifizierbare URL innerhalb der OAN-Datenbasis oder es handelt sich um Literalle.

Subjekt Objekt Prädikat
Hier sehen sie die HTML Repräsentation der Informations-Ressource, an der sämtliche deskriptiven Metadaten über dieses Objekt im OA- Netzwerk Kontext gebunden sind. Das Subjekt ist die eindeutige URI- Ressource über die eine Aussage getroffen wird, das Prädikat ist ein Element aus dem Dublin Core Metadatenset und das Objekt ist das Argument vom Prädikat, in diesem Fall ist es eine weitere referenzierbare Ressource. Über das RDF-Logo in der oberen rechten Ecke kann man sich die RDF-Triple zu diesem Objekt in N3 Syntax ausgeben lassen.

OAN-Zukunftsansatz D2R – ein hilfreiches LD Publikationswerkzeug
Es gibt eine Reihe von LD Publikations- und RDF Konvertierungstools MARC/MODS RDFizer Marc2rdf-Modeler OAI-PMH RDFizer RDF Crosswalk (Dublin Core) DC.Metadata Gen Simile Project RDFizers D2R server D2R ist ein hilfreiches LD Publikationswerkzeug. ES ist aber nicht das einzige. Durch die Anwendung solcher Tools, wie das D2R-Server ist es möglich Daten für das Semantic Web aufzubereiten und als Linked Data zu publizieren. Die Aufbereitung und das Mapping erfolgt allerdings manuell. Möchte man auch Daten aus dem Semantic Web selbst konsumieren, sind durchaus kompliziertere Verfahren und Softwarelösungen anzuwenden.

RDF Transformation Datenanreicherung
OAN-Zukunftsansatz XML RDB MARC ….. Aggregator für Linked Data Deutsche Digitale Bibliothek (DDB) Europeana Daten modell Daten modell RDF Transformation Datenanreicherung Daten modell Daten modell OAN Aggregator OA-Netzwerk könnte perspektivisch als ein Linked Data Provider für deutsche Repositorien agieren und gleichzeitig die Rolle eines Aggregators für weitere Institutionen wie die DDB oder Europeana übernehmen. Dies könnte ein wichtiger Baustein der Nachhaltigkeitsstrategie von OA-Netzwerk werden und wesentlich dazu beitragen Europeana

Szenario I Publikationsprozess ändert sich nicht Vernetzung über OAI
Es können nicht alle vorhandenen Daten geharvestet werden!! Verlinkungen bleiben auf der Strecke Vorteil: es findet eine einheitliche Datenanreicherung statt

Szenario II Auslesen der Daten aus den DB's
Zentralisierte Anreicherung und Kontextualisierung der Daten Transformation in RDF Visualisieren der Daten

Szenario III Dezentrale Anreicherung Nachteile: Heterogenität
Keine einheitlichen Standards etablierbar

Repositorien als Teil eines Workflows für die Transformation, Kontextualisierung, Anreicherung und Veröffentlichung beliebiger Inhalte als Linked (Open) Data im Semantic Web XML RelDB Beliebig strukturierte Quellen = Linked Open Data D2R → RDF MINT → EDM SILK + Kontext

Open Access Netzwerk als Linked (Open) Data

Ähnliche Präsentationen

Präsentation zum Thema: "Open Access Netzwerk als Linked (Open) Data"— Präsentation transkript:

Ähnliche Präsentationen

Über Projekt

Feedback

Anmelden

Anmeldung über soziales Netzwerk:

Open Access Netzwerk als Linked (Open) Data

Ähnliche Präsentationen

Präsentation zum Thema: "Open Access Netzwerk als Linked (Open) Data"— Präsentation transkript:

Ähnliche Präsentationen

Über Projekt

Feedback