Ontologie-basierte Informationsnutzung

Slides:



Advertisements
Ähnliche Präsentationen
Dauermagnete Bei magnetischen Materialien unterscheidet man Eisenkerne bzw. Weicheisenstücke und Dauermagnete bzw. Hart-magnetische Materialien. Dauermagnete.
Advertisements

TAGUNG DER DEUTSCH-LUSITANISCHEN JURISTENVEREINIGUNG O processo penal português Panorâmica introdutória Der portugiesische Strafprozess ein einführender.
Ach wie gut, daß niemand weiß Der Schutz von Wissen
Herzlich Willkommen bei SIMPLE STABLE BULDING
Adjektivendungen Tabellen und Übungen.
ZWILLING Neuheiten 2008.
Das Hexenkochbuch Nicht Rattenschwänze, Spinnenbein
 Präsentation transkript:

Ontologie-basierte Informationsnutzung 2. Kapitel aus dem Buch Information Sharing on the Semantic Web von Heiner Stukenschmidt und van Harmelen Lehrgebiet: Multimedia und Internetanwendungen (Univ.-Prof.Dr.-Ing. M.L. Hemmje) Thema: Daten-, Informations- und Wissensmanagement im Internet FernUniversität Hagen ws2006/07- Christina Sergel

1.0 Inhalt Semantische Heterogenität Ontologien Ontologien in der Informationsintegration Framework für die ontologiebasierte Informationsnutzung Ontologische Vereinbarungen Ontologie-Engineering

1.0 Semantische Heterogenität Ontologien Ontologien in der Informationsintegration Framework für die ontologiebasierte Informationsnutzung Ontologische Vereinbarungen Ontologie-Engineering

1.1 Semantische Heterogenität Konflikte durch semantische Heterogenität: Verwechslungskonflikte: Käfer = Auto oder Tier? Skalierungskonflikte: 3-Sterne Hotel = traumhaftes Hotel? Namenskonflikte: Lehrer = Angestellter = Person Mangel für ein gemeinsames Verständnis: nicht eindeutig, dadurch Kommunikationsschwierigkeiten Unterschiedliche Spezifizierungen für ein System Ontologien als Lösung Mangel für ein gemeinsames Verständnis: nicht eindeutig, dadurch Kommunikationsschwierigkeiten Unterschiedliche Spezifizierungen für ein System Interoperabiltät wird begrenzt Wiederverwendung und Arbeitsteilung eingeschränkt Viel wertvolle Zeit und Kosten wird verschwendet Zu viele Informationen Bedarf wächst für Informationsextraktion, Web Content Mininig, effiziente dynamische und mediatorbasierte Informationsnutzung

2.0 Ontologien Semantische Heterogenität Ontologien Ontologien in der Informationsintegration Framework für die ontologiebasierte Informationsnutzung Ontologische Vereinbarungen Ontologie-Engineering

2. Ontologien Der Begriff Ontologie Was sind Ontologien Konzeptualisierung Gemeinsam genutztes Vokabular Spezifikation des Wissenskontexts Sinnvolle Anwendungen Bild: Zoologische Staatssammlung München

2.1 Der Begriff Ontologie Disziplin der Philosophie die Lehre vom Sein. Im Kontext der Informationstechnologie „An Ontology is a formal, explicit specification of a shared conceptualization“ [Gruber,1993] besteht aus 4 Komponenten: Konzepte, Instanzen Relationen, Axiome. Bild: DERRIDA‘S MACHINES 2004:Polycontextural modelling of polysemy Es gibt nur eine wahre Beschreibung der Welt, das ist die Ontologie mit großem O. Es gibt viele Übersetzungen dieser wahren Beschreibung, das sind die Ontologien mit kleinem o. O = <C,R, I,A> Concept in einer O. ist eine Kategorie von realen oder virtuellen Objekten = Instanzen. Relationen spezifizieren, wie die verschiedenen Konzepte und Instanzen miteinander verbunden sind. Axiome formulieren gültige Aussagen über Wechselbeziehungen zwischen den genannten Ontologie-Entitäten. Eine Ontologie wird in einer logischen Sprache spezifiziert. C und I müssen nicht disjunkt sein -> ein Begriff kann Klasse C und Instanz sein. In einer Ontologie sind die Konzepte gewöhnlich in Subklassen-Hierarchie organisiert.

2.2 Was sind Ontologien Ontologie als ein kontrolliertes Vokabular Eine Menge von Begriffen mit sehr detaillierter und eindeutigen Beschreibung. Einigung auf gemeinsame Sprache Ontologie als Taxonomien hierarchisch strukturierte IST-EIN-Beziehung von Konzepten und Begriffen: Branchenbuch,ISO-Nr. Ontologie & Schemata Schemata beschreiben die Definition von Bedingungen, zB Typen, Schemata werden entworfen für eine spez. Applikation Web-Ontologie sind Taxonomien mit Inferenzregeln Das Ziel ist ein bestimmtes Fachgebiet mit einer großen Community zu konzeptualisieren. Bild: Zoologische Staatssammlung München Taxonomie: eine der ältesten und wissenschaftlichen Disziplinen in der Medizin und der Biologie, die Kunst vom Benennen und Klassifizieren Branchenbuch: Geschäfte sind nach ihren Tätigkeitsfeldern strukturiert Schemata unterstützen die Definition von Bedingungen, zB Typen, Kardinalität, Wertebereichsbedingungen. Schemata, die allgemein akzeptiert werden, können als Ontologie = Vokabula betrachtet werden. ER-Schema

2.3 Konzeptualisierung ein abstraktes Modell von Konzepten und seinen Beziehungen für ein allgemein anerkanntes Weltbild Ein Konzept ist eine gedankliche Vorstellung über ein reales Ding in der Welt. Eine explizite Spezifizierung gibt den Konzepten und Beziehungen des abstrakten Modells explizit Namen und Eigenschaften. Semantisches Dreieck von Ogden et al.

2.4 Gemeinsam genutztes Vokabular Eigenschaften von begrifflichen Ordnungssystemen [RWTH01] Für ein gemeinsames Verständnis für Mensch und Maschine: Erstellung eines standardisierten und „kontrollierten“ Vokabulars, das von allen Beteiligten allgemein anerkannt und genutzt wird. Vokabular muss einschränkend + spezifisch genug sein, hinreichend flexibel + so allgemein wie möglich, Disjunkt (Pizza<> Eis )und vollständig (Länder einer Welt) Martin Pflüglmayer: Computerbasierte Terminologie:“Medizinische Ordnungssysteme, Terminologien und Ontologien“; Aachen 2001 Disjunkte Classen: Klassen sind disjunkt, wenn sie keine gemeinsame Instanz haben: Rotwein und Weisswein sind disjunkt, ein Rotwein kann nicht gleichzeitig ein Weisswein sein.  Wichtig für die Validierung der Ontologien: Wenn eine Subklasse erzeugt wird, die beide Eigenschaften hat: Riesling + Port dann gibt es einen modeling error. Z/SW/Commitment  für die Interoperation und Kommunikation zw. Applikationen Vater hat Sohn  Sohn hat einen Vater  inverse Relation Inverse Relationen: in der „Wein-Klasse“ gibt es ein Attribut „Produzent“, in der „Weinhersteller-Klasse gibt es ein Attribut „Hersteller“. Speichern der Informationen in beiden Richtungen ist redundant, ermöglicht aber der Applikation die Rückfolgerung der Werte für die inverse Relation. Der nutzer trägt nur einen Wert in der einen Klasse ein, die Applikation führt automatisch den inversen Wert hinzu in der anderen Klasse.  Konsistenz der Wissensbasis.

2.4.1 Commen Sense Knowledge CyC Die CyC-Wissens-Pyramide hunderttausende Begriffe Formt eine Upper-Ontologie Seit April 2006 unabhängige non-profit Organisation OpenCyC Ontologisches Wissen + passende Inferenzmechanismen Eigene CyCL-Sprache Quelle: http://www.cyc.com/ hunderttausende Begriffe, Millionen Erklärungen zu den Begriffen untereinander Formt eine Upper-Ontologie Seit April 2006 unabhängige non-profit Organisation OpenCyC CyC = Ontologisches Wissen + passende Inferenzmechanismen Eigene CyCL-Sprache Dolce anderes Beispiel Ding Immateriell – Individuell Relationen Mengen Kollektionen Pfad Logik Mathe Raum Physikalische Objekte Wetter Naturliche Geographie Chemie Astronomie Erde und Sonnensystem ------------------- Sachgebiete, Gesundheit, Computer-Sicherheit,

2.5 Die Spezifikation des Wissenskontext dieser Apfel ist rot Rot (X) karmesinrot ist ein rot diese Person ist ein rot(er) [Quelle:Guarino: The ontological Level ‚95] Wissen implementierungsunabhängig auf dem Wissenslevel in einer Repräsentationsform beschreiben Wissen implementierungsabhängig von Programmiersprache und – konzepte spezifizieren. Ohne Wissenskontext kein Vergleich möglich!

2.5.1 Grad der Formalität Total informal: Lose formulierter Text Semi- informal Kontrolliertes Vokabular reduziert Mehrdeutigkeiten :Glossare Semi-formal mit Regelsystemen kann Wissen schnell und einfach in Regeln ausgedrückt werden. Nachteil: Beschreibung komplexer Problembereiche Frames, ein Modell zur Darstellung von Konzepten, meist als OO-Datenmodell implementiert Semantische Netze, Knoten mit gerichteten Graphen Rigoros Formal Prädikatenlogik mit verschiedenen Ableitungsregeln (HORN-Logik, Resolutionskalkül, Transitivität,Inverse) ermöglicht automatische Konsistenzüberprüfung und Inferenzfähigkeit: DL, TOVE, relationale Datenbanken Bild: D. Oberle, S. Staab, R Volz: Three Dimensions of Knowledge Representation in WonderWeb Formale Sprache reduziert Mehrdeutigkeiten nur dann, wenn es genügend Axiome gibt, sonst kann sie genauso oder sogar mehr Unklarheiten erzeugen, wie bei einem kontrollierten Vokabular.[Uschold, Jasper,1999]11-4“A Framework for Understanding and Classifying Ontology Applications“ von Mike uschold und Robert Jasper

2.5.2 Maß der Definitionstiefe Kriterien: Ausdrucksstärke, Inferenzmächtigkeit und Entscheidbarkeit XML: Syntax für strukturierte Dokumente, keine Semantik RDF: Datenmodell, dass Relationen zwischen Ressourcen eindeutig mit URIs beschreibt RDFS: Stellt Mechanismen bereit, um Relationen zw. Attributen und Ressourcen zu definieren. OIL: Ontology Interchange L.. Enthält entscheidbare Fragmente der Prädikatenlogik (DL) OWL-L, OWL-DL, OWL-FULL Bild: Fensel, van Harmelen:OIL:An Ontology Infrastructure for the Semantic Web, 2001 Definition einer allgemeinen syntaktischen Spezifikation durch die DTD. XML-Tags können willkürlich definiert werden Informationsstruktur leidet. Keine Standard-Tools für Inferenzen auf XML-Basis nach Uschold(2002) keine Ontologie. Hierarchien und Typ-Bedingungen definierbar. (class resource,property) semantic-markup-Sprache fürs Web resources Baut auf früheren W3C-Standards wie RDF und RDFS auf. Unterstützt transitive und inverse Eigenschaften. mit klar und wohldefinierter Semantik und automatisierten Reasoning-Support. OWL-L kann man schnell eine Taxonomie aufbauen OWL-DL Z/SW/Literatur/Guarino/ki2005

2.6 Sinnvolle Anwendungsbereiche Kommu- nikation Information Retrieval System- technik Ontologie Inter- operabilität

2.6.1 Kommunikation Normatives Modell: Ontologien als ein gemeinsamer Wissensspeicher (Archive, Gesetzestexte, Regeln) Beziehungsnetzwerke: Ontologien stellen wirtschaftliche und soziale Beziehungsnetze bereit (FOAF) P2P-Systeme Konsistenz und Mehrdeutigkeiten: konsistente Ontologie durch Reasoners Integration von verschiedenen Ansichten: ffPoirot Systemanalysen der Modellierung und Validierung von Renault Automobilen: Sammelt Wissen, die beim Automobildesign entstehen, um sie wiederzuverwenden,  gemeinsames Problemwissen Gemeinsames Intranet: Verhaltensregeln, technische Regeln, komerzielle Praktiken gemeinsame Standards auf Geschäftsebene E-commerce: komplexe beschreibung der Organisationen, produkte und Dienste, ffPoirot: ONTOLOGIES: Principles, Methods and Applications von Mike Uschold & Michael Gruninger ,1996

Spezifikation: von Anforderungen für ein IT-System (Dokumentation) 2.6.2 Systemtechnik Spezifikation: von Anforderungen für ein IT-System (Dokumentation) Zuverlässigkeit: informale bzw. formale Konsistenzüberprüfung Wiederverwendbarkeit: easy to re-use-Bibliothek, Aufbau der Ontologie-Bibliotheken. Erweiterbarkeit, Offenheit: Ontologie-Bibliotheken müssen erweiterbar sein Wiederverwendung: Ontologie als ein gemeinsam genutzte Komponente in einem System Identifikation bestimmter Medikation für eine Diagnose

2.6.3 Interoperabilität Ontologien als Austauschformat (KIF) Gemeinsam genutztes Vokabular erleichtert Interoperabilität Quelle:ONTOLOGIES: Principles, Methods and Applications von Mike Uschold & Michael Gruninger ,1996 Uschold 66 Seite48 B2B : Ressourcen müssen ausgetauscht werden auf elektronischem Weg Mobile e-Business: Standardisierungen lösen Interoperabilitätsprobleme, Kategorisierung der Produkte, Dienstleistungen, Länder etc Virtuelle Organisation zwischen verschiedenen Wissensbasen KM E-lerning

2.6.4 Information Retrieval für die qualitative Suche (informal und formal)  besseres Verständnis Für die Wissensgewinnung Ontologien für die Evaluation von Wissenssystemen Content Management Systeme (OntoWeb) Kategorisierungssystem von Dokumenten und anderen Quellen Query-Augmentation: verbessert die Suchanfragen um relevate Ergebnisse zu bekommen Maschinen lernende Systeme benötigen die Informationsextraktion ONTOLOGIES: Principles, Methods and Applications von Mike Uschold & Michael Gruninger ,1996

Ontologien in der Informationintegration Semantische Heterogenität Ontologien Ontologien in der Informationsintegration Framework für die ontologiebasierte Informationsnutzung Ontologische Vereinbarungen Ontologie-Engineering

3.1 Welche Rollen haben Ontologien Repräsentation des Inhalts Aufgabe der O. ist Wissensrepräsentation Single-Ontologie-Ansatz Multiple-Ontologie-Ansatz Hybrid-Ansatz Query-Modell Zugriff auf die Wissensbasis Verifikation Wartung der Integration und Extension

3.1.1 Single-Ontologie-Ansatz: SIMS Eine zentrale Ontologie globale Sicht auf unterschiedl. Sourcen Gemeinsam genutztes Vokabular Vergleich d. O. einfach, Enge Kopplung Keine Wiederverwendung v. O. Anfällig für Source-Änderungen Semantische Datenintegration? Quelle: Tzi: methodolgies for Ontology-Based Semantic Translation sekt-d-4-2-2-SOA: Survey on ontology Merging and Aligning

3.1.2 Multi-Ontologie-Ansatz:zB. OBSERVER Jede Informationsquelle hat seine eigene Ontologie (lokal View) Kein gemeinsam genutztes Vokabular  autonom Lose Kopplung, keine ontologische Übereinstimmung Vereinfacht Integration Komplexität des O-Mapping O(n2) 1:1-Mapping beim OBSERVER, worst case: one way Mapping Quelle: Tzi: methodolgies for Ontology-Based Semantic Translation; sekt-d-4-2-2-SOA: Survey on ontology Merging and Aligning .

3.1.3 Hybrid-Ansatz: z.B. COIN Jede Ressource hat seine eigene Ontologie Aufgebaut aus dem global gemeinsam genutzten Vokabular Neue Ressourcen können leicht hinzugefügt werden Unterstützt Evolution und Erwerb Ontologien sind vergleichbar Query-Prozessing ist komplex Keine Wiederverwendung von O. Quelle: Tzi: methodolgies for Ontology-Based Semantic Translation; sekt-d-4-2-2-SOA: Survey on ontology Merging and Aligning

3.2.0 Query-Modell Zentrale Aufgabe von Ontologien: Inferenzen auf und Abfragen von Ontologien Abfrage auf Ontologiestruktur Abfrage von Fakten, Kriterien für ein Query-Modell: Verständlichkeit: Abfrage mit O-Begriffen intuitiv? für welche Aufgaben kann es genutzt werden? Antworten klar und einfach ? Query Plan: klare Beschreibungen für jeden Interaktionsschritt zwischen den Ontologien. Optimierung: kann die Abfrage dramatisch beschleunigen. (Sprachverarbeitung), setzt Inferenzfähigkeit voraus die in der Wissensbasis abgelegt sind. Logische Verkettungen, durch Ontologie bzw. durch die Regelbasis definiert Welche Ausführungsstrategie bei welchem Architekturmodell? Single-Ansatz vs Multi-Ansatz ?

3.3.0 Verifikation Verifikation: nicht die Ontologie wird überprüft, sondern die Korrektheit nach Mappings von Globalen zu lokalen Ontologien und umgekehrt Validation einer Ontologie: in wieweit entspricht die Ontologie dem Realitätsausschnitt, den sie abbilden soll Nur möglich bei formalsprachlicher Spezifikation, die vollständig ist. (Query containment) Qualität der Überprüfung ist von der Vollständigkeit einer Ontologie abhängig. Vollständigkeit einer Ontologie Query containment: in wieweit ist die lokalen Unterabfragen in den globalen Oberabfragen enthalten? siehe Z/SW/Ontologie/974935131.pdf Z/SW/Literatur/van Harmelen95formal.pdf Z/SW/Rollen/dils-paper-2005.pdf Z/SW/Commitment/waterson99verifying.pdf

4.0 Framework für die Informationsnutzung Semantische Heterogenität Ontologien Ontologien in der Informationsintegration Framework für die ontologiebasierte Informationsnutzung Ontologische Vereinbarungen Ontologie-Engineering

4.1 Framework für die ontologiebasierte Informationsnutzung 2 prinzipielle Methoden für gemeinsame Nutzung von Informationen: Retrieval Integration mit standardisiertem Vokabular Wiederverwendung von Ontologien Die Gewinnung von inhaltsbasierten Informationen aus verteilten Ressourcen Die Übersetzung der Konzeptualisierungen verschiedener Ressourcen

4.2 Infrastruktur eines Framework Architektur: Hybrid-Ansatz 3-Schichten Infrastruktur: Unterste Ebene: Daten, Metadaten und Ressourcen Middleware-Ebene: Mapping-Regeln, Verifikation, Transformation, Queries, Reformulierungen Oberste Ebene: wiederverwendbare Ontologien und gemeinsam genutztes Vokabular Quelle: M.Doerr: The CIDOC CRM, an Ontological Approach to Schema Heterogeneity, 2005 CRM Conceptual Referenz Model bietet Ontologie im Bereich des Kulturerbes an

5.0 Ontologische Vereinbarungen Semantische Heterogenität Ontologien Ontologien in der Informationsintegration Framework für die ontologiebasierte Informationsnutzung Ontologische Vereinbarungen Ontologie-Engineering

5.1 Ontologische Vereinbarung Minimale Kodierungsabweichung Konzeptualisierung auf der Wissensebene Minimal ontological commitment: Zuviele Einschränkung  begrenzt die Offenheit Zuwenige  erhöht Inkonsistenz u. inkorrekte Modulierung Bild: Stuckenschmidt/Van Harmelen: Information Shraring 2003 Für Wissensaustausch  Zustimmung zu Standards Z/SW/Croche/KCAP01 und KTSW2002 (Interoperation bzw. Agentenkooperation, Übertragung von Ontologien)

5.2 Der Übersetzungsprozess Ontologien importieren Ähnlichkeiten finden Mapping spezifizieren Merging Mapping Ontology Aligning Quelle: SEKT:D4.2.2 State-of-the-art survey on Ontology Merging and Aligning V2, 2003 Merging: Als Input 2 Ontologien , als Output wird eine neue Ontologie erzeugt , die beide Versionen enthält Mapping:  Konzeptualisierung der Wissensdomäne statt auf der Wissensebene auf der Symbolischen Ebene durchgeführt  dadurch viele Missverständnisse

6.0 Ontologie-Engineering Semantische Heterogenität Ontologien Ontologien in der Informationsintegration Framework für die ontologiebasierte Informationsnutzung Ontologische Vereinbarungen Ontologie-Engineering

6.0 Ontologie-Engineering Zweck und Anwendungsbereich identifizieren Ontologie – Aufbau Klassifizieren Strukturieren , Integration von existierenden Ontologien Validieren, Verifizieren Verfeinern Verwalten und Benutzbarkeit testen Evaluieren Bild: [Buitelaar: Human Language Technology for the Semantic Web; 2005] Ontologischer Lebenszyklus Die Abwesenheit eines strukturierten Leitfadens zur Ontologie-Entwicklung-Methoden führt dazu, dass die Entwicklung von gemeinsamen Wissen und Verständnis verhindert wird, globalen Ontologien nicht wiederbenutzt weden und auch nicht weiterentwickelt werden. Entwickeln: Anforderungen analysieren und dokumentieren, Zweick und Bereich bestimmen:Themen und Informationsquellen sammeln und Konzepte spezifizieren, Nutzergruppen und Anwendungsfälle definieren, Auswahl des gemeinsam genutzten Vokabulars, definieren der lokalen Ontologie Klassifizieren: Relationen und Instanzen der Konzepte mit dem standardisierten Vokabular zuordnen Validieren: Umweltänderungen erfordern ein ständiges Anpassen der Ontologie an den Realausschnitt, , Ontologien aktualisieren Verfeinern: Verfeinern der Ontologiestruktur: verfeinern der Konzepthierarchie, integrieren von Konzepten, Relationen und Axiomen, Muster in den Ressourcen suchen und die Konzepte miteinander verlinken, Modellieren der Navigationsstrukturen, implicitis Wissen weiter formalisieren und hinzufügen, Vokabular weiter vervollständigen Verwaltung:Ontologie-Versionen verwalten,die Vereinbarungen müssen dokumentiert werden,Testen der Benutzbarkeit, Fehlertoleranz, Performance, Evaluieren: Anforderungsspezifikation aktualisieren, Ontologie als Ganzes mit Tests evaluieren, Instanzen und Axiome testen, Fehler lokalisieren mit qualitativen Fragen, Konsistenz überprüfen mit typ. Suchanfragen,

6.0 Zusammenfassung Ontologien reduzieren semantische Heterogenität Domain-Ontologien erfassen und formalisieren semantik-erhaltendes Wissen durch ein standardisiertes eindeutiges Vokabular Applikations-Ontologien nutzen Ontologien für das Wissensmanagement (ecommerce, Medizin, Umwelt, Recht) Die Verwaltung von schwach-strukturierten Ressourcen wird durch semi-automatisierte Übersetzung erleichtert