PG-402 Wissensmanagement: Ontologiebasierte Wissensextraktion

Slides:



Advertisements
Ähnliche Präsentationen
Algorithmen und Datenstrukturen
Advertisements

Web-Content-Management-Systeme
Kohonennetze für Information Retrieval mit User Feedback
PG402 Wissensmanagement Zeitreihen in Datenbanken 1 PG-402 Wissensmanagement: Zeitreihen in Datenbanken Klaus Unterstein.
ELearning – The Next Five Years AIFB Rudi Studer Learning Lab Lower Saxony Institute AIFB, University of Karlsruhe
Inhaltlich orientierter Zugriff auf unstrukturierte Daten
Ontologien- Query 1 Teil2
DEPARTMENT FÜR INFORMATIK
Datenbankzugriff im WWW (Kommerzielle Systeme)
Kapitel 4 Syntaktische Analyse: LR Parsing.
Konzeption und Realisierung eines Text- Analysesystems zur Automatisierung der Bewerberauswahl von diesem Datenformat jede beliebige Anwendung adaptieren.
Wissensmanagement mit semantischen Netzen – Analyse und Vergleich verschiedener Softwarelösungen Autor: Holger Wilhelm Referentin: Prof. Dr. Uta Störl.
Erschließen von semantischen Referenzen mit Ontology-Reasoning-Werkzeugen Das Ziel dieser Masterarbeit war die Erweiterung des ORBI Systems um ein Inferenz-System.
Stefanie Selzer - Pascal Busch - Michael Kropiwoda
IMS Universität Stuttgart 1 Einführung in XML Hannah Kermes HS: Elektronische Wörterbücher Do,
CIDOC-CRM Universität zu Köln Historisch-kulturwissenschaftliche Informationsverarbeitung AM 2 Dozent: Prof. Dr. Manfred Thaller Referent: Nelson Marambio.
Grundkurs Theoretische Informatik, Folie 2.1 © 2006 G. Vossen,K.-U. Witt Grundkurs Theoretische Informatik Kapitel 2 Gottfried Vossen Kurt-Ulrich Witt.
WIESEL – Integration von Wissensmanagement und E-Learning auf der Basis von Semantic Web Technologien Matthias Rust, XML-Tage 2004, Berlin WIESEL Integration.
Wissensbasierte Daten- interpretation für einen automatisierten und adaptiven Inhaltsintegrationsprozeß Lyndon J B Nixon
PinK Plattform für intelligente Kollaborationsportale Dr. Joachim Quantz, e.V. Berlin, 13. September 2005.
Jan Fienhold1 Institut für Informatik Betriebliche Informationssysteme OWL Web Ontology Language.
Ontologie(n) Ein Vortrag von Sven Liekenbrock
6 Normalformen Normalisieren Schlüssel
Inhalte und Maßnahmen eingegeben haben,
1 Grundlagen und Anwendung der Extensible Markup Language (XML ) Peter Buxmann Institut für Wirtschaftsinformatik Johann Wolfgang Goethe-Universität Frankfurt.
Grundschutztools
Kurzreferat Der Wissensbegriff auf einer Grundlage von: Towards the Semantic Web - Ontology-Driven Knowledge Management von: Lars Aßmann.
Der Supermarkt: Eine beispielhafte Erklärung für die fünf untersten Schichten des Semantic Web Protocol Stack Nicola Henze.
Der Supermarkt: Eine beispielhafte Erklärung für die fünf untersten Schichten des Semantic Web Protocol Stack Nicola Henze.
Diplomarbeitsvortrag Ontologien, Information Extraction und Information Retrieval – eine Synthese Marcus Heidmann in Zusammenarbeit mit AIFB &
Entitäten Extraktion Einführung
1. 2 Schreibprojekt Zeitung 3 Überblick 1. Vorstellung ComputerLernWerkstatt 2. Schreibprojekt: Zeitung 2.1 Konzeption des Kurses 2.2 Projektverlauf.
Lesen macht stark-Lesekompetenztests
Spezifikation von Anforderungen
Bild 1.1 Copyright © Alfred Mertins | Signaltheorie, 2. Auflage Vieweg+Teubner PLUS Zusatzmaterialien Vieweg+Teubner Verlag | Wiesbaden.
20:00.
Entwurf und Realisierung einer digitalen Bibliothek zur Verwaltung von Notenhandschriften Dipl.-Ing. Temenushka Ignatova Datenbank- und Informationssysteme,
Nestor Workshop im Rahmen der GES 2007 Digitale Langzeitarchivierung und Grid: Gemeinsam sind wir stärker? Anforderungen von eScience und Grid-Technologie.
Knowledge Discovery mit Wordnet und Alembic Workbench
1 Knowledge Discovery mit Wordnet und Alembic Workbench (Julia Faion) (Markus Reiter)
Lutz Rabe | Koordinierungsstelle für IT-Standards (KoSIT)
Ontologien im Wissensmanagement
Automatic composition of UI mashups Vortrag zum Seminar Webengineering 2011 Michael Reißner.
Sesame Florian Mayrhuber
Musterlösungen Übungsblatt 5
1 CeBIT 2008 Knowledge Management 2.0 Ulrich Kampffmeyer PROJECT CONSULT Unternehmensberatung Dr. Ulrich Kampffmeyer GmbH Breitenfelder Straße
Analyse von Ablaufdiagrammen
Publikation auf Knopfdruck Judith Riegelnig Michael Grüebler 19. Oktober 2010 / Statistiktage Neuenburg.
Evaluierung: Tools zum Erfassen von Ontologien
PARTENARIAT ÉDUCATIF GRUNDTVIG PARTENARIAT ÉDUCATIF GRUNDTVIG REPERES KULTURELLER ZUSAMMENHALT UND AUSDEHNUNG DER IDEEN AUF EUROPÄISCHEM.
XML (Extensible Markup Language)
LOD Levels of Detail Oliver Gassner Christian Troger.
Analyseprodukte numerischer Modelle
Using latent semantic analysis to find different names for the same entity in free text Präsentation und Diskussion des Papers Im Rahmen des PS Web-Information.
Schutzvermerk nach DIN 34 beachten 20/05/14 Seite 1 Grundlagen XSoft Lösung :Logische Grundschaltung IEC-Grundlagen und logische Verknüpfungen.
Untersuchungen zur Erstellung eines
1 Albert-Ludwigs-Universität Freiburg Rechnernetze und Telematik Prof. Dr. Christian Schindelhauer Informatik III Christian Schindelhauer Wintersemester.
Ertragsteuern, 5. Auflage Christiana Djanani, Gernot Brähler, Christian Lösel, Andreas Krenzin © UVK Verlagsgesellschaft mbH, Konstanz und München 2012.
STLB-Bau – Vernetzung von Fachinformationen
Eike Schallehn, Martin Endig
© 2001 Sven Dammann1 Aufbau Integrierter Informationssysteme XML Bearbeitung und relationale Abbildung Sven Dammann Martin-Luther-Universität Halle-Wittenberg.
Der Supermarkt: Eine beispielhafte Erklärung für die fünf untersten Schichten des Semantic Web Protocol Stack Nicola Henze.
SAP Seminar 2007 Organisationsobjekte anlegen
Monatsbericht Ausgleichsenergiemarkt Gas – Oktober
Lexit.at Michael Hausenblas Semantische Darstellung und Abfrage von Rechtsnormen – IRIS 2004 Semantische Darstellung und Abfrage von Rechtsnormen am Beispiel.
© Fraunhofer-Institut für Angewandte Informationstechnik FIT Social Search.
1 Zahlreiche Transformationen - Achtung Hochspannung Meike Klettke.
CL Tree MW 31.1 Business Intelligence Wintersemester 2015 / 2016 Stanislav Prokupetz.
Workflowsysteme und Datenbanksysteme Gliederung Motivation Basis- funktionalitäten Klassifikations- merkmale Referenz-Modell MQ Workflow Zusammenfassung.
Comprehensive Information Base (CIB) – ein Prototyp zur semantischen Datenintegration Stefan Arts
 Präsentation transkript:

PG-402 Wissensmanagement: Ontologiebasierte Wissensextraktion WS2001/2002 Klaus Unterstein 20.10.2001 PG-402 Wissensmanagement: Ontologiebasierte Wissensextraktion

PG-402 Wissensmanagement: Ontologiebasierte Wissensextraktion Verlauf Begriffsklärung Ontologiebasierte Wissensextraktion Methoden Vor- und Nachteile im Vergleich Bewertung der Ansätze Praxis/Trends Schlußwort 20.10.2001 PG-402 Wissensmanagement: Ontologiebasierte Wissensextraktion

PG-402 Wissensmanagement: Ontologiebasierte Wissensextraktion Begriffsklärung Ontologie(n) (Wissens-) Extraktion Ontologiebasierte Wissensextraktion (OWE) 20.10.2001 PG-402 Wissensmanagement: Ontologiebasierte Wissensextraktion

PG-402 Wissensmanagement: Ontologiebasierte Wissensextraktion Ontologie(n) Definition Motivation Zweck Beschreibung Einsatz Bewertung 20.10.2001 PG-402 Wissensmanagement: Ontologiebasierte Wissensextraktion

Ontologie(n) - Definition Was ist eine Ontologie ? Definition (Gruber): „An ontology is a formal, explicit specification of a shared conceptualization.“ [1993] Eine Ontologie beschreibt explizit eine formale, verteilte Konzeptualisierung eines bestimmten, uns interessierenden Bereichs. 20.10.2001 PG-402 Wissensmanagement: Ontologiebasierte Wissensextraktion

Ontologie(n) – Motivation (1) (allgemein) Warum benutzen wir Ontologien ? Anzahl gespeicherter Informationsquellen wachsen Zugriff, Finden und Zusammenfassen von Informationen immer schwieriger Große Lücke zwischen Konzeptualisierung der Informationen und gespeicherte Form 20.10.2001 PG-402 Wissensmanagement: Ontologiebasierte Wissensextraktion

Ontologie(n) - Motivation (2) (spezieller Zweck) Warum benutzen wir Ontologien ? (Fortsetzung) Kommunikationshilfe zwischen Mensch und Maschine, was den Austausch von Semantik UND Syntax unterstützen soll Knowledge sharing und Wiederverwendung Zur Festlegung bestimmter Begriffe (Eindeutigkeit) Sie erzwingen eine wohldefinierte Semantik auf solche Konzeptualisierungen Sie sollen Hintergrund-Wissen zur Verfügung stellen, um die Leistung von Informations-Extraktions-Systemen zu erhöhen Formalisierung von implizit vorhandenem Wissen 20.10.2001 PG-402 Wissensmanagement: Ontologiebasierte Wissensextraktion

Ontologie(n) - Motivation (3) Semiotisches Dreieck Begriff erweckt bezieht sich auf Symbol Ding steht für [Odgen, Richards, 1923] 20.10.2001 PG-402 Wissensmanagement: Ontologiebasierte Wissensextraktion

Ontologie(n) - Motivation (4) Semiotisches Dreieck Begriff Ontologie legt fest erweckt bezieht sich auf Symbol Ding steht für [nach: S. Staab, 2001] 20.10.2001 PG-402 Wissensmanagement: Ontologiebasierte Wissensextraktion

Ontologie(n) – Beschreibung (1) Eine Ontologie wird beschrieben durch: Eine Menge von Zeichenketten, die die lexikalen Einträge L für Konzepte und Relationen beschreiben Eine Menge von Konzepten C Eine Taxonomie von Konzepten (bei einigen Definitionen Heterarchie) HC 20.10.2001 PG-402 Wissensmanagement: Ontologiebasierte Wissensextraktion

Ontologie(n) – Beschreibung (2) (Fortsetzung) Ein Satz an nicht-taxonomischen Relationen R (beschrieben durch ihre Domain) Relationen F und G, die Konzepte und Relationen verknüpfen Die Taxonomie der Relationen (bzw. Heterarchie HR) (optional) Axiome A, die weitere Constraints der Ontologie beschreiben und es erlauben, implizite Fakten explizit zu machen (optional) 20.10.2001 PG-402 Wissensmanagement: Ontologiebasierte Wissensextraktion

PG-402 Wissensmanagement: Ontologiebasierte Wissensextraktion Ontologie(n) - Zweck Ontologien beschreiben: Domain-relevante Konzepte Beziehungen zwischen den Konzepten Axiome für die Konzepte und Beziehungen 20.10.2001 PG-402 Wissensmanagement: Ontologiebasierte Wissensextraktion

Ontologie(n) - Einsatz Einsatz von Ontologien in Informations-Extraktions-Systemen zur: Integration von Informationen aus heterogenen Quellen Extraktion weiterer Fakten durch „Schliessen“ (Inferenz) Generierung verschiedener Ziel-Strukturen zur Informationsspeicherung Einfache Anpassung/Änderung während der Laufzeit 20.10.2001 PG-402 Wissensmanagement: Ontologiebasierte Wissensextraktion

Ontologie(n) – Bewertung Vorteile: Einfaches Prinzip Betrachtung relevanter Bereiche (Fokussierung) Vorteile durch Nutzung von Semantik und Hintergrundwissen Dynamische Entwicklung (siehe Such-Maschine) Semi-automatische Ansätze Nachteile: (bisher) manuelle Erstellung Zeitliche Erstellung Problematik: Vollständigkeit vs. Minimalität 20.10.2001 PG-402 Wissensmanagement: Ontologiebasierte Wissensextraktion

(Wissens-) Extraktion Definition Extraktion von Informationen Verschiedene Quellen (DB, WWW, Mail...) Verschiedene Datenformate (HTML, XML, unstrukturierter Text,...) Verschiedene Extraktions-Methoden (Anwendung abhängig vom Datenformat) 20.10.2001 PG-402 Wissensmanagement: Ontologiebasierte Wissensextraktion

PG-402 Wissensmanagement: Ontologiebasierte Wissensextraktion Eine mögliche Definition: Der Prozeß, in dem Information automatisch aus textuellen Dokumenten in eine zur Speicherung in Datenbanken geeignete Form generiert wird. [J. M. Lawler, 1998] 20.10.2001 PG-402 Wissensmanagement: Ontologiebasierte Wissensextraktion

Ontologiebasierte Wissensextraktion: Was ist ontologiebasierte Wissensextraktion (kurz: OWE) ? Die Verwendung von Ontologien zur Unterstützung des Wissensextraktionsprozesses auf verschiedene Weisen. 20.10.2001 PG-402 Wissensmanagement: Ontologiebasierte Wissensextraktion

PG-402 Wissensmanagement: Ontologiebasierte Wissensextraktion OWE Allgemein Informationsextraktion und Integration mittels Ontologien Klassifikationskriterien Verfahren 20.10.2001 PG-402 Wissensmanagement: Ontologiebasierte Wissensextraktion

PG-402 Wissensmanagement: Ontologiebasierte Wissensextraktion OWE - Allgemein Verwendung von Ontologien im Extraktionsprozeß Wahl der Ontologie abhängig vom Anwendungsbereich Flexible Extraktion abhängig von Ontologie Extraktionsprozeß liefert Informationen für die semantische Annotation der Texte Annotation liefert als Nebenprodukt die Klassifikation der Daten, die dadurch direkt integriert werden können 20.10.2001 PG-402 Wissensmanagement: Ontologiebasierte Wissensextraktion

Informationsextraktion & Integration mittels Ontologien QUELLEN DB`s XML HTML Doku- mente Strukturiert: Semi- strukturiert: Unstruk- turiert: DB Ontologie(n) [nach S. Staab, 1999] 20.10.2001 PG-402 Wissensmanagement: Ontologiebasierte Wissensextraktion

OWE - Klassifikationskriterien Autonomie-Grad manuell (durchführbar, aber zeit-intensiv) semi-automatisch (aktueller Stand) automatisch (Zukunftsvision) Verwendete Methoden Verschiedene Verfahren Bottom-up Top-down Merging & Mapping Eingabedaten (Strukturiertheit) Extraktion on-demand vs. Vorab-Extraktion 20.10.2001 PG-402 Wissensmanagement: Ontologiebasierte Wissensextraktion

Semi-automatischer Ontologie-Aneignungs-Prozeß (allgemein) Evaluation Quellen- wahl* Relationen Lernen Konzept Lernen Domain Fokussierung [J. Kietz,2000] *=mögliche Quellen wären: Ontologien, Texte, semi-strukturierte Informationen = Startzustand 20.10.2001 PG-402 Wissensmanagement: Ontologiebasierte Wissensextraktion

PG-402 Wissensmanagement: Ontologiebasierte Wissensextraktion Methoden NLP: (z.B. SMES): - morphologische Analyse (Stamm)* - Semantik-Analyse - Erkennung benannter Entitäten* - Nutzung domain-spezifischer Informationen Text-Clustering: - Reduktion der Text-Dimension durch NLP - Clusterbildung (iterativ) - Klassifikation anhand der Cluster 20.10.2001 PG-402 Wissensmanagement: Ontologiebasierte Wissensextraktion

PG-402 Wissensmanagement: Ontologiebasierte Wissensextraktion Methoden Muster-Abgleich Induktive Verfahren - Erkennung/Klassifikation unbekannter Konzepte - Erkennung von Relationen zwischen Konzepten Inferenz (mit Description Logic) Statistik 20.10.2001 PG-402 Wissensmanagement: Ontologiebasierte Wissensextraktion

KDT - Beispiel-Architektur Preprocessing (z.B. NLP) Quellen (HTML, Text,...) Clustering XML- Dokumente XML- DTD [H. Graubitz, 2001] Postprocessing 20.10.2001 PG-402 Wissensmanagement: Ontologiebasierte Wissensextraktion

Vor- und Nachteile im Vergleich NLP + orientiert sich an Sprache, Lexika - viele Heuristiken, manuelle Regelerstellung Text-Clustering + iterative automatisierte Variante - Einschränkung auf eine Domain, Erklärbarkeit Muster-Abgleich + allgemein anwendbar - viele Heuristiken, manuelle Regelerstellung 20.10.2001 PG-402 Wissensmanagement: Ontologiebasierte Wissensextraktion

Vor- und Nachteile im Vergleich Induktive Verfahren + Automatisierung - Erlernen der Regeln kompliziert Inferenz (mittels Description Logic) + Ableitung von weiteren Regeln durch Inferenz & unvollständige/fehlerhafte Daten sind nutzbar - verschiedene Standards Statistik + schnell, zuverlässig, bereits bekannt - manchmal absurde Ergebnisse, Verständlichkeit 20.10.2001 PG-402 Wissensmanagement: Ontologiebasierte Wissensextraktion

PG-402 Wissensmanagement: Ontologiebasierte Wissensextraktion Bewertung der Ansätze Einzelne Anwendung einer Methode ist nicht optimal. Kombination mehrer Methoden, um die Stärken zu kombinieren und Nachteile einzelner Verfahren zu mildern. Kombination von Text-Clustering und NLP hat sich in einigen Situationen bewährt. 20.10.2001 PG-402 Wissensmanagement: Ontologiebasierte Wissensextraktion

PG-402 Wissensmanagement: Ontologiebasierte Wissensextraktion OWE - Verfahren Prozeß-Schritte (allgemein): Import/Wiederverwendung/Konvertierung von Ontologien (optional) Extraktion von Daten (bottom-up; top-down) Pruning (Beschneidung) Refining (Veredelung) Verifikation/Evaluation 20.10.2001 PG-402 Wissensmanagement: Ontologiebasierte Wissensextraktion

Ontologie-Lernen: Prozeß-Schritte Application data Ontology Learning Prune Extract Refine Import & Reuse Apply Tools = Beginn [A. Mädche, 2001] 20.10.2001 PG-402 Wissensmanagement: Ontologiebasierte Wissensextraktion

OWE – Verfahren (Bottom-up) Angefangen wird mit einem Datensatz, aus dem eine Ontologie erstellt wird, die die Daten strukturiert. Genauer: Verwendung von zwei Text-Sammlungen (domain-spezifische vs. allgemeine) Statistische Erfassung (Wörter, Häufigkeit,...) 20.10.2001 PG-402 Wissensmanagement: Ontologiebasierte Wissensextraktion

OWE – Verfahren (Bottom-up) Dimensionsreduktion (NLP, Stammbildung, ...) Erstellung eines domain-spezifischen Lexikons (Konzepte) Anwendung heuristischer Verfahren zur Relationserstellung (semantische Analyse) Pruning Refining 20.10.2001 PG-402 Wissensmanagement: Ontologiebasierte Wissensextraktion

OWE – Verfahren (Top-down) Anfangs hat man bereits eine allgemeine Ontologie, die dann im Verlauf durch bereichsbezogene Daten an den interessierenden Bereich angepaßt wird. (Domain-Fokussierung) Genauer: Wahl einer (allgemeinen) Ontologie und domain-spezifischen Quellen (Import) 20.10.2001 PG-402 Wissensmanagement: Ontologiebasierte Wissensextraktion

OWE – Verfahren (Top-down) Anwendung heuristischer Verfahren zur Konzept- und Relationsextraktion. Erweiterung der bestehenden Ontologie durch gefundene Konzepte und Relationen (Fokussierung) Pruning Refining Wahl der Kern-Ontologie hat starke Auswirkungen 20.10.2001 PG-402 Wissensmanagement: Ontologiebasierte Wissensextraktion

Wissensextraktion – „Top Down“-Beispiel (allgemein) SMES IE System annotierte Domain Texte Aneignungs- Algorithmen Domaintexte Statistik Maschinelles Lernen Kern- ontologie Domain Lexikon erweiterte Ontologie Domain Lexikon [A. Mädche, 1999] 20.10.2001 PG-402 Wissensmanagement: Ontologiebasierte Wissensextraktion

Architektur für Ontologie – Lernen Text & Processing Management Ontology Learning & Pruning Algorithms Multi Strategy Learning Result Set Domain Ontology Text Processing Server Lexical DB Stemming POS tagging Domain lexicon Tools Chunk parsing Information Extraction [J. U. Kietz, 2000] 20.10.2001 PG-402 Wissensmanagement: Ontologiebasierte Wissensextraktion

PG-402 Wissensmanagement: Ontologiebasierte Wissensextraktion OWE - Verfahren Merging: Zusammenführung von Ontologien zur Konstruktion einer neuen Ontologie. Mapping: Erstellung von Regeln, die Entsprechungen aus den Ontologien zuordnen. 20.10.2001 PG-402 Wissensmanagement: Ontologiebasierte Wissensextraktion

PG-402 Wissensmanagement: Ontologiebasierte Wissensextraktion Praxis und Trends Vereinfachung in der Entwicklung fördert Verbreitung Verbesserung der Extraktionsfähigkeiten Automatisierung des kompletten Prozesses Steigende Integration und Verwendung von Ontologien in vielen Bereichen Semantic Web und Knowledge-Portale sind wichtige Gebiete 20.10.2001 PG-402 Wissensmanagement: Ontologiebasierte Wissensextraktion

PG-402 Wissensmanagement: Ontologiebasierte Wissensextraktion Schlußwort Hilfreiche Technik, die auf spezielle Bereiche zugeschnitten wird Anpassung an Aufgabenstellung durch Änderung der Ontologie Unterschiedliche Ansätze zur Extraktion Verschiedene Methoden aus vielen Bereichen (Maschinelles Lernen, Assoziationsregeln, Clustering,...). Profitiert aus Erfolgen aus jedem dieser Bereiche Mißbrauch Verkettung vieler Verfahren, Komplexität, Aufwand 20.10.2001 PG-402 Wissensmanagement: Ontologiebasierte Wissensextraktion

PG-402 Wissensmanagement: Ontologiebasierte Wissensextraktion Literaturangaben [OBE98] D. W. Embley, D. M. Campbell, S. W. Liddle, R. D. Smith. Ontology-Based Extraction and Structuring of Information from Data-Rich Unstructured Documents in CIKM'98. [OBI'99] A. Mädche, S. Staab, R. Studer. Ontology-based Information Extraction and Integration in DGfS/CL'99. [SOAC] J.-U. Kietz, A. Mädche, R. Volz. A Method for semi-automatic Ontology Acquisition from a corporate Intranet in EKAW‘2000. [STDS] H. Graubitz, K. Winkler, M. Spiliopoulou. Semantic Tagging of Domain- Specific Text Documents with DIAsDEM in DBFusion 2001. [OBTC] A. Hotho, S. Staab, A. Mädche.Ontology-based Text-Clustering in IJCAI‘2000. [LOSW] A. Mädche, S. Staab.Learning Ontologies for the Semantic Web in ECML/PKDD2001. [DLOE] A. Todirascu. Using Description Logics for Ontology Extraction in Ontology Learning 2000 at ECAI2000.  Danke!  20.10.2001 PG-402 Wissensmanagement: Ontologiebasierte Wissensextraktion