Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

PG-402 Wissensmanagement: Ontologiebasierte Wissensextraktion

Ähnliche Präsentationen


Präsentation zum Thema: "PG-402 Wissensmanagement: Ontologiebasierte Wissensextraktion"—  Präsentation transkript:

1 PG-402 Wissensmanagement: Ontologiebasierte Wissensextraktion
WS2001/2002 Klaus Unterstein PG-402 Wissensmanagement: Ontologiebasierte Wissensextraktion

2 PG-402 Wissensmanagement: Ontologiebasierte Wissensextraktion
Verlauf Begriffsklärung Ontologiebasierte Wissensextraktion Methoden Vor- und Nachteile im Vergleich Bewertung der Ansätze Praxis/Trends Schlußwort PG-402 Wissensmanagement: Ontologiebasierte Wissensextraktion

3 PG-402 Wissensmanagement: Ontologiebasierte Wissensextraktion
Begriffsklärung Ontologie(n) (Wissens-) Extraktion Ontologiebasierte Wissensextraktion (OWE) PG-402 Wissensmanagement: Ontologiebasierte Wissensextraktion

4 PG-402 Wissensmanagement: Ontologiebasierte Wissensextraktion
Ontologie(n) Definition Motivation Zweck Beschreibung Einsatz Bewertung PG-402 Wissensmanagement: Ontologiebasierte Wissensextraktion

5 Ontologie(n) - Definition
Was ist eine Ontologie ? Definition (Gruber): „An ontology is a formal, explicit specification of a shared conceptualization.“ [1993] Eine Ontologie beschreibt explizit eine formale, verteilte Konzeptualisierung eines bestimmten, uns interessierenden Bereichs. PG-402 Wissensmanagement: Ontologiebasierte Wissensextraktion

6 Ontologie(n) – Motivation (1) (allgemein)
Warum benutzen wir Ontologien ? Anzahl gespeicherter Informationsquellen wachsen Zugriff, Finden und Zusammenfassen von Informationen immer schwieriger Große Lücke zwischen Konzeptualisierung der Informationen und gespeicherte Form PG-402 Wissensmanagement: Ontologiebasierte Wissensextraktion

7 Ontologie(n) - Motivation (2) (spezieller Zweck)
Warum benutzen wir Ontologien ? (Fortsetzung) Kommunikationshilfe zwischen Mensch und Maschine, was den Austausch von Semantik UND Syntax unterstützen soll Knowledge sharing und Wiederverwendung Zur Festlegung bestimmter Begriffe (Eindeutigkeit) Sie erzwingen eine wohldefinierte Semantik auf solche Konzeptualisierungen Sie sollen Hintergrund-Wissen zur Verfügung stellen, um die Leistung von Informations-Extraktions-Systemen zu erhöhen Formalisierung von implizit vorhandenem Wissen PG-402 Wissensmanagement: Ontologiebasierte Wissensextraktion

8 Ontologie(n) - Motivation (3)
Semiotisches Dreieck Begriff erweckt bezieht sich auf Symbol Ding steht für [Odgen, Richards, 1923] PG-402 Wissensmanagement: Ontologiebasierte Wissensextraktion

9 Ontologie(n) - Motivation (4)
Semiotisches Dreieck Begriff Ontologie legt fest erweckt bezieht sich auf Symbol Ding steht für [nach: S. Staab, 2001] PG-402 Wissensmanagement: Ontologiebasierte Wissensextraktion

10 Ontologie(n) – Beschreibung (1)
Eine Ontologie wird beschrieben durch: Eine Menge von Zeichenketten, die die lexikalen Einträge L für Konzepte und Relationen beschreiben Eine Menge von Konzepten C Eine Taxonomie von Konzepten (bei einigen Definitionen Heterarchie) HC PG-402 Wissensmanagement: Ontologiebasierte Wissensextraktion

11 Ontologie(n) – Beschreibung (2) (Fortsetzung)
Ein Satz an nicht-taxonomischen Relationen R (beschrieben durch ihre Domain) Relationen F und G, die Konzepte und Relationen verknüpfen Die Taxonomie der Relationen (bzw. Heterarchie HR) (optional) Axiome A, die weitere Constraints der Ontologie beschreiben und es erlauben, implizite Fakten explizit zu machen (optional) PG-402 Wissensmanagement: Ontologiebasierte Wissensextraktion

12 PG-402 Wissensmanagement: Ontologiebasierte Wissensextraktion
Ontologie(n) - Zweck Ontologien beschreiben: Domain-relevante Konzepte Beziehungen zwischen den Konzepten Axiome für die Konzepte und Beziehungen PG-402 Wissensmanagement: Ontologiebasierte Wissensextraktion

13 Ontologie(n) - Einsatz
Einsatz von Ontologien in Informations-Extraktions-Systemen zur: Integration von Informationen aus heterogenen Quellen Extraktion weiterer Fakten durch „Schliessen“ (Inferenz) Generierung verschiedener Ziel-Strukturen zur Informationsspeicherung Einfache Anpassung/Änderung während der Laufzeit PG-402 Wissensmanagement: Ontologiebasierte Wissensextraktion

14 Ontologie(n) – Bewertung
Vorteile: Einfaches Prinzip Betrachtung relevanter Bereiche (Fokussierung) Vorteile durch Nutzung von Semantik und Hintergrundwissen Dynamische Entwicklung (siehe Such-Maschine) Semi-automatische Ansätze Nachteile: (bisher) manuelle Erstellung Zeitliche Erstellung Problematik: Vollständigkeit vs. Minimalität PG-402 Wissensmanagement: Ontologiebasierte Wissensextraktion

15 (Wissens-) Extraktion
Definition Extraktion von Informationen Verschiedene Quellen (DB, WWW, Mail...) Verschiedene Datenformate (HTML, XML, unstrukturierter Text,...) Verschiedene Extraktions-Methoden (Anwendung abhängig vom Datenformat) PG-402 Wissensmanagement: Ontologiebasierte Wissensextraktion

16 PG-402 Wissensmanagement: Ontologiebasierte Wissensextraktion
Eine mögliche Definition: Der Prozeß, in dem Information automatisch aus textuellen Dokumenten in eine zur Speicherung in Datenbanken geeignete Form generiert wird. [J. M. Lawler, 1998] PG-402 Wissensmanagement: Ontologiebasierte Wissensextraktion

17 Ontologiebasierte Wissensextraktion:
Was ist ontologiebasierte Wissensextraktion (kurz: OWE) ? Die Verwendung von Ontologien zur Unterstützung des Wissensextraktionsprozesses auf verschiedene Weisen. PG-402 Wissensmanagement: Ontologiebasierte Wissensextraktion

18 PG-402 Wissensmanagement: Ontologiebasierte Wissensextraktion
OWE Allgemein Informationsextraktion und Integration mittels Ontologien Klassifikationskriterien Verfahren PG-402 Wissensmanagement: Ontologiebasierte Wissensextraktion

19 PG-402 Wissensmanagement: Ontologiebasierte Wissensextraktion
OWE - Allgemein Verwendung von Ontologien im Extraktionsprozeß Wahl der Ontologie abhängig vom Anwendungsbereich Flexible Extraktion abhängig von Ontologie Extraktionsprozeß liefert Informationen für die semantische Annotation der Texte Annotation liefert als Nebenprodukt die Klassifikation der Daten, die dadurch direkt integriert werden können PG-402 Wissensmanagement: Ontologiebasierte Wissensextraktion

20 Informationsextraktion & Integration mittels Ontologien
QUELLEN DB`s XML HTML Doku- mente Strukturiert: Semi- strukturiert: Unstruk- turiert: DB Ontologie(n) [nach S. Staab, 1999] PG-402 Wissensmanagement: Ontologiebasierte Wissensextraktion

21 OWE - Klassifikationskriterien
Autonomie-Grad manuell (durchführbar, aber zeit-intensiv) semi-automatisch (aktueller Stand) automatisch (Zukunftsvision) Verwendete Methoden Verschiedene Verfahren Bottom-up Top-down Merging & Mapping Eingabedaten (Strukturiertheit) Extraktion on-demand vs. Vorab-Extraktion PG-402 Wissensmanagement: Ontologiebasierte Wissensextraktion

22 Semi-automatischer Ontologie-Aneignungs-Prozeß (allgemein)
Evaluation Quellen- wahl* Relationen Lernen Konzept Lernen Domain Fokussierung [J. Kietz,2000] *=mögliche Quellen wären: Ontologien, Texte, semi-strukturierte Informationen = Startzustand PG-402 Wissensmanagement: Ontologiebasierte Wissensextraktion

23 PG-402 Wissensmanagement: Ontologiebasierte Wissensextraktion
Methoden NLP: (z.B. SMES): - morphologische Analyse (Stamm)* - Semantik-Analyse - Erkennung benannter Entitäten* - Nutzung domain-spezifischer Informationen Text-Clustering: - Reduktion der Text-Dimension durch NLP - Clusterbildung (iterativ) - Klassifikation anhand der Cluster PG-402 Wissensmanagement: Ontologiebasierte Wissensextraktion

24 PG-402 Wissensmanagement: Ontologiebasierte Wissensextraktion
Methoden Muster-Abgleich Induktive Verfahren - Erkennung/Klassifikation unbekannter Konzepte - Erkennung von Relationen zwischen Konzepten Inferenz (mit Description Logic) Statistik PG-402 Wissensmanagement: Ontologiebasierte Wissensextraktion

25 KDT - Beispiel-Architektur
Preprocessing (z.B. NLP) Quellen (HTML, Text,...) Clustering XML- Dokumente XML- DTD [H. Graubitz, 2001] Postprocessing PG-402 Wissensmanagement: Ontologiebasierte Wissensextraktion

26 Vor- und Nachteile im Vergleich
NLP + orientiert sich an Sprache, Lexika - viele Heuristiken, manuelle Regelerstellung Text-Clustering + iterative automatisierte Variante - Einschränkung auf eine Domain, Erklärbarkeit Muster-Abgleich + allgemein anwendbar - viele Heuristiken, manuelle Regelerstellung PG-402 Wissensmanagement: Ontologiebasierte Wissensextraktion

27 Vor- und Nachteile im Vergleich
Induktive Verfahren + Automatisierung - Erlernen der Regeln kompliziert Inferenz (mittels Description Logic) + Ableitung von weiteren Regeln durch Inferenz & unvollständige/fehlerhafte Daten sind nutzbar - verschiedene Standards Statistik + schnell, zuverlässig, bereits bekannt - manchmal absurde Ergebnisse, Verständlichkeit PG-402 Wissensmanagement: Ontologiebasierte Wissensextraktion

28 PG-402 Wissensmanagement: Ontologiebasierte Wissensextraktion
Bewertung der Ansätze Einzelne Anwendung einer Methode ist nicht optimal. Kombination mehrer Methoden, um die Stärken zu kombinieren und Nachteile einzelner Verfahren zu mildern. Kombination von Text-Clustering und NLP hat sich in einigen Situationen bewährt. PG-402 Wissensmanagement: Ontologiebasierte Wissensextraktion

29 PG-402 Wissensmanagement: Ontologiebasierte Wissensextraktion
OWE - Verfahren Prozeß-Schritte (allgemein): Import/Wiederverwendung/Konvertierung von Ontologien (optional) Extraktion von Daten (bottom-up; top-down) Pruning (Beschneidung) Refining (Veredelung) Verifikation/Evaluation PG-402 Wissensmanagement: Ontologiebasierte Wissensextraktion

30 Ontologie-Lernen: Prozeß-Schritte
Application data Ontology Learning Prune Extract Refine Import & Reuse Apply Tools = Beginn [A. Mädche, 2001] PG-402 Wissensmanagement: Ontologiebasierte Wissensextraktion

31 OWE – Verfahren (Bottom-up)
Angefangen wird mit einem Datensatz, aus dem eine Ontologie erstellt wird, die die Daten strukturiert. Genauer: Verwendung von zwei Text-Sammlungen (domain-spezifische vs. allgemeine) Statistische Erfassung (Wörter, Häufigkeit,...) PG-402 Wissensmanagement: Ontologiebasierte Wissensextraktion

32 OWE – Verfahren (Bottom-up)
Dimensionsreduktion (NLP, Stammbildung, ...) Erstellung eines domain-spezifischen Lexikons (Konzepte) Anwendung heuristischer Verfahren zur Relationserstellung (semantische Analyse) Pruning Refining PG-402 Wissensmanagement: Ontologiebasierte Wissensextraktion

33 OWE – Verfahren (Top-down)
Anfangs hat man bereits eine allgemeine Ontologie, die dann im Verlauf durch bereichsbezogene Daten an den interessierenden Bereich angepaßt wird. (Domain-Fokussierung) Genauer: Wahl einer (allgemeinen) Ontologie und domain-spezifischen Quellen (Import) PG-402 Wissensmanagement: Ontologiebasierte Wissensextraktion

34 OWE – Verfahren (Top-down)
Anwendung heuristischer Verfahren zur Konzept- und Relationsextraktion. Erweiterung der bestehenden Ontologie durch gefundene Konzepte und Relationen (Fokussierung) Pruning Refining Wahl der Kern-Ontologie hat starke Auswirkungen PG-402 Wissensmanagement: Ontologiebasierte Wissensextraktion

35 Wissensextraktion – „Top Down“-Beispiel (allgemein)
SMES IE System annotierte Domain Texte Aneignungs- Algorithmen Domaintexte Statistik Maschinelles Lernen Kern- ontologie Domain Lexikon erweiterte Ontologie Domain Lexikon [A. Mädche, 1999] PG-402 Wissensmanagement: Ontologiebasierte Wissensextraktion

36 Architektur für Ontologie – Lernen
Text & Processing Management Ontology Learning & Pruning Algorithms Multi Strategy Learning Result Set Domain Ontology Text Processing Server Lexical DB Stemming POS tagging Domain lexicon Tools Chunk parsing Information Extraction [J. U. Kietz, 2000] PG-402 Wissensmanagement: Ontologiebasierte Wissensextraktion

37 PG-402 Wissensmanagement: Ontologiebasierte Wissensextraktion
OWE - Verfahren Merging: Zusammenführung von Ontologien zur Konstruktion einer neuen Ontologie. Mapping: Erstellung von Regeln, die Entsprechungen aus den Ontologien zuordnen. PG-402 Wissensmanagement: Ontologiebasierte Wissensextraktion

38 PG-402 Wissensmanagement: Ontologiebasierte Wissensextraktion
Praxis und Trends Vereinfachung in der Entwicklung fördert Verbreitung Verbesserung der Extraktionsfähigkeiten Automatisierung des kompletten Prozesses Steigende Integration und Verwendung von Ontologien in vielen Bereichen Semantic Web und Knowledge-Portale sind wichtige Gebiete PG-402 Wissensmanagement: Ontologiebasierte Wissensextraktion

39 PG-402 Wissensmanagement: Ontologiebasierte Wissensextraktion
Schlußwort Hilfreiche Technik, die auf spezielle Bereiche zugeschnitten wird Anpassung an Aufgabenstellung durch Änderung der Ontologie Unterschiedliche Ansätze zur Extraktion Verschiedene Methoden aus vielen Bereichen (Maschinelles Lernen, Assoziationsregeln, Clustering,...). Profitiert aus Erfolgen aus jedem dieser Bereiche Mißbrauch Verkettung vieler Verfahren, Komplexität, Aufwand PG-402 Wissensmanagement: Ontologiebasierte Wissensextraktion

40 PG-402 Wissensmanagement: Ontologiebasierte Wissensextraktion
Literaturangaben [OBE98] D. W. Embley, D. M. Campbell, S. W. Liddle, R. D. Smith. Ontology-Based Extraction and Structuring of Information from Data-Rich Unstructured Documents in CIKM'98. [OBI'99] A. Mädche, S. Staab, R. Studer. Ontology-based Information Extraction and Integration in DGfS/CL'99. [SOAC] J.-U. Kietz, A. Mädche, R. Volz. A Method for semi-automatic Ontology Acquisition from a corporate Intranet in EKAW‘2000. [STDS] H. Graubitz, K. Winkler, M. Spiliopoulou. Semantic Tagging of Domain- Specific Text Documents with DIAsDEM in DBFusion 2001. [OBTC] A. Hotho, S. Staab, A. Mädche.Ontology-based Text-Clustering in IJCAI‘2000. [LOSW] A. Mädche, S. Staab.Learning Ontologies for the Semantic Web in ECML/PKDD2001. [DLOE] A. Todirascu. Using Description Logics for Ontology Extraction in Ontology Learning 2000 at ECAI2000.  Danke!  PG-402 Wissensmanagement: Ontologiebasierte Wissensextraktion


Herunterladen ppt "PG-402 Wissensmanagement: Ontologiebasierte Wissensextraktion"

Ähnliche Präsentationen


Google-Anzeigen