Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

20.10.2001PG-402 Wissensmanagement: Ontologiebasierte Wissensextraktion 1 WS2001/2002 Klaus Unterstein.

Ähnliche Präsentationen


Präsentation zum Thema: "20.10.2001PG-402 Wissensmanagement: Ontologiebasierte Wissensextraktion 1 WS2001/2002 Klaus Unterstein."—  Präsentation transkript:

1 PG-402 Wissensmanagement: Ontologiebasierte Wissensextraktion 1 WS2001/2002 Klaus Unterstein

2 PG-402 Wissensmanagement: Ontologiebasierte Wissensextraktion 2 Verlauf Begriffsklärung Ontologiebasierte Wissensextraktion Methoden Vor- und Nachteile im Vergleich Bewertung der Ansätze Praxis/Trends Schlußwort

3 PG-402 Wissensmanagement: Ontologiebasierte Wissensextraktion 3 Begriffsklärung Ontologie(n) (Wissens-) Extraktion Ontologiebasierte Wissensextraktion (OWE)

4 PG-402 Wissensmanagement: Ontologiebasierte Wissensextraktion 4 Ontologie(n) 1.Definition 2.Motivation 3.Zweck 4.Beschreibung 5.Einsatz 6.Bewertung

5 PG-402 Wissensmanagement: Ontologiebasierte Wissensextraktion 5 Ontologie(n) - Definition Was ist eine Ontologie ? Definition (Gruber): An ontology is a formal, explicit specification of a shared conceptualization. [1993] Eine Ontologie beschreibt explizit eine formale, verteilte Konzeptualisierung eines bestimmten, uns interessierenden Bereichs.

6 PG-402 Wissensmanagement: Ontologiebasierte Wissensextraktion 6 Ontologie(n) – Motivation (1) (allgemein) Warum benutzen wir Ontologien ? Anzahl gespeicherter Informationsquellen wachsen Zugriff, Finden und Zusammenfassen von Informationen immer schwieriger Große Lücke zwischen Konzeptualisierung der Informationen und gespeicherte Form

7 PG-402 Wissensmanagement: Ontologiebasierte Wissensextraktion 7 Ontologie(n) - Motivation (2) (spezieller Zweck) Warum benutzen wir Ontologien ? (Fortsetzung) Kommunikationshilfe zwischen Mensch und Maschine, was den Austausch von Semantik UND Syntax unterstützen soll Knowledge sharing und Wiederverwendung Zur Festlegung bestimmter Begriffe (Eindeutigkeit) Sie erzwingen eine wohldefinierte Semantik auf solche Konzeptualisierungen Sie sollen Hintergrund-Wissen zur Verfügung stellen, um die Leistung von Informations-Extraktions-Systemen zu erhöhen Formalisierung von implizit vorhandenem Wissen

8 PG-402 Wissensmanagement: Ontologiebasierte Wissensextraktion 8 Ontologie(n) - Motivation (3) SymbolDing steht für erweckt bezieht sich auf Begriff Semiotisches Dreieck [Odgen, Richards, 1923]

9 PG-402 Wissensmanagement: Ontologiebasierte Wissensextraktion 9 Ontologie(n) - Motivation (4) SymbolDing steht für erweckt bezieht sich auf Begriff Semiotisches Dreieck Ontologielegt fest [nach: S. Staab, 2001]

10 PG-402 Wissensmanagement: Ontologiebasierte Wissensextraktion 10 Ontologie(n) – Beschreibung (1) Eine Ontologie wird beschrieben durch: Eine Menge von Zeichenketten, die die lexikalen Einträge L für Konzepte und Relationen beschreiben Eine Menge von Konzepten C Eine Taxonomie von Konzepten (bei einigen Definitionen Heterarchie) H C

11 PG-402 Wissensmanagement: Ontologiebasierte Wissensextraktion 11 Ontologie(n) – Beschreibung (2) (Fortsetzung) Ein Satz an nicht-taxonomischen Relationen R (beschrieben durch ihre Domain) Relationen F und G, die Konzepte und Relationen verknüpfen Die Taxonomie der Relationen (bzw. Heterarchie H R ) (optional) Axiome A, die weitere Constraints der Ontologie beschreiben und es erlauben, implizite Fakten explizit zu machen (optional)

12 PG-402 Wissensmanagement: Ontologiebasierte Wissensextraktion 12 Ontologie(n) - Zweck Ontologien beschreiben: Domain-relevante Konzepte Beziehungen zwischen den Konzepten Axiome für die Konzepte und Beziehungen

13 PG-402 Wissensmanagement: Ontologiebasierte Wissensextraktion 13 Ontologie(n) - Einsatz Einsatz von Ontologien in Informations-Extraktions- Systemen zur: Integration von Informationen aus heterogenen Quellen Extraktion weiterer Fakten durch Schliessen (Inferenz) Generierung verschiedener Ziel-Strukturen zur Informationsspeicherung Einfache Anpassung/Änderung während der Laufzeit

14 PG-402 Wissensmanagement: Ontologiebasierte Wissensextraktion 14 Ontologie(n) – Bewertung Vorteile: Einfaches Prinzip Betrachtung relevanter Bereiche (Fokussierung) Vorteile durch Nutzung von Semantik und Hintergrundwissen Dynamische Entwicklung (siehe Such-Maschine) Semi-automatische Ansätze Nachteile: (bisher) manuelle Erstellung Zeitliche Erstellung Problematik: Vollständigkeit vs. Minimalität

15 PG-402 Wissensmanagement: Ontologiebasierte Wissensextraktion 15 (Wissens-) Extraktion Definition Extraktion von Informationen Verschiedene Quellen (DB, WWW, Mail...) Verschiedene Datenformate (HTML, XML, unstrukturierter Text,...) Verschiedene Extraktions-Methoden (Anwendung abhängig vom Datenformat)

16 PG-402 Wissensmanagement: Ontologiebasierte Wissensextraktion 16 Wissensextraktion Eine mögliche Definition: Der Prozeß, in dem Information automatisch aus textuellen Dokumenten in eine zur Speicherung in Datenbanken geeignete Form generiert wird. [J. M. Lawler, 1998]

17 PG-402 Wissensmanagement: Ontologiebasierte Wissensextraktion 17 Ontologiebasierte Wissensextraktion: Was ist ontologiebasierte Wissensextraktion (kurz: OWE) ? Die Verwendung von Ontologien zur Unterstützung des Wissensextraktionsprozesses auf verschiedene Weisen.

18 PG-402 Wissensmanagement: Ontologiebasierte Wissensextraktion 18 OWE 1.Allgemein 2.Informationsextraktion und Integration mittels Ontologien 3.Klassifikationskriterien 4.Verfahren

19 PG-402 Wissensmanagement: Ontologiebasierte Wissensextraktion 19 OWE - Allgemein Verwendung von Ontologien im Extraktionsprozeß Wahl der Ontologie abhängig vom Anwendungsbereich Flexible Extraktion abhängig von Ontologie Extraktionsprozeß liefert Informationen für die semantische Annotation der Texte Annotation liefert als Nebenprodukt die Klassifikation der Daten, die dadurch direkt integriert werden können

20 PG-402 Wissensmanagement: Ontologiebasierte Wissensextraktion 20 Informationsextraktion & Integration mittels Ontologien DB QUELLEN DB`s XML HTML Doku- mente Strukturiert: Semi- strukturiert: Unstruk- turiert: Ontologie(n) [nach S. Staab, 1999]

21 PG-402 Wissensmanagement: Ontologiebasierte Wissensextraktion 21 OWE - Klassifikationskriterien Autonomie-Grad -manuell (durchführbar, aber zeit-intensiv) -semi-automatisch (aktueller Stand) -automatisch (Zukunftsvision) Verwendete Methoden Verschiedene Verfahren -Bottom-up -Top-down -Merging & Mapping Eingabedaten (Strukturiertheit) Extraktion on-demand vs. Vorab-Extraktion

22 PG-402 Wissensmanagement: Ontologiebasierte Wissensextraktion 22 Semi-automatischer Ontologie- Aneignungs-Prozeß (allgemein) Quellen- wahl* Konzept Lernen Domain Fokussierung Evaluation Relationen Lernen *=mögliche Quellen wären: Ontologien, Texte, semi-strukturierte Informationen = Startzustand [J. Kietz,2000]

23 PG-402 Wissensmanagement: Ontologiebasierte Wissensextraktion 23 Methoden NLP:(z.B. SMES): - morphologische Analyse (Stamm)* - Semantik-Analyse - Erkennung benannter Entitäten* - Nutzung domain-spezifischer Informationen Text-Clustering: - Reduktion der Text-Dimension durch NLP - Clusterbildung (iterativ) - Klassifikation anhand der Cluster

24 PG-402 Wissensmanagement: Ontologiebasierte Wissensextraktion 24 Methoden Muster-Abgleich Induktive Verfahren - Erkennung/Klassifikation unbekannter Konzepte - Erkennung von Relationen zwischen Konzepten Inferenz (mit Description Logic) Statistik

25 PG-402 Wissensmanagement: Ontologiebasierte Wissensextraktion 25 KDT - Beispiel-Architektur Quellen (HTML, Text,...) Preprocessing (z.B. NLP) Postprocessing Clustering XML- DTD XML- Dokumente [H. Graubitz, 2001]

26 PG-402 Wissensmanagement: Ontologiebasierte Wissensextraktion 26 Vor- und Nachteile im Vergleich NLP + orientiert sich an Sprache, Lexika - viele Heuristiken, manuelle Regelerstellung Text-Clustering + iterative automatisierte Variante - Einschränkung auf eine Domain, Erklärbarkeit Muster-Abgleich + allgemein anwendbar - viele Heuristiken, manuelle Regelerstellung

27 PG-402 Wissensmanagement: Ontologiebasierte Wissensextraktion 27 Vor- und Nachteile im Vergleich Induktive Verfahren + Automatisierung - Erlernen der Regeln kompliziert Inferenz (mittels Description Logic) + Ableitung von weiteren Regeln durch Inferenz & unvollständige/fehlerhafte Daten sind nutzbar - verschiedene Standards Statistik + schnell, zuverlässig, bereits bekannt - manchmal absurde Ergebnisse, Verständlichkeit

28 PG-402 Wissensmanagement: Ontologiebasierte Wissensextraktion 28 Bewertung der Ansätze Einzelne Anwendung einer Methode ist nicht optimal. Kombination mehrer Methoden, um die Stärken zu kombinieren und Nachteile einzelner Verfahren zu mildern. Kombination von Text-Clustering und NLP hat sich in einigen Situationen bewährt.

29 PG-402 Wissensmanagement: Ontologiebasierte Wissensextraktion 29 OWE - Verfahren Prozeß-Schritte (allgemein): Import/Wiederverwendung/Konvertierung von Ontologien (optional) Extraktion von Daten (bottom-up; top-down) Pruning (Beschneidung) Refining (Veredelung) Verifikation/Evaluation

30 PG-402 Wissensmanagement: Ontologiebasierte Wissensextraktion 30 Ontologie-Lernen: Prozeß-Schritte Ontology Learning Prune Refine Import & Reuse Extract Application data Tools Apply = Beginn [A. Mädche, 2001]

31 PG-402 Wissensmanagement: Ontologiebasierte Wissensextraktion 31 OWE – Verfahren (Bottom-up) Angefangen wird mit einem Datensatz, aus dem eine Ontologie erstellt wird, die die Daten strukturiert. Genauer: 1.Verwendung von zwei Text-Sammlungen (domain-spezifische vs. allgemeine) 2.Statistische Erfassung (Wörter, Häufigkeit,...)

32 PG-402 Wissensmanagement: Ontologiebasierte Wissensextraktion 32 OWE – Verfahren (Bottom-up) 3.Dimensionsreduktion (NLP, Stammbildung,...) 4.Erstellung eines domain-spezifischen Lexikons (Konzepte) 5.Anwendung heuristischer Verfahren zur Relationserstellung (semantische Analyse) 6.Pruning 7.Refining

33 PG-402 Wissensmanagement: Ontologiebasierte Wissensextraktion 33 OWE – Verfahren (Top-down) Anfangs hat man bereits eine allgemeine Ontologie, die dann im Verlauf durch bereichsbezogene Daten an den interessierenden Bereich angepaßt wird. (Domain-Fokussierung) Genauer: 1.Wahl einer (allgemeinen) Ontologie und domain-spezifischen Quellen (Import)

34 PG-402 Wissensmanagement: Ontologiebasierte Wissensextraktion 34 OWE – Verfahren (Top-down) 2.Anwendung heuristischer Verfahren zur Konzept- und Relationsextraktion. 3.Erweiterung der bestehenden Ontologie durch gefundene Konzepte und Relationen (Fokussierung) 4.Pruning 5.Refining Wahl der Kern-Ontologie hat starke Auswirkungen

35 PG-402 Wissensmanagement: Ontologiebasierte Wissensextraktion 35 Wissensextraktion – Top Down- Beispiel (allgemein) Domain Lexikon Kern- ontologie Domain Lexikon erweiterte Ontologie Statistik Maschinelles Lernen SMES IE System Domaintexte annotierte Domain Texte Aneignungs- Algorithmen [A. Mädche, 1999]

36 PG-402 Wissensmanagement: Ontologiebasierte Wissensextraktion 36 Architektur für Ontologie – Lernen Text & Processing Management Ontology Learning & Pruning Algorithms Tools Text Processing Server Stemming POS tagging Chunk parsing Information Extraction Domain lexicon Lexical DB Multi Strategy Learning Result Set Domain Ontology [J. U. Kietz, 2000]

37 PG-402 Wissensmanagement: Ontologiebasierte Wissensextraktion 37 OWE - Verfahren Merging: Zusammenführung von Ontologien zur Konstruktion einer neuen Ontologie. Mapping: Erstellung von Regeln, die Entsprechungen aus den Ontologien zuordnen.

38 PG-402 Wissensmanagement: Ontologiebasierte Wissensextraktion 38 Praxis und Trends Vereinfachung in der Entwicklung fördert Verbreitung Verbesserung der Extraktionsfähigkeiten Automatisierung des kompletten Prozesses Steigende Integration und Verwendung von Ontologien in vielen Bereichen Semantic Web und Knowledge-Portale sind wichtige Gebiete

39 PG-402 Wissensmanagement: Ontologiebasierte Wissensextraktion 39 Schlußwort Hilfreiche Technik, die auf spezielle Bereiche zugeschnitten wird Anpassung an Aufgabenstellung durch Änderung der Ontologie Unterschiedliche Ansätze zur Extraktion Verschiedene Methoden aus vielen Bereichen (Maschinelles Lernen, Assoziationsregeln, Clustering,...). Profitiert aus Erfolgen aus jedem dieser Bereiche Mißbrauch Verkettung vieler Verfahren, Komplexität, Aufwand

40 PG-402 Wissensmanagement: Ontologiebasierte Wissensextraktion 40 Danke! Literaturangaben [OBE98]D. W. Embley, D. M. Campbell, S. W. Liddle, R. D. Smith. Ontology-Based Extraction and Structuring of Information from Data-Rich Unstructured Documents in CIKM'98. [OBI'99]A. Mädche, S. Staab, R. Studer. Ontology-based Information Extraction and Integration in DGfS/CL'99. [SOAC]J.-U. Kietz, A. Mädche, R. Volz. A Method for semi-automatic Ontology Acquisition from a corporate Intranet in EKAW2000. [STDS]H. Graubitz, K. Winkler, M. Spiliopoulou. Semantic Tagging of Domain- Specific Text Documents with DIAsDEM in DBFusion [OBTC]A. Hotho, S. Staab, A. Mädche.Ontology-based Text-Clustering in IJCAI2000. [LOSW]A. Mädche, S. Staab.Learning Ontologies for the Semantic Web in ECML/PKDD2001. [DLOE]A. Todirascu. Using Description Logics for Ontology Extraction in Ontology Learning 2000 at ECAI2000.


Herunterladen ppt "20.10.2001PG-402 Wissensmanagement: Ontologiebasierte Wissensextraktion 1 WS2001/2002 Klaus Unterstein."

Ähnliche Präsentationen


Google-Anzeigen