Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

1 Projektverbund Ontoverse Kooperatives vernetztes Wissensmanagement im Bereich Life Sciences Christof Rumpf Heinrich-Heine-Universität Düsseldorf 23.06.2005.

Ähnliche Präsentationen


Präsentation zum Thema: "1 Projektverbund Ontoverse Kooperatives vernetztes Wissensmanagement im Bereich Life Sciences Christof Rumpf Heinrich-Heine-Universität Düsseldorf 23.06.2005."—  Präsentation transkript:

1 1 Projektverbund Ontoverse Kooperatives vernetztes Wissensmanagement im Bereich Life Sciences Christof Rumpf Heinrich-Heine-Universität Düsseldorf

2 2 Antragsrahmen Projektantrag im BMBF-Förderschwerpunkt eScience und vernetztes Wissensmangement Antragszeitraum 3 Jahre Antragsvolumen 2,3 Mio (ca. 13 Arbeitsplätze + ca Sachmittel)

3 3 Projektpartner

4 4 Ziele Erstellen einer Ontologie für die biomedizinische Domäne durch Verschmelzung vorhandener Ontologien Erstellen eines Informationsextraktionssystems basierend auf der Ontologie Erweiterung der Ontologie –webbasiert durch Anwender (Wikipedia) –halbautomatisch bei der Informationsextraktion

5 5 Was heisst Ontologie? Erstes Vorkommen des Wortes Ontologie in: Jacob Lorhard (1606) Ogdoas Scholastica. Philosophie: Ontologie ist die Wissenschaft vom Sein; Zweig der Metaphysik. KI und Wissensrepräsentation: Ontologie als formale Theorie über Eigenschaften und Relationen abstrakter Entitäten (Konzepte) aus einer Sprache (Vokabular, inbes. Nomen).

6 6 Konzepthierarchien Ontologien sind hierarchische Ordnungen von Konzepten (Subsumption) primäre hierarchiebildende Relationen: –is_aOber- / Unterbegriff –part_of Teil- Ganzesbeziehungen sekundäre Relationen: –synonym, antonym, subset, definition, has_property, …

7 7 Beispiel: Gene Ontology (GO) Molecular Function 7,493 terms Biological Process 9,640 terms Cellular Component 1,634 terms Total 18,767 terms Definitions: 16,696 (93.9 %) Quelle: ftp://ftp.geneontology.org/pub/go/teaching_resources/presentations/ _Purdue_edimmer.ppt

8 8 Ausschnitt GO-Hierarchie rote Pfeile: part_of blaue Pfeile: is_a Quelle: ftp://ftp.geneontology.org/pub/go/teaching_resources/ presentations/ _Purdue_edimmer.ppt

9 9 GO Terme [Term] id: GO: name: mitochondrion inheritance namespace: biological_process def: "The distribution of mitochondria\, including the mitochondrial genome\, into daughter cells after mitosis or meiosis\, mediated by interactions between mitochondria and the cytoskeleton." [PMID: , PMID: , SGD:mcc] is_a: GO: ! organelle inheritance is_a: GO: ! mitochondrion distribution [Term] id: GO: name: mitochondrial genome maintenance namespace: biological_process def: "The maintenance of the structure and integrity of the mitochondrial genome." [GO:ai] is_a: GO: ! mitochondrion organization and biogenesis [Term] id: GO: name: reproduction alt_id: GO: namespace: biological_process def: "The production by an organism of new individuals that contain some portion of their genetic material inherited from that organism." [GO:curators, ISBN: ] subset: goslim_generic subset: goslim_plant subset: gosubset_prok is_a: GO: ! development

10 10 Nutzen von Ontologien Ontologien enthalten semantische Relationen zwischen Konzepten und damit Wissen über die Welt bzw. eine Domäne Ontologien können der Konsensbildung in der Wissenschaft dienen Ontologien unterstützen Information Retrieval und Informationsextraktion

11 11 Aufbau von Ontologien manuell: Experten definieren Konzepte und Relationen – sehr zeitaufwändig automatisch: durch maschinelles Lernen auf der Grundlage von Datenbanken oder Texten (Informationsextraktion)

12 12 Ontoverse In Ontoverse soll eine Ontologie für die biomedizinische Domäne auf drei Wegen entstehen: –Verschmelzen vorhandener Ontologien –webbasierte kooperative manuelle Erweiterung im Stil von Wikipedias – semantisches Wiki –halbautomatische Erweiterung durch auf der Ontologie basierende Informationsextraktion

13 13 Verschmelzen von Ontologien Die Architektur der Ontoverse-Ontologie muss alle Relationen und Attribute einer zu verschmelzenden Ontologie abbilden können. Beim Verschmelzen müssen vollständige und partielle Übernahme von Konzepten berücksichtigt werden. Inkonsistenzen zwischen Ontologien müssen mit Hilfe eines Logikvalidierers erkannt und (manuell) aufgelöst werden.

14 14 semantisches Wiki kooperatives Ontologiedesign webbasierte Benutzerschnittstelle graphisches Visualisierungstool Authentifizierung von Autoren mit Signatur Markierung von Änderungen in der Ontologie mit Signatur und Zeitstempel (Trustcenter)

15 15 Informationsextraktion (IE) Bei der IE geht es um die automatische Gewinnung von strukturierter Information (relationale Datensätze) aus unstrukturierter Information (Texten). Bei der IE müssen Texte maschinell gelesen und partiell verstanden werden. Das Ontoverse-IE-System stützt sich auf die Ontoverse-Ontologie und soll gleichzeitig zur überwachten Erweiterung der Ontologie dienen.

16 PARADIME: 16 Task Specific Template Filling, based on the TDL Model « Die Spannungen in Mostar nehmen am 1.Jan zu, nachdem kroatische Polizisten einen 18jährigen Moslem erschossen haben, der... » DomainLex: shoot=Fight-Lex Merge types and Fill template Templatse Hierarchy Phrases Hierarchy Grammatical Functions Hierarchy Linked Types Shallow Text Processor... process=shoot SC= subj=croatian Police obj=18 years old Muslim DatePP = {1/1/1996} LocPP = {Mostar} Lookup in Domain Lexicon Select a linking type process=1=shoot SC= subj=2=croatian Police obj=3=18 years old Muslim DatePP=4={1/1/1996} LocPP= 5={Mostar} action=1=shoot attacker=2=croatian Police templ= attacked=3=18 years old Mulsim date=4= 1/1/1996 loc=5= Mostar Quelle: Günter Neumann (DFKI)

17 17 Teilaufgaben der IE Auf den MUC-1-7 ( ) wurden Teilaufgaben der IE spezifiziert und mit precision und recall bewertet (MUC-7): –NE: Named Entity Task (95/92%) –CO: Coreference Task (69/56%) –TE: Template Element Task (87/86%) –TR: Template Relation Task (86/67%) –ST: Scenario-Template-Task (65/42%)

18 Source: Jakub Piskorski, Feiyu XuSommersemester 2001 Language Technology (ST) Scenario Template requires filling a template structure with extracted information involving several relations or events of interest intended to be the MUC approximation to a real-world information extraction problem identification of partners, products, profits and capitalization of joint ventures Generic IE tasks for MUC-7

19 19 Module eines IE-Systems Tokenizer (Text Tokens) Part-of-Speech-Tagger (Wortarten) Termerkennung (named entities) Koreferenzauflösung (nominal, pronominal) Merger für Objekt-Templates Dependenz-Parser (grammatische Funktionen) Merger für Szenario-Templates

20 PARADIME: 20 The systematic separation of the NLP and the modeling components, dealing with two types of knowledge (1) m The linguistic analysis tools comprise (1) a tokenizer, a morphological analyzer (incl. compound analysis) and a POS filter for the lexical processing, and (2) a fragment recognizer for Named Entities and generic phrases (NP, PP, Verbgroup). On the top of this (3) a dependency based parser computes a flat (partial) analysis of the text, enriched with information about grammatical functions. [ PN Die Siemens GmbH] [ V hat] [ year 1988][ NP einen Gewinn] [ PP von 150 Millionen DM], [ Comp weil] [ NP die Auftraege] [ PP im Vergleich] [ PP zum Vorjahr] [ Card um 13%] [ V gestiegen sind]. The siemens company has made a revenue of 150 million marks in 1988, since the orders increased by 13% compared to last year. hat Obj Gewinn weil steigen Auftrag PPs {1988, von(150M)} Subj Siemens {im(Vergleich), zum(Vorjahr), um(13%) } PPs SC Comp Quelle: Günter Neumann (DFKI)

21 PARADIME: 21 Translation into meaningful semantic relations Linguistics...Uppsala´s main church... Ontology Database Syntacic relations between Uppsala and church Location City Building Church hasBuilding hasChurch Uppsala Church-1 hasChurch Quelle: Günter Neumann (DFKI)

22 PARADIME: 22 Iterative Ontology Development Design core ontology Ontology to extract information Use linguistic information to enhance the ontology Core Ontology Ontology after interation Quelle: Günter Neumann (DFKI)


Herunterladen ppt "1 Projektverbund Ontoverse Kooperatives vernetztes Wissensmanagement im Bereich Life Sciences Christof Rumpf Heinrich-Heine-Universität Düsseldorf 23.06.2005."

Ähnliche Präsentationen


Google-Anzeigen