A. Gangemi, R. Navigli, P. Velardi

Slides:



Advertisements
Ähnliche Präsentationen
Inhalt Saarbrücken,.
Advertisements

Zur Rolle der Sprache bei der Modellierung von Datenbanken
Generalisierung/Spezialisierung (1)
Wissensanalyse von Aufgaben mit TKS Eine Methode zur Problemlösung
spezielle Nutzersichten formale Ebene (deskriptive Regeln)
Datenmodellierung Externe Phase Informationsstruktur
On the Criteria to Be Used in Decomposing Systems into Modules
ELearning – The Next Five Years AIFB Rudi Studer Learning Lab Lower Saxony Institute AIFB, University of Karlsruhe
Inhaltlich orientierter Zugriff auf unstrukturierte Daten
Wasserfall-Ansätze zur Bildsegmentierung
Kapitel 4 Syntaktische Analyse: LR Parsing.
Fallstudie. 2 Statistik April Dokumente Jan Mio. Dokumente Performance 3 Mio. Queries pro Tag 9. Juni 2000 Most popular search engines.
Seminar “Kognitionspsychologie meets Ethnologie” SS 2007
Java: Objektorientierte Programmierung
Die Registervariablen: Tenor of Discourse
Anfragesprachen – Dipl. Ing. Ulrich Borchert / FH Merseburg1/7 Information Retrieval auf Texten An ihre Grenzen stoßen relationale Datenbanken bei der.
Anfragesprachen – Dipl. Ing. Ulrich Borchert / FH Merseburg1/8 Thesauren In gewisser Weise bilden Thesauren (Singular Thesaurus, Plural auch Thesauri)
K-Modeler Engineering
Philosophie der Logik nach Frege I
Datenbanken vs. Markup Manfred Thaller WS 2009/2010 Humanities Computing Linda Scholz.
CIDOC-CRM Universität zu Köln Historisch-kulturwissenschaftliche Informationsverarbeitung AM 2 Dozent: Prof. Dr. Manfred Thaller Referent: Nelson Marambio.
HTML - Eine erste Annäherung
An Ideomotor Approach to Imitation
Information Retrieval Modelle: Vektor-Modell
Hypertextualisierung mit Topic Maps Ein Ansatz zur Unterstützung des Textverständnisses bei der selektiven Rezeption von Fachtexten.
MMQL – Multimedia Query Language Eine Anfragesprache für Multimedia-Ähnlichkeitsanfragen Christian Mantei.
PG 520 Intelligence Service – gezielte Informationen aus dem Internet
Christian Schindelhauer
Semantisch gestützte Suche im Internet
Access 2000 Datenbanken.
Diskussion Fundamentalkategorien nach Aristoteles Seminar I-Prax: Inhaltserschließung visueller Medien, Spree WS 2005/06 Diskusion Fundamentalkategorien.
Spree/Lexikographie Die Kunst der Definition Sidney Landau (1984): –A definition, for Aristotle is a statement of the essential character of a subject,
Jakob Voß: Grundlegende Aspekte des Semantic Web: Modellierung von Ontologien ( ) Modellierung von Ontologien Jakob Voß
Inhalt der Präsentation
Grundschutztools
Ralf KüstersDagstuhl 2008/11/30 2 Ralf KüstersDagstuhl 2008/11/30 3.
Diplomarbeitsvortrag Ontologien, Information Extraction und Information Retrieval – eine Synthese Marcus Heidmann in Zusammenarbeit mit AIFB &
Prof. Dr. Gerhard Schmidt pres. by H.-J. Steffens Software Engineering SS 2009Folie 1 Objektmodellierung Objekte und Klassen Ein Objekt ist ein Exemplar.
Eignung von Grammatik-basiertem Layout für grafische Programmiersprachen Seminar Layout-Algorithmen für Graphen Institut für Informatik Christian-Albrechts.
Fünf-Fünf-Zwei der 3. Vorlesung/Übung Requirements Engineering WS 10/11 Marin Zec.
Knowledge Discovery mit Wordnet und Alembic Workbench
1 Knowledge Discovery mit Wordnet und Alembic Workbench (Julia Faion) (Markus Reiter)
XML-Archivierung betriebswirtschaftlicher Datenbank-Objekte*
Kollektionen in Java Aufzählungstypen, Generische Typen
Ontologien im Wissensmanagement
1 Semiautomatische Medienresonanz- und Diffusions-Analyse Waltraud Wiedermann, GF APA-DeFacto und APA-MediaWatch Michael Granitzer, Know-Center.
Automatic composition of UI mashups Vortrag zum Seminar Webengineering 2011 Michael Reißner.
Project Perseus Der volle Projektname lautet Perseus Digital Library Project. Das Projekt begann in 1985 als Experiment zur Digitalisierung von Bibliotheken.
WebML for Semantic Web Michael Hertel.
Auslegung eines Vorschubantriebes
Dr. Rolf Haenni, University of KonstanzNovember 28, 2002 Page 1/15 Aspekte eine echten Informationstheorie 1.Einführung 2.Informationsalgebren 3.Unsicherheit.
Shape Similarity 27. Februar 2006 Michael Keller.
WS 2009/10 Datenbanksysteme Fr 15:15 – 16:45 R Vorlesung #3 Das relationale Modell (Teil 2)
Lexikalische Semantik
Generalisiertes Vektorraummodell (Generalized Vector Space Model, GSVM) Karin Haenelt
Struktur von RDF Fabian Scheller.
Übung zu Einführung in die LDV I
LOD Levels of Detail Oliver Gassner Christian Troger.
Neuerungen in Java 5/6/7. Stefan Bühler für InfoPoint Überblick Java 5 neue Sprachfeatures Erweiterungen Klassenbibliothek Java 6 Erweiterungen.
Untersuchungen zur Erstellung eines
Klassen und Klassenstruktur
Take Off Ergebnisveranstaltung Wien, 19. März 2007 Webfähige Ausbildungssoftware zum Trainings Syllabus von EASA PART-66 Projekt GZ Das neue Ausbildungskonzept.
Richtlinien für die Annotation von Koreferenzen
Vortrag - Diplomarbeiten (HS I)
Semantic Web.
Lexit.at Michael Hausenblas Semantische Darstellung und Abfrage von Rechtsnormen – IRIS 2004 Semantische Darstellung und Abfrage von Rechtsnormen am Beispiel.
Inhalt Einordnung und Funktion der lexikalische Analyse Grundlagen
Tanja Eder Slawische Korpuslinguistik Prof. Tosovic, SS 2006 Lexikalische Datenbanken WordNet – RussNet EuroWordNet und Global WordNet Association.
Die klassischen Methoden der historisch-vergleichenden Forschung Universität Zürich Soziologisches Institut Seminar: Methoden des internationalen Vergleichs.
Semi-automatische Komposition von Dienstbenutzerschnittstellen auf mehreren Abstraktionsebenen Christian Jäckel Universität des Saarlandes Bachelor.
 Präsentation transkript:

A. Gangemi, R. Navigli, P. Velardi (Onto)WordNet „The OntoWordNet Project: extension and axiomatization of conceptual relations in WordNet“ A. Gangemi, R. Navigli, P. Velardi Vortrag: Frank Loebe

Überblick WordNet WordNet & Ontologie OntoWordNet Ziele & Umfeld Entwicklung & Aufbau Anwendungen WordNet & Ontologie OntoWordNet Ziele & Annahmen Verknüpfung von Synsets (Semi)automatische Axiomatisierung Kritik & Zusammenfassung

WordNet: Ziele und Umfeld definiert als „lexikalische Datenbank“ Ziele Wortsuche nach konzeptionellen statt alphabetischen Kriterien Großversuch für relationale Semantik von Wörtern (im Gegensatz zu kompositionalen Ansätzen) Ergebnis ist vergleichbar einer Kombination aus Wörterbuch und Thesaurus Aufbau von Hand durch Lexikographen Beginn 1985

WordNet: Aufbau Hauptbestandteile ergänzt durch Synsets Bsp.: { motor vehicle, automotive vehicle } konzeptuelle und lexikalische Relationen Bsp.: Hypernymie ergänzt durch Bemerkungen Bsp.: „a self-propelled wheeled vehicle that does not run on rails“ Beschränkung auf Wörter der 4 offenen Wortklassen (Substantive, Adjektive, Verben, Adverben) Statistiken (WordNet 1.5)  91.600 Synsets,  75.400 Bemerkungen 18% mehrdeutige Wörter, aber Häufigkeit ca. 83%

Beispiel: motor vehicle Ähnliche Worte Hypernyme entity self-propelled vehicle vehicle container self-propelled vehicle motor vehicle (used very rare, polysemy count 1) Meronyme Hyponyme engine bloodmobile airbrake car chassis go-kart brake system truck

WordNet Anwendungen Semantische Annotation von Texten mit Synsets Kombination taxonomischen Wissens mit probabilistischen Modellen Information Retrieval Konzeptuelle Modellierung (COLOR-X: OO-System mit WordNet-Anbindung) Wissensverarbeitung mit WordNet-basierten Inferenzregeln

WordNet & Ontologie: Verbindungen Viele Gemeinsamkeiten zwischen Semantik in der Linguistik und Ontologie Konzeptuelle Relationen Hypernymie / Hyponymie = Generalisierung / Spezialisierung Meronymie / Holonymie = Teil-von- / hat-Teil-Beziehung Lexikalische Relationen Antonymie: Wörter mit gegensätzlicher Bedeutung Bsp.: Sieg und Niederlage, groß und klein Synonymie: Wörter mit gleicher Bedeutung Homonymie: Gleichklingende Wörter unterschiedlicher Bedeutung Polysemie: Wörter mit mehreren Bedeutungen Bsp.: „big“ tritt in 15 Synsets auf

WordNet & Ontologie: Top-Level Entity Organism Animal Person Plant Object Artifact Natural Object Body Substance Food Abstraction Attribute Quantity Relation Communication Time Psychol. Feature Cognition Feeling Motivation Nat. Phenomenon Process Activity Event Group Location Possession Shape State

WordNet & Ontologie: Probleme WordNet [Fellbaum, 1998] keine Ausnahmen Bsp.: Pinguine fliegen nicht. Subtypen von Hyponymie Bsp.: is-a-kind-of, is-used-as-a-kind-of keine Unterscheidung von Eigennamen und Konzepten Bsp.: Bach und songwriter auf gleicher Ebene keine „generischen“ Konzepte Bsp.: chair vs. furniture weitere semantische Relationen sind nötig DOLCE/OntoClean [Gangemi et al. 2003c] Probleme 2), 3) von oben keine Trennung von Objekt- und Metaebene Bsp.: Relation versteckte Polysemie Bsp.: law als Dokument bzw. Regel heterogene Generalitätsebenen Bsp.: car und blood-mobile

OntoWordNet: Ziel & Commitments Ziel: Umwandlung von WordNet in eine formale Spezifikation Commitments: logisch: Synsets  Typen, formale Semantik für lexikalische Relationen ontologisch: Trennung in Konzepte, Relationen, Individuen kontextuell: Modularisierung nach Domänen, partiell geordnet semiotisch: textorientierte Angabe von Präferenzen, Frequenzen, etc. Fokus in [Gangemi et al. 2003a]: ontologische Commitments

OntoWordNet: Annahmen (A1) Hyperonymy beschreibt Synset-Subsumtion. (A2) Synsets sind Äquivalenzklassen von Bedeutungen. (A3) Bemerkungen als Axiomatisierungen. (A4) Bemerkungen sind konsistent mit Synsets. (A5) Assoziationen entsprechen konzeptuellen Relationen. (A6D) Extensionale Abgeschlossenheit von DOLCE. (A7D) Taxonomien unterhalb „manueller Verknüpfungen“ sind ontologisch konsistent.

OntoWordNet: Algorithmus Wortart-Markierung und Entfernen irrelevanter Wörter Disambiguierung der Wörter in den Synsets Extraktion von Assoziationen (semi-)automatische Interpretation der Assoziationen Bsp.: driver „the operator of a motor vehicle“ operator „an agent that operates some apparatus or machine“ motor vehicle „a self-propelled wheeled vehicle that does not run on rails“ Disambiguierung von operator driver – motor vehicle Assoziation  Agentive Co-Participation

Disambiguierungsalgorithmus (I) Greedy Algorithmus mit Heuristiken Input: S (Synset) P (Terme aus der Bemerkung von S sowie den Bemerkungen der direkten Hypernyme von S) Output: D (Menge disambiguierter Synsets) Anfangsschritt: D=S Umordnung der eindeutigen Terme von P nach D

Disambiguierungsalgorithmus (II) Iterationsschritt: Pfadheuristik: Pfadmustersuche zwischen S´ und S´´ Bsp. Hypernymy/Meronymy-Ketten: S´ @,# S´´ Contextheuristik: (nur wenn keine Pfade gefunden) gemeinsames semantisches Auftreten auf Grundlage von 3 Korpora der Computerlinguistik Disambiguierung erkannt, wenn mind. 2 Korporaergebnisse übereinstimmen gemeinsame Domänenkennzeichen von Synsets Umordnung der disambiguierten Terme von P nach D

Beispiellauf Disambiguierung von „retrospective“ Bemerkung: „an exhibition of a representative selection of an artist´s life work“ Hypernym: „art exhibition“ „an exhibition of art objects (paintings or statues)“

Beispiel: Ausgangssituation D enthält nur das „Ziel“-Synset P enthält alle Wörter aus Bemerkungen zu D und „art exhibition“ D P retrospective statue artist exhibition object art painting life work representative selection

Beispiel: Anfangsschritt Algorithmus: Umordnen der eindeutigen Wörter nach P (erkennbar in WordNet) D P Eindeutige Wörter retrospective statue artist statue artist exhibition object art painting life work representative selection

Beispiel: Iterationen I & II Algorithmus: Pfadheuristik: Ausnutzung konzeptueller Links in WordNet falls Pfade existieren, umordnen; sonst Kontextheuristik D P retrospective 3 Hypernymie-Pfade: retrospective 2 exhibition statue 3 art statue 6 object 1 Hyponymie-Pfad: art 2 painting statue artist exhibition object art object exhibition art painting painting life work representative selection

Beispiel: Iteration III Algorithmus: Kontextheuristik: Ausnutzung gemeinsamen Auftretens in Standardkorpora der Computerlinguistik D P retrospective (artist, life) ist bestimmt im LDC Corpus statue artist object exhibition art painting life work representative selection life

Ergebnis zu „retrospective“ „an exhibition of a representative selection of an artist´s life work“

Experimentelle Ergebnisse I

Experimentelle Ergebnisse II geringe Ergebnisrate, hohe Genauigkeit höhere Genauigkeit bei Ergebnissen als die „wähle-die-erste-Variante“-Heuristik weitere Analysen: Substantive mit höherer Rate und Genauigkeit, da Substantive umfassender kommentiert Verben problematisch in WordNet  Einbeziehung von FRAMENET geplant

Interpretation von Assoziationen I Motivation semantische Fundierung der gefundenen Assoziationen Anforderungen eine definierte Menge konzeptueller Relationen zwecks Wiederverwendbarkeit formale Semantik ausreichender Grad an Allgemeinheit und Flexibilität Mittel zur Lösung DOLCE bzw. DOLCE-Lite+ Axiomatisierung reduziert auf Ausdrucksfähigkeit von Beschreibungslogiken Erweiterungen generischer und domänenspezifischer Art

Interpretation von Assoziationen II Ansatz: Assoziation zwischen (car, engine) kann übersetzt werden zu x.Car(x)  y. Engine(y)  Component(x, y) Idee: nutze Position von „car“ und „engine“ in WordNet (spezifischste Hypernyme, die zu DOLCE gehören) inferiere spezifischste Relation zwischen diesen Hypernymen benötigt: Partition der Relationsdomänen technische Vorarbeiten (Zuordnung DOLCE-WordNet, ...)

Interpretation von Assoziationen III Partition der Relationsdomänen (Ausschnitt) Ergebnis: Generisch 85,21% korrekte Axiome Tourismus 89,80% korrekte Axiome Object Event Quality – Participant_In (Inherence of) Participant Temporal Mereotopological Association Region Quality Region of

Kritik Ansatz: semi-automatisch ist manuell vorzuziehen Grundannahmen richtig? Bemerkungen sind für „Leser“ gedacht, die das Konzept bereits kennen. Hoher Unvollständigkeitsgrad. Wie realistisch ist es, dass die Bemerkungen den Synsets und ihren Relationen entsprechen? Axiom-Generierung zu naiv? Ergebnisse positiv, aber wie findet man die wenigen falschen? bestimmte Probleme durch Autoren anerkannt und beschrieben

Zusammenfassung Linguistik und Ontologie ergänzen einander Untersuchung verwandter Beziehungen und Probleme z.B. Hyper/Hyponymie, Meronymie WordNet ist eine interessante Ressource für beide Gebiete (semi-)automatisches Verfahren zur Formalisierung von WordNet konkreter Nutzen für Top-Level-Ontologien gezeigt Ergebnisse sprechen für Weiterverfolgung automatischer Techniken

Literatur (Fellbaum 1998) Fellbaum, C. (ed) 1998. WordNet: An Electronic Lexical Database. Language, Speech and Communication Series. Cambridge (Mass.): MIT Press. (Gangemi et al. 2003a) Gangemi, A., Navigli, R., Velardi, P. 2003. The OntoWordNet Project: extension and axiomatization of conceptual relations in WordNet. In: Proceedings of the International Conference on Ontologies, Databases and Applications of Semantics (ODBASE 2003), Nov 3-7, Catania, Italy. S. 820-838. Lecture Notes in Computer Science, Bd. 2888. (Gangemi et al. 2003b) Gangemi, A., Navigli, R., Velardi, P. 2003. Axiomatizing WordNet Glosses in the OntoWordNet Project. [noch nicht erschienen] In: Workshop on Human Language Technology for the Semantic Web and Web Services, 2nd International Semantic Web Conference (ISWC2003). 20-23 Oct, Sanibel Island, Florida. Vorabdruck verfügbar unter: http://www.loa-cnr.it/Publications.html. (Gangemi et al. 2003c) Gangemi, A., Guarino N., Masolo C., Oltramari, A. 2003. Sweetening WordNet with DOLCE. AI Magazine 24(3):13-24. (WordNet) http://www.cogsci.princeton.edu/~wn/