Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

Ralf Schenkel joint work with Fabian Suchanek and Gjergji Kasneci YAWN A Semantically Annotated Wikipedia XML Corpus.

Ähnliche Präsentationen


Präsentation zum Thema: "Ralf Schenkel joint work with Fabian Suchanek and Gjergji Kasneci YAWN A Semantically Annotated Wikipedia XML Corpus."—  Präsentation transkript:

1 Ralf Schenkel joint work with Fabian Suchanek and Gjergji Kasneci YAWN A Semantically Annotated Wikipedia XML Corpus

2 8. März 2007BTW 2007, Aachen 2 Results for Konferenz Aachen NRW KULTURsekretariat Relevanz: 5.9% - -NRW KULTURsekretariat Pfadfinderinnenschaft Sankt Georg Relevanz: 5.7% - -Pfadfinderinnenschaft Sankt Georg Konferenz der deutschsprachigen Mathematikfachschaften Relevanz: 5.2% - -Konferenz der deutschsprachigen Mathematikfachschaften Leonard Monheim Relevanz: 5.1% - -Leonard Monheim Andreas Kruse Relevanz: 4.9% - -Andreas Kruse Holzbau Relevanz: 4.9% - -Holzbau Wolfgang Seifen Relevanz: 4.9% - -Wolfgang Seifen Feldpost der Belgier in Deutschland nach dem Ersten Weltkrieg 1918–1935 Relevanz: 4.1% - -Feldpost der Belgier in Deutschland nach dem Ersten Weltkrieg 1918–1935 Konferenz der Informatikfachschaften Relevanz: 4.0% - -Konferenz der Informatikfachschaften UNESCO-Club Relevanz: 3.7% - -UNESCO-Club Kaiser/Riegraf-Gruppe (Heilbronn) Relevanz: 3.7% - -Kaiser/Riegraf-Gruppe (Heilbronn) Niederländische Annexionspläne nach dem Zweiten Weltkrieg Relevanz: 3.6% - -Niederländische Annexionspläne nach dem Zweiten Weltkrieg Find a page of a conference that is related to Aachen. Limit query to certain classes of result pages

3 8. März 2007BTW 2007, Aachen 3 Source for Classes: WordNet Thesaurus ROOT entitygroup thingliving_thing person entertainerscientist physicistbiologistmusicianactor meeting conferencecongress minority More than 81000 concepts

4 8. März 2007BTW 2007, Aachen 4 Mapping Pages to Concepts city Automatic mapping with high quality

5 8. März 2007BTW 2007, Aachen 5 Architecture Wikipedia Pages (Wiki Markup) HTML TopX Search Engine Concept Mapper Wikipedia Pages (Annotated XML) Wikipedia Pages (XML)

6 8. März 2007BTW 2007, Aachen 6 Concept Mapping (1): Categories Manually added category information in most pages Example: Albert Einstein Excellent_articles 1879_births Physics Swiss_physicists Technically: exclude admin categories, shallow parsing of category labels, stemming, mapping heuristics

7 8. März 2007BTW 2007, Aachen 7 Concept Mapping (2): Regular Structure Regular structures (list, tables, …) often indicate similar concepts Example: List of people Albert Einstein Max Planck Nils Bohr Werner Heisenberg Technically: grouping of similar XPath expressions, find coherent annotations, frequency & confidence thresholds physicist

8 8. März 2007BTW 2007, Aachen 8 Concept Mapping (2): Regular Structure Technically: grouping of similar XPath expressions, find coherent annotations, frequency & confidence thresholds /article[1]/…/list[3]/item[1]/link[1] /article[1]/…/list[3]/item[2]/link[1] /article[1]/…/list[3]/item[3]/link[1] /article[1]/…/list[3]/item[4]/link[1] Regular structures (list, tables, …) often indicate similar concepts Example: List of people

9 8. März 2007BTW 2007, Aachen 9 Concept Mapping (3): Outlier Detection Sometimes conflicting annotations of the same page: ROOT entity thingliving_thing person ruler artifact instrument ruler Solution: Compatibility matrix for high-level concepts king Kings_of_Spain European_rulers ?

10 8. März 2007BTW 2007, Aachen 10 YAWN: Annotated XML Add concept tag(s) to articles … Add concept tag(s) to outgoing links … Saarbrücken

11 8. März 2007BTW 2007, Aachen 11 Querying YAWN Map concept queries to XPath expressions conferences in Aachen: //conference[contains(.,Aachen)] scientists who won a nobel prize: //scientist[contains(.,Nobel prize)] musicians who performed a song where space occurs in the title: //musician[contains(//song,space)] Not for end users! Needs good user interface

12 8. März 2007BTW 2007, Aachen 12 Left Overs and Summary XML Conversion Templates Preliminary evaluation See paper Automated detection and annotation of concepts is useful for retrieval.

13 8. März 2007BTW 2007, Aachen 13 The Future: YAGO [WWW07] city area state AachenNRW is_a instance_of located_in Querying the knowledge representation

14 8. März 2007BTW 2007, Aachen 14 Thank you!


Herunterladen ppt "Ralf Schenkel joint work with Fabian Suchanek and Gjergji Kasneci YAWN A Semantically Annotated Wikipedia XML Corpus."

Ähnliche Präsentationen


Google-Anzeigen