Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

Information Retrieval in XML- Dokumenten Norbert Fuhr Universität Dortmund

Ähnliche Präsentationen


Präsentation zum Thema: "Information Retrieval in XML- Dokumenten Norbert Fuhr Universität Dortmund"—  Präsentation transkript:

1 Information Retrieval in XML- Dokumenten Norbert Fuhr Universität Dortmund

2 Inhalt I. Einführung II. IR-Konzepte für XML III. XIRQL IV. HyREX-Retrievalengine V. Zusammenfassung und Ausblick

3 I. Einführung Daten- vs. Dokument-orientierte Sicht auf XML XQuery Information Retrieval IR = Unsicherheit und Vagheit

4 Daten-orientierte Sicht auf XML Norbert Fuhr Fuhr Norbert University Professor

5 Dokument-orientierte Sicht auf XML John Smith XML Retrieval Introduction This text explains all about XML and IR. XML Query Language XQL Examples Syntax Now we describe the XQL syntax.

6 Daten- vs. Dokument-orientierte Sicht Daten-orientierte Sicht XML als Austauschformat für strukturierte Daten Dokumenten-orientierte Sicht XML als Format zur Repräsentation der logischen Struktur von Dokumenten

7 XQuery FOR/LET PathExpression WHERE AdditionalSelectionCriteria RETURN ResultConstruction

8 XQuery document class="H.3.3" author John Smith title XML Retrieval Introduction chapter headingThis... heading SyntaxExamples heading sectionheading XML Query Language XQL section We describe syntax of XQL chapter Pfadbedingung: Eltern-/Kindknoten chapter/heading

9 XQuery document class="H.3.3" author John Smith title XML Retrieval Introduction chapter headingThis... heading SyntaxExamples heading sectionheading XML Query Language XQL section We describe syntax of XQL chapter Pfadbedingung: Vorfahr-Nachfahr chapter//heading

10 XQuery document class="H.3.3" author John Smith title XML Retrieval Introduction chapter headingThis... heading SyntaxExamples heading sectionheading XML Query Language XQL section We describe syntax of XQL chapter Filter bzgl. Struktur: //chapter[heading]

11 XQuery document class="H.3.3" author John Smith title XML Retrieval Introduction chapter headingThis... heading SyntaxExamples heading sectionheading XML Query Language XQL section We describe syntax of XQL chapter Filter bzgl. Inhalt: author="John Smith"]

12 Information Retrieval Beispiel: Internet-Suchmaschinen

13

14

15 IR = Unsicherheit und Vagheit Unsichere Repräsentation des Inhalts von Dokumenten Vage Beschreibungen des eigentlichen Informationswunsches Gewichtung von Dokumenten bzgl. Anfragebedingungen Rangordnung von Dokumenten als Antwort

16 IR-Konzepte in XQuery Nur boolesches Retrieval keine Gewichtung keine Rangordnungen Bislang nur Funktionen zur Suche nach einzelnen Wörtern

17 II. IR-Konzepte für XML Gewichtung und Ranking Relevanz-orientierte Suche Datentypen mit vagen Prädikaten Struktureller Relativismus

18 Gewichtung und Ranking Problem: Gewichtung unterschiedlicher Vorkommensformen von Termen /document[.//heading "XML".//section//* "XML"] document Introduction chapter headingThis... heading SyntaxExamples headingXML Query Language XQL section We describe syntax of XQL chapter headingsection

19 Indexknoten als Einheiten zur Termgewichtung Anwendung bekannter Indexierungsfunktionen (z.B. tf*idf)

20 Indexknoten als Einheiten zur Termgewichtung /document[.//heading "XML".//section//* "XML"] 0.6 XML 0.4 XML *0.6 = 0.86

21 Relevanz-orientierte Suche für Anfragen unabhängig von der Dokumentstruktur (z.B.: Suche Dokument(teil)e über XML-Anfragesprachen) Einschränkung der möglichen Antworten (nicht alle Elemente sind geeignet) Retrievalstrategie: liefere spezifischsten Teilbaum, der die Anfrage beantwortet aber: Verrechnung mit gewichteter Indexierung? Lösung: Indexknoten als Wurzeln von möglichen Antworten Augmentierung als Konzept zur Verrechnung des Tradeoff zwischen Indexierungsgewichten und Spezifität von Antworten

22 Indexknoten für Relevanz- orientierte Suche document class="H.3.3" author John Smith title XML Retrieval Introduction chapter headingThis... heading SyntaxExamples heading sectionheading XML Query Lang. XQL section We describe syntax of XQL chapter

23 Augmentierung 0.5 example0.8 XQL 0.7 syntax section1section2 0.3 XQL chapter 0.30 example 0.42 syntax 0.64 Beispielanfrage: syntax & example

24 Augmentierung 0.5 example0.8 XQL 0.7 syntax section1section2 0.3 XQL chapter 0.30 example 0.42 syntax 0.64 Beispielanfrage: XQL

25 Datentypen mit vagen Prädikaten XML-Markup ermöglicht detaillierte Auszeichnung von Textelementen Ausnutzung des Markups für präzisere Suchen gleichzeitig Berücksichtigung von Unsicherheit und Vagheit beim Retrieval Datentypen mit vagen Prädikaten ``Suche Informationen über das Werk eines Künstlers namens Ulbrich, der um 1900 im Rhein-Main-Gebiet tätig war'' Ernst Olbrich, Darmstadt, 1899 (Erweiterbare) Datentypen für Dokumenten-zentrierte Sicht (Personennamen, Datumsangaben, geogr. Bezeichnungen, Klassifikationen / Bilder, Audio, Video,...)

26 Erweiterbare Typhierarchie Erweiterbare Typhierarchie mit vagen Prädikaten für jeden Datentyp 1. text: substring-Match 2. westliche Sprache: Wortsuche, Trunkierung, Wortabstandssuche 3. deutscher Text: Grund- und Stammformsuche, Komponenten von Komposita Datentypen der XML-Elemente werden in XML- Schema definiert

27 Struktureller Relativismus Unterscheidung Element/Attribut fallenlassen: ~author="Smith" Suche in allen Elementen eines bestimmten Datentyps: #date=2001

28 III. XIRQL Erweiterung der Path Expressions von XQuery: probabilistisches Retrieval mit gewichteter Dokumentindexierung Relevanz-orientierte Suche Datentypen mit vagen Prädikaten Struktureller Relativismus XML IR Query Language

29 XIRQL-Path-Expressions Vage Prädikate text $c-word$ compute author $soundslike$ meier Gewichtete Fragebedingungen 0.7. $c-word$ retrieval $c-word$ XML Relevanz-orientierte Anfragen inode()[… $c-phrase$ XML retrieval] Struktureller Relativismus: //#person $soundslike$ meier

30 XIRQL vs. XQuery XIRQL prozessiert Teilmenge von XQuery- Anfragen: FOR $X=PathExpression RETURN $X Keine Restrukturierung von Antworten Keine Werte-basierten Joins zwischen verschiedenen Dokumenten Erweiterte Path Expressions für IR

31 IV. HyREX Hypermedia Retrieval Engine for XML Open-Source-Software für Information Retrieval in XML-Dokumenten Gefördert vom BMBF im Rahmen des GlobalInfo-Projektes CARMEN

32 HyREX-Architektur HyGate: Web- Gateway XIRQL: Anfragesprache auf der logischen Ebene HyPath: Zugriffspfade (physische Ebene)

33 HyREX-Datentypen

34 Query by Example: Werte- orientiert

35 Query by Example: Struktur- orientiert

36 Ergebnis-Visualisierung: Textbars

37 Ergebnis-Visualisierung: Treemaps

38

39 V. Zusammenfassung und Ausblick Dokument-orientierte XML-Anwendungen erfordern Information-Retrieval-Funktionen IR muss Unsicherheit und Vagheit berücksichtigen W3C-Vorschlag XQuery nicht ausreichend für IR

40 Zusammenfassung IR-Konzepte für XML: Gewichtung und Ranking Datentypen und vage Prädikate Relevanz-orientierte Suche Struktureller Relativismus XIRQL als IR-Erweiterung einer XQuery-Teilmenge HyREX: Open-Source-Retrievalengine für XML: ls6-www.cs.uni-dortmund.de/hyrex (BMBF-Projekt CARMEN)

41 Ausblick Entwicklung von Verfahren für effizientes Best-Match-Retrieval für XIRQL Kombination von XIRQL und XQuery: probabilistische Variante von XQuery (DFG-Projekt CLASSIX, zusammen mit Gerhard Weikum, Univ. Saarbrücken, ab )


Herunterladen ppt "Information Retrieval in XML- Dokumenten Norbert Fuhr Universität Dortmund"

Ähnliche Präsentationen


Google-Anzeigen