Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

Information Retrieval in XML-Dokumenten

Ähnliche Präsentationen


Präsentation zum Thema: "Information Retrieval in XML-Dokumenten"—  Präsentation transkript:

1 Information Retrieval in XML-Dokumenten
Norbert Fuhr Universität Dortmund

2 Inhalt Einführung IR-Konzepte für XML XIRQL HyREX-Retrievalengine
Zusammenfassung und Ausblick

3 I. Einführung Daten- vs. Dokument-orientierte Sicht auf XML XQuery
Information Retrieval IR = Unsicherheit und Vagheit

4 Daten-orientierte Sicht auf XML
<?xml version="1.0"?> <rdf:RDF xmlns:rdf = " xmlns:vCard = " <rdf:Description rdf:about = " > <vCard:FN> Norbert Fuhr </vCard:FN> <vCard:N rdf:parseType="Resource"> <vCard:Family> Fuhr </vCard:Family> <vCard:Given> Norbert </vCard:Given> </vCard:N> <vCard:TITLE> University Professor </vCard:TITLE> <vCard:TEL rdf:parseType="Resource"> <rdf:value> </rdf:value> </vCard:TEL> <vCard: rdf:parseType="Resource"> <rdf:value> </rdf:value> </vCard: > </rdf:Description> </rdf:RDF>

5 Dokument-orientierte Sicht auf XML
<book class="H.3.3"> <author>John Smith</author> <title>XML Retrieval</title> <chapter> <heading>Introduction</heading> This text explains all about XML and IR. </chapter> <chapter> <heading> XML Query Language XQL </heading> <section> <heading>Examples</heading> </section> <heading>Syntax</heading> Now we describe the XQL syntax. </book>

6 Daten- vs. Dokument-orientierte Sicht
Daten-orientierte Sicht XML als Austauschformat für strukturierte Daten Dokumenten-orientierte Sicht XML als Format zur Repräsentation der logischen Struktur von Dokumenten

7 XQuery FOR/LET PathExpression WHERE AdditionalSelectionCriteria
RETURN ResultConstruction

8 XQuery Pfadbedingung: Eltern-/Kindknoten chapter/heading document
class="H.3.3" chapter chapter author title heading section section John Smith heading This. . . XML Query heading heading We describe Language XQL XML Retrieval Introduction syntax of XQL Examples Syntax Pfadbedingung: Eltern-/Kindknoten chapter/heading

9 XQuery Pfadbedingung: Vorfahr-Nachfahr chapter//heading document
class="H.3.3" chapter chapter author title heading section section John Smith heading This. . . XML Query heading heading We describe Language XQL XML Retrieval Introduction syntax of XQL Examples Syntax Pfadbedingung: Vorfahr-Nachfahr chapter//heading

10 XQuery Filter bzgl. Struktur: //chapter[heading] document
class="H.3.3" chapter chapter author title heading section section John Smith heading This. . . XML Query heading heading We describe Language XQL XML Retrieval Introduction syntax of XQL Examples Syntax Filter bzgl. Struktur: //chapter[heading]

11 XQuery Filter bzgl. Inhalt:
document class="H.3.3" chapter chapter author title John Smith heading section section heading This. . . XML Query heading heading We describe Language XQL XML Retrieval Introduction syntax of XQL Examples Syntax Filter bzgl. Inhalt: Ù author="John Smith"]

12 Information Retrieval
Beispiel: Internet-Suchmaschinen

13

14

15 IR = Unsicherheit und Vagheit
Unsichere Repräsentation des Inhalts von Dokumenten Vage Beschreibungen des eigentlichen Informationswunsches Gewichtung von Dokumenten bzgl . Anfragebedingungen Rangordnung von Dokumenten als Antwort

16 IR-Konzepte in XQuery Nur boolesches Retrieval
keine Gewichtung keine Rangordnungen Bislang nur Funktionen zur Suche nach einzelnen Wörtern

17 II. IR-Konzepte für XML Gewichtung und Ranking
Relevanz-orientierte Suche Datentypen mit vagen Prädikaten Struktureller Relativismus

18 Gewichtung und Ranking
Problem: Gewichtung unterschiedlicher Vorkommensformen von Termen /document[.//heading ' "XML" Ú .//section//* ' "XML"] document chapter chapter heading section section heading This. . . XML Query heading heading We describe Language XQL syntax of XQL Introduction Examples Syntax

19 Indexknoten als Einheiten zur Termgewichtung
1 2 3 4 5 document class="H.3.3" author John Smith title XML Retrieval Introduction chapter heading This. . . Syntax Examples section XML Query Lang. XQL We describe syntax of XQL Anwendung bekannter Indexierungsfunktionen (z.B. tf*idf)

20 Indexknoten als Einheiten zur Termgewichtung
/document[.//heading ' "XML" Ú .//section//* ' "XML"] document class="H.3.3" author title chapter heading This. . . 0.4 XML section 0.6 XML 0.6 XML Ú 0.4 XML  *0.6 = 0.86 0.6 XML Ú 0.4 XML

21 Relevanz-orientierte Suche
für Anfragen unabhängig von der Dokumentstruktur (z.B.: “Suche Dokument(teil)e über XML-Anfragesprachen”) Einschränkung der möglichen Antworten (nicht alle Elemente sind geeignet) Retrievalstrategie: liefere spezifischsten Teilbaum, der die Anfrage beantwortet aber: Verrechnung mit gewichteter Indexierung? Lösung: Indexknoten als Wurzeln von möglichen Antworten Augmentierung als Konzept zur Verrechnung des Tradeoff zwischen Indexierungsgewichten und Spezifität von Antworten

22 Indexknoten für Relevanz-orientierte Suche
document class="H.3.3" chapter chapter author title heading section section John Smith heading This. . . XML Query heading heading We describe Lang. XQL syntax of XQL XML Retrieval Introduction 1 2 3 Examples Syntax 4 5

23 Augmentierung Beispielanfrage: syntax & example 0.126 chapter 0.64
0.3 XQL 0.126 0.30 example 0.42 syntax 0.6 section1 section2 0.5 example 0.8 XQL 0.7 syntax Beispielanfrage: syntax & example

24 Augmentierung Beispielanfrage: XQL 0.64 0.8 chapter 0.64 0.3 XQL
0.30 example 0.42 syntax 0.6 section1 section2 0.5 example 0.8 XQL 0.7 syntax Beispielanfrage: XQL

25 Datentypen mit vagen Prädikaten
XML-Markup ermöglicht detaillierte Auszeichnung von Textelementen Ausnutzung des Markups für präzisere Suchen gleichzeitig Berücksichtigung von Unsicherheit und Vagheit beim Retrieval Datentypen mit vagen Prädikaten ``Suche Informationen über das Werk eines Künstlers namens Ulbrich, der um 1900 im Rhein-Main-Gebiet tätig war'' Ernst Olbrich, Darmstadt, 1899 (Erweiterbare) Datentypen für Dokumenten-zentrierte Sicht (Personennamen, Datumsangaben, geogr. Bezeichnungen, Klassifikationen / Bilder, Audio, Video,...)

26 Erweiterbare Typhierarchie
Erweiterbare Typhierarchie mit vagen Prädikaten für jeden Datentyp text: substring-Match westliche Sprache: Wortsuche, Trunkierung, Wortabstandssuche deutscher Text: Grund- und Stammformsuche, Komponenten von Komposita Datentypen der XML-Elemente werden in XML- Schema definiert

27 Struktureller Relativismus
Unterscheidung Element/Attribut fallenlassen: ~author="Smith" Suche in allen Elementen eines bestimmten Datentyps: #date=2001

28 III. XIRQL XML IR Query Language
Erweiterung der Path Expressions von XQuery: probabilistisches Retrieval mit gewichteter Dokumentindexierung Relevanz-orientierte Suche Datentypen mit vagen Prädikaten Struktureller Relativismus

29 XIRQL-Path-Expressions
Vage Prädikate text $c-word$ “compute” author $soundslike$ “meier” Gewichtete Fragebedingungen 0.7 . $c-word$ “retrieval” $c-word$ “XML” Relevanz-orientierte Anfragen inode()[… $c-phrase$ “XML retrieval”] Struktureller Relativismus: //#person $soundslike$ “meier”

30 XIRQL vs. XQuery XIRQL prozessiert Teilmenge von XQuery- Anfragen:
FOR $X=PathExpression RETURN $X Keine Restrukturierung von Antworten Keine Werte-basierten Joins zwischen verschiedenen Dokumenten Erweiterte Path Expressions für IR

31 IV. HyREX Hypermedia Retrieval Engine for XML
Open-Source-Software für Information Retrieval in XML-Dokumenten Gefördert vom BMBF im Rahmen des GlobalInfo-Projektes CARMEN

32 HyREX-Architektur HyGate: Web- Gateway
XIRQL: Anfragesprache auf der logischen Ebene HyPath: Zugriffspfade (physische Ebene)

33 HyREX-Datentypen

34 Query by Example: Werte-orientiert

35 Query by Example: Struktur-orientiert

36 Ergebnis-Visualisierung: Textbars

37 Ergebnis-Visualisierung: Treemaps

38

39 V. Zusammenfassung und Ausblick
Dokument-orientierte XML-Anwendungen erfordern Information-Retrieval-Funktionen IR muss Unsicherheit und Vagheit berücksichtigen W3C-Vorschlag XQuery nicht ausreichend für IR

40 Zusammenfassung IR-Konzepte für XML:
Gewichtung und Ranking Datentypen und vage Prädikate Relevanz-orientierte Suche Struktureller Relativismus XIRQL als IR-Erweiterung einer XQuery-Teilmenge HyREX: Open-Source-Retrievalengine für XML: ls6- (BMBF-Projekt CARMEN)

41 Ausblick Entwicklung von Verfahren für effizientes Best-Match-Retrieval für XIRQL Kombination von XIRQL und XQuery: probabilistische Variante von XQuery (DFG-Projekt CLASSIX, zusammen mit Gerhard Weikum, Univ. Saarbrücken, ab )


Herunterladen ppt "Information Retrieval in XML-Dokumenten"

Ähnliche Präsentationen


Google-Anzeigen