Präsentation herunterladen
Die Präsentation wird geladen. Bitte warten
Veröffentlicht von:Sonje Redepenning Geändert vor über 10 Jahren
1
Information Retrieval in XML-Dokumenten
Norbert Fuhr Universität Dortmund
2
Inhalt Einführung IR-Konzepte für XML XIRQL HyREX-Retrievalengine
Zusammenfassung und Ausblick
3
I. Einführung Daten- vs. Dokument-orientierte Sicht auf XML XQuery
Information Retrieval IR = Unsicherheit und Vagheit
4
Daten-orientierte Sicht auf XML
<?xml version="1.0"?> <rdf:RDF xmlns:rdf = " xmlns:vCard = " <rdf:Description rdf:about = " > <vCard:FN> Norbert Fuhr </vCard:FN> <vCard:N rdf:parseType="Resource"> <vCard:Family> Fuhr </vCard:Family> <vCard:Given> Norbert </vCard:Given> </vCard:N> <vCard:TITLE> University Professor </vCard:TITLE> <vCard:TEL rdf:parseType="Resource"> <rdf:value> </rdf:value> </vCard:TEL> <vCard: rdf:parseType="Resource"> <rdf:value> </rdf:value> </vCard: > </rdf:Description> </rdf:RDF>
5
Dokument-orientierte Sicht auf XML
<book class="H.3.3"> <author>John Smith</author> <title>XML Retrieval</title> <chapter> <heading>Introduction</heading> This text explains all about XML and IR. </chapter> <chapter> <heading> XML Query Language XQL </heading> <section> <heading>Examples</heading> </section> <heading>Syntax</heading> Now we describe the XQL syntax. </book>
6
Daten- vs. Dokument-orientierte Sicht
Daten-orientierte Sicht XML als Austauschformat für strukturierte Daten Dokumenten-orientierte Sicht XML als Format zur Repräsentation der logischen Struktur von Dokumenten
7
XQuery FOR/LET PathExpression WHERE AdditionalSelectionCriteria
RETURN ResultConstruction
8
XQuery Pfadbedingung: Eltern-/Kindknoten chapter/heading document
class="H.3.3" chapter chapter author title heading section section John Smith heading This. . . XML Query heading heading We describe Language XQL XML Retrieval Introduction syntax of XQL Examples Syntax Pfadbedingung: Eltern-/Kindknoten chapter/heading
9
XQuery Pfadbedingung: Vorfahr-Nachfahr chapter//heading document
class="H.3.3" chapter chapter author title heading section section John Smith heading This. . . XML Query heading heading We describe Language XQL XML Retrieval Introduction syntax of XQL Examples Syntax Pfadbedingung: Vorfahr-Nachfahr chapter//heading
10
XQuery Filter bzgl. Struktur: //chapter[heading] document
class="H.3.3" chapter chapter author title heading section section John Smith heading This. . . XML Query heading heading We describe Language XQL XML Retrieval Introduction syntax of XQL Examples Syntax Filter bzgl. Struktur: //chapter[heading]
11
XQuery Filter bzgl. Inhalt:
document class="H.3.3" chapter chapter author title John Smith heading section section heading This. . . XML Query heading heading We describe Language XQL XML Retrieval Introduction syntax of XQL Examples Syntax Filter bzgl. Inhalt: Ù author="John Smith"]
12
Information Retrieval
Beispiel: Internet-Suchmaschinen
15
IR = Unsicherheit und Vagheit
Unsichere Repräsentation des Inhalts von Dokumenten Vage Beschreibungen des eigentlichen Informationswunsches Gewichtung von Dokumenten bzgl . Anfragebedingungen Rangordnung von Dokumenten als Antwort
16
IR-Konzepte in XQuery Nur boolesches Retrieval
keine Gewichtung keine Rangordnungen Bislang nur Funktionen zur Suche nach einzelnen Wörtern
17
II. IR-Konzepte für XML Gewichtung und Ranking
Relevanz-orientierte Suche Datentypen mit vagen Prädikaten Struktureller Relativismus
18
Gewichtung und Ranking
Problem: Gewichtung unterschiedlicher Vorkommensformen von Termen /document[.//heading ' "XML" Ú .//section//* ' "XML"] document chapter chapter heading section section heading This. . . XML Query heading heading We describe Language XQL syntax of XQL Introduction Examples Syntax
19
Indexknoten als Einheiten zur Termgewichtung
1 2 3 4 5 document class="H.3.3" author John Smith title XML Retrieval Introduction chapter heading This. . . Syntax Examples section XML Query Lang. XQL We describe syntax of XQL Anwendung bekannter Indexierungsfunktionen (z.B. tf*idf)
20
Indexknoten als Einheiten zur Termgewichtung
/document[.//heading ' "XML" Ú .//section//* ' "XML"] document class="H.3.3" author title chapter heading This. . . 0.4 XML section 0.6 XML 0.6 XML Ú 0.4 XML *0.6 = 0.86 0.6 XML Ú 0.4 XML
21
Relevanz-orientierte Suche
für Anfragen unabhängig von der Dokumentstruktur (z.B.: “Suche Dokument(teil)e über XML-Anfragesprachen”) Einschränkung der möglichen Antworten (nicht alle Elemente sind geeignet) Retrievalstrategie: liefere spezifischsten Teilbaum, der die Anfrage beantwortet aber: Verrechnung mit gewichteter Indexierung? Lösung: Indexknoten als Wurzeln von möglichen Antworten Augmentierung als Konzept zur Verrechnung des Tradeoff zwischen Indexierungsgewichten und Spezifität von Antworten
22
Indexknoten für Relevanz-orientierte Suche
document class="H.3.3" chapter chapter author title heading section section John Smith heading This. . . XML Query heading heading We describe Lang. XQL syntax of XQL XML Retrieval Introduction 1 2 3 Examples Syntax 4 5
23
Augmentierung Beispielanfrage: syntax & example 0.126 chapter 0.64
0.3 XQL 0.126 0.30 example 0.42 syntax 0.6 section1 section2 0.5 example 0.8 XQL 0.7 syntax Beispielanfrage: syntax & example
24
Augmentierung Beispielanfrage: XQL 0.64 0.8 chapter 0.64 0.3 XQL
0.30 example 0.42 syntax 0.6 section1 section2 0.5 example 0.8 XQL 0.7 syntax Beispielanfrage: XQL
25
Datentypen mit vagen Prädikaten
XML-Markup ermöglicht detaillierte Auszeichnung von Textelementen Ausnutzung des Markups für präzisere Suchen gleichzeitig Berücksichtigung von Unsicherheit und Vagheit beim Retrieval Datentypen mit vagen Prädikaten ``Suche Informationen über das Werk eines Künstlers namens Ulbrich, der um 1900 im Rhein-Main-Gebiet tätig war'' Ernst Olbrich, Darmstadt, 1899 (Erweiterbare) Datentypen für Dokumenten-zentrierte Sicht (Personennamen, Datumsangaben, geogr. Bezeichnungen, Klassifikationen / Bilder, Audio, Video,...)
26
Erweiterbare Typhierarchie
Erweiterbare Typhierarchie mit vagen Prädikaten für jeden Datentyp text: substring-Match westliche Sprache: Wortsuche, Trunkierung, Wortabstandssuche deutscher Text: Grund- und Stammformsuche, Komponenten von Komposita Datentypen der XML-Elemente werden in XML- Schema definiert
27
Struktureller Relativismus
Unterscheidung Element/Attribut fallenlassen: ~author="Smith" Suche in allen Elementen eines bestimmten Datentyps: #date=2001
28
III. XIRQL XML IR Query Language
Erweiterung der Path Expressions von XQuery: probabilistisches Retrieval mit gewichteter Dokumentindexierung Relevanz-orientierte Suche Datentypen mit vagen Prädikaten Struktureller Relativismus
29
XIRQL-Path-Expressions
Vage Prädikate text $c-word$ “compute” author $soundslike$ “meier” Gewichtete Fragebedingungen 0.7 . $c-word$ “retrieval” $c-word$ “XML” Relevanz-orientierte Anfragen inode()[… $c-phrase$ “XML retrieval”] Struktureller Relativismus: //#person $soundslike$ “meier”
30
XIRQL vs. XQuery XIRQL prozessiert Teilmenge von XQuery- Anfragen:
FOR $X=PathExpression RETURN $X Keine Restrukturierung von Antworten Keine Werte-basierten Joins zwischen verschiedenen Dokumenten Erweiterte Path Expressions für IR
31
IV. HyREX Hypermedia Retrieval Engine for XML
Open-Source-Software für Information Retrieval in XML-Dokumenten Gefördert vom BMBF im Rahmen des GlobalInfo-Projektes CARMEN
32
HyREX-Architektur HyGate: Web- Gateway
XIRQL: Anfragesprache auf der logischen Ebene HyPath: Zugriffspfade (physische Ebene)
33
HyREX-Datentypen
34
Query by Example: Werte-orientiert
35
Query by Example: Struktur-orientiert
36
Ergebnis-Visualisierung: Textbars
37
Ergebnis-Visualisierung: Treemaps
39
V. Zusammenfassung und Ausblick
Dokument-orientierte XML-Anwendungen erfordern Information-Retrieval-Funktionen IR muss Unsicherheit und Vagheit berücksichtigen W3C-Vorschlag XQuery nicht ausreichend für IR
40
Zusammenfassung IR-Konzepte für XML:
Gewichtung und Ranking Datentypen und vage Prädikate Relevanz-orientierte Suche Struktureller Relativismus XIRQL als IR-Erweiterung einer XQuery-Teilmenge HyREX: Open-Source-Retrievalengine für XML: ls6- (BMBF-Projekt CARMEN)
41
Ausblick Entwicklung von Verfahren für effizientes Best-Match-Retrieval für XIRQL Kombination von XIRQL und XQuery: probabilistische Variante von XQuery (DFG-Projekt CLASSIX, zusammen mit Gerhard Weikum, Univ. Saarbrücken, ab )
Ähnliche Präsentationen
© 2024 SlidePlayer.org Inc.
All rights reserved.