Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

XIRQL: Eine Anfragesprache für Information Retrieval in XML-Dokumenten

Ähnliche Präsentationen


Präsentation zum Thema: "XIRQL: Eine Anfragesprache für Information Retrieval in XML-Dokumenten"—  Präsentation transkript:

1 XIRQL: Eine Anfragesprache für Information Retrieval in XML-Dokumenten
Norbert Fuhr Universität Dortmund

2 Gliederung Strukturen in Dokumenten XML-Anfragesprachen XIRQL
Anwendungen Zusammenfassung und Ausblick

3 Stufen der Nutzung von Dokumenten
Konsumieren Analysieren Synthetisieren Für Stufen 2 und 3 (Integration in die eigentliche Arbeit) Unterstützung durch geeignete (elektronische) Dokumentformate notwendig

4 Strukturen in Dokumenten
chapter head title autor section document logische Struktur IR networks heterogeneity effectivness user friendlyn. inhaltliche Struktur Layout- Struktur IR in networks J. Doe Dokument

5 Informationszugriff formale Anfrage Informations- bedürfnis Resultat-
inhaltlich Layout logisch Selektions- bedingungen Resultat- Sicht inhaltlich Layout logisch (Transform.) formale Anfrage Informations- bedürfnis

6 XML: explizite logische Struktur
<book class="H.3.3"> <author>John Smith</author> <title>XML Retrieval</title> <chapter> <heading>Introduction</heading> This text explains all about XML and IR. </chapter> <chapter> <heading> XML Query Language XQL </heading> <section> <heading>Examples</heading> </section> <heading>Syntax</heading> Now we describe the XQL syntax. </book> Elemente: Starttag Endetag Inhalt Attribut

7 Graphische Darstellung
document class="H.3.3" chapter chapter author title heading section section John Smith heading This. . . XML Query heading heading We describe Language XQL XML Retrieval Introduction syntax of XQL Examples Syntax

8 XML-Anfragesprachen Daten-zentrierte Sicht: XML als Austauschformat für strukturierte Daten Dokumenten-zentrierte Sicht: XML als Format zur Repräsentation der logischen Struktur von Dokumenten W3C-Empfehlung für XML-Anfragesprache: XQuery Fokussierung auf die Daten-zentrierte Sicht hier: Information Retrieval für die Dokumenten-zentrierte Sicht Ausgangspunkt: XQL

9 XQL Pfadbedingung: Eltern-/Kindknoten chapter/heading document
class="H.3.3" chapter chapter author title heading section section John Smith heading This. . . XML Query heading heading We describe Language XQL XML Retrieval Introduction syntax of XQL Examples Syntax Pfadbedingung: Eltern-/Kindknoten chapter/heading

10 XQL Pfadbedingung: Vorfahr-Nachfahr chapter//heading document
class="H.3.3" chapter chapter author title heading section section John Smith heading This. . . XML Query heading heading We describe Language XQL XML Retrieval Introduction syntax of XQL Examples Syntax Pfadbedingung: Vorfahr-Nachfahr chapter//heading

11 XQL Filter bzgl. Struktur: //chapter[heading] document class="H.3.3"
author title heading section section John Smith heading This. . . XML Query heading heading We describe Language XQL XML Retrieval Introduction syntax of XQL Examples Syntax Filter bzgl. Struktur: //chapter[heading]

12 XQL Filter bzgl. Inhalt:
document class="H.3.3" chapter chapter author title John Smith heading section section heading This. . . XML Query heading heading We describe Language XQL XML Retrieval Introduction syntax of XQL Examples Syntax Filter bzgl. Inhalt:  author="John Smith"]

13 Eigenschaften von XQL Bedingungen bzgl. der logischen Struktur
(Bedingungen bzgl. des Inhalts) Vollständige Elemente als Antworten (logische Resultatsicht) Boolesches Retrieval (schlechte Retrievalqualität) inhaltliche Struktur wird nicht unterstützt nur wenige Datentypen

14 XIRQL: XML IR Query Language
probabilistisches Retrieval mit gewichteter Dokumentindexierung Relevanz-orientierte Suche (inhaltliche Resultatsicht) (erweiterbare) Datentypen mit vagen Prädikaten

15 Probabilistisches Retrieval in XIRQL
Problem: Gewichtung unterschiedlicher Vorkommensformen von Termen /document[.//heading  "XML"  .//section//*  "XML"] document chapter chapter heading section section heading This. . . XML Query heading heading We describe Language XQL syntax of XQL Introduction Examples Syntax

16 Gewichtung von Term-Vorkommen in Dokumenten
a) Gewichtung bezüglich einzelner Fragebedingungen mögliche Überlappung von Fragebedingungen abhängige probabilistische Ereignisse nur Wahrscheinlichkeitsintervalle für Antworten keine lineare Rangordnung der Dokumente

17 Gewichtung von Term-Vorkommen in Dokumenten
b) Gewichtung bezüglich bestimmter Dokumenttteile Termgewichtung abhängig vom Kontext (Dokumentteil) des Vorkommens alle Vorkommen in einem Kontext bezeichnen dasselbe Ereignis nur identische und unabhängige Ereignisse Punktwahrscheinlichkeiten für Antworten lineare Rangordnung der Dokumente

18 Indexknoten als Einheiten zur Termgewichtung
1 2 3 4 5 document class="H.3.3" author John Smith title XML Retrieval Introduction chapter heading This. . . Syntax Examples section XML Query Lang. XQL We describe syntax of XQL Anwendung bekannter Indexierungsfunktionen (z.B. tf*idf)

19 Probabilistische Ereignisse und Ereignisausdrücke
Problem: probabilistisch korrekte Kombination von Termgewichten bzgl. einer Anfrage probabilistisches Basisereignis: Vorkommen eines Terms in einem Indexknoten Basisereignisse sind voneinander unabhängig! (verschiedene Terme, gleicher Term in verschiedenen Indexknoten) Ereignisausdrücke beschreiben die Kombination von Basisereignissen in einem Dokument bzgl. einer Anfrage

20 Ereignisausdrücke //section[.//*  "XQL"  .//*  "syntax"]
document class="H.3.3" chapter chapter author title heading section section John Smith heading This. . . XML Query We describe heading heading Lang. XQL syntax of XQL XML Retrieval Introduction 1 2 3 Syntax Examples 4 5 //section[.//*  "XQL"  .//*  "syntax"] [5,XQL]  [5,syntax]

21 Ereignisausdrücke /document/chapter [.//*  "XQL"  .//*  "syntax"]
class="H.3.3" chapter chapter author title heading section section John Smith heading This. . . XML Query We describe heading heading Lang. XQL syntax of XQL XML Retrieval Introduction 1 2 3 Syntax Examples 4 5 /document/chapter [.//*  "XQL"  .//*  "syntax"] ([3,XQL]  [5,XQL]) [5,syntax]

22 Auswertung von Ereignisausdrücken
Transformation des Ereignisausdrucks in disjunktive Normalform e = C1  …  Cn Ci: Konjunktion von Ereignisatomen Ereignisatom: positives oder negiertes Basisereignis Anwendung der Einschluss- /Ausschlussformel:

23 Relevanz-orientierte Suche
Realisierung der inhaltsorientierten Sicht (insbesondere für Anfragen unabhängig von der Dokumentstruktur) Einschränkung der möglichen Antworten (nicht alle Elemente sind geeignet) Retrievalstrategie: liefere spezifischsten Teilbaum, der die Anfrage beantwortet aber: Verrechnung mit gewichteter Indexierung? Lösung: Indexknoten als Wurzeln von möglichen Antworten Augmentierung als Konzept zur Verrechnung des Tradeoff zwischen Indexierungsgewichten und Spezifität von Antworten

24 Indexknoten für Relevanz-orientierte Suche
document class="H.3.3" chapter chapter author title heading section section John Smith heading This. . . XML Query heading heading We describe Lang. XQL syntax of XQL XML Retrieval Introduction 1 2 3 Examples Syntax 4 5

25 Augmentierung …durch Disjunktion Beispielanfrage: syntax  example
chapter 0.7*0.5 0.86 0.3 XQL 0.5 example 0.7 syntax section1 section2 0.5 example 0.8 XQL 0.7 syntax Beispielanfrage: syntax  example

26 Augmentierung …durch Disjunktion Beispielanfrage: XQL 0.86 0.8 chapter
0.5 example 0.7 syntax section1 section2 0.5 example 0.8 XQL 0.7 syntax Beispielanfrage: XQL

27 Augmentierung …mit Augmentierungsgewicht Beispielanfrage: XQL 0.64 0.8
chapter 0.64 0.8 0.64 0.3 XQL 0.30 example 0.42 syntax 0.6 section1 section2 0.5 example 0.8 XQL 0.7 syntax Beispielanfrage: XQL

28 XIRQL: Datentypen mit vagen Prädikaten
XML-Markup ermöglicht detaillierte Auszeichnung von Textelementen Ausnutzung des Markups für präzisere Suchen gleichzeitig Berücksichtigung von Unsicherheit und Vagheit beim Retrieval Datentypen mit vagen Prädikaten ``Suche Informationen über das Werk eines Künstlers namens Ulbrich, der um 1900 im Rhein-Main-Gebiet tätig war'' Ernst Olbrich, Darmstadt, 1899 (Erweiterbare) Datentypen für Dokumenten-zentrierte Sicht (Personennamen, Datumsangaben, geogr. Bezeichnungen, Klassifikationen / Bilder, Audio, Video,...)

29 Erweiterbare Typhierarchie
Erweiterbare Typhierarchie mit vagen Prädikaten für jeden Datentyp text: substring-Match westliche Sprache: Wortsuche, Trunkierung, Wortabstandssuche deutscher Text: Grund- und Stammformsuche, Komponenten von Komposita Datentypen der XML-Elemente werden in erweiterter DTD definiert

30 Prozessierung von XIRQL-Anfragen
Übersetzung in eine Pfad-Algebra (Ergebnisse sind stets vollständige Elemente der ursprünglichen Dokumente) Anfrageoptimierung Entwicklung von Algorithmen für Best-Match- Anfragen Zugriffspfade mit Ranking bzgl. einzelner Bedingungen (Pfeifer & Fuhr 93, Fagin 96, Güntzer et al. 00) nach Dokumentnummer geordnete Zugriffspfade (Textsuche) (Buckley & Lewit 85, Pfeifer & Pennekamp 97)

31 Anwendung: Projekt CARMEN
Digitale Bibliotheken mit Metadaten von verteilt gespeicherten Dokumenten (MathNet, PhysNet) http Web HyREX User Browser Interface Search Engine http Gatherer W XML W Database W ftp Indexer RDF RDF->XML Reposit.

32 Anwendung: Projekt CYCLADES
Services für vernetzte Open Archives (Preprint- Server) Recommendation Service Collaborative Work Service Personalization Service Query & Browse Mediator Service Cyclades Mediator Service Collection Service Access Service NDLTD . . . arXiv NCSTRL clinmed RePEc

33 Zusammenfassung strukturierte Dokumentformate zur besseren Nutzung von Dokumenten Unterstützung der drei Arten von Strukturen in Dokumenten (logische, Layout- und inhaltliche Struktur) sowohl bei Selektion als auch bei anschließenden Transformationen XIRQL: Anfragesprache für logische und inhaltliche Struktur

34 Ausblick Effektivität: Evaluierung von Volltext- Retrieval (Projekt FOCUS) Effizienz: Entwicklung von Zugriffsstrukturen, Anfrageoptimierung Ausdrucksstärke: Erweiterung in Richtung XQuery (Restrukturierung, Aggregierung) (Projekt CLASSIX)


Herunterladen ppt "XIRQL: Eine Anfragesprache für Information Retrieval in XML-Dokumenten"

Ähnliche Präsentationen


Google-Anzeigen