XIRQL: Eine Anfragesprache für Information Retrieval in XML-Dokumenten Norbert Fuhr Universität Dortmund
Gliederung Strukturen in Dokumenten XML-Anfragesprachen XIRQL Anwendungen Zusammenfassung und Ausblick
Stufen der Nutzung von Dokumenten Konsumieren Analysieren Synthetisieren Für Stufen 2 und 3 (Integration in die eigentliche Arbeit) Unterstützung durch geeignete (elektronische) Dokumentformate notwendig
Strukturen in Dokumenten chapter head title autor section document logische Struktur IR networks heterogeneity effectivness user friendlyn. inhaltliche Struktur Layout- Struktur IR in networks J. Doe Dokument
Informationszugriff formale Anfrage Informations- bedürfnis Resultat- inhaltlich Layout logisch Selektions- bedingungen Resultat- Sicht inhaltlich Layout logisch (Transform.) formale Anfrage Informations- bedürfnis
XML: explizite logische Struktur <book class="H.3.3"> <author>John Smith</author> <title>XML Retrieval</title> <chapter> <heading>Introduction</heading> This text explains all about XML and IR. </chapter> <chapter> <heading> XML Query Language XQL </heading> <section> <heading>Examples</heading> </section> <heading>Syntax</heading> Now we describe the XQL syntax. </book> Elemente: Starttag Endetag Inhalt Attribut
Graphische Darstellung document class="H.3.3" chapter chapter author title heading section section John Smith heading This. . . XML Query heading heading We describe Language XQL XML Retrieval Introduction syntax of XQL Examples Syntax
XML-Anfragesprachen Daten-zentrierte Sicht: XML als Austauschformat für strukturierte Daten Dokumenten-zentrierte Sicht: XML als Format zur Repräsentation der logischen Struktur von Dokumenten W3C-Empfehlung für XML-Anfragesprache: XQuery Fokussierung auf die Daten-zentrierte Sicht hier: Information Retrieval für die Dokumenten-zentrierte Sicht Ausgangspunkt: XQL
XQL Pfadbedingung: Eltern-/Kindknoten chapter/heading document class="H.3.3" chapter chapter author title heading section section John Smith heading This. . . XML Query heading heading We describe Language XQL XML Retrieval Introduction syntax of XQL Examples Syntax Pfadbedingung: Eltern-/Kindknoten chapter/heading
XQL Pfadbedingung: Vorfahr-Nachfahr chapter//heading document class="H.3.3" chapter chapter author title heading section section John Smith heading This. . . XML Query heading heading We describe Language XQL XML Retrieval Introduction syntax of XQL Examples Syntax Pfadbedingung: Vorfahr-Nachfahr chapter//heading
XQL Filter bzgl. Struktur: //chapter[heading] document class="H.3.3" author title heading section section John Smith heading This. . . XML Query heading heading We describe Language XQL XML Retrieval Introduction syntax of XQL Examples Syntax Filter bzgl. Struktur: //chapter[heading]
XQL Filter bzgl. Inhalt: document class="H.3.3" chapter chapter author title John Smith heading section section heading This. . . XML Query heading heading We describe Language XQL XML Retrieval Introduction syntax of XQL Examples Syntax Filter bzgl. Inhalt: /document[@class="H.3.3" author="John Smith"]
Eigenschaften von XQL Bedingungen bzgl. der logischen Struktur (Bedingungen bzgl. des Inhalts) Vollständige Elemente als Antworten (logische Resultatsicht) Boolesches Retrieval (schlechte Retrievalqualität) inhaltliche Struktur wird nicht unterstützt nur wenige Datentypen
XIRQL: XML IR Query Language probabilistisches Retrieval mit gewichteter Dokumentindexierung Relevanz-orientierte Suche (inhaltliche Resultatsicht) (erweiterbare) Datentypen mit vagen Prädikaten
Probabilistisches Retrieval in XIRQL Problem: Gewichtung unterschiedlicher Vorkommensformen von Termen /document[.//heading "XML" .//section//* "XML"] document chapter chapter heading section section heading This. . . XML Query heading heading We describe Language XQL syntax of XQL Introduction Examples Syntax
Gewichtung von Term-Vorkommen in Dokumenten a) Gewichtung bezüglich einzelner Fragebedingungen mögliche Überlappung von Fragebedingungen abhängige probabilistische Ereignisse nur Wahrscheinlichkeitsintervalle für Antworten keine lineare Rangordnung der Dokumente
Gewichtung von Term-Vorkommen in Dokumenten b) Gewichtung bezüglich bestimmter Dokumenttteile Termgewichtung abhängig vom Kontext (Dokumentteil) des Vorkommens alle Vorkommen in einem Kontext bezeichnen dasselbe Ereignis nur identische und unabhängige Ereignisse Punktwahrscheinlichkeiten für Antworten lineare Rangordnung der Dokumente
Indexknoten als Einheiten zur Termgewichtung 1 2 3 4 5 document class="H.3.3" author John Smith title XML Retrieval Introduction chapter heading This. . . Syntax Examples section XML Query Lang. XQL We describe syntax of XQL Anwendung bekannter Indexierungsfunktionen (z.B. tf*idf)
Probabilistische Ereignisse und Ereignisausdrücke Problem: probabilistisch korrekte Kombination von Termgewichten bzgl. einer Anfrage probabilistisches Basisereignis: Vorkommen eines Terms in einem Indexknoten Basisereignisse sind voneinander unabhängig! (verschiedene Terme, gleicher Term in verschiedenen Indexknoten) Ereignisausdrücke beschreiben die Kombination von Basisereignissen in einem Dokument bzgl. einer Anfrage
Ereignisausdrücke //section[.//* "XQL" .//* "syntax"] document class="H.3.3" chapter chapter author title heading section section John Smith heading This. . . XML Query We describe heading heading Lang. XQL syntax of XQL XML Retrieval Introduction 1 2 3 Syntax Examples 4 5 //section[.//* "XQL" .//* "syntax"] [5,XQL] [5,syntax]
Ereignisausdrücke /document/chapter [.//* "XQL" .//* "syntax"] class="H.3.3" chapter chapter author title heading section section John Smith heading This. . . XML Query We describe heading heading Lang. XQL syntax of XQL XML Retrieval Introduction 1 2 3 Syntax Examples 4 5 /document/chapter [.//* "XQL" .//* "syntax"] ([3,XQL] [5,XQL]) [5,syntax]
Auswertung von Ereignisausdrücken Transformation des Ereignisausdrucks in disjunktive Normalform e = C1 … Cn Ci: Konjunktion von Ereignisatomen Ereignisatom: positives oder negiertes Basisereignis Anwendung der Einschluss- /Ausschlussformel:
Relevanz-orientierte Suche Realisierung der inhaltsorientierten Sicht (insbesondere für Anfragen unabhängig von der Dokumentstruktur) Einschränkung der möglichen Antworten (nicht alle Elemente sind geeignet) Retrievalstrategie: liefere spezifischsten Teilbaum, der die Anfrage beantwortet aber: Verrechnung mit gewichteter Indexierung? Lösung: Indexknoten als Wurzeln von möglichen Antworten Augmentierung als Konzept zur Verrechnung des Tradeoff zwischen Indexierungsgewichten und Spezifität von Antworten
Indexknoten für Relevanz-orientierte Suche document class="H.3.3" chapter chapter author title heading section section John Smith heading This. . . XML Query heading heading We describe Lang. XQL syntax of XQL XML Retrieval Introduction 1 2 3 Examples Syntax 4 5
Augmentierung …durch Disjunktion Beispielanfrage: syntax example chapter 0.7*0.5 0.86 0.3 XQL 0.5 example 0.7 syntax section1 section2 0.5 example 0.8 XQL 0.7 syntax Beispielanfrage: syntax example
Augmentierung …durch Disjunktion Beispielanfrage: XQL 0.86 0.8 chapter 0.5 example 0.7 syntax section1 section2 0.5 example 0.8 XQL 0.7 syntax Beispielanfrage: XQL
Augmentierung …mit Augmentierungsgewicht Beispielanfrage: XQL 0.64 0.8 chapter 0.64 0.8 0.64 0.3 XQL 0.30 example 0.42 syntax 0.6 section1 section2 0.5 example 0.8 XQL 0.7 syntax Beispielanfrage: XQL
XIRQL: Datentypen mit vagen Prädikaten XML-Markup ermöglicht detaillierte Auszeichnung von Textelementen Ausnutzung des Markups für präzisere Suchen gleichzeitig Berücksichtigung von Unsicherheit und Vagheit beim Retrieval Datentypen mit vagen Prädikaten ``Suche Informationen über das Werk eines Künstlers namens Ulbrich, der um 1900 im Rhein-Main-Gebiet tätig war'' Ernst Olbrich, Darmstadt, 1899 (Erweiterbare) Datentypen für Dokumenten-zentrierte Sicht (Personennamen, Datumsangaben, geogr. Bezeichnungen, Klassifikationen / Bilder, Audio, Video,...)
Erweiterbare Typhierarchie Erweiterbare Typhierarchie mit vagen Prädikaten für jeden Datentyp text: substring-Match westliche Sprache: Wortsuche, Trunkierung, Wortabstandssuche deutscher Text: Grund- und Stammformsuche, Komponenten von Komposita Datentypen der XML-Elemente werden in erweiterter DTD definiert
Prozessierung von XIRQL-Anfragen Übersetzung in eine Pfad-Algebra (Ergebnisse sind stets vollständige Elemente der ursprünglichen Dokumente) Anfrageoptimierung Entwicklung von Algorithmen für Best-Match- Anfragen Zugriffspfade mit Ranking bzgl. einzelner Bedingungen (Pfeifer & Fuhr 93, Fagin 96, Güntzer et al. 00) nach Dokumentnummer geordnete Zugriffspfade (Textsuche) (Buckley & Lewit 85, Pfeifer & Pennekamp 97)
Anwendung: Projekt CARMEN Digitale Bibliotheken mit Metadaten von verteilt gespeicherten Dokumenten (MathNet, PhysNet) http Web HyREX User Browser Interface Search Engine http Gatherer W XML W Database W ftp Indexer RDF RDF->XML Reposit.
Anwendung: Projekt CYCLADES Services für vernetzte Open Archives (Preprint- Server) Recommendation Service Collaborative Work Service Personalization Service Query & Browse Mediator Service Cyclades Mediator Service Collection Service Access Service NDLTD . . . arXiv NCSTRL clinmed RePEc
Zusammenfassung strukturierte Dokumentformate zur besseren Nutzung von Dokumenten Unterstützung der drei Arten von Strukturen in Dokumenten (logische, Layout- und inhaltliche Struktur) sowohl bei Selektion als auch bei anschließenden Transformationen XIRQL: Anfragesprache für logische und inhaltliche Struktur
Ausblick Effektivität: Evaluierung von Volltext- Retrieval (Projekt FOCUS) Effizienz: Entwicklung von Zugriffsstrukturen, Anfrageoptimierung Ausdrucksstärke: Erweiterung in Richtung XQuery (Restrukturierung, Aggregierung) (Projekt CLASSIX)