Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

XIRQL: Eine Anfragesprache für Information Retrieval in XML- Dokumenten Norbert Fuhr Universität Dortmund.

Ähnliche Präsentationen


Präsentation zum Thema: "XIRQL: Eine Anfragesprache für Information Retrieval in XML- Dokumenten Norbert Fuhr Universität Dortmund."—  Präsentation transkript:

1 XIRQL: Eine Anfragesprache für Information Retrieval in XML- Dokumenten Norbert Fuhr Universität Dortmund

2 Gliederung Strukturen in Dokumenten XML-Anfragesprachen XIRQL Anwendungen Zusammenfassung und Ausblick

3 Stufen der Nutzung von Dokumenten 1) Konsumieren 2) Analysieren 3) Synthetisieren Für Stufen 2 und 3 (Integration in die eigentliche Arbeit) Unterstützung durch geeignete (elektronische) Dokumentformate notwendig

4 Strukturen in Dokumenten IR in J. Doe networks IR networks heterogeneity effectivness user friendlyn. inhaltliche Struktur chapterheadchapter titleautorsection document logische Struktur Layout- Struktur Dokument

5 Informationszugriff formale Anfrage Informations- bedürfnis inhaltlich Layout logisch Selektions- bedingungen Resultat- Sicht inhaltlich Layout logisch (Transform.)

6 XML: explizite logische Struktur John Smith XML Retrieval Introduction This text explains all about XML and IR. XML Query Language XQL Examples Syntax Now we describe the XQL syntax. Elemente: Starttag Endetag Inhalt Attribut

7 Graphische Darstellung document class="H.3.3" author John Smith title XML Retrieval Introduction chapter headingThis... heading SyntaxExamples heading sectionheading XML Query Language XQL section We describe syntax of XQL chapter

8 XML-Anfragesprachen Daten-zentrierte Sicht: XML als Austauschformat für strukturierte Daten Dokumenten-zentrierte Sicht: XML als Format zur Repräsentation der logischen Struktur von Dokumenten W3C-Empfehlung für XML-Anfragesprache: XQuery Fokussierung auf die Daten-zentrierte Sicht hier: Information Retrieval für die Dokumenten-zentrierte Sicht Ausgangspunkt: XQL

9 XQL document class="H.3.3" author John Smith title XML Retrieval Introduction chapter headingThis... heading SyntaxExamples heading sectionheading XML Query Language XQL section We describe syntax of XQL chapter Pfadbedingung: Eltern-/Kindknoten chapter/heading

10 XQL document class="H.3.3" author John Smith title XML Retrieval Introduction chapter headingThis... heading SyntaxExamples heading sectionheading XML Query Language XQL section We describe syntax of XQL chapter Pfadbedingung: Vorfahr-Nachfahr chapter//heading

11 XQL document class="H.3.3" author John Smith title XML Retrieval Introduction chapter headingThis... heading SyntaxExamples heading sectionheading XML Query Language XQL section We describe syntax of XQL chapter Filter bzgl. Struktur: //chapter[heading]

12 XQL document class="H.3.3" author John Smith title XML Retrieval Introduction chapter headingThis... heading SyntaxExamples heading sectionheading XML Query Language XQL section We describe syntax of XQL chapter Filter bzgl. Inhalt: author="John Smith"]

13 Eigenschaften von XQL Bedingungen bzgl. der logischen Struktur (Bedingungen bzgl. des Inhalts) Vollständige Elemente als Antworten (logische Resultatsicht) - Boolesches Retrieval (schlechte Retrievalqualität) - inhaltliche Struktur wird nicht unterstützt - nur wenige Datentypen

14 XIRQL: XML IR Query Language probabilistisches Retrieval mit gewichteter Dokumentindexierung Relevanz-orientierte Suche (inhaltliche Resultatsicht) (erweiterbare) Datentypen mit vagen Prädikaten

15 Probabilistisches Retrieval in XIRQL Problem: Gewichtung unterschiedlicher Vorkommensformen von Termen /document[.//heading "XML".//section//* "XML"] document Introduction chapter headingThis... heading SyntaxExamples headingXML Query Language XQL section We describe syntax of XQL chapter headingsection

16 Gewichtung von Term- Vorkommen in Dokumenten a) Gewichtung bezüglich einzelner Fragebedingungen mögliche Überlappung von Fragebedingungen abhängige probabilistische Ereignisse nur Wahrscheinlichkeitsintervalle für Antworten keine lineare Rangordnung der Dokumente

17 Gewichtung von Term- Vorkommen in Dokumenten b) Gewichtung bezüglich bestimmter Dokumenttteile Termgewichtung abhängig vom Kontext (Dokumentteil) des Vorkommens alle Vorkommen in einem Kontext bezeichnen dasselbe Ereignis nur identische und unabhängige Ereignisse Punktwahrscheinlichkeiten für Antworten lineare Rangordnung der Dokumente

18 Indexknoten als Einheiten zur Termgewichtung Anwendung bekannter Indexierungsfunktionen (z.B. tf*idf)

19 Probabilistische Ereignisse und Ereignisausdrücke Problem: probabilistisch korrekte Kombination von Termgewichten bzgl. einer Anfrage probabilistisches Basisereignis: Vorkommen eines Terms in einem Indexknoten Basisereignisse sind voneinander unabhängig! (verschiedene Terme, gleicher Term in verschiedenen Indexknoten) Ereignisausdrücke beschreiben die Kombination von Basisereignissen in einem Dokument bzgl. einer Anfrage

20 Ereignisausdrücke document class="H.3.3" author John Smith title XML Retrieval Introduction chapter headingThis... heading Syntax Examples heading sectionheading XML Query Lang. XQL section We describe syntax of XQL chapter //section[.//* "XQL".//* "syntax"] [5,XQL] [5,syntax]

21 Ereignisausdrücke /document/chapter [.//* "XQL".//* "syntax"] ([3,XQL] [5,XQL]) [5,syntax] document class="H.3.3" author John Smith title XML Retrieval Introduction chapter headingThis... heading Syntax Examples heading sectionheading XML Query Lang. XQL section We describe syntax of XQL chapter

22 Auswertung von Ereignisausdrücken 1. Transformation des Ereignisausdrucks in disjunktive Normalform e = C 1 … C n C i : Konjunktion von Ereignisatomen Ereignisatom: positives oder negiertes Basisereignis 2. Anwendung der Einschluss- /Ausschlussformel:

23 Relevanz-orientierte Suche Realisierung der inhaltsorientierten Sicht (insbesondere für Anfragen unabhängig von der Dokumentstruktur) 1)Einschränkung der möglichen Antworten (nicht alle Elemente sind geeignet) 2)Retrievalstrategie: liefere spezifischsten Teilbaum, der die Anfrage beantwortet aber: Verrechnung mit gewichteter Indexierung? Lösung: Indexknoten als Wurzeln von möglichen Antworten Augmentierung als Konzept zur Verrechnung des Tradeoff zwischen Indexierungsgewichten und Spezifität von Antworten

24 Indexknoten für Relevanz- orientierte Suche document class="H.3.3" author John Smith title XML Retrieval Introduction chapter headingThis... heading SyntaxExamples heading sectionheading XML Query Lang. XQL section We describe syntax of XQL chapter

25 Augmentierung …durch Disjunktion Beispielanfrage: syntax example 0.5 example0.8 XQL 0.7 syntax section1section2 0.3 XQL chapter 0.5 example 0.7 syntax *0.5

26 Augmentierung …durch Disjunktion 0.5 example0.8 XQL 0.7 syntax section1section2 0.3 XQL chapter 0.5 example 0.7 syntax 0.86 Beispielanfrage: XQL

27 Augmentierung …mit Augmentierungsgewicht 0.5 example0.8 XQL 0.7 syntax section1section2 0.3 XQL chapter 0.30 example 0.42 syntax 0.64 Beispielanfrage: XQL

28 XIRQL: Datentypen mit vagen Prädikaten XML-Markup ermöglicht detaillierte Auszeichnung von Textelementen Ausnutzung des Markups für präzisere Suchen gleichzeitig Berücksichtigung von Unsicherheit und Vagheit beim Retrieval Datentypen mit vagen Prädikaten ``Suche Informationen über das Werk eines Künstlers namens Ulbrich, der um 1900 im Rhein-Main-Gebiet tätig war'' Ernst Olbrich, Darmstadt, 1899 (Erweiterbare) Datentypen für Dokumenten-zentrierte Sicht (Personennamen, Datumsangaben, geogr. Bezeichnungen, Klassifikationen / Bilder, Audio, Video,...)

29 Erweiterbare Typhierarchie Erweiterbare Typhierarchie mit vagen Prädikaten für jeden Datentyp 1) text: substring-Match 2) westliche Sprache: Wortsuche, Trunkierung, Wortabstandssuche 3) deutscher Text: Grund- und Stammformsuche, Komponenten von Komposita Datentypen der XML-Elemente werden in erweiterter DTD definiert

30 Prozessierung von XIRQL- Anfragen 1. Übersetzung in eine Pfad-Algebra (Ergebnisse sind stets vollständige Elemente der ursprünglichen Dokumente) 2. Anfrageoptimierung 3. Entwicklung von Algorithmen für Best-Match- Anfragen a) Zugriffspfade mit Ranking bzgl. einzelner Bedingungen (Pfeifer & Fuhr 93, Fagin 96, Güntzer et al. 00) b) nach Dokumentnummer geordnete Zugriffspfade (Textsuche) (Buckley & Lewit 85, Pfeifer & Pennekamp 97)

31 Anwendung: Projekt CARMEN Digitale Bibliotheken mit Metadaten von verteilt gespeicherten Dokumenten (MathNet, PhysNet) W W W Indexer User Interface Web Browser Gatherer RDF->XML http ftp http Search Engine HyREX Reposit. RDF XML Database

32 Anwendung: Projekt CYCLADES Services für vernetzte Open Archives (Preprint- Server) Recommendation Service Collaborative Work Service Personalization Service Query & Browse Mediator Service Cyclades Mediator Service Collection Service Access Service NDLTD... arXivNCSTRLclinmedRePEc

33 Zusammenfassung strukturierte Dokumentformate zur besseren Nutzung von Dokumenten Unterstützung der drei Arten von Strukturen in Dokumenten (logische, Layout- und inhaltliche Struktur) sowohl bei Selektion als auch bei anschließenden Transformationen XIRQL: Anfragesprache für logische und inhaltliche Struktur

34 Ausblick Effektivität: Evaluierung von Volltext- Retrieval (Projekt FOCUS) Effizienz: Entwicklung von Zugriffsstrukturen, Anfrageoptimierung Ausdrucksstärke: Erweiterung in Richtung XQuery (Restrukturierung, Aggregierung) (Projekt CLASSIX)


Herunterladen ppt "XIRQL: Eine Anfragesprache für Information Retrieval in XML- Dokumenten Norbert Fuhr Universität Dortmund."

Ähnliche Präsentationen


Google-Anzeigen