XIRQL: Eine Anfragesprache für Information Retrieval in XML-Dokumenten

Slides:



Advertisements
Ähnliche Präsentationen
Information Retrieval in XML-Dokumenten
Advertisements

Die Nutzung internationaler Standards in MEX
Dublin Core Antje Schregel, Dublin Core Was ist DC? Architektur von DC (Elements, Qualifiers) Anwendung Aktuelle Situation Projekte.
Was bedeutet XML in Office-Applikationen für Systemadministratoren? Ruprecht Dröge MCSE MCSD MCT Microsoft Pre Sales Consultant.
Zeitliche Verwaltung XML-basierter Metadaten in digitalen Bibliotheken M. Kalb, G. SpechtUniversität Ulm, Abteilung DBIS.
Basis-Architekturen für Web-Anwendungen
BTW, 26. Februar 2003Übertragung von Rangordnungen1 Ein Ansatz zur Übertragung von Rangordnungen bei der Suche auf strukturierten Daten Andreas Henrich.
T-XPath Ein zeitliches Modell für XML-DBS M. Kalb, G. SpechtK. Schneider Universität Ulm EML Heidelberg.
1 Querying XML: Xquery H. Schweppe und T. Schlieder Literatur: A. Deutsch et. al. "A Query Language for XML" ( A. Deutsch.
HyREX: Eine Hypermedia- Retrievalengine für XML- Dokumente Norbert Fuhr Universität Dortmund
FH-Hof Extensible Markup Language Richard Göbel. FH-Hof Extensible Markup Language XML XML ist universeller Ansatz für die Strukturierung von Zeichenketten.
Anfragesprachen – Dipl. Ing. Ulrich Borchert / FH Merseburg1/5 Grundtechniken des Information Retrieval Deskribierung Hierunter versteht man eine manuelle.
DOM (Document Object Model)
AGXIS – Ein Konzept für eine generische Schnittstellenbeschreibung Dr.-Ing. Ulrich Hussels, RISA GmbH 07. Juni 2005 Workshop Umweltdatenbanken 2005.
Web 3.0 – Programmierung – Semantic Web / CIDOC CRM
XPATH XML Path Language. Xpath – XML Path Language IT Zertifikat - Daten und Metadatenstandards: XPath 2 Entwicklung des W3C Adressierungssprache für.
XML-Schema HKI Proseminar Wintersemester 2010/11 Dozentin: Frau Kurz von Jan Kohl und Christian Lütticke.
HTML - Eine erste Annäherung
Information Retrieval Modelle: Vektor-Modell
© 2002 Prof. Dr. G. Hellberg 1 XML-Seminar XML-Technologie: XML in Theorie und Praxis Prof. Dr. G. Hellberg XML-Technologie: XML in Theorie und Praxis.
Bau effizienter und effektiver Metasuchmaschinen
WIESEL – Integration von Wissensmanagement und E-Learning auf der Basis von Semantic Web Technologien Matthias Rust, XML-Tage 2004, Berlin WIESEL Integration.
Universeller Zugriff auf multimediale Dokumentstrukturen auf der Basis von RDF und MPEG-7 Stefan Audersch BerlinXSW Juni.
Edgar - Ein Texteditor Ein Vortrag von Carsten Severin.
XML in Datenbanksystemen. © Prof. T. Kudraß, HTWK Leipzig 2 2 Warum wird XML eingesetzt? Antworten von Unternehmen: erweiterte Suchmöglichkeiten im Unternehmen.
XML Standardisierungen und Abfragesprachen
Einführung XML XML Einführung Andreas Leicht.
Text-Retrieval mit Oracle Vortrag von Andreas Mück & David Diestel.
Jan Fienhold1 Institut für Informatik Betriebliche Informationssysteme OWL Web Ontology Language.
MMQL – Multimedia Query Language Eine Anfragesprache für Multimedia-Ähnlichkeitsanfragen Christian Mantei.
Hauptseminar XML-Technologie: Resource Description Framework (RDF) Michael Kranz Betreuer: Roland Haratsch.
Praxis der Metadatenerfassung Markus Enders Goettingen State and University Library
XQuery-Anfragen Spezifikations- und Selektionsmethoden für Daten und Dienste Markus Mauch.
1 Grundlagen und Anwendung der Extensible Markup Language (XML ) Peter Buxmann Institut für Wirtschaftsinformatik Johann Wolfgang Goethe-Universität Frankfurt.
RDF-S3 und eRQL: RDF-Technologien für Informationsportale Karsten Tolle und Fabian Wleklinski.
Der Supermarkt: Eine beispielhafte Erklärung für die fünf untersten Schichten des Semantic Web Protocol Stack Nicola Henze.
Der Supermarkt: Eine beispielhafte Erklärung für die fünf untersten Schichten des Semantic Web Protocol Stack Nicola Henze.
SEP Halgurt Mustafa Ali Can Önder Marius Morawski Matthias Seidl Themen: Integration von RDQL und OWQL innerhalb des Apache Cocoon Frameworks Semantische.
... und alles was dazugehört
Vier Jahre nach München Michael Christoffel und Bethina Schmitt Universität Karlsruhe V3D2-Symposium in Braunschweig UniC a ts.
Entwurf und Realisierung einer digitalen Bibliothek zur Verwaltung von Notenhandschriften Dipl.-Ing. Temenushka Ignatova Datenbank- und Informationssysteme,
Seminar XML-Technologien: VoiceXML/SMIL 1 Was ist SMIL ? Synchronized Multimedia Integration Language Ausprache wie das englische Wort smile {smaIl} August.
Proseminar: „Webtechnologien für Ecommerce“
Java für Fortgeschrittene
Sesame Florian Mayrhuber
XML-Query. Übersicht Was ist XML-Query? Vergleich RDB XML-Dokument Syntaktisches und Use-Cases Kritik und Diskussion.
Ausgabe vom Seite 1, XML Eine Einführung XML - Eine Einführung.
3. Juni 2003Moritz Petersen Minimales Markup und Templates zur Erstellung von strukturierten Texten Ein Zwischenbericht zur Diplomarbeit.
XML und Datenbanken © 2006 Markus Röder
XML (Extensible Markup Language)
Trust and context using the RDF- Source related Storage System (RDF‑S3) and easy RQL (eRQL) Karsten Tolle und Fabian Wleklinski.
Information Retrieval, Vektorraummodell
Eike Schallehn, Martin Endig
Eike Schallehn, Martin Endig
© 2001 Sven Dammann1 Aufbau Integrierter Informationssysteme XML Bearbeitung und relationale Abbildung Sven Dammann Martin-Luther-Universität Halle-Wittenberg.
Der Supermarkt: Eine beispielhafte Erklärung für die fünf untersten Schichten des Semantic Web Protocol Stack Nicola Henze.
„Wenn du den Fluss Halys überschreitest, wirst du
Hauptseminar Web-Services und verteilte Datenbanken Thema XML, DTDs und XML-Schema XML, DTDs und XML-Schema - Stefan Kurz, 25. April 2003.
IT-Zertifikat der Phil.Fak Kurs 4: Daten- und Metadatenstandards Patrick Sahle Semantic WebWS 08/09.
- Warum: Das HTML-Dilemma
Seminar zur Geoinformation Folie 1 Inhalt: –XML –XML- SCHEMA –XSL –Syntax –GML Seminar zur Geoinformation Datenaustausch mit XML / GML im InternetDatenaustausch.
Text Encoding Initiative Universität zu Köln Daten- und Metadatenstandards Seminarleitung: Patrick Sahle Seminarleitung: Patrick Sahle Referentin: Anna.
1 6.4 Verwaltung semistrukturierter Daten - was ist das? Datenverwaltung für XML-Dokumente - Daten in XML-Gewand - eigentlich XML-Dokumente - Abbildung.
1 Zahlreiche Transformationen - Achtung Hochspannung Meike Klettke.
5.1 5 Retrieval auf Bildern (.... in a nutshell)  Bedeutung.... ... im Zusammenhang mit Information Retrieval ... für Anwendungen Medizin: "Finde ähnliche.
Niko Zenker1 Besondere Aspekte in Multimedia-Datenbanken Methoden zur iterativen Anfrageverfeinerung (Relevanz Feedback)
Greenstone. Theoretischer Teil Entstehung: Entwickelt vom New Zealand Digital Library Project an der Universität von Waikato Kooperation mit der UNESCO.
13.Dezember 2006–1Elektronisches Publizieren: Schemasprachen — Relax NG Schemasprachen für XML — Relax NG — Anne Brüggemann-Klein TU München.
XML-Erweiterungen in ORDBMS Seminar: DBMS für spezielle Anwendungen Florian Brieler.
MathNet / PhysNet Kerstin Zimmermann Institute for Science Networking
 Präsentation transkript:

XIRQL: Eine Anfragesprache für Information Retrieval in XML-Dokumenten Norbert Fuhr Universität Dortmund

Gliederung Strukturen in Dokumenten XML-Anfragesprachen XIRQL Anwendungen Zusammenfassung und Ausblick

Stufen der Nutzung von Dokumenten Konsumieren Analysieren Synthetisieren Für Stufen 2 und 3 (Integration in die eigentliche Arbeit) Unterstützung durch geeignete (elektronische) Dokumentformate notwendig

Strukturen in Dokumenten chapter head title autor section document logische Struktur IR networks heterogeneity effectivness user friendlyn. inhaltliche Struktur Layout- Struktur IR in networks J. Doe Dokument

Informationszugriff formale Anfrage Informations- bedürfnis Resultat- inhaltlich Layout logisch Selektions- bedingungen Resultat- Sicht inhaltlich Layout logisch (Transform.) formale Anfrage Informations- bedürfnis

XML: explizite logische Struktur <book class="H.3.3"> <author>John Smith</author> <title>XML Retrieval</title> <chapter> <heading>Introduction</heading> This text explains all about XML and IR. </chapter> <chapter> <heading> XML Query Language XQL </heading> <section> <heading>Examples</heading> </section> <heading>Syntax</heading> Now we describe the XQL syntax. </book> Elemente: Starttag Endetag Inhalt Attribut

Graphische Darstellung document class="H.3.3" chapter chapter author title heading section section John Smith heading This. . . XML Query heading heading We describe Language XQL XML Retrieval Introduction syntax of XQL Examples Syntax

XML-Anfragesprachen Daten-zentrierte Sicht: XML als Austauschformat für strukturierte Daten Dokumenten-zentrierte Sicht: XML als Format zur Repräsentation der logischen Struktur von Dokumenten W3C-Empfehlung für XML-Anfragesprache: XQuery Fokussierung auf die Daten-zentrierte Sicht hier: Information Retrieval für die Dokumenten-zentrierte Sicht Ausgangspunkt: XQL

XQL Pfadbedingung: Eltern-/Kindknoten chapter/heading document class="H.3.3" chapter chapter author title heading section section John Smith heading This. . . XML Query heading heading We describe Language XQL XML Retrieval Introduction syntax of XQL Examples Syntax Pfadbedingung: Eltern-/Kindknoten chapter/heading

XQL Pfadbedingung: Vorfahr-Nachfahr chapter//heading document class="H.3.3" chapter chapter author title heading section section John Smith heading This. . . XML Query heading heading We describe Language XQL XML Retrieval Introduction syntax of XQL Examples Syntax Pfadbedingung: Vorfahr-Nachfahr chapter//heading

XQL Filter bzgl. Struktur: //chapter[heading] document class="H.3.3" author title heading section section John Smith heading This. . . XML Query heading heading We describe Language XQL XML Retrieval Introduction syntax of XQL Examples Syntax Filter bzgl. Struktur: //chapter[heading]

XQL Filter bzgl. Inhalt: document class="H.3.3" chapter chapter author title John Smith heading section section heading This. . . XML Query heading heading We describe Language XQL XML Retrieval Introduction syntax of XQL Examples Syntax Filter bzgl. Inhalt: /document[@class="H.3.3"  author="John Smith"]

Eigenschaften von XQL Bedingungen bzgl. der logischen Struktur (Bedingungen bzgl. des Inhalts) Vollständige Elemente als Antworten (logische Resultatsicht) Boolesches Retrieval (schlechte Retrievalqualität) inhaltliche Struktur wird nicht unterstützt nur wenige Datentypen

XIRQL: XML IR Query Language probabilistisches Retrieval mit gewichteter Dokumentindexierung Relevanz-orientierte Suche (inhaltliche Resultatsicht) (erweiterbare) Datentypen mit vagen Prädikaten

Probabilistisches Retrieval in XIRQL Problem: Gewichtung unterschiedlicher Vorkommensformen von Termen /document[.//heading  "XML"  .//section//*  "XML"] document chapter chapter heading section section heading This. . . XML Query heading heading We describe Language XQL syntax of XQL Introduction Examples Syntax

Gewichtung von Term-Vorkommen in Dokumenten a) Gewichtung bezüglich einzelner Fragebedingungen mögliche Überlappung von Fragebedingungen abhängige probabilistische Ereignisse nur Wahrscheinlichkeitsintervalle für Antworten keine lineare Rangordnung der Dokumente

Gewichtung von Term-Vorkommen in Dokumenten b) Gewichtung bezüglich bestimmter Dokumenttteile Termgewichtung abhängig vom Kontext (Dokumentteil) des Vorkommens alle Vorkommen in einem Kontext bezeichnen dasselbe Ereignis nur identische und unabhängige Ereignisse Punktwahrscheinlichkeiten für Antworten lineare Rangordnung der Dokumente

Indexknoten als Einheiten zur Termgewichtung 1 2 3 4 5 document class="H.3.3" author John Smith title XML Retrieval Introduction chapter heading This. . . Syntax Examples section XML Query Lang. XQL We describe syntax of XQL Anwendung bekannter Indexierungsfunktionen (z.B. tf*idf)

Probabilistische Ereignisse und Ereignisausdrücke Problem: probabilistisch korrekte Kombination von Termgewichten bzgl. einer Anfrage probabilistisches Basisereignis: Vorkommen eines Terms in einem Indexknoten Basisereignisse sind voneinander unabhängig! (verschiedene Terme, gleicher Term in verschiedenen Indexknoten) Ereignisausdrücke beschreiben die Kombination von Basisereignissen in einem Dokument bzgl. einer Anfrage

Ereignisausdrücke //section[.//*  "XQL"  .//*  "syntax"] document class="H.3.3" chapter chapter author title heading section section John Smith heading This. . . XML Query We describe heading heading Lang. XQL syntax of XQL XML Retrieval Introduction 1 2 3 Syntax Examples 4 5 //section[.//*  "XQL"  .//*  "syntax"] [5,XQL]  [5,syntax]

Ereignisausdrücke /document/chapter [.//*  "XQL"  .//*  "syntax"] class="H.3.3" chapter chapter author title heading section section John Smith heading This. . . XML Query We describe heading heading Lang. XQL syntax of XQL XML Retrieval Introduction 1 2 3 Syntax Examples 4 5 /document/chapter [.//*  "XQL"  .//*  "syntax"] ([3,XQL]  [5,XQL]) [5,syntax]

Auswertung von Ereignisausdrücken Transformation des Ereignisausdrucks in disjunktive Normalform e = C1  …  Cn Ci: Konjunktion von Ereignisatomen Ereignisatom: positives oder negiertes Basisereignis Anwendung der Einschluss- /Ausschlussformel:

Relevanz-orientierte Suche Realisierung der inhaltsorientierten Sicht (insbesondere für Anfragen unabhängig von der Dokumentstruktur) Einschränkung der möglichen Antworten (nicht alle Elemente sind geeignet) Retrievalstrategie: liefere spezifischsten Teilbaum, der die Anfrage beantwortet aber: Verrechnung mit gewichteter Indexierung? Lösung: Indexknoten als Wurzeln von möglichen Antworten Augmentierung als Konzept zur Verrechnung des Tradeoff zwischen Indexierungsgewichten und Spezifität von Antworten

Indexknoten für Relevanz-orientierte Suche document class="H.3.3" chapter chapter author title heading section section John Smith heading This. . . XML Query heading heading We describe Lang. XQL syntax of XQL XML Retrieval Introduction 1 2 3 Examples Syntax 4 5

Augmentierung …durch Disjunktion Beispielanfrage: syntax  example chapter 0.7*0.5 0.86 0.3 XQL 0.5 example 0.7 syntax section1 section2 0.5 example 0.8 XQL 0.7 syntax Beispielanfrage: syntax  example

Augmentierung …durch Disjunktion Beispielanfrage: XQL 0.86 0.8 chapter 0.5 example 0.7 syntax section1 section2 0.5 example 0.8 XQL 0.7 syntax Beispielanfrage: XQL

Augmentierung …mit Augmentierungsgewicht Beispielanfrage: XQL 0.64 0.8 chapter 0.64 0.8 0.64 0.3 XQL 0.30 example 0.42 syntax 0.6 section1 section2 0.5 example 0.8 XQL 0.7 syntax Beispielanfrage: XQL

XIRQL: Datentypen mit vagen Prädikaten XML-Markup ermöglicht detaillierte Auszeichnung von Textelementen Ausnutzung des Markups für präzisere Suchen gleichzeitig Berücksichtigung von Unsicherheit und Vagheit beim Retrieval Datentypen mit vagen Prädikaten ``Suche Informationen über das Werk eines Künstlers namens Ulbrich, der um 1900 im Rhein-Main-Gebiet tätig war'' Ernst Olbrich, Darmstadt, 1899 (Erweiterbare) Datentypen für Dokumenten-zentrierte Sicht (Personennamen, Datumsangaben, geogr. Bezeichnungen, Klassifikationen / Bilder, Audio, Video,...)

Erweiterbare Typhierarchie Erweiterbare Typhierarchie mit vagen Prädikaten für jeden Datentyp text: substring-Match westliche Sprache: Wortsuche, Trunkierung, Wortabstandssuche deutscher Text: Grund- und Stammformsuche, Komponenten von Komposita Datentypen der XML-Elemente werden in erweiterter DTD definiert

Prozessierung von XIRQL-Anfragen Übersetzung in eine Pfad-Algebra (Ergebnisse sind stets vollständige Elemente der ursprünglichen Dokumente) Anfrageoptimierung Entwicklung von Algorithmen für Best-Match- Anfragen Zugriffspfade mit Ranking bzgl. einzelner Bedingungen (Pfeifer & Fuhr 93, Fagin 96, Güntzer et al. 00) nach Dokumentnummer geordnete Zugriffspfade (Textsuche) (Buckley & Lewit 85, Pfeifer & Pennekamp 97)

Anwendung: Projekt CARMEN Digitale Bibliotheken mit Metadaten von verteilt gespeicherten Dokumenten (MathNet, PhysNet) http Web HyREX User Browser Interface Search Engine http Gatherer W XML W Database W ftp Indexer RDF RDF->XML Reposit.

Anwendung: Projekt CYCLADES Services für vernetzte Open Archives (Preprint- Server) Recommendation Service Collaborative Work Service Personalization Service Query & Browse Mediator Service Cyclades Mediator Service Collection Service Access Service NDLTD . . . arXiv NCSTRL clinmed RePEc

Zusammenfassung strukturierte Dokumentformate zur besseren Nutzung von Dokumenten Unterstützung der drei Arten von Strukturen in Dokumenten (logische, Layout- und inhaltliche Struktur) sowohl bei Selektion als auch bei anschließenden Transformationen XIRQL: Anfragesprache für logische und inhaltliche Struktur

Ausblick Effektivität: Evaluierung von Volltext- Retrieval (Projekt FOCUS) Effizienz: Entwicklung von Zugriffsstrukturen, Anfrageoptimierung Ausdrucksstärke: Erweiterung in Richtung XQuery (Restrukturierung, Aggregierung) (Projekt CLASSIX)