HyREX: Eine Hypermedia- Retrievalengine für XML- Dokumente Norbert Fuhr Universität Dortmund

Slides:



Advertisements
Ähnliche Präsentationen
Information Retrieval in XML-Dokumenten
Advertisements

XIRQL: Eine Anfragesprache für Information Retrieval in XML-Dokumenten
Universität Dortmund, Lehrstuhl Informatik 1 EINI II Einführung in die Informatik für Naturwissenschaftler und Ingenieure.
Die Nutzung internationaler Standards in MEX
Was bedeutet XML in Office-Applikationen für Systemadministratoren? Ruprecht Dröge MCSE MCSD MCT Microsoft Pre Sales Consultant.
Zeitliche Verwaltung XML-basierter Metadaten in digitalen Bibliotheken M. Kalb, G. SpechtUniversität Ulm, Abteilung DBIS.
Anmerkungen zu XML Im September 2000 Entwicklung/Anspruch von XML
T-XPath Ein zeitliches Modell für XML-DBS M. Kalb, G. SpechtK. Schneider Universität Ulm EML Heidelberg.
Catalog Integration Made Easy P.J. Marrón, G. Lausen und M. Weber Universität Freiburg.
Inhaltlich orientierter Zugriff auf unstrukturierte Daten
1 Querying XML: Xquery H. Schweppe und T. Schlieder Literatur: A. Deutsch et. al. "A Query Language for XML" ( A. Deutsch.
eXist Open Source Native XML Database
Java: Grundlagen der Sprache
Anfragesprachen – Dipl. Ing. Ulrich Borchert / FH Merseburg1/7 Information Retrieval auf Texten An ihre Grenzen stoßen relationale Datenbanken bei der.
Anfragesprachen – Dipl. Ing. Ulrich Borchert / FH Merseburg1/5 Grundtechniken des Information Retrieval Deskribierung Hierunter versteht man eine manuelle.
DOM (Document Object Model)
Internetstruktur Das Internet besteht aus vielen Computern, die weltweit untereinander vernetzt sind.
XINDICE The Apache XML Project Name: Jacqueline Langhorst
XPATH XML Path Language. Xpath – XML Path Language IT Zertifikat - Daten und Metadatenstandards: XPath 2 Entwicklung des W3C Adressierungssprache für.
XML-Schema HKI Proseminar Wintersemester 2010/11 Dozentin: Frau Kurz von Jan Kohl und Christian Lütticke.
HTML - Eine erste Annäherung
Information Retrieval Modelle: Vektor-Modell
© 2002 Prof. Dr. G. Hellberg 1 XML-Seminar XML-Technologie: XML in Theorie und Praxis Prof. Dr. G. Hellberg XML-Technologie: XML in Theorie und Praxis.
Bau effizienter und effektiver Metasuchmaschinen
Universeller Zugriff auf multimediale Dokumentstrukturen auf der Basis von RDF und MPEG-7 Stefan Audersch BerlinXSW Juni.
Modularization of XHTML™
PinK Plattform für intelligente Kollaborationsportale Dr. Joachim Quantz, e.V. Berlin, 13. September 2005.
XML in Datenbanksystemen. © Prof. T. Kudraß, HTWK Leipzig 2 2 Warum wird XML eingesetzt? Antworten von Unternehmen: erweiterte Suchmöglichkeiten im Unternehmen.
SQL/XML. © Prof. T. Kudraß, HTWK Leipzig 2 2 Motivation Speicherung von XML in allen großen kommerziellen DBMS vorhanden proprietäre Lösungen für die.
XML Standardisierungen und Abfragesprachen
Speicherung von XML- Dokumenten als Large Objects.
Einführung XML XML Einführung Andreas Leicht.
MMQL – Multimedia Query Language Eine Anfragesprache für Multimedia-Ähnlichkeitsanfragen Christian Mantei.
Hauptseminar XML-Technologie: Resource Description Framework (RDF) Michael Kranz Betreuer: Roland Haratsch.
Praxis der Metadatenerfassung Markus Enders Goettingen State and University Library
RDF-Schema Seminar: „Semantic Web“ André Rosin,
XQuery-Anfragen Spezifikations- und Selektionsmethoden für Daten und Dienste Markus Mauch.
1 Grundlagen und Anwendung der Extensible Markup Language (XML ) Peter Buxmann Institut für Wirtschaftsinformatik Johann Wolfgang Goethe-Universität Frankfurt.
RDF-S3 und eRQL: RDF-Technologien für Informationsportale Karsten Tolle und Fabian Wleklinski.
Was versteht man unter XML Schema?
Der Supermarkt: Eine beispielhafte Erklärung für die fünf untersten Schichten des Semantic Web Protocol Stack Nicola Henze.
Der Supermarkt: Eine beispielhafte Erklärung für die fünf untersten Schichten des Semantic Web Protocol Stack Nicola Henze.
SEP Halgurt Mustafa Ali Can Önder Marius Morawski Matthias Seidl Themen: Integration von RDQL und OWQL innerhalb des Apache Cocoon Frameworks Semantische.
Quilt: Eine XML Anfragesprache für heterogene Datenquellen
Vier Jahre nach München Michael Christoffel und Bethina Schmitt Universität Karlsruhe V3D2-Symposium in Braunschweig UniC a ts.
Entwurf und Realisierung einer digitalen Bibliothek zur Verwaltung von Notenhandschriften Dipl.-Ing. Temenushka Ignatova Datenbank- und Informationssysteme,
Java für Fortgeschrittene
Sesame Florian Mayrhuber
XML-Query. Übersicht Was ist XML-Query? Vergleich RDB XML-Dokument Syntaktisches und Use-Cases Kritik und Diskussion.
3. Juni 2003Moritz Petersen Minimales Markup und Templates zur Erstellung von strukturierten Texten Ein Zwischenbericht zur Diplomarbeit.
XML und Datenbanken © 2006 Markus Röder
XML (Extensible Markup Language)
Trust and context using the RDF- Source related Storage System (RDF‑S3) and easy RQL (eRQL) Karsten Tolle und Fabian Wleklinski.
Kurzpräsentation von Herbert Schlechta
XML1 XML-Motivation HTML definiert nur einen bestimmten Dokumenttyp Viele Web-Technologien benötigen eine allgemeinere Sprache zur Dokumentstrukturierung.
Information Retrieval, Vektorraummodell
Content-Managment-System
Eike Schallehn, Martin Endig
Eike Schallehn, Martin Endig
Der Supermarkt: Eine beispielhafte Erklärung für die fünf untersten Schichten des Semantic Web Protocol Stack Nicola Henze.
Seminar: Neue Ansätze der Künstlichen Intelligenz Seite 1Ulf Schneider02. Juli 2002 Ulf Schneider Neue Ansätze der Künstlichen Intelligenz: OIL Ontology.
„Wenn du den Fluss Halys überschreitest, wirst du
- Warum: Das HTML-Dilemma
Datenbanken im Web 1.
Text Encoding Initiative Universität zu Köln Daten- und Metadatenstandards Seminarleitung: Patrick Sahle Seminarleitung: Patrick Sahle Referentin: Anna.
XML Schema Universität zu Köln Historisch-Kulturwissenschaftliche Informationsverarbeitung WS2011/2012 Hist.-kult.wiss. Informationsverarbeitung (Teil.
5.1 5 Retrieval auf Bildern (.... in a nutshell)  Bedeutung.... ... im Zusammenhang mit Information Retrieval ... für Anwendungen Medizin: "Finde ähnliche.
13.Dezember 2006–1Elektronisches Publizieren: Schemasprachen — Relax NG Schemasprachen für XML — Relax NG — Anne Brüggemann-Klein TU München.
XML-Erweiterungen in ORDBMS Seminar: DBMS für spezielle Anwendungen Florian Brieler.
WISSENSREPRÄSENTATION IN ACTIVEMATH Autorierungsgrundlagen.
 Präsentation transkript:

HyREX: Eine Hypermedia- Retrievalengine für XML- Dokumente Norbert Fuhr Universität Dortmund

Inhalt I. XQuery vs. Information Retrieval II. IR-Konzepte für XML III. XIRQL IV. HyREX-Retrievalengine V. Zusammenfassung und Ausblick

I. XQuery vs. Information Retrieval XQuery: Vorschlag der W3C-Arbeitsgruppe für XML-Anfragesprachen FOR/LET PathExpression WHERE AdditionalSelectionCriteria RETURN ResultConstruction

Daten- vs. Dokument-orientierte Sicht Daten-orientierte Sicht XML als Austauschformat für strukturierte Daten Dokumenten-orientierte Sicht XML als Format zur Repräsentation der logischen Struktur von Dokumenten XQuery fokussiert auf Daten-orientierte Sicht!

IR-Konzepte in XQuery Nur boolesches Retrieval keine Gewichtung keine Rangordnungen Bislang nur Funktionen zur Suche nach einzelnen Wörtern

II. IR-Konzepte für XML Gewichtung und Ranking Relevanz-orientierte Suche Datentypen mit vagen Prädikaten Struktureller Relativismus

1. Gewichtung und Ranking Problem: Gewichtung unterschiedlicher Vorkommensformen von Termen /document[.//heading "XML".//section//* "XML"] document Introduction chapter headingThis... heading SyntaxExamples headingXML Query Language XQL section We describe syntax of XQL chapter headingsection

Indexknoten als Einheiten zur Termgewichtung 1. Zerlegung des Dokumentes in disjunkte Teile 2. Anwendung bekannter Indexierungsfunktionen (z.B. tf*idf)

Indexknoten als Einheiten zur Termgewichtung /document[.//heading "XML".//section//* "XML"] 0.6 XML 0.4 XML *0.6 = 0.76

2. Relevanz-orientierte Suche für Anfragen unabhängig von der Dokumentstruktur (z.B.: Suche Dokument(teil)e über XML-Anfragesprachen) Einschränkung der möglichen Antworten (nicht alle Elemente sind geeignet) Retrievalstrategie: liefere spezifischsten Teilbaum, der die Anfrage beantwortet aber: Verrechnung mit gewichteter Indexierung? Lösung: Indexknoten als Wurzeln von möglichen Antworten Augmentierung als Konzept zur Verrechnung des Tradeoff zwischen Indexierungsgewichten und Spezifität von Antworten

Indexknoten für Relevanz- orientierte Suche document class="H.3.3" author John Smith title XML Retrieval Introduction chapter headingThis... heading SyntaxExamples heading sectionheading XML Query Lang. XQL section We describe syntax of XQL chapter

Augmentierung 0.5 example0.8 XQL 0.7 syntax section1section2 0.3 XQL chapter 0.30 example 0.42 syntax 0.64 Beispielanfrage: syntax & example

Augmentierung 0.5 example0.8 XQL 0.7 syntax section1section2 0.3 XQL chapter 0.30 example 0.42 syntax 0.64 Beispielanfrage: XQL

3. Datentypen mit vagen Prädikaten XML-Markup ermöglicht detaillierte Auszeichnung von Textelementen Ausnutzung des Markups für präzisere Suchen gleichzeitig Berücksichtigung von Unsicherheit und Vagheit beim Retrieval Datentypen mit vagen Prädikaten ``Suche Informationen über das Werk eines Künstlers namens Ulbrich, der um 1900 im Rhein-Main-Gebiet tätig war'' Ernst Olbrich, Darmstadt, 1899 (Erweiterbare) Datentypen für Dokumenten-zentrierte Sicht (Personennamen, Datumsangaben, geogr. Bezeichnungen, Klassifikationen / Bilder, Audio, Video,...)

Erweiterbare Typhierarchie Erweiterbare Typhierarchie mit vagen Prädikaten für jeden Datentyp 1. text: substring-Match 2. westliche Sprache: Wortsuche, Trunkierung, Wortabstandssuche 3. deutscher Text: Grund- und Stammformsuche, Komponenten von Komposita Datentypen der XML-Elemente werden in XML- Schema definiert

4. Struktureller Relativismus Unterscheidung Element/Attribut fallenlassen: ~author="Smith" Suche in allen Elementen eines bestimmten Datentyps: #date=2001

III. XIRQL Erweiterung der Path Expressions von XQuery: probabilistisches Retrieval mit gewichteter Dokumentindexierung Relevanz-orientierte Suche Datentypen mit vagen Prädikaten Struktureller Relativismus XML IR Query Language

XIRQL-Path-Expressions Vage Prädikate //text $c-word$ compute //author $soundslike$ meier Gewichtete Fragebedingungen //*[0.7. $c-word$ retrieval $c-word$ XML] Relevanz-orientierte Anfragen //inode()[… $c-phrase$ XML retrieval] Struktureller Relativismus: //#person $soundslike$ meier

XIRQL vs. XQuery XIRQL prozessiert Teilmenge von XQuery- Anfragen: FOR $X=PathExpression RETURN $X Keine Restrukturierung von Antworten Keine Werte-basierten Joins zwischen verschiedenen Dokumenten Erweiterte Path Expressions für IR

IV. HyREX Hypermedia Retrieval Engine for XML Open-Source-Software für Information Retrieval in XML-Dokumenten Basiert auf der Anfragesprache XIRQL

HyREX-Architektur HyGate: Web- Gateway XIRQL: Anfragesprache auf der logischen Ebene HyPath: Zugriffspfade (physische Ebene)

HyREX-Datentypen

V. Zusammenfassung und Ausblick IR-Konzepte für XML: Gewichtung und Ranking Relevanz-orientierte Suche Datentypen und vage Prädikate Struktureller Relativismus XIRQL als IR-Erweiterung einer XQuery-Teilmenge HyREX: Open-Source-Retrievalengine für XML: ls6-

Ausblick DAAD-Projekt FOCUS + EU-NoE DELOS (zusammen mit Mounia Lalmas, Univ. of London, et al.): Evaluierung von XML-Retrieval EU-Projekt CYCLADES (zusammen mit IEI-CNR/Pisa, FhG- Fit/Bonn, FORTH/Heraklion) HyREX als Suchmaschine für vernetzte Open Archives DFG-Projekt CLASSIX, (zusammen mit Gerhard Weikum, Univ. Saarbrücken, ab ): Entwicklung von Verfahren für effizientes Best-Match- Retrieval für XIRQL Kombination von XIRQL und XQuery: probabilistische Variante von XQuery

CARMEN - Next Steps Erstellung von HyREX-Distributionen (einfachere Installation, weitere Datentypen und Dokumentformate) Benutzerschnittstelle (Anfrageformulierung, Ergebnispräsentation) Erweiterung von HyREX in Richtung XQuery (Postprozessierung zur Restrukturierung von Antworten) Integration von HyREX mit Dokument-Management (z.B. WebDAV: hierarchische Ordner für Arbeitsgruppen)