Catalog Integration Made Easy P.J. Marrón, G. Lausen und M. Weber Universität Freiburg
Integration elektronischer Kataloge eCatalogs sind die Grundlage des eBusiness. Gewünscht sind integrierte Kataloge. … diese funktionieren aber derzeit noch nicht zufriedenstellend: Physische Integration hat Nachteile, Logische Integration ebenso. Schön wäre eine Integration (fast) ohne Aufwand. das genau kann eine adaptive Auswertung leisten.
lokaler Katalog globaler Katalog products jammer name price company department price mobile product jammer personel name computing … company Anfrage: /department/mobile//jammer/price ?
Übersicht I. Adaptive Auswertung von XPath i. XPath ii. XPath Subanfrage-Transformationen iii. Bewertung von Transformationen II. Integration elektronischer Katalog i. Architektur ii. Experimente III. Zusammenfassung
Für das Resultat res(Q) der Query Q gilt: res(Q) = L n (C n ) = C n+1. Der Ausgabe-Kontext einer Subquery ist induktiv definiert zu: C 1 = root, C i+1 = L i (C i ), 1 <= i <= n. Ein Location-Step hat die Form: axis::nodetest[predicate-expression] Jeder Location-Step L i definiert eine XPath-Subquery q i der Form: q i = (C i, L i, C i+1 ), wobei C i der Input-Kontext und C i+1 der Ausgabe-Kontext. (i) XPath Eine XPath-Query Q ist ein Location-Path der Form: L 1 /L 2 /.../L n, wobei jedes L i eine Funktion geschrieben als Location-Step.
A B C A C A C A D B C B angenommene Dokumentenstruktur: (ii) XPath Subanfrage-Transformation tatsächliche Struktur: "eliminate""generalize" "eliminate" "generalize and eliminate" /A/C/A//B/C /A/C /A//B Anfrage: /A/B/C Transformation
No transformation (n): verarbeite Subanfrage unverändert, Subquery generalization (g): ändern der Achse: child descendent parent ancestor Subquery elimination (e): übergehe die Subanfrage. (ii) Subanfrage Transformation:
(iii) Bewertung von Transformationen Sei q i = (C i, L i, C i+1 ). Anwendung der 3 Transformationsregeln "keine Transformation", "Generalisierung", und "Eliminierung" ergibt 3 Versionen von q i mit den entsprechenden Ausgabe-Kontexten NC i+1, GC i+1, EC i+1. Somit: C i+1 = NC i+1 U GC i+1 U EC i+1. Bewertung der Antworten in C i+1 mittels einer Fitness-Funktion in Abhängigkeit der angewandten Transformationsregel und der bereits berechneten Bewertung des Eingabe-Kontextes C i.
Verwendete Fitness-Funktion Jeder Knoten n erhält einen Fitnesswert v n. Sei C i der aktuelle Eingabe-Kontext. Sei n є C i und C i+1 = NC i+1 U GC i+1 U EC i+1. Sei m є C i+1. v m ist das Maximum von: wenn m є NC i+1, dann v m = b 2 + v n. wenn m є GC i+1, dann v m = b + v n. wenn m є EC i+1, dann v m = 1 + v n. Und b = 10.
Rechtfertigung der Fitness-Funktion Wir müssen Worte aus {n, g, e}* bewerten. Intuitiv sollte n >> g, n >> e sein. Jedoch warum g >> e? Formal können wir auf den Worten eine gewünschte Ordnung definieren und die Fitness Funktion entsprechend definieren (sofern unsere Ordnung konsistent mit n >> g, n >> e ist).
Beispiel einer Ordnung: eee < perm{g,e,e} < perm{e,g,g} < ggg < perm{e,e,n} < perm{e,n,g} < perm{g,g,n} < perm{e,n,n} < perm{n,n,g} < nnn Seien e, g, n die entsprechenden Fitnessbewertungen. Dann können sie berechnet werden wie folgt: 3e g 2e+g e … n-3g+2e > 0 2n+g<3n Allgemein: n > g, g > e, n – q l g + (q l - 1) e > 0, wobei q l Länge der Anfrage. n=5, g=2, e=1
II. Integration elektronischer Kataloge global catalog Schema G local catalog L2 local catalog L1 local catalog L3 Q(G) R(L3) R(L1,L2,L3) R(L1) R(L2)
NodesDepthOutdeg Global Alternate Reichelt8959 K & M Artificial2736 Alt.Rei.K&MArt. Global Level Query Node Alt.Rei.K&MArt. Alt Rei K&M Art Anfragen an den globalen KatalogAnfragen an einen lokalen Katalog Fehlerraten (in %) bei Kataloge:
III. Zusammenfassung XPath ist die derzeit am intensivsten studierte Anfragesprache für XML. Eine adaptive Auswertung von XPath ist praktisch gut motivierbar. Qualität der adaptiver Auswertung empirisch belegt. Verschiedene Möglichkeiten zur Verbesserungen des Verfahrens definiert und implementiert. Adaptive Auswertungstechnik verspricht eine effiziente und skalierbare Integration elektronischer Kataloge.