Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

1 StatiX: Making XML Count J.Freire, J.R.Haritsa, M.Ramanath, P.Roy, J.Siméon: StatiX: Making XML Count ACM SIGMOD, June 2002 Ann Früchtl 16.12.2005.

Ähnliche Präsentationen


Präsentation zum Thema: "1 StatiX: Making XML Count J.Freire, J.R.Haritsa, M.Ramanath, P.Roy, J.Siméon: StatiX: Making XML Count ACM SIGMOD, June 2002 Ann Früchtl 16.12.2005."—  Präsentation transkript:

1 1 StatiX: Making XML Count J.Freire, J.R.Haritsa, M.Ramanath, P.Roy, J.Siméon: StatiX: Making XML Count ACM SIGMOD, June 2002 Ann Früchtl 16.12.2005

2 2 Inhalt Problemstellung Beispiel StatiX System  Architektur  Wert- / Struktur-Histogramme  Kardinalitätsabschätzung  XML Schema Transformer  Schema Normalisierung Experimente Ausblick / Kritik

3 3 Problemstellung Problem: Entwicklung effizienter und präziser Schätzverfahren für XML Anfrageergebnisse  erlaubte Flexibilität beim Definieren von Elementen im XML Datenmodell führt zu ungleichverteilter Struktur  Annahme von Gleichverteilung führt zu sehr großen Fehlern  breite und tiefe XML-Dokumente  multi-way joins  ungenaue Schätzungen durch Fehlervermehrung

4 4 Problemstellung welche Statistiken(3.) benutzen um Kardinalität zu schätzen? welchen Algorithmus(4.) benutzen, wenn 1.-3. gegeben? 4. Algorithmus Anfrage Kardinalität des Ergebnisses 1. XML Dokument 2. XML Schema 3. Statistiken

5 5 Beispiel Schema

6 6 Beispiel Dokument... 1993... …... 1994......... 1990..................... 1998...... 2000...

7 7 Architektur

8 8 Wert-Histogramm... 1993...... 1994...... 1990...... 1998...... 2000... DEFINE STAT Show { CARDINALITY { 5 } ID_DOMAIN { 1 TO 6 } } DEFINE STAT Show_year { VALUE_DOMAIN { 1990 TO 2001 } BUCKET NUMBER { 2 } BUCKETS { FROM 1990 TO 1995 COUNT 3, FROM 1995 TO 2001 COUNT 2 } } Figure 4: Statistics Summary for Movie Data

9 9 Struktur-Histogramm.......................................... DEFINE STAT Show { CARDINALITY { 5 } ID_DOMAIN { 1 TO 6 } } DEFINE STAT Review { CARDINALITY { 8 } ID_DOMAIN { 30 TO 38 } PARENT HISTOGRAM Show { BUCKET NUMBER { 3 } BUCKETS { FROM 1 TO 2 COUNT 4, FROM 2 TO 3 COUNT 1, FROM 3 TO 5 COUNT 3 } } } Figure 4: Statistics Summary for Movie Data

10 10 Kardinalitätsabschätzung (1) Beispielanfrage: FOR $s in document(``myshows.xml´´)/show, $r in $s/review WHERE $s/year < 1992 RETURN $r XPath-Ausdruck: /show[year<1992]/review

11 11 Kardinalitätsabschätzung (2) Kardinalitätsabschätzung unter der Annahme der Gleichverteilung innerhalb der Buckets: Anzahl der Jahre in Bucket 1: 5 (1990-1994) 3 Einträge gleichverteilt auf 5 Jahre: 2 Jahre sind <1992

12 12 Kardinalitätsabschätzung (3) verteile auf den Bereich Show:

13 13 Kardinalitätsabschätzung (4) 8 Reviews verteilt auf 5 Shows (Der genaue Wert ist 1.)

14 14 XML Schema Transformer Durchführung diverser Transformationen zur Normalisierung Anpassung der Granularität des „statistics gathering process“ an die Anforderungen individueller Anwendungen (feinere Granularität vs.höhere Laufzeit, höherer Speicherplatz)

15 15 XML Schema Transformer  union distribution  Mehrdeutigkeit verursachende Transformation!

16 16 Schema Normalisierung  erstelle neue types für alle tags, die wiederholt werden oder optional sind (outline types):  (inline types wäre Rückrichtung, aber nicht Teil der Normalisierung)

17 17 Schema Normalisierung  erstelle neue types für alle komplexen Strukturen, die innerhalb von Vereinigungen und Wieder- holungen vorkommen (ebenfalls outline types): 

18 18 Experimente Datensätze:  XMark benchmark 10MB, 50MB (tief verschachtelte Dokumente)  ( Internet Movie Database (IMDB; hauptsächlich flache Struktur) ) Experimente:  Bauzeit  Größe  Genauigkeit

19 19 Bauzeit

20 20 Größe bsize : Implementation ctypes : Tuning-Parameter durch Transformationen btypes : Tuning-Parameter durch Transformationen nbuckets : Tuning-Parameter beim Anlegen der Histogramme

21 21 Genauigkeit

22 22 Ausblick / Kritik XML Schema muss vorhanden sein Im Moment unterstützt StatiX nur verzweigte Pfad- ausdrücke mit Wertprädikaten  Unterstützung von Aggregatfunktionen und Rekursionen beabsichtigt Bei Updates hängt die Effektivität von StatiX stark von der Qualität der vom System generierten OIDs ab (ID Ranges u.U. nicht mehr kompakt) nicht bekannt, welche Transformationen ausgeführt werden müssen, um optimale(n) Platz/Bauzeit/Granulärität zu erhalten


Herunterladen ppt "1 StatiX: Making XML Count J.Freire, J.R.Haritsa, M.Ramanath, P.Roy, J.Siméon: StatiX: Making XML Count ACM SIGMOD, June 2002 Ann Früchtl 16.12.2005."

Ähnliche Präsentationen


Google-Anzeigen