Präsentation herunterladen
Die Präsentation wird geladen. Bitte warten
Veröffentlicht von:Lilli Gerstle Geändert vor über 8 Jahren
1
1 StatiX: Making XML Count J.Freire, J.R.Haritsa, M.Ramanath, P.Roy, J.Siméon: StatiX: Making XML Count ACM SIGMOD, June 2002 Ann Früchtl 16.12.2005
2
2 Inhalt Problemstellung Beispiel StatiX System Architektur Wert- / Struktur-Histogramme Kardinalitätsabschätzung XML Schema Transformer Schema Normalisierung Experimente Ausblick / Kritik
3
3 Problemstellung Problem: Entwicklung effizienter und präziser Schätzverfahren für XML Anfrageergebnisse erlaubte Flexibilität beim Definieren von Elementen im XML Datenmodell führt zu ungleichverteilter Struktur Annahme von Gleichverteilung führt zu sehr großen Fehlern breite und tiefe XML-Dokumente multi-way joins ungenaue Schätzungen durch Fehlervermehrung
4
4 Problemstellung welche Statistiken(3.) benutzen um Kardinalität zu schätzen? welchen Algorithmus(4.) benutzen, wenn 1.-3. gegeben? 4. Algorithmus Anfrage Kardinalität des Ergebnisses 1. XML Dokument 2. XML Schema 3. Statistiken
5
5 Beispiel Schema
6
6 Beispiel Dokument... 1993... …... 1994......... 1990..................... 1998...... 2000...
7
7 Architektur
8
8 Wert-Histogramm... 1993...... 1994...... 1990...... 1998...... 2000... DEFINE STAT Show { CARDINALITY { 5 } ID_DOMAIN { 1 TO 6 } } DEFINE STAT Show_year { VALUE_DOMAIN { 1990 TO 2001 } BUCKET NUMBER { 2 } BUCKETS { FROM 1990 TO 1995 COUNT 3, FROM 1995 TO 2001 COUNT 2 } } Figure 4: Statistics Summary for Movie Data
9
9 Struktur-Histogramm.......................................... DEFINE STAT Show { CARDINALITY { 5 } ID_DOMAIN { 1 TO 6 } } DEFINE STAT Review { CARDINALITY { 8 } ID_DOMAIN { 30 TO 38 } PARENT HISTOGRAM Show { BUCKET NUMBER { 3 } BUCKETS { FROM 1 TO 2 COUNT 4, FROM 2 TO 3 COUNT 1, FROM 3 TO 5 COUNT 3 } } } Figure 4: Statistics Summary for Movie Data
10
10 Kardinalitätsabschätzung (1) Beispielanfrage: FOR $s in document(``myshows.xml´´)/show, $r in $s/review WHERE $s/year < 1992 RETURN $r XPath-Ausdruck: /show[year<1992]/review
11
11 Kardinalitätsabschätzung (2) Kardinalitätsabschätzung unter der Annahme der Gleichverteilung innerhalb der Buckets: Anzahl der Jahre in Bucket 1: 5 (1990-1994) 3 Einträge gleichverteilt auf 5 Jahre: 2 Jahre sind <1992
12
12 Kardinalitätsabschätzung (3) verteile auf den Bereich Show:
13
13 Kardinalitätsabschätzung (4) 8 Reviews verteilt auf 5 Shows (Der genaue Wert ist 1.)
14
14 XML Schema Transformer Durchführung diverser Transformationen zur Normalisierung Anpassung der Granularität des „statistics gathering process“ an die Anforderungen individueller Anwendungen (feinere Granularität vs.höhere Laufzeit, höherer Speicherplatz)
15
15 XML Schema Transformer union distribution Mehrdeutigkeit verursachende Transformation!
16
16 Schema Normalisierung erstelle neue types für alle tags, die wiederholt werden oder optional sind (outline types): (inline types wäre Rückrichtung, aber nicht Teil der Normalisierung)
17
17 Schema Normalisierung erstelle neue types für alle komplexen Strukturen, die innerhalb von Vereinigungen und Wieder- holungen vorkommen (ebenfalls outline types):
18
18 Experimente Datensätze: XMark benchmark 10MB, 50MB (tief verschachtelte Dokumente) ( Internet Movie Database (IMDB; hauptsächlich flache Struktur) ) Experimente: Bauzeit Größe Genauigkeit
19
19 Bauzeit
20
20 Größe bsize : Implementation ctypes : Tuning-Parameter durch Transformationen btypes : Tuning-Parameter durch Transformationen nbuckets : Tuning-Parameter beim Anlegen der Histogramme
21
21 Genauigkeit
22
22 Ausblick / Kritik XML Schema muss vorhanden sein Im Moment unterstützt StatiX nur verzweigte Pfad- ausdrücke mit Wertprädikaten Unterstützung von Aggregatfunktionen und Rekursionen beabsichtigt Bei Updates hängt die Effektivität von StatiX stark von der Qualität der vom System generierten OIDs ab (ID Ranges u.U. nicht mehr kompakt) nicht bekannt, welche Transformationen ausgeführt werden müssen, um optimale(n) Platz/Bauzeit/Granulärität zu erhalten
Ähnliche Präsentationen
© 2024 SlidePlayer.org Inc.
All rights reserved.