1 StatiX: Making XML Count J.Freire, J.R.Haritsa, M.Ramanath, P.Roy, J.Siméon: StatiX: Making XML Count ACM SIGMOD, June 2002 Ann Früchtl 16.12.2005.

Slides:



Advertisements
Ähnliche Präsentationen
Algorithmen und Datenstrukturen
Advertisements

Transaction Synchronization for XML Data in Client Server Web Applications Stefan Böttcher & Adelhard Türling Universität Paderborn.
DTD XML-Technik Dino Azzano. Definition Document Type Definition Beschreibung der Regeln zum Aufbau aller XML-Dokumente, die zu einer Dokumentklasse.
FH-Hof Der B-Baum Richard Göbel. FH-Hof Wahl des Verzweigungsgrad Verzweigungsgrad kann größer als 2 sein v Nachfolger für einen Knoten v-1 Werte in einem.
Daten fließen lassen XML in Microsoft Office 2003 Lorenz Goebel Frank Fischer
T-XPath Ein zeitliches Modell für XML-DBS M. Kalb, G. SpechtK. Schneider Universität Ulm EML Heidelberg.
Übung 6.6Schranken 1.Angenommen, Ihr Algorithmus habe einen Aufwand von g(n) = 5n 3 + n für alle n a)Geben sie eine obere Schranke O(g(n)) an. b)Beweisen.
Parser generieren Yet Another Compiler – Compiler YACC.
FH-Hof Effizienz - Grundlagen Richard Göbel. FH-Hof Inhalt Einführung Aufwand für Anfragen ohne Indexierung Indexstrukturen für Anfragen an eine Tabelle.
Navigieren / Suchen 12.Oktober Kann ein Browser das? 12.Oktober Bei findet man für das Wort browsehttp://dict.leo.org.
Vorlesung Informatik 2 Algorithmen und Datenstrukturen (02 – Funktionenklassen) Prof. Dr. Th. Ottmann.
Union-Find-Strukturen
XINDICE The Apache XML Project Name: Jacqueline Langhorst
SQL als Abfragesprache
XML-Schema HKI Proseminar Wintersemester 2010/11 Dozentin: Frau Kurz von Jan Kohl und Christian Lütticke.
Modularization of XHTML™
XML Standardisierungen und Abfragesprachen
MMQL – Multimedia Query Language Eine Anfragesprache für Multimedia-Ähnlichkeitsanfragen Christian Mantei.
Geoinformation III Vorlesung 13b XML-Schema.
Technik Gestaltung Navigation Daten. Übersicht Client Webbrowser InternetServer.
Der letzte Schliff für Abfragen Übersicht über die Aggregatfunktionen.
Transaction Script Software Component Technology for Distributed Applications.
A. Zündorf, SE Group Reverse Engineering K2 1 Ziele Heute Compilerbau Nachlese Ausnutzung von Laufzeittypinformation.
Was sind Histogramme? (1)
Inhalt Einführung Problemstellung / Ziele Definitionen
Die Vorlesung Statistische Methoden II findet am (nächste Woche) wegen der Projektwoche nicht wegen der Projektwoche nicht statt.
Einführung MySQL mit PHP
XQuery-Anfragen Spezifikations- und Selektionsmethoden für Daten und Dienste Markus Mauch.
Was versteht man unter XML Schema?
Eigenschaften der OLS-Schätzer
Histogramm/empirische Verteilung Verteilungen
Vom XML Schema zur relationalen Datenbank Seminararbeit zum Multimedia-Seminar im SS 2002 Erstellt von: Thomas Dickel.
Die Grundterminologie
Einführung in die Programmierung
Effiziente Algorithmen
Effiziente Algorithmen
Quantum Computing Hartmut Klauck Universität Frankfurt WS 05/
Polynome und schnelle Fourier-Transformation
Einführung in die Informatik für Naturwissenschaftler und Ingenieure (alias Einführung in die Programmierung) (Vorlesung) Prof. Dr. Günter Rudolph Fachbereich.
Einführung in die Programmierung Wintersemester 2009/10 Prof. Dr. Günter Rudolph Lehrstuhl für Algorithm Engineering Fakultät für Informatik TU Dortmund.
Einführung in die Informatik für Naturwissenschaftler und Ingenieure (alias Einführung in die Programmierung) (Vorlesung) Prof. Dr. Günter Rudolph Fachbereich.
Entwicklung verteilter Anwendungen II, SS 13 Prof. Dr. Herrad Schmidt SS 2013 Kapitel 6 Folie 2 WCF Data Services (1) s.a.
Grundlagen der Messtechnik
WS 2013/14 Datenbanksysteme D0 15:15 – 16:45 R Vorlesung #5 SQL (Teil 2)
WS 2012/13 Datenbanksysteme Fr 15:15 – 16:45 R Vorlesung #9 Anfragebearbeitung.
2.4 Rekursion Klassifikation und Beispiele
© 2009 Quest Software, Inc. ALL RIGHTS RESERVED Quest Recovery Manager for SharePoint Volker Pingen Senior System Consultant
Datenbanksysteme für hörer anderer Fachrichtungen
Einführung in Datenbankmodellierung und SQL
3. Juni 2003Moritz Petersen Minimales Markup und Templates zur Erstellung von strukturierten Texten Ein Zwischenbericht zur Diplomarbeit.
WS 2013/14 Datenbanksysteme Do 17:00 – 18:30 R Vorlesung #9 Anfragebearbeitung.
PL/SQL - Kurze Einführung April 2003Übung Data Warehousing: PL/SQL 2 PL/SQL.. ist eine Oracle-eigene, prozedurale Programmiersprache Sämtliche.
Parallelisierung für Multiprozessor-Maschinen
Das Traveling Salesman Problem (TSP)
Structured Query Language
Eike Schallehn, Martin Endig
Eike Schallehn, Martin Endig
Vorlesung #5 SQL (Teil 2).
XML-Datenbanken Weiterentwicklung eines Prototypen zur nativen Speicherung von XML-Dokumenten Georg Kiekel
XPath Datenmodell und Sequenzen Universität zu Köln – Historisch-Kulturwissenschaftliche Informationsverarbeitung Datenbanktechnologie – Daniel Ebner –
Matthias Gläfke Data Mining - Seminar im Sommersemester Vortrag Pincer-Search 5. Juni 2007.
Anbindung eines Ontologie- basiertes Risikomanagement- systems an eine XML-Datenbank Datenbankseminar am Lehrstuhl für Praktische Informatik III Vortrag.
Effektives Delta Laden DOAG SID Data Warehouse. Ziele Welche CDC Methoden gibt es? Typische Fallen Verschiedene Lösungsansätze praktische Beispiele.
 Gegenstandsbereich der Testtheorie: Analyse der Charakteristika von Tests:  Güte von Tests.  Struktur von Tests.  Schwierigkeit von Tests.  Gruppenunterschiede.
13.Dezember 2006–1Elektronisches Publizieren: Schemasprachen — Relax NG Schemasprachen für XML — Relax NG — Anne Brüggemann-Klein TU München.
DOAG SID Data Warehouse
Approximative Queryevaluierung
Vorlesung #5 SQL (Teil 2).
Aggregatfunktionen.
Oracle Statistiken im HORIZON-Umfeld
 Präsentation transkript:

1 StatiX: Making XML Count J.Freire, J.R.Haritsa, M.Ramanath, P.Roy, J.Siméon: StatiX: Making XML Count ACM SIGMOD, June 2002 Ann Früchtl

2 Inhalt Problemstellung Beispiel StatiX System  Architektur  Wert- / Struktur-Histogramme  Kardinalitätsabschätzung  XML Schema Transformer  Schema Normalisierung Experimente Ausblick / Kritik

3 Problemstellung Problem: Entwicklung effizienter und präziser Schätzverfahren für XML Anfrageergebnisse  erlaubte Flexibilität beim Definieren von Elementen im XML Datenmodell führt zu ungleichverteilter Struktur  Annahme von Gleichverteilung führt zu sehr großen Fehlern  breite und tiefe XML-Dokumente  multi-way joins  ungenaue Schätzungen durch Fehlervermehrung

4 Problemstellung welche Statistiken(3.) benutzen um Kardinalität zu schätzen? welchen Algorithmus(4.) benutzen, wenn gegeben? 4. Algorithmus Anfrage Kardinalität des Ergebnisses 1. XML Dokument 2. XML Schema 3. Statistiken

5 Beispiel Schema

6 Beispiel Dokument …

7 Architektur

8 Wert-Histogramm DEFINE STAT Show { CARDINALITY { 5 } ID_DOMAIN { 1 TO 6 } } DEFINE STAT Show_year { VALUE_DOMAIN { 1990 TO 2001 } BUCKET NUMBER { 2 } BUCKETS { FROM 1990 TO 1995 COUNT 3, FROM 1995 TO 2001 COUNT 2 } } Figure 4: Statistics Summary for Movie Data

9 Struktur-Histogramm DEFINE STAT Show { CARDINALITY { 5 } ID_DOMAIN { 1 TO 6 } } DEFINE STAT Review { CARDINALITY { 8 } ID_DOMAIN { 30 TO 38 } PARENT HISTOGRAM Show { BUCKET NUMBER { 3 } BUCKETS { FROM 1 TO 2 COUNT 4, FROM 2 TO 3 COUNT 1, FROM 3 TO 5 COUNT 3 } } } Figure 4: Statistics Summary for Movie Data

10 Kardinalitätsabschätzung (1) Beispielanfrage: FOR $s in document(``myshows.xml´´)/show, $r in $s/review WHERE $s/year < 1992 RETURN $r XPath-Ausdruck: /show[year<1992]/review

11 Kardinalitätsabschätzung (2) Kardinalitätsabschätzung unter der Annahme der Gleichverteilung innerhalb der Buckets: Anzahl der Jahre in Bucket 1: 5 ( ) 3 Einträge gleichverteilt auf 5 Jahre: 2 Jahre sind <1992

12 Kardinalitätsabschätzung (3) verteile auf den Bereich Show:

13 Kardinalitätsabschätzung (4) 8 Reviews verteilt auf 5 Shows (Der genaue Wert ist 1.)

14 XML Schema Transformer Durchführung diverser Transformationen zur Normalisierung Anpassung der Granularität des „statistics gathering process“ an die Anforderungen individueller Anwendungen (feinere Granularität vs.höhere Laufzeit, höherer Speicherplatz)

15 XML Schema Transformer  union distribution  Mehrdeutigkeit verursachende Transformation!

16 Schema Normalisierung  erstelle neue types für alle tags, die wiederholt werden oder optional sind (outline types):  (inline types wäre Rückrichtung, aber nicht Teil der Normalisierung)

17 Schema Normalisierung  erstelle neue types für alle komplexen Strukturen, die innerhalb von Vereinigungen und Wieder- holungen vorkommen (ebenfalls outline types): 

18 Experimente Datensätze:  XMark benchmark 10MB, 50MB (tief verschachtelte Dokumente)  ( Internet Movie Database (IMDB; hauptsächlich flache Struktur) ) Experimente:  Bauzeit  Größe  Genauigkeit

19 Bauzeit

20 Größe bsize : Implementation ctypes : Tuning-Parameter durch Transformationen btypes : Tuning-Parameter durch Transformationen nbuckets : Tuning-Parameter beim Anlegen der Histogramme

21 Genauigkeit

22 Ausblick / Kritik XML Schema muss vorhanden sein Im Moment unterstützt StatiX nur verzweigte Pfad- ausdrücke mit Wertprädikaten  Unterstützung von Aggregatfunktionen und Rekursionen beabsichtigt Bei Updates hängt die Effektivität von StatiX stark von der Qualität der vom System generierten OIDs ab (ID Ranges u.U. nicht mehr kompakt) nicht bekannt, welche Transformationen ausgeführt werden müssen, um optimale(n) Platz/Bauzeit/Granulärität zu erhalten