Approximative Queryevaluierung

Slides:



Advertisements
Ähnliche Präsentationen
ER-Datenmodell und Abfragen in SQL
Advertisements

Data Cubes PG Wissensmangement Seminarphase Hanna Köpcke Lehrstuhl für Künstliche Intelligenz Universität Dortmund.
Labor Datenbanken und Entscheidungssysteme
Indizierung von Graphen durch häufige Subgraphen (2)
TelegraphCQ Manuel Hertlein.
Objekt – Relationales – Modell Tomasz Makowski IN
Prioritätswarteschlangen
Datenstrukturen Look-Up Tabellen, Zufallszahlen, Listen, Speichermanagement und Dateiverwaltung.
ATHOS Benutzertreffen 27.September Report of the Lab Glashütten, 27.September 2007 HighQSoft GmbH, Karst Schaap
Vorlesung Informatik 2 Algorithmen und Datenstrukturen (27 – Kürzeste Wege) Prof. Th. Ottmann.
1 Vorlesung Informatik 2 Algorithmen und Datenstrukturen (21 – Kürzeste Wege) T. Lauer.
MySQL Der Einstieg.
Datenbankentwurf mit Hilfe des ER-Modells entwickeln
IS: Datenbanken, © Till Hänisch 2000 CREATE TABLE Syntax: CREATE TABLE name ( coldef [, coldef] [, tableconstraints] ) coldef := name type [länge], [[NOT]NULL],
Beispielrelation Buchbestellungen H = Menge der bedeutenden Ziele = {a, d} Schwelle T = 4 Stichprobe S = {a, b, a, a, a, a} mit s = |S| = 6 N = Anzahl.
Abfragen – Tipps und Tricks Buch S102ff (Informatik I, Oldenbourg-Verlag) Nach einer Vorlage von Dieter Bergmann.
Redundanz und Anomalien (1)
1 Dienstbeschreibung mit DAML Ein graphischer Editor für DAML - Ting Zheng Betreuer: Michael Klein, Philipp Obreiter.
Christian Schulz, Marc Thielbeer, Sebastian Boldt
Effiziente Algorithmen
Black Box Algorithmen Hartmut Klauck Universität Frankfurt SS
Black Box Algorithmen Hartmut Klauck Universität Frankfurt SS
Effiziente Algorithmen
Effiziente Algorithmen Hartmut Klauck Universität Frankfurt SS
Hartmut Klauck Universität Frankfurt SS
Parallel Matrix Multiplication
WS 2013/14 Datenbanksysteme Do 17:00 – 18:30 R Vorlesung #4 SQL (Teil 1)
Vorlesung #4 SQL (Teil 1).
SS 2004 Datenbanken 4W Mi 13:30 – 15:00 G 2.30 Vorlesung #6 SQL (Teil 1)
WS 2011/12 Datenbanksysteme Fr 15:15 – 16:45 R Vorlesung #4 SQL (Teil 1)
Datenbanksysteme für hörer anderer Fachrichtungen
Einführung in Datenbankmodellierung und SQL
Freiwillige Feuerwehr der Stadt Perg
Aggregatsfunktion SQL = Structured Query Language.
Das relationale Modell
Nichtkonventionelle Indexstrukturen Wave Indices Motivation Techniken Übersicht Update-Techniken Encoded Bitmap Indexing Einführung Datenzugriff über den.
Structured Query Language
Semantische Integritätsbedingungen  AIFB SS trigger-Klausel (2/5) Beispiel 3-5: Angestellter: (Ang-Nr, Ang-Name, Gehalt,Familienstand, Abt-Bez).
BBQ und MauveDB Jonathan Hellwig Data Management in Wireless Sensor Networks Timo Mika Gläßer & Ulf Leser.
Anfragen an multidimensonale Daten
Seminar Datenbanksysteme - Data Warehousing Approximative Anfrageergebnisse in DWH-Umgebungen durch Wavelet-Kodierung Dipl.-Math. Mazeyar E. Makoui
Datenbanken abfragen mit SQL
Binärbäume.
BHAK/BHAS 1 Salzburg KIDM 2ASBS Schuljahr 2004/05
1 StatiX: Making XML Count J.Freire, J.R.Haritsa, M.Ramanath, P.Roy, J.Siméon: StatiX: Making XML Count ACM SIGMOD, June 2002 Ann Früchtl
15 Tabellen erstellen und Tabellenstruktur bearbeiten Grundlagen zu Tabellen l Tabelle l Enthält Daten zu einem bestimmten Thema l Beispiele:  Mitarbeiterdaten.
1. 2 Das Grundproblem der Beurteilenden Statistik ● Wir haben uns bisher mit Problemen der Wahrscheinlichkeitsrechnung beschäftigt: – Die Wahrscheinlichkeit.
GUI lokaler Speicher Datenbank
SQL Basics Schulung –
DOAG SID Data Warehouse
Multidimensionale Datenbanken
Sprachumfang von SQL Vier Kategorien DDL (Data Definition Language)
Effizientes Einfügen und Reorganisieren von grossen Datenmengen
Präsentation Binär.
Kompression von Data Cubes
Vorlesung #4 Relationales Kalkül und SQL (Teil 1)
Multi-Source und Multi-View Konsistenz
Vorlesung #5 SQL (Teil 2).
Alles wird gut! Suche im MyCoRe Jens Kupferschmidt
Die Numerische Differentiation
Indexierung Oracle: indexes Indexierung.
Wiederholung TexPoint fonts used in EMF.
Stream-Verwaltung mit konventionellen Datenbanksystemen
Von Wietlisbach, Lenzin und Winter
Ökonometrie und Statistik Unabhängigkeitstest, c² - Test (Chi Quadrat Test) Dr. Bertram Wassermann.
2. Die rekursive Datenstruktur Baum 2.1 Von der Liste zum Baum
Datenbanken Von Amed und Alicia.
Von Wietlisbach, Lenzin und Winter
2.3 Gruppierte Datensätze
(Structured Query Language)
 Präsentation transkript:

Approximative Queryevaluierung Fachseminar “Data Warehousing and Mining” November 1999 Ein Vortrag von Christoph Hauzenberger

Approximative Queryevaluierung in Data Warehouses Inhalt 1.Einleitung s 3 2. Die zwei wichtigsten Ansätze s 5 3. Verfahren mit Synopsen s 7 4. Join Synopsen s 13 5. Das Aqua-System s 16

Approximative Queryevaluierung in Data Warehouses 1. Einleitung 1.1 Weshalb approximative Antworten? Exakte Abfragen über grosse Data Cubes können Stunden dauern, da meist mehrere Gigabytes an Daten im Spiel sind Antworten sollen auch möglich sein, wenn gewisse Daten nicht verfügbar sind (z.B. bei Ausfall eines Teils der Datenspeicher) Ergebnisse von Aggregatsfunktionen wie avg, sum und count erfordern nicht immer volle Präzision, sind also ideale Kandidaten für Approximation 1.2 Was ist überhaupt eine approximative Antwort? Ungefährer Wert mit Vertrauensintervall Obere resp. untere Schranke Durchschnittliche Verkäufe 1999: 4000, +/- 200 Anzahl Einbrüche Januar: <=1000

Beispiel-Relationen für Prüfungen der an ETH

Approximative Queryevaluierung in Data Warehouses 2. Die zwei wichtigsten Ansätze 2.1 Adaptive Verfahren Vertrauensintervall wird angezeigt und ständig verbessert Fragesteller kann Berechnung abbrechen, sobald zufrieden Beliebig genaue Annäherungen möglich Noch immer direkter Zugriff auf alle Datenquellen nötig Approximativer Wert: Vertrauensintervall: Verstrichene Zeit: 134.356 Abbrechen ±0.75 12h15m28s Neustart

Approximative Queryevaluierung in Data Warehouses 2.2 Stichproben Einige für die gesamten Daten repräsentative Tupel werden in Query Engine (zusätzliches Modul) gespeichert Anfragen erfolgen nicht an die Daten des Warehouse sondern an die Stichproben in der Query Engine Sehr schnell, da Abfrage nur über kleine Datenmengen Kein Zugriff auf unterliegende Datenquellen Genauigkeit des Resultats von der Qualität der Stichproben abhängig Stichproben müssen aktuell gehalten werden neue Daten Queries Query Engine Warehouse Ergebnisse

Approximative Queryevaluierung in Data Warehouses 3. Verfahren mit Synopsen 3.1 Was sind Synopsen? 3.2 Grundsätzliche Fragen zu Stichproben Wie werden die Stichproben erstellt? Wieviel Platz wird für das Speichern der Proben benötigt? Wie genau sind die Aussagen? Wie aufwendig sind Updates der Stichproben beim Einfügen und Löschen von Daten? Synopsen sind vorberechnete Informationen, die Aussagen über die gesamten Daten liefern (üblicherweise Histogramme oder ausgewählte Tupel)

Approximative Queryevaluierung in Data Warehouses 3.3 uniform samples Gleichverteilung der Daten wird angenommen Zufällige Tupel jeder Relation werden den Daten entnommen Bei Inserts in das Warehouse wird ein neues Tupel mit festgelegter Wahrscheinlichkeit in die Stichprobe aufgenommen, bei Deletes aus den Daten und gegebenenfalls aus der Stichprobe entfernt Stichproben sind einfach zu unterhalten Entweder hoher Platzverbrauch (grosse Proben) oder kleine Präzision (kleine Probengrösse) Sind die Daten nicht gleichverteilt, sinkt die Präzision

Approximative Queryevaluierung in Data Warehouses 3.4 concise samples (komprimierte Stichproben) Ziel: bessere Präzision, ohne Probe zu vergrössern Datensätze mit gleichen Werten der grsuchten Attribute werden in den Proben nur einfach gespeichert, in der Form (Werte, Anzahl) concise samples entsprechen Histogramm der Stichprobe Bei Inserts wird das sample mit der kleinsten Anzahl ersetzt Bei gleichem Speicherverbrauch wie bei random samples ist eine viel grössere Probe möglich

Stichproben aus der Noten-Relation Beispiel Stichproben aus der Noten-Relation uniform samples concise samples

Approximative Queryevaluierung in Data Warehouses 3.4 Probleme bei zufälligen Stichproben Data Warehouses meist im Star-Schema aufgebaut, Abfragen beinhalten also häufig Joins über Fremdschlüssel Ein Join von Stichproben liefert im Normalfall kleine Ergebnismengen, folglich sind in diesem Fall riesige Stichproben für annehmbare Präzision nötig Die Verteilung der Attribute ist nach dem Join verändert, die Annahme der Gleichverteilung gilt nicht mehr

Join zweier Stichproben Beispiel Join zweier Stichproben S(NOTEN) S(FACH) S(NOTEN) S(FACH)

Approximative Queryevaluierung in Data Warehouses 4. Join Synopsen 4.1 Abhängigkeitsgraph der Relationen Die Relationen dienen als Knoten, Fremdschlüssel-Attribute als Kanten A B meint: ID ist ein Fremdschlüssel für B.ID in A Ein Join der Relationen A und B über eine solche Kante im Graphen heisst Fremdschlüssel-Join. Die Relation A heisst dann Basisrelation des Join Zwischen einem Tupel einer Relation r und einem eines Fremdschlüssel-Joins mit r als Basis besteht 1:1-Relation ID

Abhängigkeitsgraph Beispielrelationen •F •D •T Fremdschlüssel-Joins sind z.B.: N P N P D N F T N P D F N P F T N P D F T Keine Fremdschlüssel-Joins sind z.B.: N D P N P D T P F T

Approximative Queryevaluierung in Data Warehouses 4.2 Join-Synopsen Aus den Stichproben werden alle möglichen Join-Synopsen berechnet und anstatt der Proben in der Query-Engine gespeichert Die Join-Synopse hat genau gleich viele Tupel wie die Basisrelation. Bei Anfragen müssen keine Joins mehr berechnet werden Für jede Relation ri kann man man einen maximalen Fremdschlüssel-Join J(ri) mit ri als Basis bestimmen. Sei Si eine Stichprobe der Relation ri. Dann nennt man J(Si) eine Join-Synopse.

Approximative Queryevaluierung in Data Warehouses 5. Das Aqua-System Besteht aus Query Engine und Testumgebung Aqua steht für Approximate Query Answering 1998 an den Bell Labs entwickelt um Join-Synopsen zu erforschen Ermöglicht Vergleich zwischen genäherter und exakter Lösung neue Daten Queries Query Engine Testdaten Ergebnisse exakte Antwort

Approximative Queryevaluierung in Data Warehouses Die Aqua Query Engine SQL Query Approximation exakteLösung

Approximative Queryevaluierung in Data Warehouses Beim Einfügen von Daten in eine Relation werden Tupel mit gewisser Wahrscheinlichkeit zu den Synopsen hinzugefügt. Zuerst müssen jedoch noch die benötigten Joins berechnet werden Bei Änderungen der Warehousedaten wird ein eventueller Eintrag aus den Synopsen entfernt Nicht relevante Spalten werden entfernt um Speicherplatz zu sparen Gute Präzision und schnelle Ergebnisse bei Abfragen mit Joins Erhöhter Verwaltungsaufwand

Approximative Queryevaluierung in Data Warehouses Leistungsanalyse des Aqua Systems Testfrage: Frage nach Durchschnittswert (avg) bei Query mit vierfachem Join über insgesamt 300 MB Daten. Präzision: Synopsengrösse von 0.1% der Daten (300KB) liefert Abweichung von 15% Stichproben grösser 2% (6MB) liefern beinahe exakte Lösung Unterhalt: Bei 2% Stichproben beträgt die Wahrscheinlichkeit, dass ein Tupel neu in die Synopsen aufgenommen wird typischerweise auch 2%. Die Anzahl zusätzlicher Joins bei 50000 neuen Tupeln ist also 1000*Anzahl Relationen

Approximative Queryevaluierung in Data Warehouses Quellen “New Sampling-Based Summary Statistics for Improving Approximate Query Answers” (P. B. Gibbons, Y. Matias, SIGMOD 1998) “Join Synopses for Approximate Query Answering” (S.Acharya, P.B.Gibbons, V.Poosala, S.Ramaswamy, SIGMOD1999) “The Aqua ApproximateQuery Answering System” (S.Acharya, P.B.Gibbons, V.Poosala, S.Ramaswamy, SIGMOD1999) “AQUA: System and Techniques for Approximate Query Answering” (P.B.Gibbons, V.Poosla, S.Acharya, Y.Bartal, Y.Matias, S.Muthukrishnan, S.Ramaswamy, Torsten Suel, Bell Labs 1998)