Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

Kompression von Data Cubes

Ähnliche Präsentationen


Präsentation zum Thema: "Kompression von Data Cubes"—  Präsentation transkript:

1 Kompression von Data Cubes
Seminar “Data Warehousing and Data Mining” Cyrille Artho

2 Inhalt 1. Motivation/Hintergrund 2. Kompressionsverfahren
a) Histogramme b) Wavelets c) Statistische Modellierung 3. Zusammenfassung

3 Motivation Platz sparen bei riesigen Datenmengen (bis mehrere TB).
Schnelle (approximative) Beantwortung von Range Queries. Erlaubt Kopien, z. B. auf Laptops.

4 Range Queries Normalerweise Summe, Durchschnitt oder Count
Marke Normalerweise Summe, Durchschnitt oder Count Für jede Koordinate entsteht für den Wert All ein neuer Punkt Dies rekursiv über alle Dimensionen Auch bei “dünn gesäten” (sparse) Daten sehr viele aggregierte Werte Guinness Kilkenny’s Murphy’s W1 Pub W2 PW Oliver Twist Nelson’s W3 Zeit

5 Charakteristika von hochdimensionalen Merkmalsräumen

6 Anforderung an Kompression
kleiner Platzbedarf der komprimierten Daten (Kompression ist oft um Faktor 100 oder mehr) kleiner Qualitätseinbusse bei Kompression, am besten innerhalb einstellbarer und voraussagbarer Grenzen schnelle und direkte Beantwortung der Queries aus komprimierten Daten Abstufung der Qualität bei Anfragebeantwortung möglich effizientes inkrementelles Update des Modells möglich

7 Kompressionsverfahren
1) Histogramme 2) Wavelets 3) Statistische Modellierung Ausserdem (hier nicht vorgestellt): Random Sampling, Regression, loglineare Modelle, SVD, Clustering, …: siehe Literatur

8 Histogramm 5 10 15 20 Häufigkeit Attributwerte
Originalwerte: 1, 1, 1, 1, 1, 1, 6, 6, 6, 6, 7, 12, 12, 15, 15, 15, 19, 19, 19, 19, 19 5 10 15 20 Attributwerte Häufigkeit

9 Histogramm (2) Zeigt Häufigkeit, mit der einzelne Werte auftreten
Kompression: Einteilen der Dimension in eine vorgegebene Anzahl Intervalle = “Buckets” Sehr verbreitet in der Praxis I. a. relativ gute Approximation Viele Partitionierungsregeln; Wahl schwierig

10 Partitionierung “Equi-width”
Die Breite aller Buckets ist gleich. 5 10 15 20 Attributwerte Häufigkeit

11 Partitionierung “Equi-depth”
Die “Tiefe” aller Buckets (Summe der Häufigkeiten) ist überall gleich. 5 10 15 20 Attributwerte Häufigkeit Bucket 1 Bucket 2 Bucket 3

12 Probleme mit Histogrammen
Ungeeignet für viele Dimensionen Keine Antwortverfeinerung Genauigkeit der Approximation könnte besser sein  Wavelets

13 Wavelets Signalverarbeitungstechnik zur Reduktion eines d-dimensionalen Signals Vereinfachung des Signals: Ausreisser ausgleichen ohne Gesamtbild zu beeinträchtigen

14 Überblick des Algorithmus
1 Decomposition: Zerlegung des Data Cubes in Wavelet-Koeffizienten 2 Ranking und Thresholding: Nur die wichtigsten Koeffizienten werden behalten. 3 Reconstruction: Aus den wichtigsten k Koeffizienten wird die approximative Antwort rekonstruiert, k je nach verfügbarer Zeit

15 Ausgangsdaten

16 Wavelet-Zerlegung

17 Wavelet-Zerlegung (2)

18 Wavelet-Zerlegung (3) Zerlegung
Mittel St. 1 St. 2 Stufe 3 Hierarchische Stufen gemäss Kompressionsschritten Noch kein Informationsverlust Mehrdimensionaler Fall: Iteratives Vorgehen

19 Query-Beantwortung 2.75 -1.25 0.5 -1 2 S(0) S(1) S(2) S(3) 3 S(4) 5
-1 2 S(0) S(1) S(2) S(3) 3 S(4) 5 S(5) 4 S(6) S(7)

20 Beispiel: Summe(2:5) Summe(2:5)
 Die Koeffizienten weiter hinten haben einen viel kleineren Einfluss auf die Summe und heben sich oft sogar auf.

21 Kompression der Wavelet-Koeffizienten
Zerlegung Ranking der Koeffizienten innerhalb einer Stufe aufgrund Fehlerabschätzung Kleine Koeffizienten weiter hinten können weggelassen werden (Thresholding) ohne Kompression (theoretisch): schnelle approximative Antworten, aber grosses Modell (v. a. bei sparse data)

22 Fehlerabschätzung kombinierter Fehler speziell zur Minimierung des Gesamtfehlers bei einer Aggregationsabfrage ,  positive Konstanten, nicht genauer spezifiziert in [1] und [3]

23 Eigenschaften dieses Algorithmus
Relativ gute Approximation bei praktisch allen Kompressionsraten und Datencharakteristika (dense/sparse) Antwort kann schrittweise verfeinert werden

24 Probleme bei Wavelets Qualität ist stark von der Fehlerabschätzung beim Thresholding abhängig Inkrementelles Update schwierig Nach heutigem Stand der Entwicklung erst Summenabfragen möglich!  Statistische Modellierung

25 Statistische Modellierung
Verteilungsfunktion approximiert Daten zur Berechnung von Aggregaten wird nur noch die Funktion benötigt Parameter der Verteilungsfunktion lieferen eine kompakte Repräsentation

26 Beispiel: Summe der Saläre
a = Alter; s = Salär; N = totale Anzahl Records im Datensatz; P(a,s) = Wahrscheinlichkeitsdichtefunktion von (a, s) In [2] wird die Gauss’sche Verteilungsfunktion für das Modell genommen, unter der Annahme, dass die einzelnen Dimensionen statistisch unabhängig sind.

27 Clustering Zusammenfassen von “benachbarten” Punkten (in bezug auf eine Distanzfunktion) In diesem Algorithmus automatisch durch Divide-and-Conquer-Ansatz Jeder Cluster wird durch eine Verteilungsfunktion approximiert Ausreisser im Cluster werden separat gespeichert

28 Beispiel zum Clustering

29 Modell-Generierung C = Anfängliches Cluster-Modell
while (C nicht genau genug) { Unterteile C dort, wo nicht genau genug*, in neue Cluster } C ist das gewünschte Modell *nicht genauer erläutert, wo und in welcher Dimension aufgeteilt wird

30 Definition der Genauigkeit von statistischen Modellierungen
Abweichung d vom aktuellen Resultat Konfidenz c: in c% aller Fälle ist die Abweichung < d Minimale Anzahl Zellen (s) pro Cluster: nur bei Queries über min. s Zellen muss die Genauigkeit erfüllt sein Maximale Anzahl Ausreisser (o); diese werden separat (exakt) gespeichert

31 Eigenschaften dieses konkreten Algorithmus [2]
Gute, aber keine absolute Sicherheit über Fehler Schnelle Antwort, da die meisten Cluster gar nicht oder vollständig in der Range Query enthalten sind und nicht ausgewertet werden müssen Verfeinerung der Antwort über Ausreisser Nicht erprobt bei grossen Datensätzen/vielen Dimensionen Inkrementelles Update bis zu einem gewissen Grad (Cluster können nicht gemerged werden)

32 Vergleich der vorgestellten Kompressionstechniken

33 Praktische Anwendung Anwendung in der Praxis bisher hauptsächlich auf Histogramme beschränkt Die Papers vergleichen den Algorithmus nur mit Random Sampling (der schlechtesten Methode) und ev. Histogrammen; keine Vergleiche zwischen moderneren Ansätzen verfügbar

34 Literatur [1] J. S. Vitter, Min Wang. Approximate Computation of Multidimensional Aggregates of Sparse Data Using Wavelets [2] J. Shanmugasundaram, U. Fayyad, P. S. Bradley: Compressed Data Cubes for OLAP Aggregate Query Approximation on Continuous Dimensions [3] J. S. Vitter, Min Wang, Bala Iyer. Data Cube Approximation and Histograms via Wavelets [4] D. Barbará, Xintao Wu. Using loglinear models to compress datacubes. Juli 1999. [5] V. Harinarayan, A. Rjaraman, J. Ullman. Implementing Data Cubes Efficiently [6] D. Barbará, M. Sullivan. Quasi-Cubes: A space-efficient way to support approximate multidimensional databases. Februar 1998. [7] D. Barbará, W. DuMouchel, C. Floutsos, P. Haas, J. Hellerstein, Y. Ioannidis, H. V. Jagadish, T. Johnson, R. Ng, V. Poosala, K. A. Ross, K. C. Sevcik. The New Jersey Data Reduction Report


Herunterladen ppt "Kompression von Data Cubes"

Ähnliche Präsentationen


Google-Anzeigen