Kompression von Data Cubes

Kompression von Data Cubes
Seminar “Data Warehousing and Data Mining” Cyrille Artho

Inhalt 1. Motivation/Hintergrund 2. Kompressionsverfahren
a) Histogramme b) Wavelets c) Statistische Modellierung 3. Zusammenfassung

Motivation Platz sparen bei riesigen Datenmengen (bis mehrere TB).
Schnelle (approximative) Beantwortung von Range Queries. Erlaubt Kopien, z. B. auf Laptops.

Range Queries Normalerweise Summe, Durchschnitt oder Count
Marke Normalerweise Summe, Durchschnitt oder Count Für jede Koordinate entsteht für den Wert All ein neuer Punkt Dies rekursiv über alle Dimensionen Auch bei “dünn gesäten” (sparse) Daten sehr viele aggregierte Werte Guinness Kilkenny’s Murphy’s W1 Pub W2 PW Oliver Twist Nelson’s W3 Zeit

Charakteristika von hochdimensionalen Merkmalsräumen

Anforderung an Kompression
kleiner Platzbedarf der komprimierten Daten (Kompression ist oft um Faktor 100 oder mehr) kleiner Qualitätseinbusse bei Kompression, am besten innerhalb einstellbarer und voraussagbarer Grenzen schnelle und direkte Beantwortung der Queries aus komprimierten Daten Abstufung der Qualität bei Anfragebeantwortung möglich effizientes inkrementelles Update des Modells möglich

Kompressionsverfahren
1) Histogramme 2) Wavelets 3) Statistische Modellierung Ausserdem (hier nicht vorgestellt): Random Sampling, Regression, loglineare Modelle, SVD, Clustering, …: siehe Literatur

Histogramm 5 10 15 20 Häufigkeit Attributwerte
Originalwerte: 1, 1, 1, 1, 1, 1, 6, 6, 6, 6, 7, 12, 12, 15, 15, 15, 19, 19, 19, 19, 19 5 10 15 20 Attributwerte Häufigkeit

Histogramm (2) Zeigt Häufigkeit, mit der einzelne Werte auftreten
Kompression: Einteilen der Dimension in eine vorgegebene Anzahl Intervalle = “Buckets” Sehr verbreitet in der Praxis I. a. relativ gute Approximation Viele Partitionierungsregeln; Wahl schwierig

Partitionierung “Equi-width”
Die Breite aller Buckets ist gleich. 5 10 15 20 Attributwerte Häufigkeit

Partitionierung “Equi-depth”
Die “Tiefe” aller Buckets (Summe der Häufigkeiten) ist überall gleich. 5 10 15 20 Attributwerte Häufigkeit Bucket 1 Bucket 2 Bucket 3

Probleme mit Histogrammen
Ungeeignet für viele Dimensionen Keine Antwortverfeinerung Genauigkeit der Approximation könnte besser sein  Wavelets

Wavelets Signalverarbeitungstechnik zur Reduktion eines d-dimensionalen Signals Vereinfachung des Signals: Ausreisser ausgleichen ohne Gesamtbild zu beeinträchtigen

Überblick des Algorithmus
1 Decomposition: Zerlegung des Data Cubes in Wavelet-Koeffizienten 2 Ranking und Thresholding: Nur die wichtigsten Koeffizienten werden behalten. 3 Reconstruction: Aus den wichtigsten k Koeffizienten wird die approximative Antwort rekonstruiert, k je nach verfügbarer Zeit

Ausgangsdaten

Wavelet-Zerlegung

Wavelet-Zerlegung (2)

Wavelet-Zerlegung (3) Zerlegung
Mittel St. 1 St. 2 Stufe 3 Hierarchische Stufen gemäss Kompressionsschritten Noch kein Informationsverlust Mehrdimensionaler Fall: Iteratives Vorgehen

Query-Beantwortung 2.75 -1.25 0.5 -1 2 S(0) S(1) S(2) S(3) 3 S(4) 5
-1 2 S(0) S(1) S(2) S(3) 3 S(4) 5 S(5) 4 S(6) S(7)

Beispiel: Summe(2:5) Summe(2:5)
 Die Koeffizienten weiter hinten haben einen viel kleineren Einfluss auf die Summe und heben sich oft sogar auf.

Kompression der Wavelet-Koeffizienten
Zerlegung Ranking der Koeffizienten innerhalb einer Stufe aufgrund Fehlerabschätzung Kleine Koeffizienten weiter hinten können weggelassen werden (Thresholding) ohne Kompression (theoretisch): schnelle approximative Antworten, aber grosses Modell (v. a. bei sparse data)

Fehlerabschätzung kombinierter Fehler speziell zur Minimierung des Gesamtfehlers bei einer Aggregationsabfrage ,  positive Konstanten, nicht genauer spezifiziert in [1] und [3]

Eigenschaften dieses Algorithmus
Relativ gute Approximation bei praktisch allen Kompressionsraten und Datencharakteristika (dense/sparse) Antwort kann schrittweise verfeinert werden

Probleme bei Wavelets Qualität ist stark von der Fehlerabschätzung beim Thresholding abhängig Inkrementelles Update schwierig Nach heutigem Stand der Entwicklung erst Summenabfragen möglich!  Statistische Modellierung

Statistische Modellierung
Verteilungsfunktion approximiert Daten zur Berechnung von Aggregaten wird nur noch die Funktion benötigt Parameter der Verteilungsfunktion lieferen eine kompakte Repräsentation

Beispiel: Summe der Saläre
a = Alter; s = Salär; N = totale Anzahl Records im Datensatz; P(a,s) = Wahrscheinlichkeitsdichtefunktion von (a, s) In [2] wird die Gauss’sche Verteilungsfunktion für das Modell genommen, unter der Annahme, dass die einzelnen Dimensionen statistisch unabhängig sind.

Clustering Zusammenfassen von “benachbarten” Punkten (in bezug auf eine Distanzfunktion) In diesem Algorithmus automatisch durch Divide-and-Conquer-Ansatz Jeder Cluster wird durch eine Verteilungsfunktion approximiert Ausreisser im Cluster werden separat gespeichert

Beispiel zum Clustering

Modell-Generierung C = Anfängliches Cluster-Modell
while (C nicht genau genug) { Unterteile C dort, wo nicht genau genug*, in neue Cluster } C ist das gewünschte Modell *nicht genauer erläutert, wo und in welcher Dimension aufgeteilt wird

Definition der Genauigkeit von statistischen Modellierungen
Abweichung d vom aktuellen Resultat Konfidenz c: in c% aller Fälle ist die Abweichung < d Minimale Anzahl Zellen (s) pro Cluster: nur bei Queries über min. s Zellen muss die Genauigkeit erfüllt sein Maximale Anzahl Ausreisser (o); diese werden separat (exakt) gespeichert

Eigenschaften dieses konkreten Algorithmus [2]
Gute, aber keine absolute Sicherheit über Fehler Schnelle Antwort, da die meisten Cluster gar nicht oder vollständig in der Range Query enthalten sind und nicht ausgewertet werden müssen Verfeinerung der Antwort über Ausreisser Nicht erprobt bei grossen Datensätzen/vielen Dimensionen Inkrementelles Update bis zu einem gewissen Grad (Cluster können nicht gemerged werden)

Vergleich der vorgestellten Kompressionstechniken

Praktische Anwendung Anwendung in der Praxis bisher hauptsächlich auf Histogramme beschränkt Die Papers vergleichen den Algorithmus nur mit Random Sampling (der schlechtesten Methode) und ev. Histogrammen; keine Vergleiche zwischen moderneren Ansätzen verfügbar

Literatur [1] J. S. Vitter, Min Wang. Approximate Computation of Multidimensional Aggregates of Sparse Data Using Wavelets [2] J. Shanmugasundaram, U. Fayyad, P. S. Bradley: Compressed Data Cubes for OLAP Aggregate Query Approximation on Continuous Dimensions [3] J. S. Vitter, Min Wang, Bala Iyer. Data Cube Approximation and Histograms via Wavelets [4] D. Barbará, Xintao Wu. Using loglinear models to compress datacubes. Juli 1999. [5] V. Harinarayan, A. Rjaraman, J. Ullman. Implementing Data Cubes Efficiently [6] D. Barbará, M. Sullivan. Quasi-Cubes: A space-efficient way to support approximate multidimensional databases. Februar 1998. [7] D. Barbará, W. DuMouchel, C. Floutsos, P. Haas, J. Hellerstein, Y. Ioannidis, H. V. Jagadish, T. Johnson, R. Ng, V. Poosala, K. A. Ross, K. C. Sevcik. The New Jersey Data Reduction Report

Kompression von Data Cubes

Ähnliche Präsentationen

Präsentation zum Thema: "Kompression von Data Cubes"— Präsentation transkript:

Ähnliche Präsentationen

Über Projekt

Feedback

Anmelden

Anmeldung über soziales Netzwerk:

Kompression von Data Cubes

Ähnliche Präsentationen

Präsentation zum Thema: "Kompression von Data Cubes"— Präsentation transkript:

Ähnliche Präsentationen

Über Projekt

Feedback