Kompression von Data Cubes

Slides:



Advertisements
Ähnliche Präsentationen
Algorithmentheorie 08 – Dynamische Programmierung (1)
Advertisements

Christian Scheideler SS 2009
Definition [1]: Sei S eine endliche Menge und sei p eine Abbildung von S in die positiven reellen Zahlen Für einen Teilmenge ES von S sei p definiert.
Der k-d-Baum Richard Göbel.
Polynomial Root Isolation
Schnelle Matrizenoperationen von Christian Büttner
Data Cubes PG Wissensmangement Seminarphase Hanna Köpcke Lehrstuhl für Künstliche Intelligenz Universität Dortmund.
TECHNISCHE UNIVERSITÄT DARMSTADT Naive Bayes for Ranking
Berg-Schlosser : VL : Vergleichende Politikwissenschaft Vergleichende Methoden Ausgangsbasis : Fälle: begrenzte Auswahl auf der Makro-Ebene, abhängig.
3. Kapitel: Komplexität und Komplexitätsklassen
Modelle und Methoden der Linearen und Nichtlinearen Optimierung (Ausgewählte Methoden und Fallstudien) U N I V E R S I T Ä T H A M B U R G November 2012.
Heuristiken und Kontexteinflüsse
1 Vorlesung Informatik 2 Algorithmen und Datenstrukturen (02 – Funktionenklassen) Prof. Dr. Th. Ottmann.
Vorlesung Informatik 2 Algorithmen und Datenstrukturen (02 – Funktionenklassen) Tobias Lauer.
1 Vorlesung Informatik 2 Algorithmen und Datenstrukturen (03 – Verschiedene Algorithmen für dasselbe Problem) Prof. Dr. Th. Ottmann.
Vorlesung Informatik 2 Algorithmen und Datenstrukturen Halbzeit: Was haben wir bisher gelernt? Prof. Th. Ottmann.
Vorlesung Informatik 2 Algorithmen und Datenstrukturen (17 – Bäume: Grundlagen und natürliche Suchbäume) Prof. Th. Ottmann.
1 Vorlesung Informatik 2 Algorithmen und Datenstrukturen (03 – Verschiedene Algorithmen für dasselbe Problem) Prof. Dr. Th. Ottmann.
Geometrisches Divide and Conquer
Demoprogramm: Clustering Eine graphische Demonstration verschiedener Clusteringalgorithmen anhand des Clusterings von Punkten im zweidimensionalen Raum.
Globaler Ansatz Hough-Transformation
Was sind Histogramme? (1)
Inhalt Einführung Problemstellung / Ziele Definitionen
Beispielrelation Buchbestellungen H = Menge der bedeutenden Ziele = {a, d} Schwelle T = 4 Stichprobe S = {a, b, a, a, a, a} mit s = |S| = 6 N = Anzahl.
Seminar: Informationstechnik in der Medizin Universität Dortmund Skin Detection Fakultät für Elektrotechnik und Informationstechnik Lehrstuhl für Kommunikationstechnik.
Christian Schulz, Marc Thielbeer, Sebastian Boldt
Ausgleichungsrechnung II
Minh Bui 14. März 2013 Mobile Visualization in SenseDroid Diplomarbeit Minh Bui, # 1 of 16 Aufgabensteller: Prof. Dr. Andreas Butz Betreuer:
Computational Thinking Online Algorithmen [Was ist es wert, die Zukunft zu kennen?] Kurt Mehlhorn Konstantinos Panagiotou.
Aufgabenzettel V Statistik I
Black Box Algorithmen Hartmut Klauck Universität Frankfurt SS
Black Box Algorithmen Hartmut Klauck Universität Frankfurt SS
Quantum Computing Hartmut Klauck Universität Frankfurt WS 05/ /23.1.
Effiziente Algorithmen Hartmut Klauck Universität Frankfurt SS
Hartmut Klauck Universität Frankfurt SS
Polynome und schnelle Fourier-Transformation
Parallel Matrix Multiplication
Ergebnispräsentation Steffen Ciupke Jörg Hipp
Institut für Wirtschaftsinformatik – Software Engineering, JKU Linz 1 Algorithmen und Datenstrukturen SS 2005 Mag.Th. Hilpold u. Dr. A.Stritzinger Institut.
… oder wie finde ich den Weg
Strategie der Modellbildung
Integration oberflächenbestimmender Objekte ins DGM Seminar GIS IV SS
Institut für Kartographie und Geoinformation Prof. Dr. Lutz Plümer Geoinformation III Vorlesung 1 WS 2001/02 Punkt-in-Landkarte I (Streifenkarte)
Statistik – Regression - Korrelation
Analyse der Laufzeit von Algorithmen
Die Binomialverteilung
Niko Zenker1 Besondere Aspekte in Multimedia-Datenbanken Methoden zur iterativen Anfrageverfeinerung (Relevanz Feedback)
Seminar Datenbanksysteme - Data Warehousing Approximative Anfrageergebnisse in DWH-Umgebungen durch Wavelet-Kodierung Dipl.-Math. Mazeyar E. Makoui
c-means clustering (FCM)
1 StatiX: Making XML Count J.Freire, J.R.Haritsa, M.Ramanath, P.Roy, J.Siméon: StatiX: Making XML Count ACM SIGMOD, June 2002 Ann Früchtl
CL Tree MW 31.1 Business Intelligence Wintersemester 2015 / 2016 Stanislav Prokupetz.
PCA Principal Component Analysis. Gliederung PCA – Warum eigentlich? PCA – Was ist zu tun? Was passiert eigentlich? Anwendungen Zusammenfassung.
Spärliche Kodierung von Videos natürlicher Szenen Vortragender: Christian Fischer.
 Gegenstandsbereich der Testtheorie: Analyse der Charakteristika von Tests:  Güte von Tests.  Struktur von Tests.  Schwierigkeit von Tests.  Gruppenunterschiede.
Tutorial Messtechnik - Spektralanalyse, Signaltheorie -
Jan Dovermann Uniklinik RWTH Aachen University Institut für Medizinische Informatik Modellierung und Entwicklung eines generischen Tools zum Export von.
Exkurs: Chi-quadrat und Modellgüte 1. ist ein Distanzmaß, welches die Distanz zwischen Modellvorhersage und Daten misst.  Je kleiner desto besser ist.
Identifying the effects of gendered language on economic behavior
Multidimensionale Datenbanken
Satellitengeodäsie Kugelfunktionen Torsten Mayer-Gürr
Ausgleich nach der Methode der kleinsten Quadrate
7.2 Theoretische Kennwerte
Approximative Queryevaluierung
Generierung von Flächenrepräsentationen aus Punktdaten
Vorlesung AVL-Bäume/Algorithmen-
Vorlesung AVL-Bäume/Algorithmen-
Indexierung Oracle: indexes Indexierung.
Kapitel 2: Testtheorie / Testmodelle
ReduSoft Ltd. Kurzbeschreibungen zu einigen Modulen, die im Programm MathProf 5.0 unter dem Themenbereich Algebra implementiert sind. Matrizen.
ReduSoft Ltd. Kurzbeschreibungen zu einigen Modulen, die im Programm MathProf 5.0 unter dem Themenbereich Algebra implementiert sind. Matrizen.
 Präsentation transkript:

Kompression von Data Cubes Seminar “Data Warehousing and Data Mining” Cyrille Artho 9.12.1999

Inhalt 1. Motivation/Hintergrund 2. Kompressionsverfahren a) Histogramme b) Wavelets c) Statistische Modellierung 3. Zusammenfassung

Motivation Platz sparen bei riesigen Datenmengen (bis mehrere TB). Schnelle (approximative) Beantwortung von Range Queries. Erlaubt Kopien, z. B. auf Laptops.

Range Queries Normalerweise Summe, Durchschnitt oder Count Marke Normalerweise Summe, Durchschnitt oder Count Für jede Koordinate entsteht für den Wert All ein neuer Punkt Dies rekursiv über alle Dimensionen Auch bei “dünn gesäten” (sparse) Daten sehr viele aggregierte Werte Guinness Kilkenny’s Murphy’s W1 Pub W2 PW Oliver Twist Nelson’s W3 Zeit

Charakteristika von hochdimensionalen Merkmalsräumen

Anforderung an Kompression kleiner Platzbedarf der komprimierten Daten (Kompression ist oft um Faktor 100 oder mehr) kleiner Qualitätseinbusse bei Kompression, am besten innerhalb einstellbarer und voraussagbarer Grenzen schnelle und direkte Beantwortung der Queries aus komprimierten Daten Abstufung der Qualität bei Anfragebeantwortung möglich effizientes inkrementelles Update des Modells möglich

Kompressionsverfahren 1) Histogramme 2) Wavelets 3) Statistische Modellierung Ausserdem (hier nicht vorgestellt): Random Sampling, Regression, loglineare Modelle, SVD, Clustering, …: siehe Literatur

Histogramm 5 10 15 20 Häufigkeit Attributwerte Originalwerte: 1, 1, 1, 1, 1, 1, 6, 6, 6, 6, 7, 12, 12, 15, 15, 15, 19, 19, 19, 19, 19 5 10 15 20 Attributwerte Häufigkeit

Histogramm (2) Zeigt Häufigkeit, mit der einzelne Werte auftreten Kompression: Einteilen der Dimension in eine vorgegebene Anzahl Intervalle = “Buckets” Sehr verbreitet in der Praxis I. a. relativ gute Approximation Viele Partitionierungsregeln; Wahl schwierig

Partitionierung “Equi-width” Die Breite aller Buckets ist gleich. 5 10 15 20 Attributwerte Häufigkeit

Partitionierung “Equi-depth” Die “Tiefe” aller Buckets (Summe der Häufigkeiten) ist überall gleich. 5 10 15 20 Attributwerte Häufigkeit Bucket 1 Bucket 2 Bucket 3

Probleme mit Histogrammen Ungeeignet für viele Dimensionen Keine Antwortverfeinerung Genauigkeit der Approximation könnte besser sein  Wavelets

Wavelets Signalverarbeitungstechnik zur Reduktion eines d-dimensionalen Signals Vereinfachung des Signals: Ausreisser ausgleichen ohne Gesamtbild zu beeinträchtigen

Überblick des Algorithmus 1 Decomposition: Zerlegung des Data Cubes in Wavelet-Koeffizienten 2 Ranking und Thresholding: Nur die wichtigsten Koeffizienten werden behalten. 3 Reconstruction: Aus den wichtigsten k Koeffizienten wird die approximative Antwort rekonstruiert, k je nach verfügbarer Zeit

Ausgangsdaten

Wavelet-Zerlegung

Wavelet-Zerlegung (2)

Wavelet-Zerlegung (3) Zerlegung Mittel St. 1 St. 2 Stufe 3 Hierarchische Stufen gemäss Kompressionsschritten Noch kein Informationsverlust Mehrdimensionaler Fall: Iteratives Vorgehen

Query-Beantwortung 2.75 -1.25 0.5 -1 2 S(0) S(1) S(2) S(3) 3 S(4) 5 -1 2 S(0) S(1) S(2) S(3) 3 S(4) 5 S(5) 4 S(6) S(7)

Beispiel: Summe(2:5) Summe(2:5)  Die Koeffizienten weiter hinten haben einen viel kleineren Einfluss auf die Summe und heben sich oft sogar auf.

Kompression der Wavelet-Koeffizienten Zerlegung Ranking der Koeffizienten innerhalb einer Stufe aufgrund Fehlerabschätzung Kleine Koeffizienten weiter hinten können weggelassen werden (Thresholding) ohne Kompression (theoretisch): schnelle approximative Antworten, aber grosses Modell (v. a. bei sparse data)

Fehlerabschätzung kombinierter Fehler speziell zur Minimierung des Gesamtfehlers bei einer Aggregationsabfrage ,  positive Konstanten, nicht genauer spezifiziert in [1] und [3]

Eigenschaften dieses Algorithmus Relativ gute Approximation bei praktisch allen Kompressionsraten und Datencharakteristika (dense/sparse) Antwort kann schrittweise verfeinert werden

Probleme bei Wavelets Qualität ist stark von der Fehlerabschätzung beim Thresholding abhängig Inkrementelles Update schwierig Nach heutigem Stand der Entwicklung erst Summenabfragen möglich!  Statistische Modellierung

Statistische Modellierung Verteilungsfunktion approximiert Daten zur Berechnung von Aggregaten wird nur noch die Funktion benötigt Parameter der Verteilungsfunktion lieferen eine kompakte Repräsentation

Beispiel: Summe der Saläre a = Alter; s = Salär; N = totale Anzahl Records im Datensatz; P(a,s) = Wahrscheinlichkeitsdichtefunktion von (a, s) In [2] wird die Gauss’sche Verteilungsfunktion für das Modell genommen, unter der Annahme, dass die einzelnen Dimensionen statistisch unabhängig sind.

Clustering Zusammenfassen von “benachbarten” Punkten (in bezug auf eine Distanzfunktion) In diesem Algorithmus automatisch durch Divide-and-Conquer-Ansatz Jeder Cluster wird durch eine Verteilungsfunktion approximiert Ausreisser im Cluster werden separat gespeichert

Beispiel zum Clustering

Modell-Generierung C = Anfängliches Cluster-Modell while (C nicht genau genug) { Unterteile C dort, wo nicht genau genug*, in neue Cluster } C ist das gewünschte Modell *nicht genauer erläutert, wo und in welcher Dimension aufgeteilt wird

Definition der Genauigkeit von statistischen Modellierungen Abweichung d vom aktuellen Resultat Konfidenz c: in c% aller Fälle ist die Abweichung < d Minimale Anzahl Zellen (s) pro Cluster: nur bei Queries über min. s Zellen muss die Genauigkeit erfüllt sein Maximale Anzahl Ausreisser (o); diese werden separat (exakt) gespeichert

Eigenschaften dieses konkreten Algorithmus [2] Gute, aber keine absolute Sicherheit über Fehler Schnelle Antwort, da die meisten Cluster gar nicht oder vollständig in der Range Query enthalten sind und nicht ausgewertet werden müssen Verfeinerung der Antwort über Ausreisser Nicht erprobt bei grossen Datensätzen/vielen Dimensionen Inkrementelles Update bis zu einem gewissen Grad (Cluster können nicht gemerged werden)

Vergleich der vorgestellten Kompressionstechniken

Praktische Anwendung Anwendung in der Praxis bisher hauptsächlich auf Histogramme beschränkt Die Papers vergleichen den Algorithmus nur mit Random Sampling (der schlechtesten Methode) und ev. Histogrammen; keine Vergleiche zwischen moderneren Ansätzen verfügbar

Literatur [1] J. S. Vitter, Min Wang. Approximate Computation of Multidimensional Aggregates of Sparse Data Using Wavelets. 1999. [2] J. Shanmugasundaram, U. Fayyad, P. S. Bradley: Compressed Data Cubes for OLAP Aggregate Query Approximation on Continuous Dimensions. 1999. [3] J. S. Vitter, Min Wang, Bala Iyer. Data Cube Approximation and Histograms via Wavelets. 1998. [4] D. Barbará, Xintao Wu. Using loglinear models to compress datacubes. Juli 1999. [5] V. Harinarayan, A. Rjaraman, J. Ullman. Implementing Data Cubes Efficiently. 1996. [6] D. Barbará, M. Sullivan. Quasi-Cubes: A space-efficient way to support approximate multidimensional databases. Februar 1998. [7] D. Barbará, W. DuMouchel, C. Floutsos, P. Haas, J. Hellerstein, Y. Ioannidis, H. V. Jagadish, T. Johnson, R. Ng, V. Poosala, K. A. Ross, K. C. Sevcik. The New Jersey Data Reduction Report. 1997.