Seminar Datenbanksysteme - Data Warehousing Approximative Anfrageergebnisse in DWH-Umgebungen durch Wavelet-Kodierung Dipl.-Math. Mazeyar E. Makoui27.1.2004.

Slides:



Advertisements
Ähnliche Präsentationen
Algorithmen und Datenstrukturen
Advertisements

Partitionierungstechniken in Datenbanksystemen
Christian Scheideler SS 2009
Motivation Bisher: Codes mit möglichst kurzer Codelänge.
Polynomial Root Isolation
Schnelle Matrizenoperationen von Christian Büttner
Proof-Planning. Übersicht Einleitung Proof-Planning Bridge-Taktiken Repräsentation des Gegenspiels Planungsalgorithmus Suchen mit Histories.
Data Cubes PG Wissensmangement Seminarphase Hanna Köpcke Lehrstuhl für Künstliche Intelligenz Universität Dortmund.
Indizierung von Graphen durch häufige Subgraphen (2)
Institut für Informatik Abteilung Datenbanken Problemseminar Datacleaning Überblick Datacleaning.
3. Kapitel: Komplexität und Komplexitätsklassen
Kapitel 6. Suchverfahren
Die Beschreibung von Bewegungen
Modelle und Methoden der Linearen und Nichtlinearen Optimierung (Ausgewählte Methoden und Fallstudien) U N I V E R S I T Ä T H A M B U R G November 2012.
Beispiel: Wasserfallmodell als einfaches Phasenmodell
1 Vorlesung Informatik 2 Algorithmen und Datenstrukturen (02 – Funktionenklassen) Prof. Dr. Th. Ottmann.
Vorlesung Informatik 2 Algorithmen und Datenstrukturen (04 – Entwurfsverfahren) Prof. Th. Ottmann.
Vorlesung Informatik 3 Einführung in die Theoretische Informatik (06 – Reduktion endlicher Automaten) Prof. Dr. Th. Ottmann.
Algorithmen und Datenstrukturen
Informatik II, SS 2008 Algorithmen und Datenstrukturen Vorlesung 16 Prof. Dr. Thomas Ottmann Algorithmen & Datenstrukturen, Institut für Informatik Fakultät.
Seminar parallele Programmierung SS 2003
Gleichungen: Grundwissen
Hypothesen testen: Grundidee
Grundlegende Analysen & Zwischendarstellungen
2. Univariate Regressionsanalyse 2.1 Das statische Regressionsmodell
Was sind Histogramme? (1)
Inhalt Einführung Problemstellung / Ziele Definitionen
Beispielrelation Buchbestellungen H = Menge der bedeutenden Ziele = {a, d} Schwelle T = 4 Stichprobe S = {a, b, a, a, a, a} mit s = |S| = 6 N = Anzahl.
Abfragen – Tipps und Tricks Buch S102ff (Informatik I, Oldenbourg-Verlag) Nach einer Vorlage von Dieter Bergmann.
Machine Learning Decision Trees (2).
Daten auswerten Boxplots
Histogramm/empirische Verteilung Verteilungen
Computational Thinking Online Algorithmen [Was ist es wert, die Zukunft zu kennen?] Kurt Mehlhorn Konstantinos Panagiotou.
Black Box Algorithmen Hartmut Klauck Universität Frankfurt SS
Quantum Computing Hartmut Klauck Universität Frankfurt WS 05/
Effiziente Algorithmen
Black Box Algorithmen Hartmut Klauck Universität Frankfurt SS
Effiziente Algorithmen Hartmut Klauck Universität Frankfurt SS
Effiziente Algorithmen
Hartmut Klauck Universität Frankfurt SS
Beweissysteme Hartmut Klauck Universität Frankfurt WS 06/
§3 Allgemeine lineare Gleichungssysteme
SS 2004 Datenbanken 4W Mi 13:30 – 15:00 G 2.30 Vorlesung #5 Relationale Anfragesprachen.
Datenreihen erzeugen –
Datenbanksysteme für hörer anderer Fachrichtungen
Generalisiertes Vektorraummodell (Generalized Vector Space Model, GSVM) Karin Haenelt
Einführung in Datenbankmodellierung und SQL
Aggregatsfunktion SQL = Structured Query Language.
Lösen von quadratischen Ungleichungen
Der Zentralwert.
Automaten, formale Sprachen und Berechenbarkeit II SoSe 2004 Prof. W. Brauer Teil 3: Potenzreihen und kontextfreie Sprachen (Vgl. Buch von A. Salomaa)
Scaffold 29S: Komplexe Zahlen
Structured Query Language
Vorlesung #5 SQL (Teil 2).
Statistik – Regression - Korrelation
Erheben, berechnen und darstellen von Daten
Institut für Kartographie und Geoinformation Prof. Dr. Lutz Plümer Diskrete Mathematik II Foliendesign: Jörg Steinrücken & Tobias Kahn Vorlesung
Technische Informatik I Vorlesung 4: Vereinfachung von Schaltfunktionen Mirco Hilbert Universität Bielefeld Technische Fakultät.
Binärbäume.
Vorstellen und Herleiten der Horner Schemas
Programmiersprachen II Vorbesprechung Klausur Prof. Dr. Reiner Güttler Fachbereich GIS HTW.
07b Mathematik Lösungen ZAP 2007.
09 Mathematik Lösungen ZAP 2007a.
PCA Principal Component Analysis. Gliederung PCA – Warum eigentlich? PCA – Was ist zu tun? Was passiert eigentlich? Anwendungen Zusammenfassung.
Spärliche Kodierung von Videos natürlicher Szenen Vortragender: Christian Fischer.
 Gegenstandsbereich der Testtheorie: Analyse der Charakteristika von Tests:  Güte von Tests.  Struktur von Tests.  Schwierigkeit von Tests.  Gruppenunterschiede.
Multidimensionale Datenbanken
Kompression von Data Cubes
Approximative Queryevaluierung
Vorlesung #5 SQL (Teil 2).
 Präsentation transkript:

Seminar Datenbanksysteme - Data Warehousing Approximative Anfrageergebnisse in DWH-Umgebungen durch Wavelet-Kodierung Dipl.-Math. Mazeyar E. Makoui

Einleitung Exakte Abfragen können zu lange dauern (großes Datenvolumen) Antworten sollen auch möglich sein, wenn Daten teilweise nicht verfügbar sind. (z. B. bei teilweisem nicht Erreichen einzelner DataMarts) Daten sind nicht in geeigneter Form vorhanden (komprimiert, aufwendige Berechnungen) Anfragende/r ist an schnellen, ungefähren Ergebnissen interessiert, wenn er/sie den Datenbestand erkunden will (OLAP), er/sie überprüfen will, ob Anfragen wohlformuliert sind. 2 Weshalb approximative Anfrageergebnisse?

Einleitung (2) Ungefährer Wert mit Vertrauensintervall, Dabei wird eine obere bzw. untere Schranke angegeben. Beispiele: Durchschnittliche Verkäufe von DVD-Playern der Marke Sony in Deutschland im Jahr 2003: / Anzahl von Einbrüchen in der Universität Hannover im Jahre 2001 <= 100 Ergebnisse von Aggregatsfunktionen wie avg, sum und count erfordern nicht immer volle Präzision, sind also ideale Kandi-daten für Approximationen. 3 Was ist überhaupt eine approximative Antwort ?

Standardverfahren zur Approximation 1) Equi-Width-Histogramme Breite aller Buckets sind gleich 2) Equi-Depth-Histogramme Tiefe aller Buckets (Summe der Häufigkeiten) sind überall gleich Probleme bei Standard Histogrammen: ungeeignet für viele Dimensionen, keine Antwortverfeinerung, Genauigkeit der Approximation könnte noch besser sein, verhältnismäßig lange Antwortzeiten für die Abschätzungen. Lösung: Wavelet-Kodierung 4

Definition Wavelets Signalverarbeitungstechnik zur Reduktion eines D-dimensionalen Signals, Idee: „Vereinfachung“ des Signals, indem man „Ausreißer“ ausgleicht, ohne das Gesamtbild zu beeinträchtigen. Zerlegung des Data Cubes in Wavelet-Koeffizienten Decomposition Ranking an Threshholding Reconstruction Nur die wichtigsten Koeffizienten werden berücksichtigt. Aus den wichtigsten k Koeffizienten wird approxima- tive Antwort rekonstruiert, k je nach verfügbarer Zeit. Phasen der Wavelet-Kodierung: 5

1D Decomposition Zusammenfassung zweier Standorte durch Mittelung der beiden Lagerbestände z.B.: (E + F)/2 = (3 + 5)/2 = 4 6

1D Decomposition (2) Decomposition S = [2.75,-1.25,0.5,0,0,-1,-,1,0] Ausgangsdaten A = [2,2,0,2,3,5,4,4] noch kein Informationsverlust, gleiches Datenvolumen wie Ausgangsdaten, 7

Query-Evaluierung 8 Exakte Evaluierung der Anfrage: S'(1) S'(0) S'(2) S'(3) S'(4) S'(5) S'(6) S'(7) Mittel Stufe 1 Stufe 2 Stufe 3 Stufe 4 plus, wenn in linker Hälfte minus, wenn in rechter Hälfte Bsp.: S(3) = S'(0) + S'(1) – S'(2) – S'(5) = (- 1.25) (-1) = 2 S(0) S(1) S(2) S(3)S(4) S(5) S(6)S(7)

Query Evaluierung (2) Beispiel: Summe (2:5) = 4 *S'(0) – 2 *S'(2) + 2 *S'(3) S(0) = S'(0) + S'(1) + S'(2) + S'(4) S(1) = S'(0) + S'(1) + S'(2) - S'(4) S(2) = S'(0) + S'(1) – S'(2) + S'(5) S(3) = S'(0) + S'(1) - S'(2) - S'(5) S(4) = S'(0) - S'(1) + S'(3) + S'(6) S(5) = S'(0) - S'(1) + S'(3) - S'(6) S(6) = S'(0) - S'(1) - S'(3) + S'(7) S(7) = S'(0) - S'(1) - S'(3) - S'(7) Die Koeffizienten „weiter hinten“ haben einen viel kleineren Einfluß auf die Summe und heben sich „oft“ sogar auf. Heuristik: Reduktion der Datenmenge durch Weglassen der hinteren Koeffizienten 9

Alternative Kodierung der Koeffizienten Mit bisheriger Darstellung geht die „Bedeutung“ der Koeffizienten aus der Position hervor. Decompostion S = [2.75,-1.25,0.5,0,0,-1,-,1,0] Alternative Darstellung ohne diese Eigenschaft: S'= {(4,0),(7,0),(5,-1),(1,-1.25),(3,0),(0,2.75),(6,-1),(2,0.5)} (4,0) = (S(4), Wert = 0) S''= {(3,0,0),(3,3,0),(3,1,-1),(1,0,-1.25),(2,1,0),(0,0,2.75),(3,2,-1),(2,0,0.5)} (3,0,0) = (Stufe 3, Position 0, Wert = 0) 10

Komprimierung Bislang kein Informationsverlust, aber auch keine Komprimierung. Komprimierung durch Weglassen weniger „wichtiger“ Koeffizienten, tendenziell die hinteren. Die wegzulassenden Koeffizienten werden so ausgewählt, daß der „Approximative Fehler“ möglichst klein ist. Man kann zeigen, daß die Auswahl der größten Koeffizienten (nach einer Normalisierung) den Durchschnittsfehler für alle Anfragen minimiert. 11

2D Decomposition 1) Standard-Decomposition im Mehrdimensionalen - Eine Dimension nach der Anderen betrachten. - Jede „Zeile entlang der Dimension“ gemäß vorgestellten Verfahrens transformieren. 2) Nicht-Standard-Decomposition im Mehrdimensionalen - Dimensionen werden korreliert betrachtet. - Dafür werden neue Berechnunsgvorschriften benötigt. 12

2D Decomposition (2) Ausgangsarray1. Decomposition1. Neu-Anordnung 2. Decomposition 13

2D Decomposition (3) Decomposition Ausgangsarray Berechnungsvorschrift W:=

2D Decomposition (4) A[0,0] = + W[0,0] + W[0,1] + W[1,1] + W[1,1] - W[0,2] - W[2,2] + W[2,0] = (-1) (-0.5) = (-1) + (-0.5) = Berechnungsvorschrift W:= 2. Decomposition

Repräsentation der Koeffizienten Wie kann man die Koeffizienten abspeichern? Verallgemeinerung des eindimensionalen Falles Größe und Position des Quadrates „Muster“ (vier im zweidimensionalen Fall; Muster/Farbe stehen für die „Art der Verrechnung“) Wert 16

Wavelet-Repräsentationen einer Relation 1) Attribute werden zu Dimensionen, 2) Zahlen werden zu entsprechenden Anzahl an Tupeln, 3) Danach folgt die bekannte Wavelet-Decomposition, wie eben beschrieben. Alter Kontostand Einkommen 17

Query-Processing ● Herkömmliches relationales Query-Processing: ✔ Mengen von Tupeln (Tabellen), ✔ Algebra-Operatoren, die aus (einer oder mehreren) Tabellen neue Tabellen erzeugen. ● Jetzt: ✔ Mengen von Koeffizienten (natürlich nur die wichtigsten), ✔ Gleiche Algebra-Operatoren wie in der rel. Algebra und Aggregationen, ✔ Algebra-Operatoren erzeugen aus einer bzw. mehrerer Menge(n) von Koeffizienten neue Menge. 18

Query-Processing (2) Illustration am Beispiel des Select-Operators: D1 D2 + - D1 D2 + -

Tests Umgebung: Sun Ultra-2/200 MHz, 512 MB RAM, Solaris Anfrage: Select-Join-Sum, Dauer der exakten Anfrage 3.6s, Anfrage paßte komplett in den Hauptspeicher 20

Literatur Kaushik Chakrabarti et al. Approximate Query Processing Using Wavelets Proceedings of the 26 th VLDB Conference, Cairo, Egypt, J.S. Vitter, Min Wang. Multidimensional Aggregates of Sparse Data Using Wavelets Proceedings of the 1999 ACM SIGMOD Data Warehousing and Mining Vorlesung SS 2002 Prof. Dr.-Ing. Klemens Böhm Otto-von-Guericke-Universität Magdeburg 21

Questions? 22