Data Cube Exploration Seminar Data Warehousing und Mining

Data Cube Exploration Seminar Data Warehousing und Mining
Stavros Antifakos 25.Nov.1999 Discovery-driven Exploration of OLAP Data Cubes Explaining differences in multidimensional aggregates

Suche im Datacube höhere Aggregationsstufe Time Jan Feb Mar Mai …
Product höhere Aggregationsstufe Time Jan Feb Mar Mai … Sales 0% 2% 3% 4% Time Drill-down entlang Dimension Region Sales Time Region Jan Feb Mar Mai … North -2 2 3 East -1 South 4 1 West Region Mit Hierarchie Region->Market

Suche im Datacube (Forts.)
Product Sales Time Region Jan Feb Mar May … North -2 2 3 East -1 South 4 1 West Time Eine Hierarchiestufe runter und Selection auf North Region Mit Hierarchie Region->Market Sales Time Market Jan Feb Mar May … Schaffhausen -3 1 -1 Basel 3 4

Begriff des Subcubes Der Subcube einer aggregierten Zelle besteht aus der Menge der detailierten Zellen die an ihr beteiligt sind. Product Time Jan Feb Mar Mai … Sales 0% 2% 3% 4% Time Jan Region

Situation Heute Werkzeuge: Roll-up, Drill-down Selection
typisches Szenario: 5-7 Dimensionen 3 Hierarchiestufen mehr als eine Million Datenzellen => Diese Methoden basieren zu fest auf der Intuition des Benutzers. Der Analyst wird zu viele interessante Zellen übersehen.

Neue Methoden offline Tool:
Sucht im voraus “interessante” Ausnahmezellen, und fasst die auf verschiedenen Aggregationsstufen zusammen. online Tool: Diff Operator, liefert dem Benutzer eine Erklärung für die Differrenz von zwei aggregierten Feldern.

offline Tool-Beispiel
Bsp: 3 Dimensionaler Datacube (Product, Market, Time) mit der Hierarchie: Region->Market 2% 0% -8% -3% 4% Aggregation über alle Produkte und alle Regionen (bzw. Märkte).

offline Tool Der “Degree of Surprise” wird zusammengesetzt aus:
SelfExp: Representiert den Überaschungsgrad, im Vergleich zu anderen Zellen auf gleichem Aggregationsniveau. InExp: Representiert den maximalen Überaschungsgrad in der nächst tieferen Ebene. (Ein Drill-down) PathExp: Representiert den Überaschungsgrad für alle möglichen Drill-down Pfäde unter dieser Zelle. InExp PathExp

offline Tool-Beispiel (Forts.)
Drill-down entlang der Dimension Produkt. Avg. Sales Month Product Jan Feb Mar Apr May Jun Jul Aug Sep Oct Nov Dec Birch-B 10 -7 3 -4 15 -12 -3 1 42 -14 -10 Cherry-S 4 5 -9 -5 Cola -1 2 9 -11 -8 -2 7 Cream-S 6 8 Diet-B -6 Diet-C Diet-S Grape-S Jolt-C

offline Tool-Beispiel (Forts.)
Drill-down entlang der Dimension Market für das Produkt “Diet-Soda”

Anforderungen an die Definition von Ausnahmezellen
Es sollen nicht einfach nur die Extremwerte herausgefiltert werden, sondern es soll auch mit den anderen Datensätzen verglichen werden. (Folie 9, Birch-B: Oct, Nov, Dec) Der Benutzer sollte die Auswahl von Ausnahmezellen nachvollziehen können. Die Prozedur zur Findung von Ausnahmezellen sollte effizient sein. Aggregierte Ausnahmezellen Auf aggregiertem Niveau muss so markiert werden dass der Benutzer zu den meisten Ausnahmezellen geführt wird.

Das Modell – Welche Zellen werden markiert?
Die Zellen auf dem detailiertesten Niveau: Die einzelnen Zellen werden aus allen Aggregaten in denen sie vorkommen geschätzt. Wir wollen die Zelle (Cherry-S, Feb) mit dem Wert 1% schätzen. Dazu brauchen wir alle Werte der Aggregate in denen unsere Zelle vorkommt. Achsen: Time, Product Ursprung Time Jan Feb Mar … Sales 2% Product Birch-B Chery-S Cola … Sales 4% Product Sales 6% Schätzung: 4% Liegt nahe genug bei 1% => nicht markieren Time Market

Das Modell (Forts.) Schätzung: 5.5%
Für die Zelle (Birch-B, Oct) mit dem Wert 42%: Product Time … Sep Oct Sales 0% Product Birch-B Cherry-s … Sales 5% Time Market Sales 6% Schätzung: 5.5% Grosse Differenz zu 42% => Zelle markieren Die Zellen auf den aggregierten Niveaus: Der SelfExp Wert für die aggregierten Zellen wird wie bei den detailierten Zellen, aus den höheren Aggregationsstufen berechnet. Bei diesen Zellen kommen noch die InExp, und die PathExp Werte hinzu. Sie werden aus den jeweils unter ihnen liegenden Stufen berechnet.

Berechnungsmethode für die geschätzten Werte
Gegeben: Detailierten Zellen im ganzen Cube aber keine Aggregate Phase 1: Während der Berechnung des Cubes werden die Schätzwerte gleich mitberechnet. Phase 2: Berechnung der Differenzen zwischen den wirklichen Werten und den geschätzten Werten. Markierung der jeweiligen Zellen. Phase 3: Zusammenfassen der detailierten Ausnahmezellen auf höheren Aggregationsniveaus. Komplexität: Anzahl Terme bei der Schätzwert Berechnung: Mit Hilfe von Rekursion: linear in Anzahl der Datenzellen

offline Tool - Schlussfolgerungen
Vorteile: Suche nach Ausnahmezellen kann wesentlich systematischer erfolgen als bisher. Nachteile: Berechnung dauert so lange wie die ganze Berechnung des Datacubes. Änderungen in den Daten werden erst nach einer Neuberechnung aufgenommen.

Von quantitativer zu qualitativer Datenanalyse
Die bis jetzt besprochene Methode hilft dem Benutzer bei der manuellen Exploration des Datacubes, aber er muss sich immer noch mit vielen Drill-down und Roll-up Operationen in der riesiegen Datenmenge zurechtfinden. Ein Tool das einem die Arbeit des navigierens bis zu einem gewissen Grad abnimmt, ist der DIFF Operator. Man muss viel weniger Drill-down’s und Roll-up’s durchführen.

Motivation für den DIFF Operator
2826.9 7947.0 Geography Platform Zelle 1 Zelle 2 Time 2826.9 7947.0 Erklärung für die Differenz von über 5000? Prod_Category

Detail-N Ansatz Wähle N Zellpaare aus der detailiertesten Ebene des Datacubes. Sie sollen am Aggregat beteiligt sein und eine möglichst grosse Differenz bilden. Detail-N Antwort: (erklärt eine Differenz von knapp 1000)

Antwort des DIFF Operators
Bessere Antwort: (erklärt eine Differenz von über 4500) Eine Gruppe von Zellen die in den jeweiligen Subcubes der ausgewählten Zellen sind, und dessen Inhalte ein ähnliches Verhältnis zu einander aufweisen, werden zusammengefasst. Time

Zusammenfassen von Werten mit ähnlichem Verhältnis
Eine solche Gruppe von zusammengefassten Werten: Tradeoff zwischen mehr Zusammenfassen (mehr Erklaeren) und groesserem Fehler.

Tradeoff zwischen Menge und Genauigkeit
Mehr Paare (grössere Differenz)  grösserer Fehler Konsequenz: Glaubwürdigkeit der Lösung ist gefährdet, wenn man zuviele Paare zusammen nimmt, deren Verhältnis nicht sehr ähnlich ist.

Das Modell Zelle 1 Zelle 2 + Antwort =>
Wir suchen eine Antwort so dass ein Benutzer der den Subcube von Zelle 1 kennt und die Antwort besitzt, mit einem möglichst kleinen Fehler den Subcube von Zelle 2 berechnen könnte. Zelle 1 Zelle 2 Somit wäre die Antwort die best mögliche. + Antwort =>

Greedy Algorithmus zur bestimmung der besten Antwort
Zelle 1 Zelle 2 Vertical Apps 1993 App A … App B App C App D Vertical Apps 1992 App A … App B App C App D Alle möglichen Aggregationen Vertical Apps Geography Platform Year_1992 Year_1993 (All)- (All) … App A Unix M.

Greedy Algorithmus Gehe durch die neue Tabelle und benutze eine Kostenfunktion zur Bestimmung der besten Einträge. 2 Komplexität: O(Anzahl Einträge in neuer Tabelle ) Mit Hilfe von Dynamischer Programmierung kann man die Komplexität linear halten.

Aufbau eines Prototypen
Excel Frontend CLIENT SERVER Aufruf N-Zeilen Antwort Query Stored Procedure OLAP Server

Implementation und Experimente
Der Diff Operator wurde auf einem DB2/OLAP Server mit einem Excel Front-end implementiert. Das Design ermöglicht eine verschiebung des grössten Rechenaufwands in den OLAP server hinein. Anhand von Tests mit industriellen OLAP Benchmarks konnte gezeigt werden, dass auch wenn in den Subcubes der ausgewählten Zellen bis zu einer viertel Million Einträgen existieren, der Diff Operator seine Antwort innerhalb kürzester Zeit liefern kann.

Schlussfolgerungen einfache Implementation in vorhandenen Produkten
liefert anschauliche Erklärung für die beobachteten Phenomäne Vorlage für weitere solche Operatoren

Literatur Sunita Sarawagi, Rakesh Agrawal, Nimrod Megiddo, Discovery-driven Exploration of OLAP Data Cubes, Proc. of the Sixth Int'l Conference on Extending Database Technology (EDBT), Valencia, Spain, March 1998. Sunita Sarawagi, Explaining Differences in Multidimensional Aggregates, Proc. of the 25th Int’l Conference on Very Large Databases, 1999.

Data Cube Exploration Seminar Data Warehousing und Mining

Ähnliche Präsentationen

Präsentation zum Thema: "Data Cube Exploration Seminar Data Warehousing und Mining"— Präsentation transkript:

Ähnliche Präsentationen

Über Projekt

Feedback

Anmelden

Anmeldung über soziales Netzwerk:

Data Cube Exploration Seminar Data Warehousing und Mining

Ähnliche Präsentationen

Präsentation zum Thema: "Data Cube Exploration Seminar Data Warehousing und Mining"— Präsentation transkript:

Ähnliche Präsentationen

Über Projekt

Feedback