Data Cube Exploration Seminar Data Warehousing und Mining

Slides:

Advertisements

Ähnliche Präsentationen

Algorithmen und Datenstrukturen

Advertisements

Informatik II: Algorithmen und Datenstrukturen SS 2013

Data Cubes PG Wissensmangement Seminarphase Hanna Köpcke Lehrstuhl für Künstliche Intelligenz Universität Dortmund.

Suche in Texten (Stringsuche )

Gliederung des Vortrages: Gliederung des MilGeo-Dienstes Unterstellter Bereich des StOffzMilGeoLw dazu: Standorte Zuständigkeiten des StOffzMilGeoLw.

FH-Hof Optimierungsverfahren für kombinatorische Probleme Richard Göbel.

Dynamische Programmierung (2) Matrixkettenprodukt

WS Algorithmentheorie 08 – Dynamische Programmierung (2) Matrixkettenprodukt Prof. Dr. Th. Ottmann.

Vorlesung Informatik 2 Algorithmen und Datenstrukturen (27 – Kürzeste Wege) Prof. Th. Ottmann.

Konfidenzintervalle für Parameter

Mehrfachregressionen

Deklaratives Debugging (Seminar Software Engineering) Tim Sender Deklaratives Debugging Seminar Software Engineering.

Grundlegende Analysen & Zwischendarstellungen

Einführung Dateisystem <-> Datenbanksystem

Was sind Histogramme? (1)

Quaternionen Eugenia Schwamberger.

Beispielrelation Buchbestellungen H = Menge der bedeutenden Ziele = {a, d} Schwelle T = 4 Stichprobe S = {a, b, a, a, a, a} mit s = |S| = 6 N = Anzahl.

Intelligentes Crawling im WWW mit Hilfe intuitiver Suchbedingungen

Seminar: Informationstechnik in der Medizin Universität Dortmund Skin Detection Fakultät für Elektrotechnik und Informationstechnik Lehrstuhl für Kommunikationstechnik.

Sistema GeoDAT, S.L. GeoBIS, GeoEIS, GIS-Komponente … 2005.

EXCEL PROFESSIONAL KURS

Eine Einführung in OLAP (Online Analytical Processing)

Mathematik STATISTIK Viktoria Kozdron, 5AK VBS Augarten.

Analytisches CRM Phonnet Gruppe 1 (Loher, Meier, Rehhorn, Piasini)

Erstellen einer Webseitenstatistik mithilfe eines OLAP-Servers

Erstellen einer Webseitenstatistik mithilfe eines OLAP-Servers

Problemstellung Heterogene DV-Strukturen Mangelnde Kapazität in der EDV-Abteilung Historische Daten nicht verfügbar Analysen belasten die vorhandene Infrastruktur.

Effiziente Algorithmen

Effiziente Algorithmen

Hartmut Klauck Universität Frankfurt SS

Kapitel 10 Multikollinearität

… oder wie finde ich den Weg

Datenreihen erzeugen –

Projekt Sensor: Tools for Environmental, Social and Economic Effects of Multifunctional Land Use in European Regions Plattform Eisenwurzen.

Lieferantenkatalogmanagement

00:13 Matthias Ansorg FH Gießen-Friedberg1 / 24 Multidimensionale Datenstrukturen - semantische und logische Modellierung Teilvortrag: logische Modellierung.

Analytisches CRM Phonnet Gruppe 1 (Loher, Meier, Rehhorn, Piasini)

Informatik Datenstruktur Graph 3.3 Durchlaufen von Graphen

Musterlösung zum Arbeitsblatt Nr. 1

Statistik – Regression - Korrelation

Vom graphischen Differenzieren

Einführung Dateisystem <-> Datenbanksystem

WS 2004/2005 Datenbanken II - 5W Mi 17:00 – 18:30 G 3.18 Vorlesung #10 RDBMS Erweiterungen.

Kompetenzcheck Von Oliver Richard ( ). Hausbau (Zahlen) Hausbau ZeitEinnahmeAusgabenGewinn Jan€ 4.000,00€ ,00-€ 6.000,00 Feb€ 4.000,00 € 0,00.

Der A*-Algorithmus.

Institut für Informationssysteme Technische Universität Braunschweig Institut für Informationssysteme Technische Universität Braunschweig Verdrängung von.

Seminar Datenbanksysteme - Data Warehousing Approximative Anfrageergebnisse in DWH-Umgebungen durch Wavelet-Kodierung Dipl.-Math. Mazeyar E. Makoui

TIXIZUG Optimierungsprojekt 2013 Einführung iTIXI Dispo-Software Historie VersionDatumAuthorStatusKommentar Martin JonasseIn ArbeitInitial-Dokument.

1 StatiX: Making XML Count J.Freire, J.R.Haritsa, M.Ramanath, P.Roy, J.Siméon: StatiX: Making XML Count ACM SIGMOD, June 2002 Ann Früchtl

 Gegenstandsbereich der Testtheorie: Analyse der Charakteristika von Tests:  Güte von Tests.  Struktur von Tests.  Schwierigkeit von Tests.  Gruppenunterschiede.

Prognose von Zeitreihen Hans Nübel Hans Nübel Prognose von Zeitreihen Aufbau 1.Motivation 2.Holt-Winters-Verfahren 3.Prognose.

Exkurs: Chi-quadrat und Modellgüte 1. ist ein Distanzmaß, welches die Distanz zwischen Modellvorhersage und Daten misst.  Je kleiner desto besser ist.

Sitzung des Ausschusses für Kultur, Familie, Soziales und Senioren Stadt Korschenbroich am 21. April 2015 Referenten für das Jobcenter Rhein-Kreis Neuss:

SQLSaturday #555 Munich 2016 Scoped assignments – Fluch oder Segen? Beispiele aus der Praxis...

Zähler (total) Jan Nov Feb Mrz Apr Mai Jun Jul Aug Sep

Cube Maintenance Under Dimension Updates

<Name der Arbeitsgruppe>

Multidimensionale Datenbanken

HCS Übung 3 Von: Patrick Denk Oleg Arenz

Kompression von Data Cubes

Data Warehousing für TPC-D Daten

[Produktname] Marketingplan

Arbeitsschritte am Beispiel Klimadiagramm

Sichtbar – Mit den Augen wahrnehmbar.

Einzelprojekt Berichte Copyright 2013 ff.

Einzelprojekt Berichte Copyright 2013 ff.

3. Die Datenstruktur Graph 3.3 Durchlaufen von Graphen

TITEL DES PRODUKTLEITPLANS

Microsoft Excel S-Verweis Excel: SVerweis.

Präsentation transkript:

Data Cube Exploration Seminar Data Warehousing und Mining Stavros Antifakos 25.Nov.1999 Discovery-driven Exploration of OLAP Data Cubes Explaining differences in multidimensional aggregates

Suche im Datacube höhere Aggregationsstufe Time Jan Feb Mar Mai … Product höhere Aggregationsstufe Time Jan Feb Mar Mai … Sales 0% 2% 3% 4% Time Drill-down entlang Dimension Region Sales Time Region Jan Feb Mar Mai … North -2 2 3 East -1 South 4 1 West Region Mit Hierarchie Region->Market

Suche im Datacube (Forts.) Product Sales Time Region Jan Feb Mar May … North -2 2 3 East -1 South 4 1 West Time Eine Hierarchiestufe runter und Selection auf North Region Mit Hierarchie Region->Market Sales Time Market Jan Feb Mar May … Schaffhausen -3 1 -1 Basel 3 4

Begriff des Subcubes Der Subcube einer aggregierten Zelle besteht aus der Menge der detailierten Zellen die an ihr beteiligt sind. Product Time Jan Feb Mar Mai … Sales 0% 2% 3% 4% Time Jan Region

Situation Heute Werkzeuge: Roll-up, Drill-down Selection typisches Szenario: 5-7 Dimensionen 3 Hierarchiestufen mehr als eine Million Datenzellen => Diese Methoden basieren zu fest auf der Intuition des Benutzers. Der Analyst wird zu viele interessante Zellen übersehen.

Neue Methoden offline Tool: Sucht im voraus “interessante” Ausnahmezellen, und fasst die auf verschiedenen Aggregationsstufen zusammen. online Tool: Diff Operator, liefert dem Benutzer eine Erklärung für die Differrenz von zwei aggregierten Feldern.

offline Tool-Beispiel Bsp: 3 Dimensionaler Datacube (Product, Market, Time) mit der Hierarchie: Region->Market 2% 0% -8% -3% 4% Aggregation über alle Produkte und alle Regionen (bzw. Märkte).

offline Tool Der “Degree of Surprise” wird zusammengesetzt aus: SelfExp: Representiert den Überaschungsgrad, im Vergleich zu anderen Zellen auf gleichem Aggregationsniveau. InExp: Representiert den maximalen Überaschungsgrad in der nächst tieferen Ebene. (Ein Drill-down) PathExp: Representiert den Überaschungsgrad für alle möglichen Drill-down Pfäde unter dieser Zelle. InExp PathExp

offline Tool-Beispiel (Forts.) Drill-down entlang der Dimension Produkt. Avg. Sales Month Product Jan Feb Mar Apr May Jun Jul Aug Sep Oct Nov Dec Birch-B 10 -7 3 -4 15 -12 -3 1 42 -14 -10 Cherry-S 4 5 -9 -5 Cola -1 2 9 -11 -8 -2 7 Cream-S 6 8 Diet-B -6 Diet-C Diet-S Grape-S Jolt-C

offline Tool-Beispiel (Forts.) Drill-down entlang der Dimension Market für das Produkt “Diet-Soda”

Anforderungen an die Definition von Ausnahmezellen Es sollen nicht einfach nur die Extremwerte herausgefiltert werden, sondern es soll auch mit den anderen Datensätzen verglichen werden. (Folie 9, Birch-B: Oct, Nov, Dec) Der Benutzer sollte die Auswahl von Ausnahmezellen nachvollziehen können. Die Prozedur zur Findung von Ausnahmezellen sollte effizient sein. Aggregierte Ausnahmezellen Auf aggregiertem Niveau muss so markiert werden dass der Benutzer zu den meisten Ausnahmezellen geführt wird.

Das Modell – Welche Zellen werden markiert? Die Zellen auf dem detailiertesten Niveau: Die einzelnen Zellen werden aus allen Aggregaten in denen sie vorkommen geschätzt. Wir wollen die Zelle (Cherry-S, Feb) mit dem Wert 1% schätzen. Dazu brauchen wir alle Werte der Aggregate in denen unsere Zelle vorkommt. Achsen: Time, Product Ursprung Time Jan Feb Mar … Sales 2% Product Birch-B Chery-S Cola … Sales 4% Product Sales 6% Schätzung: 4% Liegt nahe genug bei 1% => nicht markieren Time Market

Das Modell (Forts.) Schätzung: 5.5% Für die Zelle (Birch-B, Oct) mit dem Wert 42%: Product Time … Sep Oct Sales 0% Product Birch-B Cherry-s … Sales 5% Time Market Sales 6% Schätzung: 5.5% Grosse Differenz zu 42% => Zelle markieren Die Zellen auf den aggregierten Niveaus: Der SelfExp Wert für die aggregierten Zellen wird wie bei den detailierten Zellen, aus den höheren Aggregationsstufen berechnet. Bei diesen Zellen kommen noch die InExp, und die PathExp Werte hinzu. Sie werden aus den jeweils unter ihnen liegenden Stufen berechnet.

Berechnungsmethode für die geschätzten Werte Gegeben: Detailierten Zellen im ganzen Cube aber keine Aggregate Phase 1: Während der Berechnung des Cubes werden die Schätzwerte gleich mitberechnet. Phase 2: Berechnung der Differenzen zwischen den wirklichen Werten und den geschätzten Werten. Markierung der jeweiligen Zellen. Phase 3: Zusammenfassen der detailierten Ausnahmezellen auf höheren Aggregationsniveaus. Komplexität: Anzahl Terme bei der Schätzwert Berechnung: Mit Hilfe von Rekursion: linear in Anzahl der Datenzellen

offline Tool - Schlussfolgerungen Vorteile: Suche nach Ausnahmezellen kann wesentlich systematischer erfolgen als bisher. Nachteile: Berechnung dauert so lange wie die ganze Berechnung des Datacubes. Änderungen in den Daten werden erst nach einer Neuberechnung aufgenommen.

Von quantitativer zu qualitativer Datenanalyse Die bis jetzt besprochene Methode hilft dem Benutzer bei der manuellen Exploration des Datacubes, aber er muss sich immer noch mit vielen Drill-down und Roll-up Operationen in der riesiegen Datenmenge zurechtfinden. Ein Tool das einem die Arbeit des navigierens bis zu einem gewissen Grad abnimmt, ist der DIFF Operator. Man muss viel weniger Drill-down’s und Roll-up’s durchführen.

Motivation für den DIFF Operator 2826.9 7947.0 Geography Platform Zelle 1 Zelle 2 Time 2826.9 7947.0 Erklärung für die Differenz von über 5000? Prod_Category

Detail-N Ansatz Wähle N Zellpaare aus der detailiertesten Ebene des Datacubes. Sie sollen am Aggregat beteiligt sein und eine möglichst grosse Differenz bilden. Detail-N Antwort: (erklärt eine Differenz von knapp 1000)

Antwort des DIFF Operators Bessere Antwort: (erklärt eine Differenz von über 4500) Eine Gruppe von Zellen die in den jeweiligen Subcubes der ausgewählten Zellen sind, und dessen Inhalte ein ähnliches Verhältnis zu einander aufweisen, werden zusammengefasst. Time

Zusammenfassen von Werten mit ähnlichem Verhältnis Eine solche Gruppe von zusammengefassten Werten: Tradeoff zwischen mehr Zusammenfassen (mehr Erklaeren) und groesserem Fehler.

Tradeoff zwischen Menge und Genauigkeit Mehr Paare (grössere Differenz)  grösserer Fehler Konsequenz: Glaubwürdigkeit der Lösung ist gefährdet, wenn man zuviele Paare zusammen nimmt, deren Verhältnis nicht sehr ähnlich ist.

Das Modell Zelle 1 Zelle 2 + Antwort => Wir suchen eine Antwort so dass ein Benutzer der den Subcube von Zelle 1 kennt und die Antwort besitzt, mit einem möglichst kleinen Fehler den Subcube von Zelle 2 berechnen könnte. Zelle 1 Zelle 2 Somit wäre die Antwort die best mögliche. + Antwort =>

Greedy Algorithmus zur bestimmung der besten Antwort Zelle 1 Zelle 2 Vertical Apps 1993 App A … App B App C App D Vertical Apps 1992 App A … App B App C App D Alle möglichen Aggregationen Vertical Apps Geography Platform Year_1992 Year_1993 (All)- (All) … App A Unix M.

Greedy Algorithmus Gehe durch die neue Tabelle und benutze eine Kostenfunktion zur Bestimmung der besten Einträge. 2 Komplexität: O(Anzahl Einträge in neuer Tabelle ) Mit Hilfe von Dynamischer Programmierung kann man die Komplexität linear halten.

Aufbau eines Prototypen Excel Frontend CLIENT SERVER Aufruf N-Zeilen Antwort Query Stored Procedure OLAP Server

Implementation und Experimente Der Diff Operator wurde auf einem DB2/OLAP Server mit einem Excel Front-end implementiert. Das Design ermöglicht eine verschiebung des grössten Rechenaufwands in den OLAP server hinein. Anhand von Tests mit industriellen OLAP Benchmarks konnte gezeigt werden, dass auch wenn in den Subcubes der ausgewählten Zellen bis zu einer viertel Million Einträgen existieren, der Diff Operator seine Antwort innerhalb kürzester Zeit liefern kann.

Schlussfolgerungen einfache Implementation in vorhandenen Produkten liefert anschauliche Erklärung für die beobachteten Phenomäne Vorlage für weitere solche Operatoren

Literatur Sunita Sarawagi, Rakesh Agrawal, Nimrod Megiddo, Discovery-driven Exploration of OLAP Data Cubes, Proc. of the Sixth Int'l Conference on Extending Database Technology (EDBT), Valencia, Spain, March 1998. Sunita Sarawagi, Explaining Differences in Multidimensional Aggregates, Proc. of the 25th Int’l Conference on Very Large Databases, 1999.