Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

Antje HöllSeminar Data Warehousing - SS 2005 1 Speichermodelle.

Ähnliche Präsentationen


Präsentation zum Thema: "Antje HöllSeminar Data Warehousing - SS 2005 1 Speichermodelle."—  Präsentation transkript:

1 Antje HöllSeminar Data Warehousing - SS Speichermodelle

2 Seminar Data Warehousing - SS Antje Höll Speichermodelle: Überblick 1. Relationale Speicherung (ROLAP) 1.1 Star Schema 1.2 Snowflake Schema 1.3 Mischformen 1.4 Darstellungsarten für Klassifikationshierarchien 2. Multidimensionale Speicherung (MOLAP, HOLAP) 2.1 Datenstrukturen 2.2 Speicherung 2.3 Grenzen der Datenhaltung 2.4 HOLAP 3. Vergleich (ROLAP, MOLAP, HOLAP) 4. Fazit

3 Seminar Data Warehousing - SS Antje Höll 1. Relationale Speicherung ROLAP = Relational OLAP relationale Speicherung des multidimensionalen Datenmodells  ermöglicht eine multidimensionale Analyse auf einer relationalen Datenbank Speicherung der aggregierten Daten in Relationen SQL als deskriptive Anfragesprache für das Datenmodell Anforderungen möglichst geringer Verlust an anwendungsbezogener Semantik (multidimensionalen Modell, z.B. Klassifikationshierarchien) effiziente Übersetzung multidimensionaler Anfragen effiziente Verarbeitung der übersetzten Anfragen einfache und schnelle Wartbarkeit der relationalen Tabellen (z.B. Laden neuer Daten)

4 Seminar Data Warehousing - SS Antje Höll Faktentabelle relationale Speicherung eines Datenwürfels ohne Klassifikationshierarchien  Dimensionen, Kennzahlen  Spalten der Relation  Zelle  Tupel 1. Relationale Speicherung Abbildung der Klassifikationshierarchien:  Star-, Snowflake-Schema oder Mischformen

5 Seminar Data Warehousing - SS Antje Höll 1. Relationale Speicherung 1.1 Star-Schema Faktentabelle:  eine (zentrale) Faktentabelle  enthält (Geschäfts-) Daten, die analysiert werden sollen  quantifizierende Daten  Primärschlüssel: zusammengesetzt aus Fremdschlüsseln  kann sehr viele Zeilen enthalten Dimensionstabellen:  denormalisiert  pro Dimension nur eine Tabelle  enthalten Attribute  qualifizierende Daten  jede Dimensionstabelle hat einen Primärschlüssel  kleiner als Faktentabelle  Zusammenhang zur Faktentabelle über Fremdschlüsselbeziehungen

6 Seminar Data Warehousing - SS Antje Höll 1. Relationale Speicherung 1.1 Star-Schema Beispiel: KundenID KundenName Geschlecht Alter ZeitID Tag Woche Monat Quartal Jahr ProduktID Artikel Produktgruppe Produktfamilie Produktkategorie Bezeichnung Marke … GeoID Filiale Ort Land Region … KundenID ProduktID ZeitID GeoID Anzahl Umsatz Kunde Produkt Verkauf Geografie 1 n n n n Zeit

7 Seminar Data Warehousing - SS Antje Höll Vorteile:  einfache Struktur einfache und flexible Darstellung von Klassifikationshierarchien einfacher Aufbau der Dimensionstabellen  effiziente Anfrageverarbeitung innerhalb der Dimensionen (=schnellerer Datenzugriff) weniger teure Verbundoperationen Nachteile:  Faktentabelle normalisiert und Dimensionstabellen denormalisiert  Redundanzen in Dimensionstabellen  Änderungsanomalien 1. Relationale Speicherung 1.1 Star-Schema

8 Seminar Data Warehousing - SS Antje Höll 1. Relationale Speicherung 1.2 Snowflake-Schema Faktentabelle:  eine zentrale Faktentabelle  verwaltet die Kennzahlen  Dimensionsspalten bestehen aus Fremdschlüsseln auf die Dimensionselemente der niedrigsten Stufe  Primärschlüssel: zusammengesetzt aus Fremdschlüsseln Dimensionstabellen:  normalisiert  für jede Klassifikationsstufe eigene Relation  jede Dimensionstabelle besitzt einen Primärschlüssel  enthalten Attribute  Zusammenhang zur Faktentabelle über Fremdschlüsselbeziehungen  Fremdschlüsselbeziehungen zwischen Dimensionen

9 Seminar Data Warehousing - SS Antje Höll 1. Relationale Speicherung 1.2 Snowflake-Schema Beispiel: KundenID KundenName Geschlecht Alter TagID Bezeichnung MonatID WocheID ArtikeltID Bezeichnung ProduktgruppeID Marke … FilialeID Bezeichnung StadtID KundenID ArtikelID TagID FilialeID Anzahl Umsatz Kunde Artikel Verkauf Filiale 1 n Tag ProduktgruppeID Bezeichnung ProduktfamilieID Produktgruppe 1 n 1 n ProduktfamilieID Bezeichnung ProduktkategorieID Produktfamilie 1 n ProduktkategorieID Bezeichnung Produktkategorie 1 n StadtID Bezeichnung RegionID Bezeichnung LandID Region LandID Bezeichnung Land n 1 Stadt n 1 n 1 n 1 MonatID Bezeichnung QuartalID Monat QuartalID Bezeichnung JahrID Quartal JahrID Bezeichnung Jahr WocheID Bezeichnung JahrID Woche n 1 n n 1 1 n 1 n 1 1 n

10 Seminar Data Warehousing - SS Antje Höll Vorteile:  normalisierte Struktur Vermeidung von Änderungsanomalien  Tabellen der operativen Systeme bleiben von der Struktur und dem Inhalt unverändert/unberührt Nachteile:  Normalisierung hohe Anzahl an Tabellen erhöhte Zugriffskosten (höherer Join-Aufwand) schlechtere Performance 1. Relationale Speicherung 1.2 Snowflake-Schema

11 Seminar Data Warehousing - SS Antje Höll Star-vs. Snowflake-Schema Star-Schema: - Redundanzen kein so großes Problem - selten Änderungen an Klassifikationen  Änderungsanomalien kontrollierbar Einschränkungen für Anfragen finden häufig auf höherer Granularitätsstufe statt  beim Snowflake-Schema jedes Mal teure Verbundoperationen nötig  entfällt beim Star-Schema  deutliche Steigerung der Anfragegeschwindigkeit Struktur der Klassifikationen (Hierarchien) wird im Snowflake-Schema auch im Tabellennamen widergespiegelt im Starschema wird die gesamte Klassifikation als eine Tabelle abgebildet Fazit: Welches Schema geeignet ist, hängt vom Anwendungsprofil ab!  Mischform 1. Relationale Speicherung 1.3 Mischformen (1)

12 Seminar Data Warehousing - SS Antje Höll 1. Factless Fact Tables Faktentabelle ohne Kenngrößen Verweis auf Dimensionen  ausschließlich Fremdschlüsselspalten Datensätze repräsentieren Ereignisse, bei denen keine weiteren Informationen, als das Ereignis selbst, anfallen Beispiel: 1. Relationale Speicherung 1.3 Mischformen (2) KursNr KursName … RaumNr … LehrerNr LehrerName Gehalt … MatrNr Name Geschlecht Alter Datum Tag Monat Quartal Jahr Datum RaumNr MatrNr KursNr LehrerNr Studenten Zeit Einrichtungen Kurse Lehrer 1 n n n n n Anwesenheit

13 Seminar Data Warehousing - SS Antje Höll 2. Galaxie-Schema mehrere unabhängige Faktentabellen teilweise gemeinsame Nutzung von Dimensionstabellen 1. Relationale Speicherung 1.3 Mischformen (3) LieferantID LieferantName LieferantenGrID LieferantenGr Datum Tag Monat Quartal Jahr ProduktID ProduktName ProduktGruppe FilialeID Filiale Ort Land Region KundenID ProduktID Datum FilialeID Verkaufsmenge Lieferant Produkt Verkauf Filiale Zeit LieferantID ProduktID Datum FilialeID Einkaufsmenge Einkauf KundenID KundenName KundenGrID KundenGr Kunde

14 Seminar Data Warehousing - SS Antje Höll 3. Fact Constellation - Schema Speicherung vorberechneter Aggregate eigene Tabelle für aggregierte Kenngrößen (fact constellation)  für jede Aggregationskombination eine eigene Fakttabelle nötig Trennung der aggregierten Werte von den atomaren Werte  schnellerer Zugriff auf die Aggregationen mit der Anzahl der Dimensionen steigt die Anzahl der Fakttabellen explosionsartig an  Modell sehr unübersichtlich und schwerer zu handhaben Beispiel: Umsatz für eine Region 1. Relationale Speicherung 1.3 Mischformen (4)

15 Seminar Data Warehousing - SS Antje Höll 1. Relationale Speicherung 1.4 Darstellungsarten für Klassifikationshierarchien (1) Horizontal Modellierung der Stufen der Klassifikationshierarchie als Spalten der denormalisierten Dimensionstabelle Vorteil: Einschränkungen auf höherer Granularität ohne Join Nachteil: Duplikateliminierung beim Anfragen bestimmter Stufen, wie bspw. Produktgruppe in einer Kategorie  relativ teuer, da Sortierung erforderlich Produkt_IDArtikelProduktgruppeProduktfamilieKategorie 1234Lavamat SWaschmaschinenWaschgeräteweiße Ware 1235DuettWaschmaschinenWaschgeräteweiße Ware 1236NovotronicTrocknerWaschgeräteweiße Ware 1237Vento 500TrocknerWaschgeräteweiße Ware

16 Seminar Data Warehousing - SS Antje Höll 1. Relationale Speicherung 1.4 Darstellungsarten für Klassifikationshierarchien (2) Vertikal (rekursiv) Normalisierte Dimensionstabelle mit 2 Attributen Dimensions_ID  Schlüssel, der die Beziehung zur Faktentabelle schafft Eltern_ID  Attributwert der Dimensions- ID der nächsthöheren Stufe Vorteil: einfache Änderung am Klassifikationsschema, da Tabellenschema keine Informationen über Klassifikationsschema hat Nachteil: mehrere teure Verbundoperationen für Anfragen einzelner Stufen nötig Dimensions_IDEltern_ID Lavamat SWaschmaschinen DuettWaschmaschinen NovotronicTrockner Vento 500Trockner WaschmaschinenWaschgeräte TrocknerWaschgeräte weiße Ware

17 Seminar Data Warehousing - SS Antje Höll Verbindung der Horizontal-und Vertikal-Strategie Repräsentation der Klassifikationsstufen als Spalten –jedoch Stufen nicht mit den Namen der Klassifikationsstufen benannt zusätzliches Attribut „Stufe“ zur Angabe, zu welcher Stufe das Tupel gehört 1. Relationale Speicherung 1.4 Darstellungsarten für Klassifikationshierarchien (3) Dimensions_IDStufe1_IDStufe2_IDStufe3_IDStufe Lavamat SWaschmaschinenWaschgeräteweiße Ware0 DuettWaschmaschinenWaschgeräteweiße Ware0 NovotronicTrocknerWaschgeräteweiße Ware0 Vento 500TrocknerWaschgeräteweiße Ware0 WaschmaschinenWaschgeräteweiße WareNULL1 TrocknerWaschgeräteweiße WareNULL1 Waschgeräteweiße WareNULL 2

18 Seminar Data Warehousing - SS Antje Höll Problem: bei allen genannten Abbildungsvarianten geht Semantik verloren Gründe für Semantikverluste: Unterscheidung zwischen Kennzahl und Dimension schwierig (Attribute der Faktentabelle) Unterscheidung zwischen Attribute von Dimensionstabellen (beschreibend, Aufbau der Hierarchie) nicht möglich Aufbau der Dimensionen geht verloren  Wie verlaufen Drill-Pfade? zusätzliches Attribut „Stufe“ zur Angabe der bezeichneten Klassifikationsstufe Lösung: Erweiterung des Systemkatalogs des relationalen DBMS um Metadatentabellen für multidimensionale Anwendungen 1. Relationale Speicherung 1.4 Darstellungsarten für Klassifikationshierarchien (4)

19 Seminar Data Warehousing - SS Antje Höll 2. Multidimensionale Speicherung MOLAP = Multidimensional OLAP multidimensionale Speicherung des multidimensionalen Datenmodells Speicherung der aggregierten Daten in speziellen multidimensionalen Datenstrukturen Verwendung unterschiedlicher Datenstrukturen für Datenwürfel und Dimensionen Speicherung basiert auf Arrays Ordnung der Dimension zur Adressierung der Würfelzellen notwendig basiert nicht auf SQL, sondern bedient sich eigener Programmierschnittstellen wird von speziell dafür entwickelte Datenbanken ausgeführt  MDBMS

20 Seminar Data Warehousing - SS Antje Höll 2. Multidimensionale Speicherung 2.1 Datenstrukturen (1) Dimension: endliche, geordnete Liste von Dimensionswerten enthält Dimensionselemente und die höheren Klassifikationsstufen Dimensionswerte sind einfache unstrukturierte Datentypen (String, Integer, Date) Ordnung der Dimensionswerte notwendig  (Ordnungszahlen: ganze Zahlen)

21 Seminar Data Warehousing - SS Antje Höll Würfel: n Dimensionen spannen n-dimensionaler Raum auf m Dimensionswerte einer Dimension teilen den Würfel für diese Dimension in m parallele Ebenen Zelle: Schnittpunkt von n Ebenen eines n-dimensionalen Würfels Zelle eines n-dimensionalen Würfels wird eindeutig über n-Tupel von Dimensionswerten bestimmt Zellen können eine oder mehrere Kennzahlen eines zuvor definierten Datentyps aufnehmen W = ((D 1, D 2, …,D n ), (M 1 :Typ 1, …, M m : Typ m )) Bsp.: Verkauf = ((Produkt, Filiale, Zeit), (Anzahl: integer, Umsatz: long)) 2. Multidimensionale Speicherung 2.1 Datenstrukturen (2)

22 Seminar Data Warehousing - SS Antje Höll 2. Multidimensionale Speicherung 2.2 Speicherung (1) Array-Speicherung sequentielle Speicherung der Zellen des Würfels in n-dimensionales Array  mehrdimensionaler Würfel in eine eindimensionale Liste = Linearisierung Indizes des Arrays bilden Koordinaten der Würfelzellen Berechnungsvorschrift für den Array-Index der Zelle z(x 1, x 2,... x n ) eines Würfels: D1D1 D2D2 D3D3

23 Seminar Data Warehousing - SS Antje Höll Adressberechnung in einem zweidimensionalen Datenwürfel D1 = Produkt mit Werteliste (Hosen, Hemden, Röcke, Kleider, Mäntel) D2 = Zeit mit Werteliste (Januar, Februar, März, April) Ordnungszahlen stehen in Klammern ges.: Indexwerte 2. Multidimensionale Speicherung 2.2 Speicherung (2) 1. Beispiel: Hosen (1) Hemden (2) Röcke (3)Kleider (4)Mäntel (5) Februar (2) Januar (1) März (3) April (4)

24 Seminar Data Warehousing - SS Antje Höll 3-D Würfel Dimensionen D 0, D 1, D 2 Dimensionsgrößen |D 0 |= 5, |D 1 |= 4, |D 2 |= 3 Reihenfolge der Würfelzellen in einem Array ALL = summierte Werte pro Dimension 3-D Vektor V (v 0, v 1, v 2 ) 2. Multidimensionale Speicherung 2.2 Speicherung (3) 2. Beispiel:

25 Seminar Data Warehousing - SS Antje Höll Zahl der Plattenzugriffe bei ungünstigen Linearisierungsreihenfolgen  Reihenfolge der Dimensionen ist bei Definition des Würfels zu beachten  Caching zur Reduzierung der Zugriffe notwendig Speicherung dünn besetzter Würfel (leere, undefinierte Zellen)  beim Auslesen von Zellwerten müssen mehr Blöcke/Seiten übertragen werden  leere Speicherblöcke/-seiten nicht physisch ablegen 2. Multidimensionale Speicherung 2.2 Speicherung (4) Probleme:

26 Seminar Data Warehousing - SS Antje Höll Skalierbarkeitsprobleme aufgrund dünn besetzter Datenräume teilweise einseitige Optimierung auf schnelles Lesen Ordnung der Dimensionswerte wird bei Array-Speicherung vorausgesetzt  erschwert Änderungen an den Dimensionen kein Standard für MDBMS  Proprietär Spezialwissen für Erstellung und Wartung erforderlich 2. Multidimensionale Speicherung 2.3 Grenzen der Datenhaltung

27 Seminar Data Warehousing - SS Antje Höll Verbindung der Vorteile von ROLAP und MOLAP  relational (Skalierbarkeit, Standard)  multidimensional (analytische Mächtigkeit, direkte OLAP- Unterstützung) Speicherung:  historische Detaildaten  Relationale Datenbank  aggregierte Daten  Multidimensionale Datenbank Zugriff erfolgt über die multidimensionale Datenbank durch ein multidimensionales Anfragewerkzeug Aber:  umfassende Kenntnisse aus beiden Welten notwendig  enormer Implementierungsaufwand 2. Multidimensionale Speicherung 2.4 HOLAP

28 Seminar Data Warehousing - SS Antje Höll 3. Vergleich: ROLAP, MOLAP, HOLAP (1) ROLAPMOLAPHOLAP verwendet bewährte Datenbanktechnologie Standard- Abfragesprache (SQL) beliebige Skalierbarkeit effiziente Speicherung großer Datenmengen zahlreiche erfolgreiche DW-Lösungen basieren auf einer ROLAP- Architektur Antwortzeiten bei kleineren Datenmengen sehr gut effiziente multidimensionale Speicherstrukturen meist eigene, multidimensionale Abfragesprache, intuitiv verständlicher als SQL vereinigt das Beste aus ROLAP und MOLAP MDDB-System greift nicht mehr auf die operativen Systeme zu, sondern auf ein relationales DW Vorteile:

29 Seminar Data Warehousing - SS Antje Höll 3. Vergleich: ROLAP, MOLAP, HOLAP (2) ROLAPMOLAPHOLAP Standard-SQL für multidimensionale Analysen nur bedingt ausreichend schlechtere Performance (durch Datenredundanz kompensierbar) langen Antwortzeiten durch direkten Zugriff auf große Datenmengen proprietäre MDDB- Systeme werden eingesetzt, keine Abfragesprache als Standard definiert eingeschränktes Datenvolumen Schnittstelle zu einem RDBMS notwendig umfangreiche Kenntnisse über ROLAP und MOLAP enormer Implementierungs- Aufwand keine einheitliche OLAP- Abfragesprache Nachteile:

30 Seminar Data Warehousing - SS Antje Höll ROLAP gut für dünn besetzte Würfel  setzt auf herkömmliche relationale Datenbanken auf  Datenwürfel werden in mehrere flachen Tabellen gemäß dem Star- Schema gespeichert  Unterstützung großer Datenmengen - Skalierbarkeit MOLAP gut für dicht besetzte Würfel  effizientere Speicherung durch Array-Speicherung  primär für aggregierte Daten relevant, weniger zur Verwaltung von Detail-Fakten 4. Fazit

31 Seminar Data Warehousing - SS Antje Höll Vielen Dank für die Aufmerksamkeit…


Herunterladen ppt "Antje HöllSeminar Data Warehousing - SS 2005 1 Speichermodelle."

Ähnliche Präsentationen


Google-Anzeigen