Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

Sattler / SaakeData-Warehouse-Technologien1 1. Einführung Motivation Überblick Anwendungen Abgrenzung Begriff Data Warehouse DW-Architektur Benchmarks.

Ähnliche Präsentationen


Präsentation zum Thema: "Sattler / SaakeData-Warehouse-Technologien1 1. Einführung Motivation Überblick Anwendungen Abgrenzung Begriff Data Warehouse DW-Architektur Benchmarks."—  Präsentation transkript:

1 Sattler / SaakeData-Warehouse-Technologien1 1. Einführung Motivation Überblick Anwendungen Abgrenzung Begriff Data Warehouse DW-Architektur Benchmarks

2 Sattler / SaakeData-Warehouse-Technologien2 Szenario: Getränkemarkt Werbung Umsatz, Portfolio

3 Sattler / SaakeData-Warehouse-Technologien3 DB-Schema Produkt Kunde Lieferant kauft liefert Menge

4 Sattler / SaakeData-Warehouse-Technologien4 DB-Nutzung Anfragen: Wie viele Flaschen Cola wurden letzten Monat verkauft? Wie hat sich der Verkauf von Rotwein im letzten Jahr entwickelt? Wer sind unsere Top-Kunden? Von welchem Lieferanten beziehen wir die meisten Kisten? Probleme Nutzung externer Quellen (Kundendatenbank, Lieferantendatenbank, …) Daten mit historischem Bezug

5 Sattler / SaakeData-Warehouse-Technologien5 Erweitertes Szenario

6 Sattler / SaakeData-Warehouse-Technologien6 DB-Nutzung /2 Anfragen Verkaufen wir in Ilmenau mehr Bier als in Erfurt? Wie viel Cola wurde im Sommer in ganz Thüringen verkauft? Mehr als Wasser? Problem Anfragen über mehrere Datenbanken

7 Sattler / SaakeData-Warehouse-Technologien7 Lösungen Variante 1: Verteilte DB Globale Anfrage über mehrere DBs Sicht mit Union Nachteil: aufwändige verteilte Anfrageausführung Variante 2: Zentrale DB Änderungen über einer zentralen DB Nachteil: lange Antwortzeiten im operativen Betrieb

8 Sattler / SaakeData-Warehouse-Technologien8 Data Warehouse-Lösung Data Warehouse DB IlmenauDB ErfurtDB Jena Redundante Datenhaltung, Transformierte, vorberechnete Daten Asynchrone Aktualisierung

9 Sattler / SaakeData-Warehouse-Technologien9 Gegenstand der Vorlesung Data Warehouse: Sammlung von Technologien zur Unterstützung von Entscheidungsprozessen Herausforderung an Datenbanktechnologien Datenvolumen (effiziente Speicherung und Verwaltung, Anfragebearbeitung) Datenmodellierung (Zeitbezug, mehrere Dimensionen) Integration heterogener Datenbestände Schwerpunkt Datenbanktechniken von Data Warehouses

10 Sattler / SaakeData-Warehouse-Technologien10 Überblick Monitoring & Administration Metadaten- Repository Externe Quellen Operative Datenbanken Data Marts Data Warehouse OLAP-Server Werkzeuge Analyse Query/Reporting Data Mining Extraktion Transformation Laden

11 Sattler / SaakeData-Warehouse-Technologien11 Betriebswirtschaftliche Anwendungen Informationsbereitstellung Daten und Informationen als Grundlage einer erfolgreichen Abwicklung von Geschäftsprozessen (z.B. Kennzahlen) Anwender: Manager, Abteilungsleiter, Fachkräfte Formen der Bereitstellung Query-Ansätze: frei definierbare Anfragen und Berichte Reporting: Zugriff auf vordefinierte Berichte Redaktionell aufbereitete, personalisierte Informationen

12 Sattler / SaakeData-Warehouse-Technologien12 Betriebswirtschaftliche Anwendungen Analyse Detaillierte Analyse der Daten zur Untersuchung von Abweichungen oder Auffälligkeiten Anwender: Spezialisten (z.B. Controlling, Marketing) Planung Unterstützung durch explorative Datenanalyse Aggregrierung von Einzelplänen Kampagnenmanagement Unterstützung strategischer Kampagnen Kundenanalyse, Risikoanalyse

13 Sattler / SaakeData-Warehouse-Technologien13 Wissenschaftliche und Technische Anwendungen Wissenschaftliche Anwendungen Statistical und Scientific Databases technische Wurzeln des DW Beispiel: Projekt Earth Observing System (Klima- und Umweltforschung) täglich ca. 1,9 TB meteorologischer Daten Aufbereitung und Analyse (statistisch, Data Mining) Technische Anwendungen Öffentlicher Bereich: DW mit Umwelt- oder geographischen Daten (z.B. Wasseranalysen)

14 Sattler / SaakeData-Warehouse-Technologien14 Einsatzbeispiel Wal-Mart (www.wal-mart.com)www.wal-mart.com Marktführer im amerikanischen Einzelhandel Unternehmensweites Data Warehouse Größe: ca. 300 TB (2003) Täglich bis zu DW-Anfragen Hoher Detaillierungsgrad (tägliche Auswertung von Artikelumsätzen, Lagerbestand, Kundenverhalten) Basis für Warenkorbanalyse, Kundenklassifizierung,...

15 Sattler / SaakeData-Warehouse-Technologien15 Fragestellungen und Aufgaben (Bsp.) Überprüfung des Warensortiments zur Erkennung von Ladenhütern oder Verkaufsschlagern Standortanalyse zur Einschätzung der Rentabilität von Niederlassungen Untersuchung der Wirksamkeit von Marketing-Aktionen Auswertung von Kundenbefragungen, Reklamationen bzgl. bestimmter Produkte etc. Analyse des Lagerbestandes Warenkorbanalyse mit Hilfe der Kassenbons

16 Sattler / SaakeData-Warehouse-Technologien16 Beispiel einer Anfrage Welche Umsätze sind in den Jahren 1998 und 1999 in den Abteilungen Kosmetik, Elektro und Haushaltswaren in den Bundesländern Sachsen-Anhalt und Thüringen angefallen ?

17 Sattler / SaakeData-Warehouse-Technologien17 Ergebnis (Würfel)

18 Sattler / SaakeData-Warehouse-Technologien18 Ergebnis (Bericht) UmsatzKosmetikElektroHaushaltSUMME 1998Sachsen-Anhalt Thüringen SUMME Sachsen-Anhalt Thüringen SUMME SUMME

19 Sattler / SaakeData-Warehouse-Technologien19 Marktentwicklung Marktgröße: Data Warehouse und OLAP (Quelle: OLAP Report OnLine

20 Sattler / SaakeData-Warehouse-Technologien20 Aspekte von Data Warehouses Integration Vereinigung von Daten aus verschiedenen, meist heterogenen Quellen Überwindung der Heterogenität auf verschiedenen Ebenen (System, Schema, Daten) Analyse Bereitstellung der Daten in einer vom Anwender gewünschten Form (bezogen auf Entscheidungsgebiet) erfordert Vorauswahl, Zeitbezug, Aggregation

21 Sattler / SaakeData-Warehouse-Technologien21 Abgrenzung zu OLTP Klassische operative Informationssysteme Online Transactional Processing (OLTP) Erfassung und Verwaltung von Daten Verabeitung unter Verantwortung der jeweiligen Abteilung Transaktionale Verarbeitung: kurze Lese-/ Schreibzugriffe auf wenige Datensätze Data Warehouse Analyse im Mittelpunkt lange Lesetransaktionen auf vielen Datensätzen Integration, Konsolidierung und Aggregation der Daten

22 Sattler / SaakeData-Warehouse-Technologien22 Abgrenzung zu OLTP: Anfragen Anfragetransaktionalanalytisch FokusLesen, Schreiben, Modifizieren, Löschen Lesen, periodisches Hinzufügen Transaktionsdauer und –typ kurze Lese-/ Schreibtransaktionen lange Lesetransaktionen Anfragestruktureinfach strukturiertkomplex Datenvolumen einer Anfrage wenige Datensätzeviele Datensätze Datenmodellanfrageflexibelanalysebezogen

23 Sattler / SaakeData-Warehouse-Technologien23 Abgrenzung zu OLTP: Daten Datentransaktionalanalytisch Datenquellenmeist einemehrere Eigenschaftennicht abgeleitet, zeitaktuell, autonom, dynamisch abgeleitet/konsolidier t, nicht zeitaktuell, integriert, stabil DatenvolumenMByte... GByteGByte... TByte ZugriffeEinzeltupelzugriffTabellenzugriff

24 Sattler / SaakeData-Warehouse-Technologien24 Abgrenzung zu OLTP: Anwender Anwendertransaktionalanalytisch AnwendertypEin-/Ausgabe durch Angestellte oder Applikationssoftware Manager, Controller Analyst Anwenderzahlsehr vielewenige (bis einige hundert) Antwortzeitms... secsec... min

25 Sattler / SaakeData-Warehouse-Technologien25 Abgrenzung: DBMS-Techniken Parallele Datenbanken Technik zur Realisierung eines DWH Verteilte Datenbanken I.d.R. keine redundante Datenhaltung Verteilung als Mittel zur Lastverteilung Keine inhaltliche Integration/Verdichtung der Daten Föderierte Datenbanken Höhere Autonomie und Heterogenität Kein spezifischer Analysezweck

26 Sattler / SaakeData-Warehouse-Technologien26 Data Warehouse: Begriff A Data Warehouse is a subject- oriented, integrated, non-volatile, and time variant collection of data in support of managements decisions. (W.H. Inmon 1996)

27 Sattler / SaakeData-Warehouse-Technologien27 Data Warehouse: Charakteristika Fachorientierung (subject-oriented): Zweck des Systems ist nicht Erfüllung einer Aufgabe (z.B. Personaldatenverwaltung), sondern Modellierung eines spezifischen Anwendungsziels Integrierte Datenbasis (integrated): Verarbeitung von Daten aus mehreren verschiedenen Datenquellen (intern und extern) Nicht-flüchtige Datenbasis (non-volatile): stabile, persistente Datenbasis Daten im DW werden nicht mehr entfernt oder geändert Historische Daten (time-variant): Vergleich der Daten über Zeit möglich (Zeitreihenanalyse) Speicherung über längeren Zeitraum

28 Sattler / SaakeData-Warehouse-Technologien28 Weitere Begriffe Data Warehousing Data-Warehouse-Prozess, d.h. alle Schritte der Datenbeschaffung (Extraktion, Transformation, Laden), des Speicherns und der Analyse Data Mart externe (Teil-)Sicht auf das Data Warehouse durch Kopieren anwendungsbereichsspezifisch OLAP (Online Analytical Processing) explorative, interaktive Analyse auf Basis des konzeptuellen Datenmodells

29 Sattler / SaakeData-Warehouse-Technologien29 Trennung operativer und analytischer Systeme Gründe Antwortzeitverhalten: Analyse auf operativen Quelldatensystemen schlechte Performance, Langfristige Speicherung der Daten Zeitreihenanalyse Zugriff auf Daten unabhängig von operativen Datenquellen (Verfügbarkeit, Integrationsproblematik) Vereinheitlichung des Datenformats im DW Gewährleistung der Datenqualität im DW

30 Sattler / SaakeData-Warehouse-Technologien30 Historie Wurzeln 60er Jahre: Executive Information Systems (EIS) qualitative Informationsversorgung von Entscheidern kleine, verdichtete Extrakte der operativen Datenbestände Aufbereitung in Form statischer Berichte Mainframe 80er Jahre: Management Information Systems (MIS) meist statische Berichtsgeneratoren Einführung von Hierarchieebenen für Auswertung von Kennzahlen (Roll-Up, Drill-Down) Client-Server-Architekturen, GUI (Windows, Apple)

31 Sattler / SaakeData-Warehouse-Technologien31 Historie 1992: Einführung des Data-Warehouse-Konzeptes durch W.H. Inmon redundante Haltung von Daten, losgelöst von Quellsystemen Beschränkung der Daten auf Analysezweck 1993: Definition des Begriffs OLAP durch E.F. Codd Dynamische, multidimensionale Analyse Weitere Einflussgebiete Verbreitung geschäftsprozeßorientierter Transaktionssysteme (SAP R/3) Bereitstellung von entscheidungsrelevanten Informationen Data Mining WWW (Web-enabled Data Warehouse etc.)

32 Sattler / SaakeData-Warehouse-Technologien32 Vorlesung: Zielstellungen Vermittlung von Kenntnissen zu Datenbanktechniken für Aufbau und Implementierung von Data Warehouses Anwendung bekannter DB-Techniken (siehe Vorlesung Datenbanken I) Datenmodellierung, Anfragesprachen und -verarbeitung DW-spezifische Techniken multidimensionale Datenmodellierung spezielle Anfragetechniken Indexstrukturen materialisierte Sichten

33 Sattler / SaakeData-Warehouse-Technologien33 DW-Architektur Komponenten von DW und deren Aufgaben Datenbanken Datenquellen: Herkunftsort der Daten Arbeitsbereich: temporäre Datenbank für Transformation Data Warehouse: physische Datenbank für Analyse Repository: Datenbank mit Metadaten

34 Sattler / SaakeData-Warehouse-Technologien34 DW-Architektur Komponenten Data-Warehouse-Manager: zentrale Kontrolle und Steuerung Monitore: Überwachung der Quellen auf Veränderungen Extraktoren: Selektion und Transport der Daten aus Quellen in Arbeitsbereich Transformatoren: Vereinheitlichung und Bereinigung der Daten Ladekomponenten: Laden der transformierten Daten in das DW Analysekomponenten: Analyse und Präsentation der Daten

35 Sattler / SaakeData-Warehouse-Technologien35 Multidimensionales Datenmodell Datenmodell zur Unterstützung der Analyse Fakten und Dimensionen Klassifikationsschema Würfel Operationen: Pivotierung, Roll-Up, Drill-Down, Drill-Across, Slice und Dice Notationen zur konzeptuellen Modellierung Relationale Umsetzung Star-Schema, Snowflake-Schema Multidimensionale Speicherung

36 Sattler / SaakeData-Warehouse-Technologien36 Anfrageverarbeitung und -optimierung Gruppierung und Aggregation Supergroups, CUBE OLAP-Funktionen aus SQL:1999 Star-Joins Optimierungsaspekte Histogramme, Sampling Mehrdimensionale Erweiterungen von Anfragesprachen MDX

37 Sattler / SaakeData-Warehouse-Technologien37 Index- und Speicherungsstrukturen Klassifikation Wiederholung: B-Baum und B*-Baum Mehrdimensionale Indexstrukturen R-Baum UB-Baum Bitmap-Index Vergleich Multidimensionale Speicherung

38 Sattler / SaakeData-Warehouse-Technologien38 Materialisierte Sichten Materialisierte Sicht (engl. materialized view): vorab berechneter Ausschnitt aus einer Faktentabelle Verwendung: Anfrageersetzung generalized projection Auswahl: Bestimmung der redundant gehaltenen Daten statische vs. dynamische Auswahlverfahren Semantisches Caching Wartung und Aktualisierung

39 Sattler / SaakeData-Warehouse-Technologien39 Metadaten und Datenqualität Metadatenmanagement Metadaten-Repository Standards für Metadaten Aspekte der Datenqualität

40 Sattler / SaakeData-Warehouse-Technologien40 OLAP und Data Mining OLAP Anforderungen OLAP-Operationen OLAP-Werkzeuge Data-Mining-Technikem Klassifikation, Assoziationsregeln, Clustering

41 Sattler / SaakeData-Warehouse-Technologien41 TPC-Benchmarks Vergleich der Leistungsfähigkeit von Datenbanken (www.tpc.org) TPC-C: OLTP Benchmark TPC-H: Ad-hoc Decision Support (variable Anteile) TPC-R: Reporting Decision Support (feste Anfragen) TPC-W: eCommerce Transaktionsprocessing Vorgegebene Schemata (Lieferwesen) Schema-, Query- und Datengeneratoren Unterschiedliche DB-Größen TPC-H: 100 GB GB - 1 TB - 3 TB

42 Sattler / SaakeData-Warehouse-Technologien42 TPC-H: Schema REGION NATION CUSTOMER ORDERS LINEITEMPARTSUPP SUPPLIER PART 1 N 1 N 1 N N1N1 N 1 N 1 N 1 N 1

43 Sattler / SaakeData-Warehouse-Technologien43 TPC-H: Anfragen SELECT c_name, c_custkey, o_orderkey, o_orderdate, o_totalprice, SUM (l_quantity) FROM customer, orders, lineitem WHERE o_orderkey IN ( SELECT l_orderkey FROM lineitem GROUP BY l_orderkey HAVING SUM (l_quantity) > :1) AND c_custkey = o_custkey AND o_orderkey = l_orderkey GROUP BY c_name, c_custkey, o_orderkey, o_orderdate, o_totalprice ORDER BY o_totalprice desc, o_orderdate;

44 Sattler / SaakeData-Warehouse-Technologien44 TPC-H: Zahlen (100 GB)

45 Sattler / SaakeData-Warehouse-Technologien45 TPC-H: Zahlen (3.000 GB)

46 Sattler / SaakeData-Warehouse-Technologien46 Produkte OLAP-Tools/Server MS Analysis Services, Hyperion, Cognos DW-Erweiterungen für RDBMS Oracle9i, IBM DB2, MS SQL Server: SQL- Erweiterungen, Indexstrukturen, mat. Sichten, Bulk-Load/Insert, … ETL-Tools MS Data Transformation Services, …

47 Sattler / SaakeData-Warehouse-Technologien47 Literatur Lehner: Datenbanktechnologie für Data- Warehouse-Systeme, dpunkt.verlag, 2003 Inmon: Building the Data Warehouse, John Wiley & Sons, 1996 Bauer, Günzel (Hrg.): Data Warehouse – Architektur, Entwicklung, Anwendung; dpunkt.verlag, 2000 Westerman: Data Warehousing: Using the Wal-Mart Model, Morgan Kaufman, 2000 Kurz: Data Warehousing: Enabling Technology; MITP, 1999


Herunterladen ppt "Sattler / SaakeData-Warehouse-Technologien1 1. Einführung Motivation Überblick Anwendungen Abgrenzung Begriff Data Warehouse DW-Architektur Benchmarks."

Ähnliche Präsentationen


Google-Anzeigen