Data-Warehouse-Technologien

Slides:



Advertisements
Ähnliche Präsentationen
Daten im Data-Warehouse
Advertisements

Prof. Dr. Dr. h.c. mult. August-Wilhelm Scheer
Heterogene Informationssysteme
2. Data-Warehouse-Architektur
Datenbanken Einführung.
Schulz & Löw Consulting GmbH
Prof. Dr. Hans-Jürgen Scheruhn
Verwendungszweck: Diese Folien dienen zur Unterstützung von Microsoft Dynamics NAV-Vertriebsmitarbeitern und -Partnern für Produktpräsentationen beim Kunden.
:33 Architektur Moderner Internet Applikationen – Prolog Copyright ©2003 Christian Donner. Alle Rechte vorbehalten. Architektur Moderner.
1-1 Schlank und schnell zum Datawarehouse Marc Bastien Oracle Deutschland GmbH BTW Leipzig,
Vorlesung: Prof. Norbert Fuhr
Systemüberblick Beispiele: Microsoft Access Oracle Ingres Informix
Datenbanken I (0,*) Produkt 3 Karczewski Datenbanken I.
Anfragesprachen – Dipl. Ing. Ulrich Borchert / FH Merseburg1/24 Beispiel einer Anfrage Welche Umsätze sind in den Jahren 1998 und 1999 in den Abteilungen.
Anfragesprachen – Dipl. Ing. Ulrich Borchert / FH Merseburg1/9 Data Mining Ist die Wissensgewinnung aus Datensammlungen (Knowledge Discovery in Database).
Datenmodelle, Datenbanksprachen und Datenbankmanagementsysteme
WIESEL – Integration von Wissensmanagement und E-Learning auf der Basis von Semantic Web Technologien Matthias Rust, XML-Tage 2004, Berlin WIESEL Integration.
Universeller Zugriff auf multimediale Dokumentstrukturen auf der Basis von RDF und MPEG-7 Stefan Audersch BerlinXSW Juni.
Management-Informationssysteme (MIS) Data Warehouses.
Entscheidungsunterstützende Systeme (Data Warehouse)
OLAP. © T. Kudraß, HTWK Leipzig Warum? Daten einer Firma verfügbar machen für Entscheidungsprozesse – Umsetzung schwierig neue Konzepte notwendig zur.
Prof. Dr. T. Kudraß1 Datenbanken zur Entscheidungsunterstützung - Data Warehousing.
Abgrenzung, Einordnung und Anwendungen Sebastian Hentschel
Access 2000 Datenbanken.
Seminar: Verteilte Datenbanken
Fachbereich Mathematik/Informatik Universität Osnabrück
Informationssysteme SS Informationssysteme Grundvorlesung Informatik Sommersemester 2004 Universität des Saarlandes, Saarbrücken Dr. Ralf Schenkel.
Datenmodelle, Datenbanksprachen und Datenbankmanagementsysteme
... und alles was dazugehört
Entwurf und Realisierung einer digitalen Bibliothek zur Verwaltung von Notenhandschriften Dipl.-Ing. Temenushka Ignatova Datenbank- und Informationssysteme,
Qualitätskontrolle von Datenintegrations-prozessen
© DVS System Software GmbH & Co. KG
Sistema GeoDAT, S.L. GeoBIS, GeoEIS, GIS-Komponente … 2005.
© Sistema GeoDAT, S.L. Business Intelligence... Verkauf, Einkauf, Finanzen … Steuerung, Planung und Simulation von Vertriebsgebieten. Controlling Finanzcontrolling,
Eine Einführung in OLAP (Online Analytical Processing)
Datenanbindung zwischen LucaNet und QlikView als Frontend
Balanced Scorecard Knut Hinkelmann
imposult GmbH & Co KG - Datawarehouse
Erstellen einer Webseitenstatistik mithilfe eines OLAP-Servers
Problemstellung Heterogene DV-Strukturen Mangelnde Kapazität in der EDV-Abteilung Historische Daten nicht verfügbar Analysen belasten die vorhandene Infrastruktur.
Überblick über die Datenbankproblematik
WS 2011/12 Datenbanksysteme Mi 15:15 – 16:45 R Vorlesung #9 Physische Datenorganisation.
WS 2007/08 Datenbanksysteme Mi 17:00 – 18:30 R Vorlesung #9 Anfragebearbeitung (Teil 1)
Allgemeines zu Datenbanken
Eidgenössisches Departement des Innern EDI Bundesamt für Statistik BFS Eidgenössisches Finanzdepartement EFD Bundesamt für Informatik und Telekommunikation.
Data Warehouse: ETL-Praktikum
Skalierbare Reporting-Systeme zwischen Excel™ und Data Warehouse
DI (FH) DI Roland J. Graf MSc (GIS) U N I V E R S I T Ä T S L E H R G A N G Geographical Information Science & Systems UNIGIS.
Speichern und Lesen von Daten im Data Warehouse
00:13 Matthias Ansorg FH Gießen-Friedberg1 / 24 Multidimensionale Datenstrukturen - semantische und logische Modellierung Teilvortrag: logische Modellierung.
Betriebliche Anwendung von Datenbanksystemen: Data Warehouse
Mehr Zeit für den Kunden und wirtschaftlicher Arbeiten mit BIB-Control
Analytisches CRM Phonnet Gruppe 1 (Loher, Meier, Rehhorn, Piasini)
Das Information Warehouse Die Stärken eines zentralen dispositiven Information-Warehouse als informative Kernkomponente in einer heterogenen operativen.
Eike Schallehn, Martin Endig
Eike Schallehn, Martin Endig
Finanzcontrolling aus einer Hand – Financial Data Warehouse
WS 2004/2005 Datenbanken II - 5W Mi 17:00 – 18:30 G 3.18 Vorlesung #10 RDBMS Erweiterungen.
Nachtrag Abgrenzung OLAP / OLTP
Datenbanken im Web 1.
Anfragen an multidimensonale Daten
Thema 1 Data WareHouse Volker Jahns.
Komponenten und Phasen des Data Warehousing
Datenbanken Produkte Dienstleistungen Referenzen.
Datenbanken Produkte Dienstleistungen Referenzen.
Workflowsysteme und Datenbanksysteme Gliederung Motivation Basis- funktionalitäten Klassifikations- merkmale Referenz-Modell MQ Workflow Zusammenfassung.
© CSP GmbH & Co. KG 2005 Einleitung HerausforderungenLösung Architektur Demonstration Langzeitarchivierung für Oracle Datenbanken Stefan Brandl, Dipl.-Inf.,
Alfred Schlaucher, Data Warehouse Architect, Oracle Oracle Data Warehouse.
Nachtrag Abgrenzung OLAP / OLTP
 Präsentation transkript:

Data-Warehouse-Technologien 1. Einführung Motivation Überblick Anwendungen Abgrenzung Begriff „Data Warehouse“ DW-Architektur Benchmarks Sattler / Saake Data-Warehouse-Technologien

Szenario: Getränkemarkt Umsatz, Portfolio Werbung Sattler / Saake Data-Warehouse-Technologien

Data-Warehouse-Technologien DB-Schema Produkt liefert Lieferant kauft Menge Kunde Sattler / Saake Data-Warehouse-Technologien

Data-Warehouse-Technologien DB-Nutzung Anfragen: Wie viele Flaschen Cola wurden letzten Monat verkauft? Wie hat sich der Verkauf von Rotwein im letzten Jahr entwickelt? Wer sind unsere Top-Kunden? Von welchem Lieferanten beziehen wir die meisten Kisten? Probleme Nutzung externer Quellen (Kundendatenbank, Lieferantendatenbank, …) Daten mit historischem Bezug Sattler / Saake Data-Warehouse-Technologien

Data-Warehouse-Technologien Erweitertes Szenario Sattler / Saake Data-Warehouse-Technologien

Data-Warehouse-Technologien DB-Nutzung /2 Anfragen Verkaufen wir in Ilmenau mehr Bier als in Erfurt? Wie viel Cola wurde im Sommer in ganz Thüringen verkauft? Mehr als Wasser? Problem Anfragen über mehrere Datenbanken Sattler / Saake Data-Warehouse-Technologien

Data-Warehouse-Technologien Lösungen Variante 1: „Verteilte DB“ Globale Anfrage über mehrere DBs  Sicht mit Union Nachteil: aufwändige verteilte Anfrageausführung Variante 2: „Zentrale DB“ Änderungen über einer zentralen DB Nachteil: lange Antwortzeiten im operativen Betrieb Sattler / Saake Data-Warehouse-Technologien

Data Warehouse-Lösung Asynchrone Aktualisierung DB Ilmenau DB Erfurt DB Jena Redundante Datenhaltung, Transformierte, vorberechnete Daten Data Warehouse Sattler / Saake Data-Warehouse-Technologien

Gegenstand der Vorlesung Data Warehouse: Sammlung von Technologien zur Unterstützung von Entscheidungsprozessen Herausforderung an Datenbanktechnologien Datenvolumen (effiziente Speicherung und Verwaltung, Anfragebearbeitung) Datenmodellierung (Zeitbezug, mehrere Dimensionen) Integration heterogener Datenbestände Schwerpunkt Datenbanktechniken von Data Warehouses Sattler / Saake Data-Warehouse-Technologien

Data-Warehouse-Technologien Überblick Monitoring & Administration OLAP-Server Metadaten- Repository Analyse Data Warehouse Externe Quellen Query/Reporting Extraktion Transformation Operative Laden Datenbanken Data Mining Werkzeuge Data Marts Sattler / Saake Data-Warehouse-Technologien

Betriebswirtschaftliche Anwendungen Informationsbereitstellung Daten und Informationen als Grundlage einer erfolgreichen Abwicklung von Geschäftsprozessen (z.B. Kennzahlen) Anwender: Manager, Abteilungsleiter, Fachkräfte Formen der Bereitstellung Query-Ansätze: frei definierbare Anfragen und Berichte Reporting: Zugriff auf vordefinierte Berichte Redaktionell aufbereitete, personalisierte Informationen Sattler / Saake Data-Warehouse-Technologien

Betriebswirtschaftliche Anwendungen Analyse Detaillierte Analyse der Daten zur Untersuchung von Abweichungen oder Auffälligkeiten Anwender: Spezialisten (z.B. Controlling, Marketing) Planung Unterstützung durch explorative Datenanalyse Aggregrierung von Einzelplänen Kampagnenmanagement Unterstützung strategischer Kampagnen Kundenanalyse, Risikoanalyse Sattler / Saake Data-Warehouse-Technologien

Wissenschaftliche und Technische Anwendungen Wissenschaftliche Anwendungen Statistical und Scientific Databases  technische Wurzeln des DW Beispiel: Projekt Earth Observing System (Klima- und Umweltforschung) täglich ca. 1,9 TB meteorologischer Daten Aufbereitung und Analyse (statistisch, Data Mining) Technische Anwendungen Öffentlicher Bereich: DW mit Umwelt- oder geographischen Daten (z.B. Wasseranalysen) Sattler / Saake Data-Warehouse-Technologien

Data-Warehouse-Technologien Einsatzbeispiel Wal-Mart (www.wal-mart.com) Marktführer im amerikanischen Einzelhandel Unternehmensweites Data Warehouse Größe: ca. 300 TB (2003) Täglich bis zu 20.000 DW-Anfragen Hoher Detaillierungsgrad (tägliche Auswertung von Artikelumsätzen, Lagerbestand, Kundenverhalten) Basis für Warenkorbanalyse, Kundenklassifizierung, ... Sattler / Saake Data-Warehouse-Technologien

Fragestellungen und Aufgaben (Bsp.) Überprüfung des Warensortiments zur Erkennung von Ladenhütern oder Verkaufsschlagern Standortanalyse zur Einschätzung der Rentabilität von Niederlassungen Untersuchung der Wirksamkeit von Marketing-Aktionen Auswertung von Kundenbefragungen, Reklamationen bzgl. bestimmter Produkte etc. Analyse des Lagerbestandes Warenkorbanalyse mit Hilfe der Kassenbons Sattler / Saake Data-Warehouse-Technologien

Beispiel einer Anfrage Welche Umsätze sind in den Jahren 1998 und 1999 in den Abteilungen Kosmetik, Elektro und Haushaltswaren in den Bundesländern Sachsen-Anhalt und Thüringen angefallen ? Sattler / Saake Data-Warehouse-Technologien

Data-Warehouse-Technologien Ergebnis (Würfel) Sattler / Saake Data-Warehouse-Technologien

Data-Warehouse-Technologien Ergebnis (Bericht) Umsatz Kosmetik Elektro Haushalt SUMME 1998 Sachsen-Anhalt 45 123 17 185 Thüringen 43 131 21 195 88 254 38 380 1999 47 19 197 40 136 20 196 87 267 39 393 175 521 77 773 Sattler / Saake Data-Warehouse-Technologien

Data-Warehouse-Technologien Marktentwicklung Marktgröße: Data Warehouse und OLAP (Quelle: OLAP Report OnLine www.olapreport.com) Sattler / Saake Data-Warehouse-Technologien

Aspekte von Data Warehouses Integration Vereinigung von Daten aus verschiedenen, meist heterogenen Quellen Überwindung der Heterogenität auf verschiedenen Ebenen (System, Schema, Daten) Analyse Bereitstellung der Daten in einer vom Anwender gewünschten Form (bezogen auf Entscheidungsgebiet) erfordert Vorauswahl, Zeitbezug, Aggregation Sattler / Saake Data-Warehouse-Technologien

Data-Warehouse-Technologien Abgrenzung zu OLTP Klassische operative Informationssysteme  Online Transactional Processing (OLTP) Erfassung und Verwaltung von Daten Verabeitung unter Verantwortung der jeweiligen Abteilung Transaktionale Verarbeitung: kurze Lese-/ Schreibzugriffe auf wenige Datensätze Data Warehouse Analyse im Mittelpunkt lange Lesetransaktionen auf vielen Datensätzen Integration, Konsolidierung und Aggregation der Daten Sattler / Saake Data-Warehouse-Technologien

Abgrenzung zu OLTP: Anfragen transaktional analytisch Fokus Lesen, Schreiben, Modifizieren, Löschen Lesen, periodisches Hinzufügen Transaktionsdauer und –typ kurze Lese-/ Schreibtransaktionen lange Lesetransaktionen Anfragestruktur einfach strukturiert komplex Datenvolumen einer Anfrage wenige Datensätze viele Datensätze Datenmodell anfrageflexibel analysebezogen Sattler / Saake Data-Warehouse-Technologien

Abgrenzung zu OLTP: Daten transaktional analytisch Datenquellen meist eine mehrere Eigenschaften nicht abgeleitet, zeitaktuell, autonom, dynamisch abgeleitet/konsolidiert, nicht zeitaktuell, integriert, stabil Datenvolumen MByte ... GByte GByte ... TByte Zugriffe Einzeltupelzugriff Tabellenzugriff Sattler / Saake Data-Warehouse-Technologien

Abgrenzung zu OLTP: Anwender transaktional analytisch Anwendertyp Ein-/Ausgabe durch Angestellte oder Applikationssoftware Manager, Controller Analyst Anwenderzahl sehr viele wenige (bis einige hundert) Antwortzeit ms ... sec sec ... min Sattler / Saake Data-Warehouse-Technologien

Abgrenzung: DBMS-Techniken Parallele Datenbanken Technik zur Realisierung eines DWH Verteilte Datenbanken I.d.R. keine redundante Datenhaltung Verteilung als Mittel zur Lastverteilung Keine inhaltliche Integration/Verdichtung der Daten Föderierte Datenbanken Höhere Autonomie und Heterogenität Kein spezifischer Analysezweck Sattler / Saake Data-Warehouse-Technologien

Data Warehouse: Begriff A Data Warehouse is a subject-oriented, integrated, non-volatile, and time variant collection of data in support of managements decisions. (W.H. Inmon 1996) Sattler / Saake Data-Warehouse-Technologien

Data Warehouse: Charakteristika Fachorientierung (subject-oriented): Zweck des Systems ist nicht Erfüllung einer Aufgabe (z.B. Personaldatenverwaltung), sondern Modellierung eines spezifischen Anwendungsziels Integrierte Datenbasis (integrated): Verarbeitung von Daten aus mehreren verschiedenen Datenquellen (intern und extern) Nicht-flüchtige Datenbasis (non-volatile): stabile, persistente Datenbasis Daten im DW werden nicht mehr entfernt oder geändert Historische Daten (time-variant): Vergleich der Daten über Zeit möglich (Zeitreihenanalyse) Speicherung über längeren Zeitraum Sattler / Saake Data-Warehouse-Technologien

Data-Warehouse-Technologien Weitere Begriffe Data Warehousing Data-Warehouse-Prozess, d.h. alle Schritte der Datenbeschaffung (Extraktion, Transformation, Laden), des Speicherns und der Analyse Data Mart externe (Teil-)Sicht auf das Data Warehouse durch Kopieren anwendungsbereichsspezifisch OLAP (Online Analytical Processing) explorative, interaktive Analyse auf Basis des konzeptuellen Datenmodells Sattler / Saake Data-Warehouse-Technologien

Trennung operativer und analytischer Systeme Gründe Antwortzeitverhalten: Analyse auf operativen Quelldatensystemen  schlechte Performance, Langfristige Speicherung der Daten  Zeitreihenanalyse Zugriff auf Daten unabhängig von operativen Datenquellen (Verfügbarkeit, Integrationsproblematik) Vereinheitlichung des Datenformats im DW Gewährleistung der Datenqualität im DW Sattler / Saake Data-Warehouse-Technologien

Data-Warehouse-Technologien Historie Wurzeln 60er Jahre: Executive Information Systems (EIS) qualitative Informationsversorgung von Entscheidern kleine, verdichtete Extrakte der operativen Datenbestände Aufbereitung in Form statischer Berichte Mainframe 80er Jahre: Management Information Systems (MIS) meist statische Berichtsgeneratoren Einführung von Hierarchieebenen für Auswertung von Kennzahlen (Roll-Up, Drill-Down) Client-Server-Architekturen, GUI (Windows, Apple) Sattler / Saake Data-Warehouse-Technologien

Data-Warehouse-Technologien Historie 1992: Einführung des Data-Warehouse-Konzeptes durch W.H. Inmon redundante Haltung von Daten, losgelöst von Quellsystemen Beschränkung der Daten auf Analysezweck 1993: Definition des Begriffs OLAP durch E.F. Codd Dynamische, multidimensionale Analyse Weitere Einflussgebiete Verbreitung geschäftsprozeßorientierter Transaktionssysteme (SAP R/3)  Bereitstellung von entscheidungsrelevanten Informationen Data Mining WWW (Web-enabled Data Warehouse etc.) Sattler / Saake Data-Warehouse-Technologien

Vorlesung: Zielstellungen Vermittlung von Kenntnissen zu Datenbanktechniken für Aufbau und Implementierung von Data Warehouses Anwendung bekannter DB-Techniken (siehe Vorlesung „Datenbanken I“) Datenmodellierung, Anfragesprachen und -verarbeitung DW-spezifische Techniken multidimensionale Datenmodellierung spezielle Anfragetechniken Indexstrukturen materialisierte Sichten Sattler / Saake Data-Warehouse-Technologien

Data-Warehouse-Technologien DW-Architektur Komponenten von DW und deren Aufgaben Datenbanken Datenquellen: Herkunftsort der Daten Arbeitsbereich: temporäre Datenbank für Transformation Data Warehouse: physische Datenbank für Analyse Repository: Datenbank mit Metadaten Sattler / Saake Data-Warehouse-Technologien

Data-Warehouse-Technologien DW-Architektur Komponenten Data-Warehouse-Manager: zentrale Kontrolle und Steuerung Monitore: Überwachung der Quellen auf Veränderungen Extraktoren: Selektion und Transport der Daten aus Quellen in Arbeitsbereich Transformatoren: Vereinheitlichung und Bereinigung der Daten Ladekomponenten: Laden der transformierten Daten in das DW Analysekomponenten: Analyse und Präsentation der Daten Sattler / Saake Data-Warehouse-Technologien

Multidimensionales Datenmodell Datenmodell zur Unterstützung der Analyse Fakten und Dimensionen Klassifikationsschema Würfel Operationen: Pivotierung, Roll-Up, Drill-Down, Drill-Across, Slice und Dice Notationen zur konzeptuellen Modellierung Relationale Umsetzung Star-Schema, Snowflake-Schema Multidimensionale Speicherung Sattler / Saake Data-Warehouse-Technologien

Anfrageverarbeitung und -optimierung Gruppierung und Aggregation Supergroups, CUBE OLAP-Funktionen aus SQL:1999 Star-Joins Optimierungsaspekte Histogramme, Sampling Mehrdimensionale Erweiterungen von Anfragesprachen MDX Sattler / Saake Data-Warehouse-Technologien

Index- und Speicherungsstrukturen Klassifikation Wiederholung: B-Baum und B*-Baum Mehrdimensionale Indexstrukturen R-Baum UB-Baum Bitmap-Index Vergleich Multidimensionale Speicherung Sattler / Saake Data-Warehouse-Technologien

Materialisierte Sichten Materialisierte Sicht (engl. materialized view): vorab berechneter Ausschnitt aus einer Faktentabelle Verwendung: Anfrageersetzung generalized projection Auswahl: Bestimmung der redundant gehaltenen Daten statische vs. dynamische Auswahlverfahren Semantisches Caching Wartung und Aktualisierung Sattler / Saake Data-Warehouse-Technologien

Metadaten und Datenqualität Metadatenmanagement Metadaten-Repository Standards für Metadaten Aspekte der Datenqualität Sattler / Saake Data-Warehouse-Technologien

Data-Warehouse-Technologien OLAP und Data Mining OLAP Anforderungen OLAP-Operationen OLAP-Werkzeuge Data-Mining-Technikem Klassifikation, Assoziationsregeln, Clustering Sattler / Saake Data-Warehouse-Technologien

Data-Warehouse-Technologien TPC-Benchmarks Vergleich der Leistungsfähigkeit von Datenbanken (www.tpc.org) TPC-C: OLTP Benchmark TPC-H: Ad-hoc Decision Support (variable Anteile) TPC-R: Reporting Decision Support (feste Anfragen) TPC-W: eCommerce Transaktionsprocessing Vorgegebene Schemata (Lieferwesen) Schema-, Query- und Datengeneratoren Unterschiedliche DB-Größen TPC-H: 100 GB - 300 GB - 1 TB - 3 TB Sattler / Saake Data-Warehouse-Technologien

Data-Warehouse-Technologien TPC-H: Schema REGION REGION 1 1 N N NATION NATION 1 N 1 CUSTOMER N 1 SUPPLIER N ORDERS 1 1 N N PART 1 N PARTSUPP 1 N LINEITEM Sattler / Saake Data-Warehouse-Technologien

Data-Warehouse-Technologien TPC-H: Anfragen SELECT c_name, c_custkey, o_orderkey, o_orderdate, o_totalprice, SUM(l_quantity) FROM customer, orders, lineitem WHERE o_orderkey IN (SELECT l_orderkey FROM lineitem GROUP BY l_orderkey HAVING SUM(l_quantity) > :1) AND c_custkey = o_custkey AND o_orderkey = l_orderkey GROUP BY c_name, c_custkey, o_orderkey, o_orderdate, o_totalprice ORDER BY o_totalprice desc, o_orderdate; Sattler / Saake Data-Warehouse-Technologien

Data-Warehouse-Technologien TPC-H: Zahlen (100 GB) Sattler / Saake Data-Warehouse-Technologien

Data-Warehouse-Technologien TPC-H: Zahlen (3.000 GB) Sattler / Saake Data-Warehouse-Technologien

Data-Warehouse-Technologien Produkte OLAP-Tools/Server MS Analysis Services, Hyperion, Cognos DW-Erweiterungen für RDBMS Oracle9i, IBM DB2, MS SQL Server: SQL-Erweiterungen, Indexstrukturen, mat. Sichten, Bulk-Load/Insert, … ETL-Tools MS Data Transformation Services, … Sattler / Saake Data-Warehouse-Technologien

Data-Warehouse-Technologien Literatur Lehner: „Datenbanktechnologie für Data-Warehouse-Systeme“, dpunkt.verlag, 2003 Inmon: „Building the Data Warehouse“, John Wiley & Sons, 1996 Bauer, Günzel (Hrg.): Data Warehouse – Architektur, Entwicklung, Anwendung; dpunkt.verlag, 2000 Westerman: „Data Warehousing: Using the Wal-Mart Model“, Morgan Kaufman, 2000 Kurz: Data Warehousing: Enabling Technology; MITP, 1999 Sattler / Saake Data-Warehouse-Technologien