Management-Informationssysteme (MIS) Data Warehouses.

Slides:

Advertisements

Ähnliche Präsentationen

Daten im Data-Warehouse

Advertisements

Prof. Dr. Dr. h.c. mult. August-Wilhelm Scheer

Heterogene Informationssysteme

Daten- und Informationsqualität. © Prof. T. Kudraß, HTWK Leipzig Management der Informationsqualität Keine verbindlichen Standards oder Vorgaben für Informationsqualität.

2. Data-Warehouse-Architektur

Wissensanalyse von Aufgaben mit TKS Eine Methode zur Problemlösung

Datenbanken Einführung.

Folien 2-5, 7-8 © Prof. Dr. Manfred Rössle (FH Aalen)

Data Mining Anwendungen und Techniken

Schulz & Löw Consulting GmbH

Objekt – Relationales – Modell Tomasz Makowski IN

Prof. Dr. Hans-Jürgen Scheruhn

1-1 Schlank und schnell zum Datawarehouse Marc Bastien Oracle Deutschland GmbH BTW Leipzig,

Inhaltlich orientierter Zugriff auf unstrukturierte Daten

MS Office-Paket: Access

Datenbanken I (0,*) Produkt 3 Karczewski Datenbanken I.

Anfragesprachen – Dipl. Ing. Ulrich Borchert / FH Merseburg1/7 Datenbanken werden als Anhäufung von Werten eines Wertebereiches aufgefasst und Datenbankabfragen.

Anfragesprachen – Dipl. Ing. Ulrich Borchert / FH Merseburg1/9 Data Mining Ist die Wissensgewinnung aus Datensammlungen (Knowledge Discovery in Database).

Datenmodelle, Datenbanksprachen und Datenbankmanagementsysteme

IS: Datenbanken, © Till Hänisch 2000 CREATE TABLE Syntax: CREATE TABLE name ( coldef [, coldef] [, tableconstraints] ) coldef := name type [länge], [[NOT]NULL],

Universeller Zugriff auf multimediale Dokumentstrukturen auf der Basis von RDF und MPEG-7 Stefan Audersch BerlinXSW Juni.

Informationsmanagement. © Prof. T. Kudraß, HTWK Leipzig Konzepte des Informationsmanagements Problemorientierte Ansätze Aufgabenorientierte Ansätze Prozessorientierte.

Entscheidungsunterstützende Systeme (Data Warehouse)

SQL/XML. © Prof. T. Kudraß, HTWK Leipzig 2 2 Motivation Speicherung von XML in allen großen kommerziellen DBMS vorhanden proprietäre Lösungen für die.

Anwendungen. © Prof. T. Kudraß, HTWK Leipzig Historie des WWW Grundlage Internet – Entwickelt Ende der 60er Jahre vom US-Militär (ARPA-Net) – Technische.

OLAP. © T. Kudraß, HTWK Leipzig Warum? Daten einer Firma verfügbar machen für Entscheidungsprozesse – Umsetzung schwierig neue Konzepte notwendig zur.

Prof. Dr. T. Kudraß1 Datenbanken zur Entscheidungsunterstützung - Data Warehousing.

Text-Retrieval mit Oracle Vortrag von Andreas Mück & David Diestel.

Abgrenzung, Einordnung und Anwendungen Sebastian Hentschel

Übung Datenbanksysteme SQL-Anfragen (2)

Access 2000 Datenbanken.

Datenbanken Einführung Merkmale dateiorientierte Datenverwaltung

Einführung Dateisystem <-> Datenbanksystem

Konzeption und Realisierung von DSS

... und alles was dazugehört

Spezifikation von Anforderungen

1 Produktive ZDB-Schnittstellen : OAI Bernd Althaus / 10| Produktive ZDB-Schnittstellen: OAI| Althaus | 14. Oktober 2013.

Business Intelligence

Entwurf und Realisierung einer digitalen Bibliothek zur Verwaltung von Notenhandschriften Dipl.-Ing. Temenushka Ignatova Datenbank- und Informationssysteme,

Qualitätskontrolle von Datenintegrations-prozessen

© DVS System Software GmbH & Co. KG

Sistema GeoDAT, S.L. GeoBIS, GeoEIS, GIS-Komponente … 2005.

© Sistema GeoDAT, S.L. Business Intelligence... Verkauf, Einkauf, Finanzen … Steuerung, Planung und Simulation von Vertriebsgebieten. Controlling Finanzcontrolling,

Eine Einführung in OLAP (Online Analytical Processing)

Analytisches CRM Phonnet Gruppe 1 (Loher, Meier, Rehhorn, Piasini)

Erstellen einer Webseitenstatistik mithilfe eines OLAP-Servers

Erstellen einer Webseitenstatistik mithilfe eines OLAP-Servers

Problemstellung Heterogene DV-Strukturen Mangelnde Kapazität in der EDV-Abteilung Historische Daten nicht verfügbar Analysen belasten die vorhandene Infrastruktur.

Sesame Florian Mayrhuber

Überblick über die Datenbankproblematik

Allgemeines zu Datenbanken

Data Warehouse: ETL-Praktikum

Skalierbare Reporting-Systeme zwischen Excel™ und Data Warehouse

DI (FH) DI Roland J. Graf MSc (GIS) U N I V E R S I T Ä T S L E H R G A N G Geographical Information Science & Systems UNIGIS.

Einführung in Datenbankmodellierung und SQL

00:13 Matthias Ansorg FH Gießen-Friedberg1 / 24 Multidimensionale Datenstrukturen - semantische und logische Modellierung Teilvortrag: logische Modellierung.

Betriebliche Anwendung von Datenbanksystemen: Data Warehouse

XML und Datenbanken © 2006 Markus Röder

Structured Query Language

© 2001 Sven Dammann1 Aufbau Integrierter Informationssysteme XML Bearbeitung und relationale Abbildung Sven Dammann Martin-Luther-Universität Halle-Wittenberg.

Einführung Dateisystem <-> Datenbanksystem

Nachtrag Abgrenzung OLAP / OLTP

Datenbanken im Web 1.

Datenbank System (DBS) - Warum?

Anfragen an multidimensonale Daten

Architektur von Data Warehouse Systemen

Thema 1 Data WareHouse Volker Jahns.

Komponenten und Phasen des Data Warehousing

Nachtrag Abgrenzung OLAP / OLTP

Präsentation transkript:

Management-Informationssysteme (MIS) Data Warehouses

© Prof. T. Kudraß, HTWK Leipzig Überblick Historie Funktionen Architektur Data Warehouse OLAP Data Mining

© Prof. T. Kudraß, HTWK Leipzig Historie Wurzeln – 60er Jahre: Executive Information Systems (EIS) qualitative Informationsversorgung von Entscheidern kleine, verdichtete Extrakte der operativen Datenbestände Aufbereitung in Form statischer Berichte Mainframe – 80er Jahre: Management Information Systems (MIS) meist statische Berichtsgeneratoren Einführung von Hierarchieebenen für Auswertung von Kennzahlen (Roll-Up, Drill-Down) Client-Server-Architekturen, GUI (Windows, Apple)

© Prof. T. Kudraß, HTWK Leipzig Historie (Forts.) 1992: Einführung des Data-Warehouse-Konzeptes durch W.H. Inmon – redundante Haltung von Daten, losgelöst von Quellsystemen – Beschränkung der Daten auf Analysezweck 1993: Definition des Begriffs OLAP durch E.F. Codd – Dynamische, multidimensionale Analyse Weitere Einflussgebiete – Verbreitung geschäftsprozessorientierter Transaktionssysteme (SAP R/3) Bereitstellung von entscheidungsrelevanten Informationen – Data Mining – WWW (Web-enabled Data Warehouse etc.)

© Prof. T. Kudraß, HTWK Leipzig Funktionen periodische und standardisierte Berichte Verfügbarkeit auf allen Managementebenen verdichtete, zentralisierte Informationen über alle Geschäftsaktivitäten interaktive Beschaffung von entscheidungsrelevanten Daten, die den Ist-Zustand des Unternehmens beschreiben größtmögliche Interaktivität Darstellung von Kennzahlen / Visualisierung / Erkennen von Trends regelmäßige und ad-hoc Berichte

© Prof. T. Kudraß, HTWK Leipzig Funktionen (Forts.) Unterstützung des Managers im Sinne einer Assistenz Management von Modellen und Methoden Datenbankmanagement konzentriert auf fachliche Teilprobleme eingebettet in komplexe Informationssysteme (z.B. ERP-Systeme, SAP BW) als Decision Support System – in den frühen Phasen von Entscheidungsprozessen – strategische Funktionen

Data Warehouse

© Prof. T. Kudraß, HTWK Leipzig Data Warehouse Überblick Begriff Anwendungen Definition und Abgrenzung Architekturmodell – Komponenten Phasen des Data Warehousing – ETL – Datenkonflikte

© Prof. T. Kudraß, HTWK Leipzig Was ist Data Warehousing? Data Warehouse : Sammlung von Technologien zur Unterstützung von Entscheidungsprozessen Herausforderung an Datenbanktechnologien - Datenvolumen (effiziente Speicherung und Verwaltung, Anfragebearbeitung) - Datenmodellierung (Zeitbezug, mehrere Dimensionen) - Integration heterogener Datenbestände

© Prof. T. Kudraß, HTWK Leipzig Anwendungen Betriebswirtschaftliche Anwendungen - Informationsbereitstellung - Analyse - Planung - Kampagnenmanagement Wissenschaftliche Anwendungen - Statistical und Scientific Databases Technische Anwendungen - Öffentlicher Bereich: DW mit Umwelt- oder geographischen Daten (z.B. Wasseranalysen)

© Prof. T. Kudraß, HTWK Leipzig Definition Data Warehouse Begriff A Data Warehouse is a subject-oriented, integrated, non-volatile, and time variant collection of data in support of managements decisions. (W.H. Inmon 1996) Charakteristika 1. Themenorientierung (subject-oriented): - Zweck des Systems ist nicht Erfüllung einer Aufgabe (z.B. Verwaltung), sondern Modellierung eines spezifischen Anwendungsziels 2. Integrierte Datenbasis (integrated): - Verarbeitung von Daten aus mehreren verschiedenen Datenquellen (intern und extern) in einheitlicher konsistenter Sicht 3. Nicht-flüchtige Datenbasis (non-volatile): - stabile, persistente Datenbasis - Daten im DW werden nicht mehr entfernt oder geändert (Beständigkeit) 4. Historische Daten (time-variant): - Speicherung der Daten zeitraumbezogen - Vergleich der Daten über Zeit möglich (Zeitreihenanalyse)

© Prof. T. Kudraß, HTWK Leipzig Trennung operativer und analytischer Systeme Klassische operative Informationssysteme (OLTP) - Erfassung und Verwaltung von Daten - Verarbeitung unter Verantwortung der jeweiligen Abteilung - Transaktionale Verarbeitung: kurze Lese-/ Schreibzugriffe auf wenige Datensätze Data Warehouse - Analyse im Mittelpunkt - lange Lesetransaktionen auf vielen Datensätzen - Integration, Konsolidierung und Aggregation der Daten Gründe - Antwortzeitverhalten - Verfügbarkeit, Integrationsproblematik - Vereinheitlichung des Datenformats - Gewährleistung der Datenqualität

© Prof. T. Kudraß, HTWK Leipzig Beispiel einer Anfrage Welche Umsätze sind in den Jahren 1998 und 1999 in den Abteilungen Kosmetik, Elektro und Haushaltswaren in den Bundesländern Sachsen-Anhalt und Thüringen angefallen?

© Prof. T. Kudraß, HTWK Leipzig Multidimensionales Datenmodell Datenmodell zur Unterstützung der Analyse - Fakten und Dimensionen - Klassifikationsschema - Würfel - Operationen Notationen zur konzeptuellen Modellierung Relationale Umsetzung - Star-, Snowflake-Schema Multidimensionale Speicherung

© Prof. T. Kudraß, HTWK Leipzig Fallbeispiel Wal-Mart Marktführer im amerikanischen Einzelhandel Weltgrößtes Data Warehouse mit ca. 0.5 PB (2006): 100 Mio Kunden, Milliarden Einkäufe pro Woche Wal-Mart Data Center in MacDonald County

© Prof. T. Kudraß, HTWK Leipzig Fallbeispiel Wal-Mart: Orange Juice How much orange juice did we sell last year, last month, last week in store X? Comparing sales data of orange juice in various stores? What internal factors (position in store, advertising campaigns...) influence orange juice sales? What external factors (weather...) influence orange juice sales? Who bought orange juice last year, last month, last week? And most important: How much orange juice are we going to sell next week, next month, next year? Other business questions include: What is the suppliers price of orange juice last year, this year, next year? How can we help suppliers to reduce their cost? What are the shipping/stocking costs of orange juice to/in store X? How can suppliers help us reduce those cost?

© Prof. T. Kudraß, HTWK Leipzig Data Warehouse Anforderungen Unabhängigkeit zwischen Datenquellen und Analysesystemen (bzgl. Verfügbarkeit, Belastung, laufender Änderungen) Dauerhafte Bereitstellung integrierter und abgeleiteter Daten (Persistenz) Mehrfachverwendbarkeit der bereitgestellten Daten Möglichkeit der Durchführung prinzipiell beliebiger Auswertungen Unterstützung individueller Sichten (z.B. bzgl. Zeithorizont, Struktur) Erweiterbarkeit (z.B. Integration neuer Quellen) Automatisierung der Abläufe Eindeutigkeit über Datenstrukturen, Zugriffsberechtigungen und Prozesse Ausrichtung am Zweck: Analyse der Daten

© Prof. T. Kudraß, HTWK Leipzig Data Warehouse Architekturmodell

© Prof. T. Kudraß, HTWK Leipzig Manager & Datenquellen Data-Warehouse-Manager - Zentrale Komponente eines DW-Systems - Initiierung, Steuerung der einzelnen Prozesse (Ablaufsteuerung) - Überwachung + Koordination - Fehlerhandling - Zugriff auf Metadaten aus dem Repository Datenquellen - Gehören nicht zum DWH - Klassifikation nach Herkunft, Zeit, Nutzungsebene - Auswahlkriterien: Zweck, Qualität, Verfügbarkeit, Preis - Qualitätsforderungen: Konsistenz, Korrektheit, Vollständigkeit, Genauigkeit und Granularität, Zuverlässigkeit und Glaub- würdigkeit, Verständlichkeit, Verwendbarkeit und Relevanz

© Prof. T. Kudraß, HTWK Leipzig Monitore & Arbeitsbereich Monitore - Entdeckung von Datenmanipulationen in einer Datenquelle - Strategien: Trigger-basiert, replikationsbasiert, Log-basiert, zeitstempelbasiert, Snapshot-basiert Arbeitsbereich - Zentrale Datenhaltungskomponente des Daten- beschaffungsbereichs (staging area) - Temporärer Zwischenspeicher zur Integration - Ausführungsort der Transformationen Keine Beeinflussung der Quellen oder des DW Keine Übernahme fehlerbehafteter Daten

© Prof. T. Kudraß, HTWK Leipzig Extraktions-, Transformations- und Ladekomponente Extraktionskomponente - Übertragung von Daten aus Quellen in den Arbeitsbereich - abhängig von Monitoring-Strategie - Nutzung von Standardschnittstellen - Ausnahmebehandlung zur Fortsetzung im Fehlerfall Transformationskomponente - Vorbereitung und Anpassung der Daten für das Laden - Überführung aller Daten in ein einheitliches Format - Data Cleaning, Data Scrubbing, Data Auditing Ladekomponente - Übertragung der bereinigten und aufbereiteten (z.B. aggregierten) Daten in das DWH - Nutzung spezieller Ladewerkzeuge (z.B. SQL*Loader von Oracle) - Historisierung: Änderung in Quellen dürfen DWH-Daten nicht überschreiben, stattdessen zusätzliches Abspeichern - Online/Offline Ladevorgang

© Prof. T. Kudraß, HTWK Leipzig Data Warehouse & Data Marts Data Warehouse - Datenbank für Analysezwecke; orientiert sich in Struktur an Analysebedürfnissen - Basis: DBMS - Unterstützung des Ladeprozesses - Unterstützung des Analyseprozesses Data Marts - Bereitstellung einer inhaltlich beschränkten Sicht auf das DW (z.B. für Abteilung) - Gründe: Eigenständigkeit, Datenschutz, Lastverteilung, Datenvolumen, etc. - Abhängige Data Marts / Unabhängige Data Marts

© Prof. T. Kudraß, HTWK Leipzig Repository & Metadaten-Manager Repository - Speicherung der Metadaten des DWH-Systems Metadaten - Informationen, die Aufbau, Wartung und Administration des DW-Systemsvereinfachen und Informationsgewinnung ermöglichen - Beispiele: Datenbankschemata, Zugriffsrechte, Prozessinformationen (Verarbeitungsschritte und Parameter), etc. Metadaten-Manager - Steuerung der Metadatenverwaltung - Zugriff, Anfrage, Navigation - Versions- und Konfigurationsverwaltung

© Prof. T. Kudraß, HTWK Leipzig Phasen des Data Warehousing Phasen 1. Überwachung der Quellen auf Änderungen durch Monitore 2. Kopieren der relevanten Daten mittels Extraktion in temporären Arbeitsbereich 3. Transformation der Daten im Arbeitsbereich (Bereinigung, Integration) 4. Laden der Daten in das Data Warehouse 5. Analyse: Operationen auf Daten des DWH ETL-Prozeß 1. Extraktion: Selektion eines Ausschnitts der Daten aus den Quellen und Bereitstellung für Transformation 2. Transformation: Anpassung der Daten an vorgegebene Schema- und Qualitätsanforderungen 3. Laden: physisches Einbringen der Daten aus dem Arbeitsbereich (staging area) in das Data Warehouse

© Prof. T. Kudraß, HTWK Leipzig Datenkonflikte Probleme 1. heterogene Bezeichungen, Formate etc. Beispiel 2. inkorrekte Einträge: - Tippfehler bei Eingabe von Werten - falsche Einträge aufgrund von Programmierfehlern in einzelnen Anwendungsprogrammen i.d.R. nicht automatisch behebbar !!! 3. veraltete Einträge: - durch unterschiedliche Aktualisierungszeitpunkte - vergessene Aktualisierungen in einzelnen Quellen Behebung - explizite Werteabbildung - Einführung von Ähnlichkeitsmaßen - Bevorzugung der Werte aus einer lokalen Quelle - Verwendung von Hintergrundwissen Einsatz wissensbasierter Verfahren

© Prof. T. Kudraß, HTWK Leipzig Data Cleaning, Data Scrubbing, Data Auditing Data Cleaning - Korrektur inkorrekter, inkonsistenter oder unvollständiger Daten - Techniken: - Domänenspezifische Bereinigung - Domänenunabhängige Bereinigung - Regelbasierte Bereinigung - Konvertierungs- und Normalisierungsfunktionen Data Scrubbing - Ausnutzung von domänenspezifischen Wissen (z.B. Geschäftsregeln) zum Erkennen von Verunreinigungen - Beispiel: Erkennen von Redundanzen Data Auditing - Anwendung von Data-Mining-Verfahren zum Aufdecken von Regeln - Aufspüren von Abweichungen

OLAP

© Prof. T. Kudraß, HTWK Leipzig OLAP Überblick Einführendes Beispiel Begriffsdefinition Charakteristika Architektur Funktionalität OLAP & SQL (insb. ROLLUP & CUBE)

© Prof. T. Kudraß, HTWK Leipzig Warum? Daten einer Firma verfügbar machen für Entscheidungsprozesse – Umsetzung schwierig neue Konzepte notwendig zur analytischen Informationsverarbeitung – OLAP – Data Warehousing – Data Mining

© Prof. T. Kudraß, HTWK Leipzig OLAP Einleitung DSS: Decision Support System

© Prof. T. Kudraß, HTWK Leipzig Einführungsbeispiel Umsatz pro Zeit und Produkt

© Prof. T. Kudraß, HTWK Leipzig Einführungsbeispiel Umsatz pro Zeit, Produkt und Region

© Prof. T. Kudraß, HTWK Leipzig Einführungsbeispiel

© Prof. T. Kudraß, HTWK Leipzig OLAP OLAP erleichtert die Analyse von Kennzahlen unter verschiedenen Gesichtspunkten (Dimensionen) – z.B. Produktmanager, Bereichsleiterin – Kennzahlen – graphische Darstellung (Diagramme) Dynamische, multidimensionale Geschäftsanalyse mit Simulationskomponente

© Prof. T. Kudraß, HTWK Leipzig Was ist OLAP? OLAP ist ein Überbegriff für Technologien, Methoden und Tools zur Ad-hoc-Analyse multidimensionaler Informationen... bietet verschiedene Sichtweisen... eine Komponente der entscheidungsorientierten Informationsverarbeitung

© Prof. T. Kudraß, HTWK Leipzig Analyse-Datenmodelle kategorisches (beschreibendes) Modell – statisches Analysemodell zur Beschreibung des gegenwärtigen Zustands – Vergleich von historischen mit aktuellen Daten exegetisches (erklärendes) Modell – zur Erklärung der Ursachen für Zustand durch Nach- vollziehen der Schritte, die ihn hervorgebracht haben (durch einfache Anfragen) kontemplatives (bedenkendes) Modell – Simulation von What IfSzenarios für vorgegebene Werte oder Abweichungen innerhalb einer Dimension oder über mehrere Dimensionen hinweg formelbasiertes Modell – gibt Lösungswege vor: ermittelt für vorgegebene Anfangs- und Endzustände, welche Veränderung für welche Kenngröße bzgl. welcher Kenngröße für ange- strebtes Ergebnis notwendig Komplexität

© Prof. T. Kudraß, HTWK Leipzig OLAP Charakteristika* Multidimensionale konzeptionelle Sichten funktionale Transparenz unbeschränkter Zugriff auf operative und/oder externe Datenquellen gleichbleibende Berichtsleistung Client-/Server Architektur gleichgestellte Dimensionen dynamische Behandlung dünn besetzter Datenwürfel mehrere Anwender unbeschränkte, dimensionsübergreifende Operationen intuitive Datenmanipulation flexibles Berichtswesen unbegrenzte Dimensions- und Aggregationsstufen 12 Regeln nach E. F. Codd

© Prof. T. Kudraß, HTWK Leipzig OLAP Charakteristika - FASMI FASMI = Fast Analysis of Shared Multidimensional Information Fast: 1-2 Sekunden als Antwortzeit bei einfachen Anfragen bis maximal 20 Sekunden für komplexe Datenanalysen Analysis: Verfahren und Techniken zu einfachen mathematischen Berechnungen und Strukturuntersuchungen Shared: Schutzmechanismen für den Zugriff im Mehrbenutzerbetrieb Multidimensional: Multidimensionale konzeptionelle Sicht auf Informationsobjekte, d.h. freier Zugriff auf einen Datenwürfel und multiple Berichtshierarchien über die Dimensionen

© Prof. T. Kudraß, HTWK Leipzig OLAP Charakteristika Daten werden über Dimensionen beschrieben. Begriffe: Multidimensionalität, Hypercubes, Ausprägungen (Members), Zellen Zeit Regionen Produkte Jan FebMrzAprMaiJunJulAugSepOktNovDez CD DVD Fernseher Video Kühlschrank Sachsen-Anhalt Thüringen Sachsen

© Prof. T. Kudraß, HTWK Leipzig Dimensionen können Hierarchien haben. Produkte Zeit Sachsen-A. Sachsen Thüringen Lippenstift Deo Haarzeugs DVD CD JanFebMrzAprMai Jun JulAugSepOktNovDez Elektro Kosmetik Alle Produkte Alle Regionen Q1Q2Q3Q42000 Region OLAP Charakteristika

© Prof. T. Kudraß, HTWK Leipzig Zu Hierarchien Hierarchie – Hierarchische Aufteilung der Dimension DVD Kosmetik Lipp. DeoCD Elektro Produkte Haar... Dimension Produkte

© Prof. T. Kudraß, HTWK Leipzig OLAP Grobarchitektur

© Prof. T. Kudraß, HTWK Leipzig OLAP Architekturkonzepte ROLAP = Relational OLAP – bei Abbildung in Relationen: möglichst wenig Verlust von Semantik, die im multidimensionalen Modell enthalten – Effiziente Übersetzung und Abarbeitung von multidimensionalen Anfragen – Einfache Wartung (z.B. Laden neuer Daten) MOLAP = Multidimensional OLAP – direkte Speicherung multidimensionaler Daten in multidimensionalen DBMS HOLAP = Hybrid OLAP – Kombiniert Vorteile von relationaler und multidimensionaler Realisierung

© Prof. T. Kudraß, HTWK Leipzig Architekturkonzept ROLAP SQL zur Datentransformation Multidimensionale Datenmodelle werden in 2- dimensionalen Tabellen gespeichert Star-, Snowflake, Starflake-Schema Facts Dim1ID Dim2ID Dim3ID Dim4ID Dim1 Star-Schema Dim2 Dim3 Dim4 Beispiel

© Prof. T. Kudraß, HTWK Leipzig ROLAP - Star-Schema erstellen von Fakten- und Dimensionstabellen Faktentabelle mit Schlüsseln für Dimensionstabellen in Dimensionstabellen stehen relevante Daten Redundanz – Alternative wäre Snowflake-Schema – Dimensionsdaten relativ stabil

© Prof. T. Kudraß, HTWK Leipzig Architekturkonzept MOLAP Speicherung erfolgt in multidimensionalen Speicher- Arrays Ordnung der Dimensionen zur Adressierung der Würfelzellen notwendig Klassifikationshierarchien und Aggregation (Echtzeit oder Vorberechnung?) optional: Attribute Behandlung mehrerer Kenngrößen? Single-Cube-Ansatz (Datenbestand in einem Würfel) vs. Multicube-Systeme (mehrere kleinere Würfel) Bewertung des Ansatzes: – Begrenzte Skalierbarkeit bei Dünnbesetztheit – Verbesserung durch Nutzung von Indexierungstechniken

© Prof. T. Kudraß, HTWK Leipzig Architekturkonzepte Query and Calculation Engine OLAP- Fronten d MOLAP Multidimen- sionales OLAP Daten werden multidimensional gespeichert ROLAP Relationales OLAP Daten werden relational gespeichert HOLAP Hybrides OLAP Komplexe Anfragen können hohe Antwortzeiten verursachen Grosse Datenmengen verarbeitbar Schnelle Antwortzeiten auch auf komplexe Anfragen Verarbeitbare Datenmenge beschränkt

© Prof. T. Kudraß, HTWK Leipzig Unterschiede OLTP/OLAP Transaktionsorientierte Systeme Operative Systeme Auswertungsorientierte Systeme Weniger häufige, komplexe Anfragen Grosse Datenmengen je Anfrage Häufige, einfache Anfragen Kleine Datenmengen je Anfrage Schnelle Kalkulation wichtigSchneller Update wichtig Paralleles Ausführung von OLAP-Anfragen auf operationalen Datenbe- ständen könnte Leistungsfähigkeit der OLTP-Anwendungen beeinträchtigen Operieren auf aktuellen und historischen Daten Operieren hauptsächlich auf aktuellen Daten Datenbanksystem kann nicht gleichzeitig für OLTP- und für OLAP- Anwendungen optimiert werden OLTP (Online Transaction Processing) OLAP (Online Analytical Processing)

© Prof. T. Kudraß, HTWK Leipzig OLAP Funktionalität Drill Down – erhöhen des Detaillierungsgrades, d.h. Navigation von den verdichteten Daten zu den detaillierten Roll Up – invers zu Drill Down – Aggregration entlang des Konsolidierungspfades Pivotieren / Rotieren – Betrachten aus unterschiedlichen Perspektiven (vertauschen der Dimensionen um seine Achsen) Slice & Dice – Einschränken des Analyseblickwinkels (Erzeugung von Scheiben oder Teilwürfeln)

© Prof. T. Kudraß, HTWK Leipzig OLAP Funktionen Die multidimensionalen Daten können am Bildschirm flexibel präsentiert werden. Drill- down Roll- up

© Prof. T. Kudraß, HTWK Leipzig OLAP Funktionalität Die multidimensionalen Daten können am Bildschirm flexibel präsentiert werden. Slice Kennzahlen Umsatz Gewinn Produkte Regionen Zeit Kennzahlen Umsatz Gewinn Produkte Regionen Zeit Eine beliebige Kombination von Dimensionen und Aus- prägungen kann angezeigt werden.

© Prof. T. Kudraß, HTWK Leipzig OLAP Funktionalität Die multidimensionalen Daten können am Bildschirm flexibel präsentiert werden. Die Achsen können beliebig ausgetauscht werden. Pivot

© Prof. T. Kudraß, HTWK Leipzig SQL & OLAP Materialized Views Merge von Tabellen SQL für Drill down und Roll up (ROLAP) CUBE-Operator

© Prof. T. Kudraß, HTWK Leipzig Tabellen für Beispiel (Star Schema)

© Prof. T. Kudraß, HTWK Leipzig OLAP Anfragebeispiel CREATE MATERIALIZED VIEW Region_Marke_Quartal AS SELECT O.Region, P.Marke, Z.Quartal, SUM(V.Anz) AS Anzahl FROM (((Verkaufszahl V JOIN Ort O ON (V.Filiale=O.Filiale)) JOIN Zeit Z ON (V.Tag=Z.Tag)) JOIN Produkt P ON (V.Produkt=P.Produkt)) GROUP BY O.Region, P.Marke, Z.Quartal; Erzeugen einer materialisierten Sicht: CREATE MATERIALIZE VIEW Verdichtung mittels GROUP BY Beispiel: Ermittle die quartalsweises Verkaufszahlen pro Pizza-Marke und Region Materialisierte Sichten vielbenutzte Aggregate (Analysen) materialisieren schnellerer Zugriff auf Daten Ablegen der Daten in eigene Relationen

© Prof. T. Kudraß, HTWK Leipzig OLAP-Anfragebeispiel SELECT O.Region, SUM(V.Anz) AS Anzahl FROM (((Verkaufszahl V JOIN Ort O ON (V.Filiale=O.Filiale)) JOIN Zeit Z ON (V.Tag=Z.Tag)) JOIN Produkt P ON (V.Produkt=P.Produkt)) GROUP BY O.Region Verdichtung erhöhen durch Entfernung von Attributen aus der GROUP BY-Klausel. Beispiel: Ermittle die Gesamt-Verkaufszahlen für alle Regionen weitere Verdichtungen möglich automatisches Umschreiben der Anfrage durch Datenbank-Optimierer (query rewrite): Verwenden der materialisierten Sicht zur weiteren Verdichtung

© Prof. T. Kudraß, HTWK Leipzig SQL-Erweiterungen zum Einfügen Kombination von Aktualisieren und Einfügen Beispiel: Liste neuer Produkte mit bestehender Tabelle Produkt mischen MERGE INTO Produkt P1 USING (SELECT ID, Name FROM Produkt_Neu) P2 ON (P1.ID = P2.ID) WHEN MATCHED THEN UPDATE SET P1.Name = P2.Name WHEN NOT MATCHED THEN INSERT (P1.ID, P1.Name) VALUES (P2.ID, P2.Name) GROUP BY O.Region

© Prof. T. Kudraß, HTWK Leipzig Komplexes Gruppieren Beispieldaten für Gruppierungsanfragen SELECTMonat, Produkt, SUM(Anz) AS Anz FROMOrt_Produkt_Monat_Verkauf GROUP BY Monat, Produkt;

© Prof. T. Kudraß, HTWK Leipzig Komplexes Gruppieren SELECT DECODE (GROUPING (Monat),1,Alle Monate, Monat) AS Monat, DECODE (GROUPING(Produkt),1,Alle Produkte, Produkt) AS Produkt, SUM(Anz) AS Anz FROMOrt_Produkt_Monat_Verkauf GROUP BY ROLLUP (Monat, Produkt); SELECT DECODE (GROUPING (Monat),1,Alle Monate, Monat) AS Monat, DECODE (GROUPING(Produkt),1,Alle Produkte, Produkt) AS Produkt, SUM(Anz) AS Anz FROMOrt_Produkt_Monat_Verkauf GROUP BY CUBE (Monat, Produkt);

© Prof. T. Kudraß, HTWK Leipzig Hinweise zum Beispiel ROLLUP – berücksichtigt auch Zwischen- und Endsummen – Funktion GROUPING liefert 1 bei Summe – DECODE kann Standard-Rückgabewert mit Text füllen DECODE vergleichbar mit bedingter Anweisung DECODE (ausdruck, if 1, then 1, if 2, then 2, …, else) – ohne GROUPING/DECODE erscheinen Nullwerte CUBE-Operator – GROUP BY CUBE (Spalte 1,Spalte 2,Spalte 3,…) – k Dimensionen: 2 k mögliche GROUP BY-Klauseln – bietet Ansatz zur Optimierung

© Prof. T. Kudraß, HTWK Leipzig Alternative MD Anfragesprachen MDX [Microsoft] Multidimensional SQL (Cube- und Rollup- Erweiterungen) [SQL-Standard 2006] Multidimensional Query Language (MDSQL) [Platinum Technologies] Red Brick Intelligent SQL (RISQL) [IBM/Informix], mit Erweiterungen der Aggregatfuntionen (Top-N, lfd. Durchschnitt) MQL, XML-basierte Sprache

© Prof. T. Kudraß, HTWK Leipzig MDX Standard für viele Softwarehersteller für OLAP- Datenbanken besteht aus DML und DDL (aber nicht DCL) Funktionalität: – Entwurf von Datenwürfeln – Abfrage von Daten eine MD Datenbank unter Verwendung von Datenwürfeln – Formatieren der Anfrageergebnisse – Definieren von berechneten Elementen und benannten Mengen – Nutzung von Key Performance Indicators (KPI) – Ausführen von Verwaltungsaufgaben

© Prof. T. Kudraß, HTWK Leipzig MDX Beispiel SELECT axis_specification ON COLUMNS, axis_specification ON ROWS FROM cube_name WHERE slicer_specification SELECT {[Verkaufsregion].[Kontinent].[USA], [Verkaufsregion]. [Kontinent].[Kanada]} ON COLUMNS, {[Zeitraum].[Quartal].[Q1], [Zeitraum].[Quartal].[Q2], [Zeitraum].[Quartal].[Q3], [Zeitraum].[Quartal].[Q4]} ON ROWS FROM [VerkaufsCube] WHERE ([Measures].[Umsatz], [Zeitraum].[Jahr].[2007]) Ermittle den Verkaufsumsatz für die Regionen USA und Kanada für jedes Quartal im Jahre 2007 Bestandteile einer MDX-Anfrage

© Prof. T. Kudraß, HTWK Leipzig Zukünftige Entwicklung Web OLAP mit Front End über Web Verknüpfung von OLAP mit anderen Werkzeugen (z.B. Reporting) Konzepte weiterentwickeln Konvergenz mit OLTP Anwendungen auf horizontalen oder vertikalen Markt zuschneiden (bestimmte Branche oder bestimmte Unternehmensfunktion)

Data Mining

© Prof. T. Kudraß, HTWK Leipzig 66 Drastischer Anstieg des Datenvolumens Dauerhafte Speicherung von Daten wird immer günstiger riesige Datenfriedhöfe in Wissenschaft und Wirtschaft – manuelle Sichtung unmöglich – Unzufriedenheit mit existierenden Analysemethoden aus Daten Informationen gewinnen (meist Wettbewerbsvorteile) Aussagen über Grundgesamtheit treffen, wenn nur eine zufällige Stichprobe zur Verfügung steht SQL-,OLAP-Queries nicht ausreichend wegen mangelnder Datenqualität Aufdeckung latenter Zusammenhänge zwischen Daten steigende Anzahl an Data Warehouses Analyseziel: Finde Gold in Deinen Daten! Motivation

© Prof. T. Kudraß, HTWK Leipzig 67 Einzelhandel oft gemeinsam gekaufte Produkte treue Kunden, Premium-Kunden und Schnäppchen- Jäger Spezifische Interessensgruppen Erfolg einer Marketing-Aktion Absatzchancen neuer Produktsegmente Cross-Selling (Partnerschaft mit anderen Anbietern) Bestandsplanung: Wann kaufen Kunden wieviel wovon? Banken Finden von Kriterien für die Kreditwürdigkeit von Kunden Prognose von Aktienkursen Wissenschaft Wirksamkeit von Medikamenten Zusammenhang von Umwelteinflüssen und Krankheiten Finden von Genen in DNA-Strängen Anwendungen für Data Mining

© Prof. T. Kudraß, HTWK Leipzig Data Mining Verfahren Clustering Zusammenfassen ähnlicher Objekte Assozationsanalyse Auffinden von Regeln ( Anwendungsbeispiel) Klassifikation Zuordnen von Datenobjekten zu vorgegebenen Klassen Anomalieentdeckung Auffinden von Ausreißern