Entscheidungsunterstützende Systeme (Data Warehouse)

Slides:



Advertisements
Ähnliche Präsentationen
Daten im Data-Warehouse
Advertisements

Prof. Dr. Dr. h.c. mult. August-Wilhelm Scheer
Heterogene Informationssysteme
Daten- und Informationsqualität. © Prof. T. Kudraß, HTWK Leipzig Management der Informationsqualität Keine verbindlichen Standards oder Vorgaben für Informationsqualität.
Data-Warehouse-Technologien
2. Data-Warehouse-Architektur
Datenbanken Einführung.
Data Mining Anwendungen und Techniken
Verwendungszweck: Diese Folien dienen zur Unterstützung von Microsoft Dynamics NAV-Vertriebsmitarbeitern und -Partnern für Produktpräsentationen beim Kunden.
Institut für Informatik Abteilung Datenbanken Problemseminar Datacleaning Überblick Datacleaning.
1-1 Schlank und schnell zum Datawarehouse Marc Bastien Oracle Deutschland GmbH BTW Leipzig,
Inhaltlich orientierter Zugriff auf unstrukturierte Daten
Anfragesprachen – Dipl. Ing. Ulrich Borchert / FH Merseburg1/24 Beispiel einer Anfrage Welche Umsätze sind in den Jahren 1998 und 1999 in den Abteilungen.
Anfragesprachen – Dipl. Ing. Ulrich Borchert / FH Merseburg1/9 Data Mining Ist die Wissensgewinnung aus Datensammlungen (Knowledge Discovery in Database).
© Dr. Michael Hahne Einführung in das SAP Business Information Warehouse - Datenmodellierung, Datenhaltung, Reporting - Agenda BW Workshop TU Chemnitz.
Datenmodelle, Datenbanksprachen und Datenbankmanagementsysteme
Integrierte Übersetzungsprozesse
Universeller Zugriff auf multimediale Dokumentstrukturen auf der Basis von RDF und MPEG-7 Stefan Audersch BerlinXSW Juni.
Informationsmanagement. © Prof. T. Kudraß, HTWK Leipzig Konzepte des Informationsmanagements Problemorientierte Ansätze Aufgabenorientierte Ansätze Prozessorientierte.
XML in Datenbanksystemen. © Prof. T. Kudraß, HTWK Leipzig 2 2 Warum wird XML eingesetzt? Antworten von Unternehmen: erweiterte Suchmöglichkeiten im Unternehmen.
Management-Informationssysteme (MIS) Data Warehouses.
Anwendungen. © Prof. T. Kudraß, HTWK Leipzig Historie des WWW Grundlage Internet – Entwickelt Ende der 60er Jahre vom US-Militär (ARPA-Net) – Technische.
Datenmanagement und Architektur. © Prof. T. Kudraß, HTWK Leipzig Integrierte Informationsverarbeitung Beispiel Hochschul-Informationssysteme (IT-Rahmenkonzept.
Abgrenzung, Einordnung und Anwendungen Sebastian Hentschel
Access 2000 Datenbanken.
Datenbanken Einführung Merkmale dateiorientierte Datenverwaltung
Seminar: Verteilte Datenbanken
Informationssysteme SS Informationssysteme Grundvorlesung Informatik Sommersemester 2004 Universität des Saarlandes, Saarbrücken Dr. Ralf Schenkel.
ausdrucksschwächeres
Manpower Associates is a $14
Phase 1 Phase 2 Prozessmanagement
Daten sammeln aus Verschiedenen Datenbanken Dokumenten Dateien
Konzeption und Realisierung von DSS
Spezifikation von Anforderungen
1 Produktive ZDB-Schnittstellen : OAI Bernd Althaus / 10| Produktive ZDB-Schnittstellen: OAI| Althaus | 14. Oktober 2013.
Entwicklung eines Data Warehouse © by Sistema GeoDAT, S.L.
Entwurf und Realisierung einer digitalen Bibliothek zur Verwaltung von Notenhandschriften Dipl.-Ing. Temenushka Ignatova Datenbank- und Informationssysteme,
Qualitätskontrolle von Datenintegrations-prozessen
© DVS System Software GmbH & Co. KG
Data Warehouse mit Visual FoxPro
Entwicklung eines Data Warehouse 2007 © by Sistema GeoDAT, S.L.
Erstellen einer Webseitenstatistik mithilfe eines OLAP-Servers
Problemstellung Heterogene DV-Strukturen Mangelnde Kapazität in der EDV-Abteilung Historische Daten nicht verfügbar Analysen belasten die vorhandene Infrastruktur.
Volumenorientierte Modellierung als Grundlage einer vernetzt- kooperativen Planung im konstruktiven Ingenieurbau Antragsteller: Prof. E. Rank, Prof. H.-J.
Deutsche Digitale Bibliothek Ein großes Vorhaben nimmt Gestalt an 1.
Datenbanken und Datenmodellierung
Einführung und Überblick Informationssysteme
Allgemeines zu Datenbanken
Data Warehouse: ETL-Praktikum
FME Server als multidimensionale Rasterdatendrehscheibe
Replikation und Synchronisation
Skalierbare Reporting-Systeme zwischen Excel™ und Data Warehouse
DI (FH) DI Roland J. Graf MSc (GIS) U N I V E R S I T Ä T S L E H R G A N G Geographical Information Science & Systems UNIGIS.
00:13 Matthias Ansorg FH Gießen-Friedberg1 / 24 Multidimensionale Datenstrukturen - semantische und logische Modellierung Teilvortrag: logische Modellierung.
GSE-Working Group "Software Engineering 10. November 2008, DKV, Köln Thomas Zeh, E. Merck, Darmstadt Referenzmodell für die Architektur von Data-Warehouse-Systemen.
Betriebliche Anwendung von Datenbanksystemen: Data Warehouse
Das Information Warehouse Die Stärken eines zentralen dispositiven Information-Warehouse als informative Kernkomponente in einer heterogenen operativen.
Finanzcontrolling aus einer Hand – Financial Data Warehouse
Stundenplanung Programm zur Stunden- und Zimmerplanung auf der Basis von Datenbanken und unter Berücksichtigung von Mehrfachnutzung im (lokalen) Netz (Internet.
Nachtrag Abgrenzung OLAP / OLTP
Seminar zur Administration von Datenbankmanagementsystemen 8. 6
Architektur von Data Warehouse Systemen
Thema 1 Data WareHouse Volker Jahns.
SS 2015 – IBB4C Datenmanagement Fr 17:00 – 18:30 R Vorlesung #1 Datenmanagement.
Komponenten und Phasen des Data Warehousing
/Folie 1Holger Frietsch Historisierung von Zuordnungsänderungen für Dimensionen in relationalen ORACLE8-Data Warehouse- Datenbanken Holger Frietsch.
Alfred Schlaucher, Data Warehouse Architect, Oracle Oracle Data Warehouse.
Nachtrag Abgrenzung OLAP / OLTP
Business Intelligence Data Warehouse
 Präsentation transkript:

Entscheidungsunterstützende Systeme (Data Warehouse)

© Prof. T. Kudraß, HTWK Leipzig Was ist Data Warehousing? Data Warehouse : Sammlung von Technologien zur Unterstützung von Entscheidungsprozessen Herausforderung an Datenbanktechnologien - Datenvolumen (effiziente Speicherung und Verwaltung, Anfragebearbeitung) - Datenmodellierung (Zeitbezug, mehrere Dimensionen) - Integration heterogener Datenbestände

© Prof. T. Kudraß, HTWK Leipzig Anwendungen Betriebswirtschaftliche Anwendungen - Informationsbereitstellung - Analyse - Planung - Kampagnenmanagement Wissenschaftliche Anwendungen - Statistical und Scientific Databases Technische Anwendungen - Öffentlicher Bereich: DW mit Umwelt- oder geographischen Daten (z.B. Wasseranalysen)

© Prof. T. Kudraß, HTWK Leipzig Definition Begriff A Data Warehouse is a subject-oriented, integrated, non-volatile, and time variant collection of data in support of managements decisions. (W.H. Inmon 1996) Charakteristika 1. Fachorientierung (subject-oriented): - Zweck des Systems ist nicht Erfüllung einer Aufgabe (z.B. Verwaltung), sondern Modellierung eines spezifischen Anwendungsziels 2. Integrierte Datenbasis (integrated): - Verarbeitung von Daten aus mehreren verschiedenen Datenquellen (intern und extern) 3. Nicht-flüchtige Datenbasis (non-volatile): - stabile, persistente Datenbasis - Daten im DW werden nicht mehr entfernt oder geändert 4. Historische Daten (time-variant): - Vergleich der Daten über Zeit möglich (Zeitreihenanalyse) - Speicherung über längeren Zeitraum

© Prof. T. Kudraß, HTWK Leipzig Trennung operativer und analytischer Systeme Klassische operative Informationssysteme (OLTP) - Erfassung und Verwaltung von Daten - Verarbeitung unter Verantwortung der jeweiligen Abteilung - Transaktionale Verarbeitung: kurze Lese-/ Schreibzugriffe auf wenige Datensätze Data Warehouse - Analyse im Mittelpunkt - lange Lesetransaktionen auf vielen Datensätzen - Integration, Konsolidierung und Aggregation der Daten Gründe - Antwortzeitverhalten - Verfügbarkeit, Integrationsproblematik - Vereinheitlichung des Datenformats - Gewährleistung der Datenqualität

© Prof. T. Kudraß, HTWK Leipzig Beispiel einer Anfrage Welche Umsätze sind in den Jahren 1998 und 1999 in den Abteilungen Kosmetik, Elektro und Haushaltswaren in den Bundesländern Sachsen-Anhalt und Thüringen angefallen?

© Prof. T. Kudraß, HTWK Leipzig Multidimensionales Datenmodell Datenmodell zur Unterstützung der Analyse - Fakten und Dimensionen - Klassifikationsschema - Würfel - Operationen Notationen zur konzeptuellen Modellierung Relationale Umsetzung - Star-, Snowflake-Schema Multidimensionale Speicherung

© Prof. T. Kudraß, HTWK Leipzig Wirtschaftliche Bedeutung Wal+Mart ( Marktführer im amerikanischen Einzelhandel Unternehmensweites Data Warehouse - Größe: ca. 25 TB - Täglich bis zu DW-Anfragen - Hoher Detaillierungsgrad (tägliche Auswertung von Artikelumsätzen, Lagerbestand, Kundenverhalten) - Basis für Warenkorbanalyse, Kundenklassifizierung,... weltweit größte Data Warehouses > 100 TB Marktgröße: Data Warehouse und OLAP (Quelle: OLAP Report OnLine

© Prof. T. Kudraß, HTWK Leipzig Fallbeispiel Wal-Mart Marktführer im amerikanischen Einzelhandel Weltgrößtes Data Warehouse mit ca. 0.5 PB (2006): 100 Mio Kunden, Milliarden Einkäufe pro Woche Wal-Mart Data Center in MacDonald County

© Prof. T. Kudraß, HTWK Leipzig Fallbeispiel Wal-Mart: Orange Juice How much orange juice did we sell last year, last month, last week in store X? Comparing sales data of orange juice in various stores? What internal factors (position in store, advertising campaigns...) influence orange juice sales? What external factors (weather...) influence orange juice sales? Who bought orange juice last year, last month, last week? And most important: How much orange juice are we going to sell next week, next month, next year? Other business questions include: What is the suppliers price of orange juice last year, this year, next year? How can we help suppliers to reduce their cost? What are the shipping/stocking costs of orange juice to/in store X? How can suppliers help us reduce those cost?

Architektur eines Data Warehouse

© Prof. T. Kudraß, HTWK Leipzig Anforderungen Unabhängigkeit zwischen Datenquellen und Analysesystemen (bzgl. Verfügbarkeit, Belastung, laufender Änderungen) Dauerhafte Bereitstellung integrierter und abgeleiteter Daten (Persistenz) Mehrfachverwendbarkeit der bereitgestellten Daten Möglichkeit der Durchführung prinzipiell beliebiger Auswertungen Unterstützung individueller Sichten (z.B. bzgl. Zeithorizont, Struktur) Erweiterbarkeit (z.B. Integration neuer Quellen) Automatisierung der Abläufe Eindeutigkeit über Datenstrukturen, Zugriffsberechtigungen und Prozesse Ausrichtung am Zweck: Analyse der Daten

© Prof. T. Kudraß, HTWK Leipzig Architekturmodell

© Prof. T. Kudraß, HTWK Leipzig Manager & Datenquellen Data-Warehouse-Manager - Zentrale Komponente eines DW-Systems - Initiierung, Steuerung der einzelnen Prozesse (Ablaufsteuerung) - Überwachung + Koordination - Fehlerhandling - Zugriff auf Metadaten aus dem Repository Datenquellen - Gehören nicht zum DWH - Klassifikation nach Herkunft, Zeit, Nutzungsebene - Auswahlkriterien: Zweck, Qualität, Verfügbarkeit, Preis - Qualitätsforderungen: Konsistenz, Korrektheit, Vollständigkeit, Genauigkeit und Granularität, Zuverlässigkeit und Glaub- würdigkeit, Verständlichkeit, Verwendbarkeit und Relevanz

© Prof. T. Kudraß, HTWK Leipzig Monitore & Arbeitsbereich Monitore - Entdeckung von Datenmanipulationen in einer Datenquelle - Strategien: Trigger-basiert, replikationsbasiert, Log-basiert, zeitstempelbasiert, Snapshot-basiert Arbeitsbereich - Zentrale Datenhaltungskomponente des Daten- beschaffungsbereichs (staging area) - Temporärer Zwischenspeicher zur Integration - Ausführungsort der Transformationen Keine Beeinflussung der Quellen oder des DW Keine Übernahme fehlerbehafteter Daten

© Prof. T. Kudraß, HTWK Leipzig Extraktions-, Transformations- und Ladekomponente Extraktionskomponente - Übertragung von Daten aus Quellen in den Arbeitsbereich - abhängig von Monitoring-Strategie - Nutzung von Standardschnittstellen - Ausnahmebehandlung zur Fortsetzung im Fehlerfall Transformationskomponente - Vorbereitung und Anpassung der Daten für das Laden - Überführung aller Daten in ein einheitliches Format - Data Cleaning, Data Scrubbing, Data Auditing Ladekomponente - Übertragung der bereinigten und aufbereiteten (z.B. aggregierten) Daten in das DWH - Nutzung spezieller Ladewerkzeuge (z.B. SQL*Loader von Oracle) - Historisierung: Änderung in Quellen dürfen DWH-Daten nicht überschreiben, stattdessen zusätzliches Abspeichern - Online/Offline Ladevorgang

© Prof. T. Kudraß, HTWK Leipzig Data Warehouse & Data Marts Data Warehouse - Datenbank für Analysezwecke; orientiert sich in Struktur an Analysebedürfnissen - Basis: DBMS - Unterstützung des Ladeprozesses - Unterstützung des Analyseprozesses Data Marts - Bereitstellung einer inhaltlich beschränkten Sicht auf das DW (z.B. für Abteilung) - Gründe: Eigenständigkeit, Datenschutz, Lastverteilung, Datenvolumen, etc. - Abhängige Data Marts / Unabhängige Data Marts

© Prof. T. Kudraß, HTWK Leipzig Repository & Metadaten-Manager Repository - Speicherung der Metadaten des DWH-Systems Metadaten - Informationen, die Aufbau, Wartung und Administration des DW-Systemsvereinfachen und Informationsgewinnung ermöglichen - Beispiele: Datenbankschemata, Zugriffsrechte, Prozessinformationen (Verarbeitungsschritte und Parameter), etc. Metadaten-Manager - Steuerung der Metadatenverwaltung - Zugriff, Anfrage, Navigation - Versions- und Konfigurationsverwaltung

Arbeitsschritte

© Prof. T. Kudraß, HTWK Leipzig Phasen des Data Warehousing Phasen 1. Überwachung der Quellen auf Änderungen durch Monitore 2. Kopieren der relevanten Daten mittels Extraktion in temporären Arbeitsbereich 3. Transformation der Daten im Arbeitsbereich (Bereinigung, Integration) 4. Laden der Daten in das Data Warehouse 5. Analyse: Operationen auf Daten des DWH ETL-Prozeß 1. Extraktion: Selektion eines Ausschnitts der Daten aus den Quellen und Bereitstellung für Transformation 2. Transformation: Anpassung der Daten an vorgegebene Schema- und Qualitätsanforderungen 3. Laden: physisches Einbringen der Daten aus dem Arbeitsbereich (staging area) in das Data Warehouse

© Prof. T. Kudraß, HTWK Leipzig Datenkonflikte Probleme 1. heterogene Bezeichungen, Formate etc. Beispiel 2. inkorrekte Einträge: - Tippfehler bei Eingabe von Werten - falsche Einträge aufgrund von Programmierfehlern in einzelnen Anwendungsprogrammen i.d.R. nicht automatisch behebbar !!! 3. veraltete Einträge: - durch unterschiedliche Aktualisierungszeitpunkte - vergessene Aktualisierungen in einzelnen Quellen Behebung - explizite Werteabbildung - Einführung von Ähnlichkeitsmaßen - Bevorzugung der Werte aus einer lokalen Quelle - Verwendung von Hintergrundwissen Einsatz wissensbasierter Verfahren

© Prof. T. Kudraß, HTWK Leipzig Data Cleaning, Data Scrubbing, Data Auditing Data Cleaning - Korrektur inkorrekter, inkonsistenter oder unvollständiger Daten - Techniken: - Domänenspezifische Bereinigung - Domänenunabhängige Bereinigung - Regelbasierte Bereinigung - Konvertierungs- und Normalisierungsfunktionen Data Scrubbing - Ausnutzung von domänenspezifischen Wissen (z.B. Geschäftsregeln) zum Erkennen von Verunreinigungen - Beispiel: Erkennen von Redundanzen Data Auditing - Anwendung von Data-Mining-Verfahren zum Aufdecken von Regeln - Aufspüren von Abweichungen