Präsentation herunterladen
Die Präsentation wird geladen. Bitte warten
2
Business Intelligence Data Warehouse
Jan Weinschenker
3
Inhaltsverzeichnis Einleitung Motivation
Architektur eines Data Warehouse Data Warehouse im Ferienclub Zusammenfassung Fragen
4
Einleitung Definition: Data Warehouse
Motivation Architektur Ferienclub Fazit Einleitung Definition: Data Warehouse „A data warehouse is a subject oriented, integrated, non-volatile and time variant collection of data in support of management‘s decisions.“ aus [Inmon 1996] Ein Data Warehouse ist eine physikalische Datenbank, die eine Integrierte Sicht auf beliebige Daten zu Analysezwecken ermöglicht. Nicht nur eine integrierte Sicht, wie bei vDBMS, sondern eine physikalische DB Ziel ist, eine Grundlage für performante Datenanalysen zu schaffen
5
Einleitung Definition: Data Warehouse
Motivation Architektur Ferienclub Fazit Einleitung Definition: Data Warehouse Ein Data Warehouse ist eine physikalische Datenbank, die eine integrierte Sicht auf beliebige Daten zu Analysezwecken ermöglicht. aus [Bauer/Günzel 2004] Ein Data Warehouse ist eine physikalische Datenbank, die eine Integrierte Sicht auf beliebige Daten zu Analysezwecken ermöglicht. Nicht nur eine integrierte Sicht, wie bei vDBMS, sondern eine physikalische DB Ziel ist, eine Grundlage für performante Datenanalysen zu schaffen
6
Motivation Wozu braucht man eigentlich ein Data Warehouse?
7
Wozu eigentlich DW? Analyse von Kennzahlen:
Einleitung Motivation Architektur Ferienclub Fazit Wozu eigentlich DW? Analyse von Kennzahlen: Ging lange Zeit ohne DW Ging lange Zeit sogar ohne Computer Unternehmen waren trotzdem erfolgreich!
8
Wozu eigentlich DW? Einleitung Motivation Architektur Ferienclub Fazit
Metapher (oder Gleichnis für die religiös Veranlagten): ÜBERLASTUNG durch große MASSEN
9
Wozu eigentlich DW? „Wenn einen die große Masse (an Daten) erschlägt!“
Einleitung Motivation Architektur Ferienclub Fazit Wozu eigentlich DW? „Wenn einen die große Masse (an Daten) erschlägt!“ Daten sind oft geschäftsobjekt-orientiert Zusammentragen der Informationen wird mühselig Excel, SPSS und Anwender sind irgendwann überfordert Für viele Probleme sind DW so etwas wie „Kanonen auf Spatzen“
10
Deswegen! DW machen große Datenmengen überschaubar
Einleitung Motivation Architektur Ferienclub Fazit Deswegen! DW machen große Datenmengen überschaubar Sie schaffen eine einheitliche Sicht auf unterschiedliche Datenquellen DW machen Analysen performanter Weitere neue Impulse durch die KI Finden neuer Zusammenhänge Datamining
11
Meine Motivation DW kann wichtige Beiträge liefern für
Planung, Steuerung, Kontrolle Hilft überall, wo Projekte kontrolliert zum Erfolg gebracht werden sollen Gewinnt in Unternehmen an Bedeutung
12
Architektur eines Data Warehouse
Wie baut man ein Data Warehouse?
13
Ein Data Warehouse Orientierung an Referenzarchitektur Komponenten:
Einleitung Motivation Architektur Ferienclub Fazit Ein Data Warehouse Orientierung an Referenzarchitektur Komponenten: Arbeitsbereich, Basisdatenbank, Data Warehouse Extraktion, Transformation, Laden, Metadaten Manager Aus [Bauer/Günzel 2004]
14
Referenzarchitektur Einleitung Motivation Architektur Ferienclub Fazit
Besonderer Hinweis auf Produktivdaten -> Außerhalb des DW, Normalisiert (5.NF), und geschäftsobjektorientiert…
15
Datenhaltung Einleitung Motivation Architektur Ferienclub Fazit
Komponenten zur Datenhaltung, i.d.R. ohne eigene Logik Arbeitsbereich Daten werden nur temporär gespeichert Nach der Extraktion landen sie zuerst hier und werden dann in eine analyseorientierte Form transformiert Danach Transfer in Basisdatenbank und Löschung aus dem Arbeitsbereich Basisdatenbank Daten sind bereits integriert und bereinigt. Außerdem existiert bereits hier eine Historie. Kleinstmögliche Granularität. Daten sind noch nicht in eine analyseorientierte Form gebracht. Zumindest in keine spezialisierte analyseorientierte Form! Dies geschieht bei Bedarf im nächsten Ladeschritt BD ist „Single Point of Truth“ (S.53) (eigentliches) Data Warehouse Zugrunde liegende Datenbank für die Analyse (S.57: In Verbindung mit den Metadaten und der BD enthält sie alle zur Analyse notwendigen Daten) Datenmodelle sind ausschließlich analyseorientiert (Nach dem analysierenden Anwender) -> Star- oder Snowflakeschema Gibt es mehrere Anwender oder Analyseschwerpunkte, so gibt es auch mehrere DWs Wichtig -> Schnittstelle zu den Analysewerkzeugen!!!
16
Datenhaltung In der Regel mit einem RDBMS realisiert
Einleitung Motivation Architektur Ferienclub Fazit Datenhaltung In der Regel mit einem RDBMS realisiert Arbeitsgrundlagen für ETL-Prozesse, Datenhaltung getrennt vom Produktivsystem
17
Prozesse und Metadaten
Einleitung Motivation Architektur Ferienclub Fazit Prozesse und Metadaten
18
Prozesse und Metadaten
Einleitung Motivation Architektur Ferienclub Fazit Prozesse und Metadaten Datentransport, Datenbeschaffung Monitoring: Trigger, Polling, Zeitgesteuert, On-Demand Extraktion: nutzt Schnittstellen des Produktivsystems Transformation: Integrieren, Umwandeln oder Separieren Steuerung über Metadaten
19
Prozesse und Metadaten
Einleitung Motivation Architektur Ferienclub Fazit Prozesse und Metadaten Überführung der Daten aus dem „Produktivsystem“ in das Data Warehouse Umwandlung der Daten Von Anwendungs- nach Analyseorientiert In einheitliche Datentypen Laden von großen Datenmengen Performancelastig Extraktion kann sein: zeitgesteuert, anfragegesteuert, ereignisgesteuert, sofort nach Änderung Umwandlungen: Integrieren+Separieren Laden evtl. mit Bulkload-Werkzeugen Metadaten Beschreibende Informationen über die gesamte Architektur des DW. Dokumentierte Datenbankschemata, Integritätsbedingungen, Informationen über die DW-Prozesse … „Inhalt, Struktur, Kontext und Bedeutung der Daten und Prozesse“ (S. 69) Woher kommen die Daten? Wann wurden sie erzeugt/importiert? Transformations- und Abbildungsregeln können durch Prozesse direkt von hier bezogen und interpretiert werden (Keine ETL-Skripte mehr -> Metadatadriven Process)
20
Einleitung Motivation Architektur Ferienclub Fazit Manager
21
Manager Einleitung Motivation Architektur Ferienclub Fazit
Steuernde Komponente Initiierung, Steuerung und Überwachung aller Prozesse (Pfeile), die im DW ablaufen. Hauptaufgabe ist die Initiierung der Datenbeschaffungsprozesse. (Zeit-, Ereignis- oder Bedarfsgesteuert) Fehlerbehandlung und Recovery. Dokumentation -> Logfiles Steuerung des Managers über Metadaten (Repositorium)
22
Manager Steuerungs- und Kontrollkomponente Fehlerbehandlung
Einleitung Motivation Architektur Ferienclub Fazit Manager Steuerungs- und Kontrollkomponente Datenbeschaffung Interner Datenfluss Fehlerbehandlung Logging der eigenen Aktivitäten
23
Architektur Ausrichtung an gewünschten Analysen
Einleitung Motivation Architektur Ferienclub Fazit Architektur Ausrichtung an gewünschten Analysen Vereinbarungen mit Teilgruppen Anwendungsfälle Anwendungsdaten Schnittstellen Persistenz Analyse
24
DW im Ferienclub Was kann ich beitragen?
25
Wozu brauchen wir DW? Unser Ferienclub
Einleitung Motivation Architektur Ferienclub Fazit Wozu brauchen wir DW? Unser Ferienclub Heterogene Anwendungen und Daten Einzelne Datentöpfe im Persistenzdienst Viele interessante Datenquellen RFID, Semantic Web, … also …?
26
Wozu brauchen wir DW? … für eine integrierte Sicht
Einleitung Motivation Architektur Ferienclub Fazit Wozu brauchen wir DW? … für eine integrierte Sicht auf die vorhandenen Daten Daten und Informationen vorhanden Müssen nur in Wissen umgewandelt werden Analyse mit Data Mining und OLAP Dazu mehr im nächsten Vortrag
27
Vorschlag Starschema Einleitung Motivation Architektur Ferienclub
Fazit Vorschlag Starschema Bei „Ort“ evtl. Z-Koordinate hinzu nehmen -> Aufenthalt von Gast in Pool Nr. 2, 3m Tiefe seit einer Stunde -> Braucht evtl. Luft
28
Werkzeuge ETL: Octopus Basiert auf Java und XML
Einleitung Motivation Architektur Ferienclub Fazit Werkzeuge ETL: Octopus Basiert auf Java und XML Zugriff auf ODBC und JDBC-Datasources, CSV und Excel
29
Werkzeuge Data Warehouse: DeepGreen Open Source Data Warehouse
Einleitung Motivation Architektur Ferienclub Fazit Werkzeuge Data Warehouse: DeepGreen Open Source Data Warehouse Basiert auf BisGres DMBS (PostGreSQL-Fork) Benötigt Fedora/Redhat-Linux
30
Fazit Einheitliche Sicht auf unsere Daten Grundlage für Analysen
Einleitung Motivation Architektur Ferienclub Fazit Fazit Einheitliche Sicht auf unsere Daten Grundlage für Analysen Benötigt werden: Anwendungsdaten Vereinbarungen über Geschäftsprozesse
31
Fragen?
32
Vielen Dank!
Ähnliche Präsentationen
© 2024 SlidePlayer.org Inc.
All rights reserved.