Business Intelligence Data Warehouse Jan Weinschenker 11.11.2018
Inhaltsverzeichnis Einleitung Motivation Architektur eines Data Warehouse Data Warehouse im Ferienclub Zusammenfassung Fragen
Einleitung Definition: Data Warehouse Motivation Architektur Ferienclub Fazit Einleitung Definition: Data Warehouse „A data warehouse is a subject oriented, integrated, non-volatile and time variant collection of data in support of management‘s decisions.“ aus [Inmon 1996] Ein Data Warehouse ist eine physikalische Datenbank, die eine Integrierte Sicht auf beliebige Daten zu Analysezwecken ermöglicht. Nicht nur eine integrierte Sicht, wie bei vDBMS, sondern eine physikalische DB Ziel ist, eine Grundlage für performante Datenanalysen zu schaffen
Einleitung Definition: Data Warehouse Motivation Architektur Ferienclub Fazit Einleitung Definition: Data Warehouse Ein Data Warehouse ist eine physikalische Datenbank, die eine integrierte Sicht auf beliebige Daten zu Analysezwecken ermöglicht. aus [Bauer/Günzel 2004] Ein Data Warehouse ist eine physikalische Datenbank, die eine Integrierte Sicht auf beliebige Daten zu Analysezwecken ermöglicht. Nicht nur eine integrierte Sicht, wie bei vDBMS, sondern eine physikalische DB Ziel ist, eine Grundlage für performante Datenanalysen zu schaffen
Motivation Wozu braucht man eigentlich ein Data Warehouse?
Wozu eigentlich DW? Analyse von Kennzahlen: Einleitung Motivation Architektur Ferienclub Fazit Wozu eigentlich DW? Analyse von Kennzahlen: Ging lange Zeit ohne DW Ging lange Zeit sogar ohne Computer Unternehmen waren trotzdem erfolgreich!
Wozu eigentlich DW? Einleitung Motivation Architektur Ferienclub Fazit Metapher (oder Gleichnis für die religiös Veranlagten): ÜBERLASTUNG durch große MASSEN
Wozu eigentlich DW? „Wenn einen die große Masse (an Daten) erschlägt!“ Einleitung Motivation Architektur Ferienclub Fazit Wozu eigentlich DW? „Wenn einen die große Masse (an Daten) erschlägt!“ Daten sind oft geschäftsobjekt-orientiert Zusammentragen der Informationen wird mühselig Excel, SPSS und Anwender sind irgendwann überfordert Für viele Probleme sind DW so etwas wie „Kanonen auf Spatzen“
Deswegen! DW machen große Datenmengen überschaubar Einleitung Motivation Architektur Ferienclub Fazit Deswegen! DW machen große Datenmengen überschaubar Sie schaffen eine einheitliche Sicht auf unterschiedliche Datenquellen DW machen Analysen performanter Weitere neue Impulse durch die KI Finden neuer Zusammenhänge Datamining
Meine Motivation DW kann wichtige Beiträge liefern für Planung, Steuerung, Kontrolle Hilft überall, wo Projekte kontrolliert zum Erfolg gebracht werden sollen Gewinnt in Unternehmen an Bedeutung
Architektur eines Data Warehouse Wie baut man ein Data Warehouse?
Ein Data Warehouse Orientierung an Referenzarchitektur Komponenten: Einleitung Motivation Architektur Ferienclub Fazit Ein Data Warehouse Orientierung an Referenzarchitektur Komponenten: Arbeitsbereich, Basisdatenbank, Data Warehouse Extraktion, Transformation, Laden, Metadaten Manager Aus [Bauer/Günzel 2004]
Referenzarchitektur Einleitung Motivation Architektur Ferienclub Fazit Besonderer Hinweis auf Produktivdaten -> Außerhalb des DW, Normalisiert (5.NF), und geschäftsobjektorientiert…
Datenhaltung Einleitung Motivation Architektur Ferienclub Fazit Komponenten zur Datenhaltung, i.d.R. ohne eigene Logik Arbeitsbereich Daten werden nur temporär gespeichert Nach der Extraktion landen sie zuerst hier und werden dann in eine analyseorientierte Form transformiert Danach Transfer in Basisdatenbank und Löschung aus dem Arbeitsbereich Basisdatenbank Daten sind bereits integriert und bereinigt. Außerdem existiert bereits hier eine Historie. Kleinstmögliche Granularität. Daten sind noch nicht in eine analyseorientierte Form gebracht. Zumindest in keine spezialisierte analyseorientierte Form! Dies geschieht bei Bedarf im nächsten Ladeschritt BD ist „Single Point of Truth“ (S.53) (eigentliches) Data Warehouse Zugrunde liegende Datenbank für die Analyse (S.57: In Verbindung mit den Metadaten und der BD enthält sie alle zur Analyse notwendigen Daten) Datenmodelle sind ausschließlich analyseorientiert (Nach dem analysierenden Anwender) -> Star- oder Snowflakeschema Gibt es mehrere Anwender oder Analyseschwerpunkte, so gibt es auch mehrere DWs Wichtig -> Schnittstelle zu den Analysewerkzeugen!!!
Datenhaltung In der Regel mit einem RDBMS realisiert Einleitung Motivation Architektur Ferienclub Fazit Datenhaltung In der Regel mit einem RDBMS realisiert Arbeitsgrundlagen für ETL-Prozesse, Datenhaltung getrennt vom Produktivsystem
Prozesse und Metadaten Einleitung Motivation Architektur Ferienclub Fazit Prozesse und Metadaten
Prozesse und Metadaten Einleitung Motivation Architektur Ferienclub Fazit Prozesse und Metadaten Datentransport, Datenbeschaffung Monitoring: Trigger, Polling, Zeitgesteuert, On-Demand Extraktion: nutzt Schnittstellen des Produktivsystems Transformation: Integrieren, Umwandeln oder Separieren Steuerung über Metadaten
Prozesse und Metadaten Einleitung Motivation Architektur Ferienclub Fazit Prozesse und Metadaten Überführung der Daten aus dem „Produktivsystem“ in das Data Warehouse Umwandlung der Daten Von Anwendungs- nach Analyseorientiert In einheitliche Datentypen Laden von großen Datenmengen Performancelastig Extraktion kann sein: zeitgesteuert, anfragegesteuert, ereignisgesteuert, sofort nach Änderung Umwandlungen: Integrieren+Separieren Laden evtl. mit Bulkload-Werkzeugen Metadaten Beschreibende Informationen über die gesamte Architektur des DW. Dokumentierte Datenbankschemata, Integritätsbedingungen, Informationen über die DW-Prozesse … „Inhalt, Struktur, Kontext und Bedeutung der Daten und Prozesse“ (S. 69) Woher kommen die Daten? Wann wurden sie erzeugt/importiert? Transformations- und Abbildungsregeln können durch Prozesse direkt von hier bezogen und interpretiert werden (Keine ETL-Skripte mehr -> Metadatadriven Process)
Einleitung Motivation Architektur Ferienclub Fazit Manager
Manager Einleitung Motivation Architektur Ferienclub Fazit Steuernde Komponente Initiierung, Steuerung und Überwachung aller Prozesse (Pfeile), die im DW ablaufen. Hauptaufgabe ist die Initiierung der Datenbeschaffungsprozesse. (Zeit-, Ereignis- oder Bedarfsgesteuert) Fehlerbehandlung und Recovery. Dokumentation -> Logfiles Steuerung des Managers über Metadaten (Repositorium)
Manager Steuerungs- und Kontrollkomponente Fehlerbehandlung Einleitung Motivation Architektur Ferienclub Fazit Manager Steuerungs- und Kontrollkomponente Datenbeschaffung Interner Datenfluss Fehlerbehandlung Logging der eigenen Aktivitäten
Architektur Ausrichtung an gewünschten Analysen Einleitung Motivation Architektur Ferienclub Fazit Architektur Ausrichtung an gewünschten Analysen Vereinbarungen mit Teilgruppen Anwendungsfälle Anwendungsdaten Schnittstellen Persistenz Analyse
DW im Ferienclub Was kann ich beitragen?
Wozu brauchen wir DW? Unser Ferienclub Einleitung Motivation Architektur Ferienclub Fazit Wozu brauchen wir DW? Unser Ferienclub Heterogene Anwendungen und Daten Einzelne Datentöpfe im Persistenzdienst Viele interessante Datenquellen RFID, Semantic Web, … also …?
Wozu brauchen wir DW? … für eine integrierte Sicht Einleitung Motivation Architektur Ferienclub Fazit Wozu brauchen wir DW? … für eine integrierte Sicht auf die vorhandenen Daten Daten und Informationen vorhanden Müssen nur in Wissen umgewandelt werden Analyse mit Data Mining und OLAP Dazu mehr im nächsten Vortrag
Vorschlag Starschema Einleitung Motivation Architektur Ferienclub Fazit Vorschlag Starschema Bei „Ort“ evtl. Z-Koordinate hinzu nehmen -> Aufenthalt von Gast in Pool Nr. 2, 3m Tiefe seit einer Stunde -> Braucht evtl. Luft
Werkzeuge ETL: Octopus Basiert auf Java und XML Einleitung Motivation Architektur Ferienclub Fazit Werkzeuge ETL: Octopus Basiert auf Java und XML Zugriff auf ODBC und JDBC-Datasources, CSV und Excel http://octopus.objectweb.org
Werkzeuge Data Warehouse: DeepGreen Open Source Data Warehouse Einleitung Motivation Architektur Ferienclub Fazit Werkzeuge Data Warehouse: DeepGreen Open Source Data Warehouse Basiert auf BisGres DMBS (PostGreSQL-Fork) Benötigt Fedora/Redhat-Linux http://www.greenplum.com http://www.bisgres.org
Fazit Einheitliche Sicht auf unsere Daten Grundlage für Analysen Einleitung Motivation Architektur Ferienclub Fazit Fazit Einheitliche Sicht auf unsere Daten Grundlage für Analysen Benötigt werden: Anwendungsdaten Vereinbarungen über Geschäftsprozesse
Fragen?
Vielen Dank!