Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

Data Warehouse: ETL-Praktikum

Ähnliche Präsentationen


Präsentation zum Thema: "Data Warehouse: ETL-Praktikum"—  Präsentation transkript:

1 Data Warehouse: ETL-Praktikum
Katharina Diesch Dr. med. Thomas Ganslandt Herleitung: - Einstieg Prozessmodellierung: Mikro-Ebene - Background DRG-Abrechnung - nächster wichtiger Baustein: Informationen zur Steuerung auf Makro-Ebene Lehrstuhl für Medizinische Informatik Krankenhausstr. 12, Erlangen, Deutschland

2 "This is not a drill" Schwerpunkt: praktische Übungen Inhalte heute:
Aufbau eines (kleinen) Data Warehouse Inhalte heute: Werkzeuge ETL-Prozess Tool: IBM Cognos DataManager

3 Recap Komponenten: "Datenreinigung"
Staging Data Warehouse SAP/MM Legacy SAP/FI Extraktion, Transformation & Loading (ETL)

4 Extraktion

5 DataManager Cognos ETL-Werkzeug
Datenbankschnittstellen nativ: Oracle, MS-SQL, DB2, ... ODBC CSV SAP R/3-Connector Datentransfer SQL-basiert mehrstufige Pipeline Makros Automatisierung Dimensionsmodellierung flexible Generierung von Hierarchien

6 Demo DataManager - Überblick
Kataloge Konzept Katalog öffnen/Einrichtung Katalogdatenbank Einrichtung ODBC-Datenquelle Erstaufruf Walkthrough

7 Handwerkszeug Start der virtuellen Umgebung
cube.medads.uk-erlangen.de

8 Handwerkszeug Start der virtuellen Umgebung

9 Demo DataManager - Datenquellen einrichten
"Connections"-Ordner Typen von Datenquellen Vorhandene Datenquelle einbinden Neue Datenquelle anlegen und einbinden

10 Workshop DataManager - Datenquellen einbinden
Binden Sie die Quelldatenbank ein Connection "Schulung-SOURCE" einrichten Verbindung testen Binden sie die Staging-Datenbank ein Connection einrichten: "Schulung-STAGING" Verbindungen testen Binden sie die Warehouse-Datenbank ein Connection einrichten: "Schulung-DWH"

11 Struktur der SOURCE-Datenbank
Seite 11

12 SQL-Refresher SELECT spalten FROM tabellen [WHERE bedingungen] [ORDER BY sortierkriterium] Joins -> Verbinden von Tabellen (kartesisches Produkt ohne WHERE) Aggregationen (GROUP BY)

13 Demo + Workshop DataManager - SQL-Terminal
Fragen Sie Tabellen aus SOURCE ab Führen Sie mehrere Tabellen per JOIN zusammen Beispiel: SELECT * FROM faelle f, pat p WHERE f.patnr=p.patnr

14 Workshop DataManager - Factbuild-Wizard
Erstellen Sie einen Factbuild für die Tabelle PAT Vorgaben: alle Spalten der Quelltabelle übernehmen keine Filterung von Datensätzen keine Veränderung der Daten Auslieferung nach STAGING Zieltabelle: STG_PAT Vollimport (Zieltabelle zu Beginn des Build leeren)

15 Workshop DataManager - Factbuild-Wizard
Erstellen Sie mit dem Wizard Staging-Factbuilds für: FAELLE ORGA EVENTS Vorgaben: wie bei PAT Präfix "STG_" nicht vergessen

16 Workshop DataManager - JobStreams
Erstellen Sie einen JobStream "STAGING", der alle Staging-Factbuilds automatisch nacheinander aufruft

17 ETL: Transformation

18 ETL - Transformation Ziele
Reduzieren benötigte Datenelemente selektieren (WHERE…) Konsolidieren Datenmodelle der Quellsysteme zusammenführen Datenmodell für Auswertung optimieren Fakten und Dimensionen trennen Weiterverarbeiten Berechnungen mit Datenelementen durchführen Bereinigen unvollständige/ungültige/stornierte Datensätze abweisen

19 Workshop DataManager - Factbuild
Erstellen Sie einen Factbuild für die Tabelle F_FAELLE Vorgaben: alle Spalten der Quelltabelle bis auf STORN übernehmen keine Filterung von Datensätzen keine Veränderung der Daten Quelldatenbank: STAGING Auslieferung nach DWH Zieltabelle: F_FAELLE Vollimport (Zieltabelle zu Beginn des Build leeren)

20 ETL - Transformation Anwendungsfall Filterung
zeitliche Einschränkung ungültige Datensätze storniert unvollständig ausgefüllt inkonsistente Datensätze Widersprüche zwischen Datenelementen

21 Workshop DataManager - Factbuild filtern
Passen Sie den Factbuild F_FAELLE an Vorgaben: stornierte Datensätze sollen nicht nach DWH übernommen werden

22 Workshop Auswertung Werten Sie die Daten von Fällen aus:
Fallzahl pro entlassender Fachabteilung und Station

23 Workshop Auswertung - Lösungen
Werten Sie die Daten von Fällen aus: Fallzahl pro entlassender Fachabteilung und Station SELECT entl_orgfa, entl_orgpf, COUNT(*) FROM f_faelle GROUP BY entl_orgfa, entl_orgpf ORDER BY entl_orgfa, entl_orgpf

24 Demo + Workshop Anwendungsfall Konsolidierung
Passen Sie den Factbuild F_FAELLE an Vorgaben: fügen Sie die folgenden Datenelemente hinzu: Aufnahme-Datum, -Abteilung und –Station Lösung : SELECT stg_events.falnr, stg_events.datum, stg_events.bwart, stg_events.orgfa, stg_events.orgpf FROM stg_events, stg_faelle WHERE (stg_events.falnr = stg_faelle.falnr) AND (stg_events.bewty = '1') /* Aufnahmebewegung */ AND (stg_faelle.storn = 0)

25 Demo + Workshop Anwendungsfall Konsolidierung
Passen Sie den Factbuild F_FAELLE an Vorgaben: fügen Sie die folgenden Datenelemente hinzu: Entlass-Datum, -Abteilung und –Station Lösung 2: SELECT stg_events.falnr, stg_events.datum, stg_events.bwart, stg_events.orgfa, stg_events.orgpf FROM stg_events, stg_faelle WHERE (stg_events.falnr = stg_faelle.falnr) AND (stg_events.bewty = '2') /* Entlassbewegung */ AND (stg_faelle.storn = 0)

26 Demo + Workshop Anwendungsfall Aggregation
Passen Sie den Factbuild F_FAELLE an Vorgaben: fügen Sie die folgenden Datenelemente hinzu: Anzahl dokumentierter Diagnosen je Fall Anzahl dokumentierter Prozeduren je Fall Lösung: SELECT stg_diagnosen.falnr, count(*) AS ANZAHL_DIAGNOSEN FROM stg_diagnosen, stg_faelle WHERE (stg_diagnosen.falnr = stg_faelle.falnr) AND (stg_faelle.storn = 0) GROUP BY stg_diagnosen.falnr Bei Prozeduren analog!

27 Noch Fragen zum Thema ETL?


Herunterladen ppt "Data Warehouse: ETL-Praktikum"

Ähnliche Präsentationen


Google-Anzeigen