Data Warehouse: ETL-Praktikum

Slides:



Advertisements
Ähnliche Präsentationen
ER-Datenmodell und Abfragen in SQL
Advertisements

Daten im Data-Warehouse
System J – Compiler – Praktikum: Datenbanksystementwicklung Knut Stolze
1-1 Schlank und schnell zum Datawarehouse Marc Bastien Oracle Deutschland GmbH BTW Leipzig,
Bauinformatik II Softwareanwendungen 1
Datenbankzugriff im WWW (Kommerzielle Systeme)
Standortfaktoren INTERN - Ausdrucksstark präsentieren.
SendEplanung Datenbank
SQL als Abfragesprache
Auswertung im GTDS fixe Abläufe für Standard-Aufgaben Mamma-Auswertung
Grundkurs Theoretische Informatik, Folie 3.1 © 2004 G. Vossen,K.-U. Witt Grundkurs Theoretische Informatik Kapitel 3 Gottfried Vossen Kurt-Ulrich Witt.
Datenmodelle, Datenbanksprachen und Datenbankmanagementsysteme
SQL/XML. © Prof. T. Kudraß, HTWK Leipzig 2 2 Motivation Speicherung von XML in allen großen kommerziellen DBMS vorhanden proprietäre Lösungen für die.
Fortgeschrittenen-Praktikum: Entwicklung und Implementierung eines webbasierten Fußball-Tippspiels mit.
Otto-von-Guericke-Universität MagdeburgGamal Kassem Übung 7 Reports mit Datenbankzugriff.
Der letzte Schliff für Abfragen Übersicht über die Aggregatfunktionen.
Eingabe und Kodierung von Daten in SPSS
Erstellen einer Datenbank
SQL 2 Order by null Aggregatfunktionen group by Join subselect.
Abfragen – Tipps und Tricks Buch S102ff (Informatik I, Oldenbourg-Verlag) Nach einer Vorlage von Dieter Bergmann.
VFX 10.0 Visual Extend Datenzugriff
Grundschutztools
Ralf KüstersDagstuhl 2008/11/30 2 Ralf KüstersDagstuhl 2008/11/30 3.
Daten sammeln aus Verschiedenen Datenbanken Dokumenten Dateien
Übung 1: SQL Übungen finden bei Bedarf anstelle der Vorlesungen statt
Standard-Software Prof. Dr. Erik Jacobson Lehrveranstaltung im SS 2006
Agenda Vereinfachte Grundeinrichtung und Dateneingabe
Entwicklung eines Data Warehouse © by Sistema GeoDAT, S.L.
Datenbanken Mehr als Tabellen.
Delphi II - OOP IFB Fortbildung
Datenbankentwicklung IV-LK
Datenbanken Mehr als Tabellen. Datenbank Abfragen mit SQL: Eine Tabelle filtern Tabellen realer Datenbanken können sehr viele Informationen speichern:
Sistema GeoDAT, S.L. GeoBIS, GeoEIS, GIS-Komponente … 2005.
Entwicklung eines Data Warehouse 2007 © by Sistema GeoDAT, S.L.
imposult GmbH & Co KG - Datawarehouse
Erstellen einer Webseitenstatistik mithilfe eines OLAP-Servers
Betrieb von Datenbanken Marco Skulschus & Marcus Wiederstein
Problemstellung Heterogene DV-Strukturen Mangelnde Kapazität in der EDV-Abteilung Historische Daten nicht verfügbar Analysen belasten die vorhandene Infrastruktur.
Auslegung eines Vorschubantriebes
Adaption von K-Means Algorithmen an Datenbanken
SQL Überblick Abfragen aus einer Tabelle
WS 2012/13 Datenbanksysteme Fr 15:15 – 16:45 R Vorlesung #6 SQL (Teil 3)
WS 2013/14 Datenbanksysteme Do 17:00 – 18:30 R Vorlesung #6 SQL (Teil 3)
SS 2004 Datenbanken 4W Mi 13:30 – 15:00 G 2.30 Vorlesung #7 SQL (Teil 2)
WS 2013/14 Datenbanksysteme D0 15:15 – 16:45 R Vorlesung #5 SQL (Teil 2)
Ganzheitliches Projekt-, Ressourcen- und Qualitätsmanagement 1 Reports und AddOns Auf den folgenden Seiten wird Ihnen die Funktionsweise der Reports und.
Datenbanksysteme für hörer anderer Fachrichtungen
Umstieg von Signa - Meta auf den integrierten Prinect Workflow
Einführung in Datenbankmodellierung und SQL
Freiwillige Feuerwehr der Stadt Perg
Aggregatsfunktion SQL = Structured Query Language.
Europa in der Krise Kiel,
SAP Seminar 2007 Materialstammsätze anlegen
Aggregatsfunktion mit Group by und having SQL = Structured Query Language.
Schneider. Event. Kommunikation.
Am Beispiel der Tabelle Crew des Raumschiffes Enterprise
Analyseprodukte numerischer Modelle
® IBM Software Group © 2005 IBM Corporation Hanseatic Mainframe Summit 2009.
Verdichten von Daten mit Gruppenfunktionen
Structured Query Language
Monatsbericht Ausgleichsenergiemarkt Gas – Oktober
WS 2014/15 Datenbanksysteme D0 15:15 – 16:45 R Vorlesung #6 SQL (Teil 3)
Datenbanken abfragen mit SQL
Customizing Tools: Genehmigungsverfahren
Customizing Tools: Abfragen
Effektives Delta Laden DOAG SID Data Warehouse. Ziele Welche CDC Methoden gibt es? Typische Fallen Verschiedene Lösungsansätze praktische Beispiele.
Sprachumfang von SQL Vier Kategorien DDL (Data Definition Language)
Wirtschaftsinformatik
(Structured Query Language)
 Präsentation transkript:

Data Warehouse: ETL-Praktikum Katharina Diesch Dr. med. Thomas Ganslandt Herleitung: - Einstieg Prozessmodellierung: Mikro-Ebene - Background DRG-Abrechnung - nächster wichtiger Baustein: Informationen zur Steuerung auf Makro-Ebene Lehrstuhl für Medizinische Informatik Krankenhausstr. 12, 91054 Erlangen, Deutschland thomas.ganslandt@imi.med.uni-erlangen.de

"This is not a drill" Schwerpunkt: praktische Übungen Inhalte heute: Aufbau eines (kleinen) Data Warehouse Inhalte heute: Werkzeuge ETL-Prozess Tool: IBM Cognos DataManager

Recap Komponenten: "Datenreinigung" Staging Data Warehouse SAP/MM Legacy SAP/FI Extraktion, Transformation & Loading (ETL)

Extraktion

DataManager Cognos ETL-Werkzeug Datenbankschnittstellen nativ: Oracle, MS-SQL, DB2, ... ODBC CSV SAP R/3-Connector Datentransfer SQL-basiert mehrstufige Pipeline Makros Automatisierung Dimensionsmodellierung flexible Generierung von Hierarchien

Demo DataManager - Überblick Kataloge Konzept Katalog öffnen/Einrichtung Katalogdatenbank Einrichtung ODBC-Datenquelle Erstaufruf Walkthrough

Handwerkszeug Start der virtuellen Umgebung cube.medads.uk-erlangen.de

Handwerkszeug Start der virtuellen Umgebung

Demo DataManager - Datenquellen einrichten "Connections"-Ordner Typen von Datenquellen Vorhandene Datenquelle einbinden Neue Datenquelle anlegen und einbinden

Workshop DataManager - Datenquellen einbinden Binden Sie die Quelldatenbank ein Connection "Schulung-SOURCE" einrichten Verbindung testen Binden sie die Staging-Datenbank ein Connection einrichten: "Schulung-STAGING" Verbindungen testen Binden sie die Warehouse-Datenbank ein Connection einrichten: "Schulung-DWH"

Struktur der SOURCE-Datenbank Seite 11

SQL-Refresher SELECT spalten FROM tabellen [WHERE bedingungen] [ORDER BY sortierkriterium] Joins -> Verbinden von Tabellen (kartesisches Produkt ohne WHERE) Aggregationen (GROUP BY)

Demo + Workshop DataManager - SQL-Terminal Fragen Sie Tabellen aus SOURCE ab Führen Sie mehrere Tabellen per JOIN zusammen Beispiel: SELECT * FROM faelle f, pat p WHERE f.patnr=p.patnr

Workshop DataManager - Factbuild-Wizard Erstellen Sie einen Factbuild für die Tabelle PAT Vorgaben: alle Spalten der Quelltabelle übernehmen keine Filterung von Datensätzen keine Veränderung der Daten Auslieferung nach STAGING Zieltabelle: STG_PAT Vollimport (Zieltabelle zu Beginn des Build leeren)

Workshop DataManager - Factbuild-Wizard Erstellen Sie mit dem Wizard Staging-Factbuilds für: FAELLE ORGA EVENTS Vorgaben: wie bei PAT Präfix "STG_" nicht vergessen

Workshop DataManager - JobStreams Erstellen Sie einen JobStream "STAGING", der alle Staging-Factbuilds automatisch nacheinander aufruft

ETL: Transformation

ETL - Transformation Ziele Reduzieren benötigte Datenelemente selektieren (WHERE…) Konsolidieren Datenmodelle der Quellsysteme zusammenführen Datenmodell für Auswertung optimieren Fakten und Dimensionen trennen Weiterverarbeiten Berechnungen mit Datenelementen durchführen Bereinigen unvollständige/ungültige/stornierte Datensätze abweisen

Workshop DataManager - Factbuild Erstellen Sie einen Factbuild für die Tabelle F_FAELLE Vorgaben: alle Spalten der Quelltabelle bis auf STORN übernehmen keine Filterung von Datensätzen keine Veränderung der Daten Quelldatenbank: STAGING Auslieferung nach DWH Zieltabelle: F_FAELLE Vollimport (Zieltabelle zu Beginn des Build leeren)

ETL - Transformation Anwendungsfall Filterung zeitliche Einschränkung ungültige Datensätze storniert unvollständig ausgefüllt inkonsistente Datensätze Widersprüche zwischen Datenelementen

Workshop DataManager - Factbuild filtern Passen Sie den Factbuild F_FAELLE an Vorgaben: stornierte Datensätze sollen nicht nach DWH übernommen werden

Workshop Auswertung Werten Sie die Daten von Fällen aus: Fallzahl pro entlassender Fachabteilung und Station

Workshop Auswertung - Lösungen Werten Sie die Daten von Fällen aus: Fallzahl pro entlassender Fachabteilung und Station SELECT entl_orgfa, entl_orgpf, COUNT(*) FROM f_faelle GROUP BY entl_orgfa, entl_orgpf ORDER BY entl_orgfa, entl_orgpf

Demo + Workshop Anwendungsfall Konsolidierung Passen Sie den Factbuild F_FAELLE an Vorgaben: fügen Sie die folgenden Datenelemente hinzu: Aufnahme-Datum, -Abteilung und –Station Lösung : SELECT stg_events.falnr, stg_events.datum, stg_events.bwart, stg_events.orgfa, stg_events.orgpf FROM stg_events, stg_faelle WHERE (stg_events.falnr = stg_faelle.falnr) AND (stg_events.bewty = '1') /* Aufnahmebewegung */ AND (stg_faelle.storn = 0)

Demo + Workshop Anwendungsfall Konsolidierung Passen Sie den Factbuild F_FAELLE an Vorgaben: fügen Sie die folgenden Datenelemente hinzu: Entlass-Datum, -Abteilung und –Station Lösung 2: SELECT stg_events.falnr, stg_events.datum, stg_events.bwart, stg_events.orgfa, stg_events.orgpf FROM stg_events, stg_faelle WHERE (stg_events.falnr = stg_faelle.falnr) AND (stg_events.bewty = '2') /* Entlassbewegung */ AND (stg_faelle.storn = 0)

Demo + Workshop Anwendungsfall Aggregation Passen Sie den Factbuild F_FAELLE an Vorgaben: fügen Sie die folgenden Datenelemente hinzu: Anzahl dokumentierter Diagnosen je Fall Anzahl dokumentierter Prozeduren je Fall Lösung: SELECT stg_diagnosen.falnr, count(*) AS ANZAHL_DIAGNOSEN FROM stg_diagnosen, stg_faelle WHERE (stg_diagnosen.falnr = stg_faelle.falnr) AND (stg_faelle.storn = 0) GROUP BY stg_diagnosen.falnr Bei Prozeduren analog!

Noch Fragen zum Thema ETL?