Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

Qualitätskontrolle von Datenintegrations-prozessen

Ähnliche Präsentationen


Präsentation zum Thema: "Qualitätskontrolle von Datenintegrations-prozessen"—  Präsentation transkript:

1 Qualitätskontrolle von Datenintegrations-prozessen
Christoph Metz WIN – Treffen

2 Übersicht Auffrischung
Herausforderungen bei Datenintegrations-Prozessen Qualitätskontrolle von Datenintegrationsprozessen Abschließende Bemerkung

3 Data Warehouse www Auswertungsschicht Reporting, OLAP
DWH Datenhaltungsschicht Integrationsschicht Transformationskomponente Ladekomponente ERP/CRM XML www Extraktionsschicht Extraktionskomponente

4 Daten durchlaufen eine ganze Reihe von Prozessschritten
Data Warehouse - ETL Typische Transformationen Anpassung von Datentypen Eliminierung von Duplikaten Anpassung von Datenwerten Schlüsselanpassungen Umrechnung von Maßeinheiten Aggregationen Anreicherung von Daten Daten durchlaufen eine ganze Reihe von Prozessschritten

5 Herausforderungen bei ETL-Prozessen
Spezifikation Umsetzung DWH Falsche Zahlen im Report Meldung Fehlersuche

6 Herausforderungen bei ETL-Tests
Batch-Loads Zeitverzug Systemseitige „Eingabe“ Viele Tests müssen systemseitig implementiert werden. Einzelne Transaktionen müssen aufwändig zurückverfolgt werden. Hohes anwachsendes Datenvolumen Menge der Testdaten steigt Anzahl der Testszenarien In DWS sollen alle möglichen Sichten möglich sein. Traditionelle Test-Methoden auf OLTP ausgelegt Der durch die „Batch-Runs“ bedingte Zeitverzug, bis eine gewünschte Information vom System mitgeteilt wird, kann zu Problemen führen. Da das Meiste im Back-End-Bereich stattfindet, müssen einzelne Transaktionen aufwändig zurückverfolgt werden. Gleichzeitig erhöht sich die Zeitdauer von Tests, die mit großen Daten-volumen ausgeführt werden müssen.

7 Teststrategien für ETL-Prozesse
Datenvollständigkeit Tupelvergleich, Boundary-Testing, ... Datentransformation „stare and compare“, Datenfluss-Validierung, … Performance + Skalierung „Break your system“, „performance modeling“, … Integrationstests Schnittstellen, Ablaufsteuerung, Fehlerprotokolle User Acceptance Tests Regressionstests (Datenqualität)

8 Faktoren der Qualität Designqualität Ausführungsqualität
Formulierung und Erfassung von Anforderungen und Spezifikationen Einhaltung der festgelegten Spezifikation

9 Faktoren der Qualität Designqualität stellt höchste erreichbare Grenze für die Qualität der Daten dar Ausführungsqualität drückt Erreichungsgrad der Designqualität aus Gesamtqualität kann durch mangelnde Design- oder Ausführungsqualität negativ beeinflusst werden

10 Messung der Ausführungsqualität
Datenpool www Extraktions-komponente Datenintegration Datenbereitstellung Transformationskomponente Data Warehouse Ladekomponente M Datenpool Prozess-schritt Natürliche + Künstliche Datenpools

11 Messung der Ausführungsqualität
Grundgedanken: Messung festgelegter Kennzahlen an den Datenpools Soll-Ist-Vergleich während des gesamten Prozessverlaufs Überprüfung der Wirkung von Änderungen an den einzelnen Prozessschritten.

12 Messung der Ausführungsqualität
Zeitverzug Systemseitige „Eingabe“ Systemseitige Testimplementierung Aufwändige Zurückverfolgung Hohes Datenvolumen anwachsendes Datenvolumen Hohe Anforderungen an die Testszenarien/ Testdaten Abgrenzung von einzelnen Datenprodukten

13 Abgrenzung von Datenprodukten
Darstellung über „Views“ Einzelner Datensatz Datensatzgruppe Komplette Tabelle „Alle Produkte der Kategorie Non-Food am “ „Alle Daten zu Artikelnr “

14 Datenprodukte im Prozessverlauf
Datenintegration Datenbereitstellung Datenpool Trans-formationskompo-nente Lade-komponente Datenpool Extraktions-komponente Datenpool Datenpool A A* A** A*** B Data Warehouse Vollständigkeit Redundanzfreiheit Zeitbezug Schlüsseleindeutigkeit ….

15 Sammlung der Messwerte
Relation Messpunkt Q_Voll Q_Ref Q_Korr Q_Schl Q_Zeit Zeit Datenprodukt A Quelle 80% 70% 65% .. 15:00 Extraktion 15:02 Transform. 1 100% 15:10 Transform. 2 95% 15:20 Laden 90% 15:25 Datenprodukt B

16 Auswertung der Messungen
Kontrolle einzelner Prozessschritte während der Entwicklung Schneller Vergleich von unterschiedlichen Prozessversionen

17 Auswertung der Messungen
Verhalten einzelner Prozessschritte in verschiedenen Szenarien Unterstützung von Regressionstests

18 Auswertung der Messungen
Auswertungen Zeitverlauf Identifizierung von Änderungsbedarf (proaktiv) Identifizierung von „überflüssigen“ Transformationen

19 Herausforderungen des Ansatzes
Schaffung künstlicher Datenpools Definition geeigneter Datenprodukte Definition der Datenprodukte entlang des Prozessverlaufes Stetige Anpassung aller Datenprodukte Interpretation der Messergebnisse

20 Fragen? Anregungen?


Herunterladen ppt "Qualitätskontrolle von Datenintegrations-prozessen"

Ähnliche Präsentationen


Google-Anzeigen