Qualitätskontrolle von Datenintegrations-prozessen

Slides:



Advertisements
Ähnliche Präsentationen
News von der SAP TechEd zum Thema Business Intelligence Jörg Funke
Advertisements

Phasen und ihre Workflows
Daten im Data-Warehouse
Prof. Dr. Dr. h.c. mult. August-Wilhelm Scheer
Daten- und Informationsqualität. © Prof. T. Kudraß, HTWK Leipzig Management der Informationsqualität Keine verbindlichen Standards oder Vorgaben für Informationsqualität.
Problemstellung und Lösungsansätze
Verwendungszweck: Diese Folien dienen zur Unterstützung von Microsoft Dynamics NAV-Vertriebsmitarbeitern und -Partnern für Produktpräsentationen beim Kunden.
1-1 Schlank und schnell zum Datawarehouse Marc Bastien Oracle Deutschland GmbH BTW Leipzig,
Systemanalyse In der Systemanalyse wird aus den fachspezifischen Anforderungen das Systemmodell erstellt; im Systemmodell ist spezifiziert, was das System.
Vorlesung: Mediennutzung und Medienwirkung
LE LM 10 - LO3 Verfahren zur Qualitätssicherung
Erfahrungen aus Tests komplexer Systeme
Computerkurs: Quantitative Auswertung biochemischer Experimente Guten Morgen.
Datenmodelle, Datenbanksprachen und Datenbankmanagementsysteme
Entscheidungsunterstützende Systeme (Data Warehouse)
Seminar Modellgetriebene Softwareentwicklung Einführung Seminar modellgetriebene Softwareentwicklung WS 05/06 Dipl.-Inf. Nadine Fröhlich Prof. Dr.-Ing.
Rational Unified Process (RUP) - Definitionen
Komplexe Systemlandschaft
Unterstützung der RZ Automatisierung und Optimierung durch Application Performance Management Christoph Langenbahn © Emerald Software.
Datenbankentwurfsprozess
Probleme mit der Einwahl? Operator:
Entitäten Extraktion Wichtige Schritte Petra Maier WS 05/06.
Betrügern auf der Spur WIN-Treffen 2010 Falko Meyer 04 BW.
Das Wasserfallmodell - Überblick
Entwicklung eines Data Warehouse © by Sistema GeoDAT, S.L.
© economiesuisse Volksschule Von einem lehrenden zu einem lernenden System economiesuisse,
DATA WAREHOUSE Oracle Data Warehouse Mit Big Data neue Horizonte für das Data Warehouse ermöglichen Alfred Schlaucher, Detlef Schroeder DATA WAREHOUSE.
Entwicklung eines Data Warehouse 2007 © by Sistema GeoDAT, S.L.
Der modulare Aufbau BusinessNavigator.
Balanced Scorecard Knut Hinkelmann
EAI und Web Services Gerhard Wagner
imposult GmbH & Co KG - Datawarehouse
Problemstellung Heterogene DV-Strukturen Mangelnde Kapazität in der EDV-Abteilung Historische Daten nicht verfügbar Analysen belasten die vorhandene Infrastruktur.
Agenda 13: Begrüßung & Einführung in das Thema
Überblick über die Datenbankproblematik
Materialstamm Workflow
Testaktivitäten Komponenten- / Integrationstest
Seminar: Entwicklung verteilter eingebetteter Systeme WS05/06 Betreuer: Info:
Eidgenössisches Departement des Innern EDI Bundesamt für Statistik BFS Eidgenössisches Finanzdepartement EFD Bundesamt für Informatik und Telekommunikation.
Publikation auf Knopfdruck Judith Riegelnig Michael Grüebler 19. Oktober 2010 / Statistiktage Neuenburg.
„Optimiertes Prozessmanagement in der Logistik“
Qualitätsmanagement in der Entwicklung !?. artiso solutions GmbH | Oberer Wiesenweg 25 | Blaustein | Agenda 1. Ziele und Probleme.
Reporting in licensing online
5 Software-Qualität 5.1 Qualität 5.2 Taxonomie der Software-Qualitäten.
STRUKTUR EINES DATA WAREHOUSE / OLAP - SYSTEMS
00:13 Matthias Ansorg FH Gießen-Friedberg1 / 24 Multidimensionale Datenstrukturen - semantische und logische Modellierung Teilvortrag: logische Modellierung.
Betriebliche Anwendung von Datenbanksystemen: Data Warehouse
Marketingkonzept Impulse.
Mehr Zeit für den Kunden und wirtschaftlicher Arbeiten mit BIB-Control
Analytisches CRM Phonnet Gruppe 1 (Loher, Meier, Rehhorn, Piasini)
Brox EIF ContentBooster Wirtschaftliche Gegenüberstellung Metaschnittstelle statt klassischer Vernetzung bei der Suchmaschinen- konsolidierung (z.B. -->
Lernen durch Vergleiche
Das Unternehmen.
Dipl.-Inform. (FH) Mike Bach Unterschiedliche Anwendungen im Unternehmen – Warum, Wer und Wie Best-of-Breed vs. Alles aus einer Hand Dipl.-Inform. Mike.
Application Lifecycle Management Day 25. August 2008 Erfolgreiche Software- Entwicklung in Offshore-Projekten mit Microsoft Team Foundation Server Thomas.
Empirische Sozialforschung am Beispiel der Limburger Nordstadt
Nachtrag Abgrenzung OLAP / OLTP
Weg mit Fehlern, die kein Entwickler versteht …
Architektur von Data Warehouse Systemen
Komponenten und Phasen des Data Warehousing
Performanz- und Lasttests Formale Methoden
Open Data als Businessgrundlage Andreas Woditschka CFO |
Effektives Delta Laden DOAG SID Data Warehouse. Ziele Welche CDC Methoden gibt es? Typische Fallen Verschiedene Lösungsansätze praktische Beispiele.
Alfred Schlaucher, Data Warehouse Architect, Oracle Oracle Data Warehouse.
Nachtrag Abgrenzung OLAP / OLTP
X-NetMES – Erfassung und Auswertung direkt in SAP-ERP
Business Intelligence Data Warehouse
X-NetMES – Erfassung und Auswertung direkt in SAP-ERP
 Präsentation transkript:

Qualitätskontrolle von Datenintegrations-prozessen Christoph Metz WIN – Treffen 02.10.2010

Übersicht Auffrischung Herausforderungen bei Datenintegrations-Prozessen Qualitätskontrolle von Datenintegrationsprozessen Abschließende Bemerkung

Data Warehouse www Auswertungsschicht Reporting, OLAP DWH Datenhaltungsschicht Integrationsschicht Transformationskomponente Ladekomponente ERP/CRM XML www Extraktionsschicht Extraktionskomponente

Daten durchlaufen eine ganze Reihe von Prozessschritten Data Warehouse - ETL Typische Transformationen Anpassung von Datentypen Eliminierung von Duplikaten Anpassung von Datenwerten Schlüsselanpassungen Umrechnung von Maßeinheiten Aggregationen Anreicherung von Daten … Daten durchlaufen eine ganze Reihe von Prozessschritten

Herausforderungen bei ETL-Prozessen Spezifikation Umsetzung DWH Falsche Zahlen im Report Meldung Fehlersuche

Herausforderungen bei ETL-Tests Batch-Loads Zeitverzug Systemseitige „Eingabe“ Viele Tests müssen systemseitig implementiert werden. Einzelne Transaktionen müssen aufwändig zurückverfolgt werden. Hohes anwachsendes Datenvolumen Menge der Testdaten steigt Anzahl der Testszenarien In DWS sollen alle möglichen Sichten möglich sein. Traditionelle Test-Methoden auf OLTP ausgelegt Der durch die „Batch-Runs“ bedingte Zeitverzug, bis eine gewünschte Information vom System mitgeteilt wird, kann zu Problemen führen. Da das Meiste im Back-End-Bereich stattfindet, müssen einzelne Transaktionen aufwändig zurückverfolgt werden. Gleichzeitig erhöht sich die Zeitdauer von Tests, die mit großen Daten-volumen ausgeführt werden müssen.

Teststrategien für ETL-Prozesse Datenvollständigkeit Tupelvergleich, Boundary-Testing, ... Datentransformation „stare and compare“, Datenfluss-Validierung, … Performance + Skalierung „Break your system“, „performance modeling“, … Integrationstests Schnittstellen, Ablaufsteuerung, Fehlerprotokolle User Acceptance Tests Regressionstests (Datenqualität)

Faktoren der Qualität Designqualität Ausführungsqualität Formulierung und Erfassung von Anforderungen und Spezifikationen Einhaltung der festgelegten Spezifikation

Faktoren der Qualität Designqualität stellt höchste erreichbare Grenze für die Qualität der Daten dar Ausführungsqualität drückt Erreichungsgrad der Designqualität aus Gesamtqualität kann durch mangelnde Design- oder Ausführungsqualität negativ beeinflusst werden

Messung der Ausführungsqualität Datenpool www Extraktions-komponente Datenintegration Datenbereitstellung Transformationskomponente Data Warehouse Ladekomponente M Datenpool Prozess-schritt Natürliche + Künstliche Datenpools

Messung der Ausführungsqualität Grundgedanken: Messung festgelegter Kennzahlen an den Datenpools Soll-Ist-Vergleich während des gesamten Prozessverlaufs Überprüfung der Wirkung von Änderungen an den einzelnen Prozessschritten.

Messung der Ausführungsqualität Zeitverzug Systemseitige „Eingabe“ Systemseitige Testimplementierung Aufwändige Zurückverfolgung Hohes Datenvolumen anwachsendes Datenvolumen Hohe Anforderungen an die Testszenarien/ Testdaten Abgrenzung von einzelnen Datenprodukten

Abgrenzung von Datenprodukten Darstellung über „Views“ Einzelner Datensatz Datensatzgruppe Komplette Tabelle „Alle Produkte der Kategorie Non-Food am 02.10.2010“ „Alle Daten zu Artikelnr 5674846“

Datenprodukte im Prozessverlauf Datenintegration Datenbereitstellung Datenpool Trans-formationskompo-nente Lade-komponente Datenpool Extraktions-komponente Datenpool Datenpool A A* A** A*** B Data Warehouse Vollständigkeit Redundanzfreiheit Zeitbezug Schlüsseleindeutigkeit ….

Sammlung der Messwerte Relation Messpunkt Q_Voll Q_Ref Q_Korr Q_Schl Q_Zeit Zeit Datenprodukt A Quelle 80% 70% 65% .. 15:00 Extraktion 15:02 Transform. 1 100% 15:10 Transform. 2 95% 15:20 Laden 90% 15:25 Datenprodukt B

Auswertung der Messungen Kontrolle einzelner Prozessschritte während der Entwicklung Schneller Vergleich von unterschiedlichen Prozessversionen

Auswertung der Messungen Verhalten einzelner Prozessschritte in verschiedenen Szenarien Unterstützung von Regressionstests

Auswertung der Messungen Auswertungen Zeitverlauf Identifizierung von Änderungsbedarf (proaktiv) Identifizierung von „überflüssigen“ Transformationen

Herausforderungen des Ansatzes Schaffung künstlicher Datenpools Definition geeigneter Datenprodukte Definition der Datenprodukte entlang des Prozessverlaufes Stetige Anpassung aller Datenprodukte Interpretation der Messergebnisse

Fragen? Anregungen?