Präsentation herunterladen
Die Präsentation wird geladen. Bitte warten
Veröffentlicht von:Henriette Müller Geändert vor über 7 Jahren
1
1 Oracle Warehouse Technologie Single-Engine-Based-Data-Warehouse
2
2 Data Profiling mit Oracle Warehouse Builder Datenqualität bei der Integration von Unternehmensdaten Erste praktische Erfahrungen anhand von Praxisanforderungen
3
3 Alfred Schlaucher Leitender Berater Business Integration & Data Warehouse ORACLE Deutschland GmbH Tel.: 040 / 89091-132 Email: Alfred.Schlaucher@Oracle.com
4
4 Schlechte Daten „Ein Klagelied“ (oder sollten wir sie verschweigen?) Beispielhafter Ablauf einer Data Profiling Analyse - ein Beispiel Erfahrungen / Abgrenzungen Datenqualität gewinnen mit Oracle Warehouse Builder - Data Profiling
5
5 Es entstehen täglich mehr schlechte Daten, als wir denken Eingabefehler in Masken vertippt Dateneingabeprozesse lückenhaft Daten nicht zur Hand wenn sie zum Eingeben gebraucht werden Keine Daten möglich sinnlose Eingabekombination Mutwillige Fehler „die müssen nicht alles wissen“ Systembedingte Fehler Unvollständige Transaktion Datenübertragung abgebrochen Transaktion Datenbank Replikat
6
6 Versteckte Kosten durch schlechte Datenqualität Manuelles Nacharbeiten von Daten Beschwerden -> Aufwand in Call Center Erhöhte Projektkosten bei Einführung neuer Systeme Bis 25% gestoppt, bis zu 60% Verzug aufgrund falscher oder fehlender Daten Verspätete Unternehmensberichte Verlorene Kunden durch schlechten Support Produktionsausfälle durch Störung in der Supply Chain
7
7 SCMERP CRM Bereitstellung Data Warehouse BI Tool A BI Tool B BI Tool C Data Marts Unter- schiedliche Daten und Fehlerquellen Datenqualität bezogen auf den Warehousing – Prozess Konsolidierter Datenbereich Konsoli- dierung Heterogene Datenmodelle / Konsistenz / Homonyme / Synonyme Kontinuität des Ladevorgangs / Vollständigkeit Widerspruchsfreiheit zwischen den Quellen Matadaten Eindeutige Datenobjekte Beschreibungen Homonyme / Synonyme Anwendungsneutral
8
8 Qualitäts- kontrolle Qualitäts- sicherung Total Quality Control Total Quality Management Qualitätsplanung „Proaktives Qualitätsmanagement“ Qualitätslenkung Qualitätssicherung Kontinuierliche Qualitätsverbesserung Designqualität Ausführungsqualität Strategieen Erwartungen Planung Umsetzung Einhaltung der Vorgaben Hilfsmittel Strukturelle Unterstützung Weiterentwicklung der Qualitätsstandards Entwicklungsprojekte ?
9
9 OWB: Integriertes Vorgehen in der Datenbeschaffung Data Profiling Data Profiling Data Quality Data Quality Rules ETL Rules Oracle Warehouse Builder
10
10
11
11 Was wird geprüft
12
12 Schlechte Daten „Ein Klagelied“ (oder sollten wir sie verschweigen?) Beispielhafter Ablauf einer Data Profiling Analyse - ein Beispiel Erfahrungen / Abgrenzungen Datenqualität gewinnen mit Oracle Warehouse Builder - Data Profiling
13
13 Das Beispiel
14
14 Wo anfangen? - eignen sich die Daten für das Data Profiling? - Was ist über die Daten bekannt Environment - Datenmengen - Rechner - erste Überraschungen Zurechtschneiden der Daten - Daten aufbrechen - Teilmengen - Sampling - Mehrfach - Profiling - Einsatz von ETL Analysieren der Daten - „Augenfällige“ Erkenntnisse -> der erste Schuss - „Dinge, die sofort auffallen“ -> Domains / Pattern / PK - Visuelles Analysieren - Graphikeinsatz - Beziehungen analysieren Ableiten von Regeln und Korrekturen - Automatisches Erkennen - Benutzerdefinierte Regeln - Generieren von Korrekturmappings Dokumentieren der Ergebnisse - Ergebnisblatt - Definition Metadaten - Orga - Handbuch Regeln, die nicht abgedeckt werden und deren Lösung - komplexe Lookup – Beziehungen - Rekursive Strukturen - Tupel – übergreifende Abhängigkeiten Ablauf Data Profiling Analyse ETL - Prozess - Mappings - Routinen - Workflow - Metadatenrepository Korrekte Daten 123456X7
15
15 Wo anfangen Eignen sich alle Problemstellungen? Beispiel Wahlweise vertauschte Spalten Sind die Datenstrukturen bekannt? Datenmodelle IT - Abteilung Sind die erwarteten Regeln bekannt? Fachanwenderwissen Geschäftsprozesse Erfahrung: Nicht alle Daten und Problemstellungen sind „Data Profiling – tauglich“
16
16 Environment Möglichst innerhalb einer Datenbank (kein DBLINK) Quellsystemtabellen sollten mit PARALLEL gekennzeichnet sein (Grad nicht festlegen) Bei operativen Systemen, die nicht modifiziert werden können -> zu Analysezwecken „Transportable Modules anwenden“ SGA > 500MB, wenn möglich 2-3 GB buffer cache hit ratio im Bereich von 95-99 % Erfahrung: Laptop reicht nicht Source Schema Profiling Stage Oracle Source Schema Transportable Module External Table SAP Integrator non Oracle Gateway / ODBC / FTP Oracle 9i / 10g RAC DB2 SQL Server Informix Teradata
17
17 Profiling Performance 10 Spalten 10 Zeilen 20 Zeilen 5 Spalten 5 x 20 = 100 10 x 10 = 100
18
18 Column Level Object Level
19
19 An dieser Stelle erfolgt ein Kundenbeispiel als Demo
20
20 Ergebnisblatt (Beispiele)
21
21 Varianten von Prüfungen Attribut – bezogen Not Null / Pflichtfelder Formatangaben Check Constraint Wertbereiche Ober-/Untergrenzen / Wertelisten Satz – bezogen (Tupel) Abhängigkeiten von Werten in anderen Attributen desselben Satzes Satzübergreifend (Relationen) Primary Key / Eindeutigkeit Aggregat – Bedingungen Ober- Untergrenzen von Summen Anzahl Sätze pro Intervall usw. Rekursive Zusammenhänge Verweise auf andere Sätze derselben Tabelle (Relation) Tabellenübergreifende (Interrelational) Foreign Key Aggregat – Bedingungen Ober- Untergrenzen von Summen Anzahl Sätze pro Intervall usw. Rekursive Zusammenhänge Verweise auf Sätze einer anderen Tabelle (Relation) Zeit – bezogen (Tupel) Zeitinvariante Inhalte Anz. Bundesländer Zeitabhängige Veränderungen Über die Zeit mit anderen Daten korrelierende Feldinhalte Verteilungs – bezogen Arithmetische Mittel Varianz / Standardabweichungen Qualitätsmerkmale und Mengen
22
22 Schlechte Daten „Ein Klagelied“ (oder sollten wir sie verschweigen?) Beispielhafter Ablauf einer Data Profiling Analyse - ein Beispiel Erfahrungen / Abgrenzungen Datenqualität gewinnen mit Oracle Warehouse Builder - Data Profiling
23
23 Erfahrungen während der Arbeit Data Profiling zergliedert sich mehrere Steps Ähnlich wie bei Data Mining Verfahren ergeben sich erst im Verlauf des Projektes neue Aspekte und Fragestellungen, die den weiteren Verlauf bestimmen können Zurechtschneiden der Daten Entwurf einer Analysestrategie Die Masse der Prüfungsergebnisse könnte auch durch direkte SQL – Abfragen ermittelt werden aber.......man kommt nicht drauf Gleichzeitiges Betrachten / Erkennen von mehreren Spalten automatisches, batchgetriebenes, gleichzeitiges Suchen von Aspekten Ansonsten müssten Prüfungen einzeln, Attribut – weise erfolgen viele manuelle SQL – Statements auf vermutete Fehler
24
24 Erfahrungen während der Arbeit Systemfehler erkennen durch gleichzeitiges Betrachten von Fehlern Vergleichen von Anzahl Visuelle Darstellungen geben die Möglichkeit des intuitiven Erfassens von potentiellen Problemen und Zusammenhängen Die Ergebnisse sind automatisch dokumentiert und unterstützen damit das Qualitätsmanagement. Die Einbettung in das ETL – Tool macht sich positiv bemerkbar Zurechtschneiden der Daten Umsetzen der gefundenen Ergebnisse in Korrekturläufe
25
25 Erfahrungen während der Arbeit Hardware – Umgebung muss stimmen Die Analyse – Umgebung und die Datenbereitstellung muss geplant werden Komplexere Abhängigkeiten z. B. zeilenübergreifende Zusammenhänge bedürfen zusätzlicher Prüflogik.
26
26 Datenqualität mit Oracle Warehouse Builder Weitere Informationen: Alfred.Schlaucher@Oracle.com Tel.: 040 / 89091-132
27
27
Ähnliche Präsentationen
© 2024 SlidePlayer.org Inc.
All rights reserved.