Präsentation herunterladen
Die Präsentation wird geladen. Bitte warten
Veröffentlicht von:Michael Tiedeman Geändert vor über 8 Jahren
2
Datenqualitätsanalysen mit Oracle Alfred Schlaucher, Data Warehouse Architect, Oracle
3
Data Quality Data Profiling Standardisierung Match/Merge Rules
4
„Es ist leichter, Datenqualitätsprobleme zu lösen, als mit Ihnen zu leben.“ (Albert Einstein)
5
Ein Dashboard mit vielen Charts
6
Warum ist ein Tooleinsatz bei Datenqualitätsanalysen sinnvoll? Das meiste geht auch ohne Tool, allerdings mühsam Functional Dependencies
7
Position ProdukteGruppenSparten Kunden- Stamm Bestellung Falsche Statuskennzeichnung von Finanzprodukten Orphans ohne Parents Fehlerhafte Spartenkennzeichnung von Gruppen Doppelte Wertebelegung von Statuskennzeichnung für Privat- und Firmenkunden. Fehlerhafte Verschlüsselung von Artikel- und Produkten Doppelte Produktnummern Fehlerhafte, nicht rechenbare Einzelpreiswerte Umsatz pro Sparte? Umsatz pro Gruppe? Umsatz pro Produkt? Werden korrekte Rechnungen gestellt? Umsatz pro Kunde? Fehler stecken im Detail Der Fehler steckt im Detail
8
Aspekte der Datenqualität Brauchbarkeit der Daten! Verfügbar (Access) Aktuell Korrekt Vollständig Redundanzfrei Dokumentiert Handhabbar Nützlich (TCO) Stimmig
9
Die Kosten der schlechten Daten
10
Data Profiling Software – gestütztes Erkennen von Anomalien in Datenbeständen ( The use of analytical techniques about data for the purpose of developing a thorough knowledge of its content, structure and quality) Interaktiver Analyse-Vorgang Bestandteil von Oracle Warehouse Builder seit 2006
11
Methoden und Hilfsmittel bei Datenqualitätsanalysen Methoden Attribut-Klassifizierung (Namen) Kategorisierung von Qualitätsregeln Datenmodellierung Vorgehensmodell Tools Data Profiling Tool Data Rules Mechanismus Deduplizierungs-Feature Standardisierung ETL-Tool Datenbank Brain-WareOWB
12
Oracle Data Quality / Data Profiling Standardanalysen Unique Keys Functional Dependencies Relationships Domains Redundant Columns Patterns, Types Statistiken Six Sigma Rules (Business-/ IT-Rules) Generierung von Korrekturen Auditing Eingebettet in ein ETL-Tool hohe Flexibilität beim Bereitstellen von Daten Direktes Anwenden erkannter Regeln für eine spätere Datenaufbereitung und Minitoring Ablaufumgebung ist die Datenbank Datennähe
13
Auswahl und Ergebnisansicht Methoden Chart-Darstellung Tabellen-Darstellung Drill-Werte Operative Datensätze Die Tabellen, die zu dem Analyse- fukus gehören Feintuning zu den Analyse- methoden Analyse- Job- Protokolle Aktivierbare Business Rules Starten eines Profiling-Laufs Starten einer Correction- Mapping-Generierung Generierung- Rule
14
Wertebereichsanalysen (Domain)
15
Beispiel: Marketingkampagnen 5 Millionen Privatkunden-Kontaktdaten Davon 372112 unterschiedliche Berufe Wie wertvoll ist diese Art der Information? Kann damit eine Segmentierung für eine Marketingkampagne gesteuert werden? Datenmaterial lässt Rückschlüsse auf die Geschäftsprozesse zu!
16
Beziehungen (Relational)
17
Beziehungen (Orphans / Childless)
18
Formate (Data Type) ? ? ?
19
Wertmustererkennung (Pattern)
20
Korrekt, muß 0 sein Korrekt: Es kann nur ein Wert gepflegt sein. Korrekt, muß 0 sein Korrekt, das sind richtige Werte Korrekt, muß 0 sein Korrekt: Zusammen 100% (Alle Fälle erfasst) Problem: kein Schlüsselfeld ist gepflegt Korrekt, das sind die richtigen Werte Korrekt, muß 0 sein Korrekt Korrekt: Zusammen 100%. (Alle Fälle erfasst) Problem Korrekt, muß 0 sein Definieren von Regelwerken (Logical / Business Data Rules)
21
Stammdatenbetrachtung In einigen Fällen fehlen die Einkaufpreise ?
22
Nicht normiertes Datenmaterial Mit solchen Daten kann man nicht rechnen Hilfsmittel: Pattern-Analyse
23
Prüfung der aufgestellten Geschäftsregeln
24
Korrekt, muß 0 sein Korrekt: Es kann nur ein Wert gepflegt sein. Korrekt, muß 0 sein Korrekt, das sind richtige Werte Korrekt, muß 0 sein Korrekt: Zusammen 100% (Alle Fälle erfasst) Problem: kein Schlüsselfeld ist gepflegt Korrekt, das sind die richtigen Werte Korrekt, muß 0 sein Korrekt Korrekt: Zusammen 100%. (Alle Fälle erfasst) Problem Korrekt, muß 0 sein Stammdatenregel: Artikelnummer und Produktnummer sind alternativ zu füllen. Ein Statusfeld steuert mit
25
Source Stage Profiling Stage SAP R/3 SAP Integrator non Oracle Gateway / ODBC / FTP Oracle 9i / 10g / 11g DB2, SQL Server Informix, Teradata LDAP Meta Daten Repository Direct Path DBLink Transportable Modules DBMS_LDAP Siebel CRM Oracle eBusiness Text / XML Analyse Datenbank Analyseumgebung
26
Data Quality Monitoring im DWH Data Quality Dashboards
27
DaRT – Demonstration Institut für Informatik, Diplomvortrag, Esther Borowski, 10. Oktober 2008 13/17
28
Data Profiling im Data Warehouse hat zwei Hauptaufgaben 1.Garantieren von korrekten Berichten 2.Minimieren von Projektkosten
29
Traditionelle Projektaufwand bei Neuentwicklung Datenanalyse 50% 15 %Daten Modellierung + Systemdesign 10 % Entwurf Transformationen Front End 20% 5 % Arbeit mit ETL Tool Korrektur Phase 1 ?? Korrektur Phase 2 ?? Wartung ?? Wo stecken die Aufwende?
30
Zieldefinition Bestandsaufnahme Planen Strukturanalysen Regelanalysen Umsetzung Ergebnisse Erwartungen Geschäftsregeln OwnerUserRessourcenKostenModelle Felder Priorisieren Problemkomplexe ObjekteBeziehungenHierarchien DatenWerteFach Abgleich-AltNeudefinitionMonitoring Top Down Bottom Up Vorgehensmodell Datenqualitätsanalyse 6 Phasen, 95 Aktivitäten, 16 Ergebnis-Templates, 1 Metamodell, Klassifizierungen
Ähnliche Präsentationen
© 2024 SlidePlayer.org Inc.
All rights reserved.