Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

Der Datenqualität auf der Spur Data Profiling mit Oracle Warehouse Builder – live Beispiel Alfred Schlaucher.

Ähnliche Präsentationen


Präsentation zum Thema: "Der Datenqualität auf der Spur Data Profiling mit Oracle Warehouse Builder – live Beispiel Alfred Schlaucher."—  Präsentation transkript:

1

2 Der Datenqualität auf der Spur Data Profiling mit Oracle Warehouse Builder – live Beispiel Alfred Schlaucher

3 Analyseumgebung Oracle Datenquellen Alle Gateway- lesbare Quellen SAP-Daten Flat Files Adress-/LDAP- Verzeichnisse Source Schema Profiling Stage Oracle Source Schema Transportable Module External Table SAP Integrator non Oracle Gateway / ODBC / FTP Oracle 9i / 10g RAC DB2, SQL Server Informix, Teradata LDAP / DBMS_LDAP / Table Function

4 Vorgehensweise Daten-Analyse 1.Identifizieren Geschäftsfeld / Teilprozess 2.Datengewinnung: Extrakt / Transformation (ETL-Aufgabe) Kundenstammdaten -> Testkunde 3.Erstes Profiling -> 1. Sichtprüfung Fragen / Thesen formulieren 4.Zweites Profiling -> verifizieren Custom Rules 5.Korrigieren nachgelagert im operativen Prozess 6.Monitoring

5 Herleiten der entsprechenden Prüfdaten mit ETL-Mitteln MP_Testkunde

6 Intuitives Erkennen von Anomalien Domain Anz_Kinder? Domain 0,1,2,3, Null Warum 0 und Null? Gibt es keine Kunden mit mehr als 3 Kindern? Warum gibt es nur 0,3% Kunden mit 0 Kindern (entspricht nicht der Erwartung)? warum gibt es eine gleichmäßige Verteilung der Werte 1,2,3 im Bereich von %? Null kommt offenbar nur bei Firmenkunden vor Die Zahl 17 kann markant sein. Bei weiterer Prüfung stellt man fest, dass es genau 17 Firmenkunden gib Es fehlt eine einheitliche Art der Beschreibung für das Nicht-Vorhandensein (0,Null)

7 Intuitives Erkennen von Anomalien Domain Anrede? Herr / Frau sind offensichtlich richtige Werte Die rot-markierten Werte sind offensichtlich falsch Die beiden Werte 3 undAnrede haben im Vergleich zu den anderen falschen Werten ein signifikant hohes Vorkommen Warum? Welche Regel kann für das Feld gefunden werden? Wenn Status = F dann Anrede = Firma Wenn Status = P dann Anrede = Herr oder Frau

8 Gezieltes Überprüfen von Geschäftsregeln (Custom Rule) Domain Anrede? Nur ~19% folgen der Regel. Warum? Die Domain-Analyse von des Status-Feldes ergibt den Wertebereich F (Firmenkunde) P (Privatkunde) G (guter Kunde) K (kein Kunde) Die Überprüfung der Regel hat zu einer weiteren Schwachstelle geführt. Das Attribut Status ist überladen, ( es wird für unterschiedliche Sinnzusammenhänge benutzt) es müsste eine weitere Spalte geben, z,. B. Qualität der Kundenbez. Wenn Status = F dann Anrede = Firma und Wenn Status = P dann Anrede = Herr oder Frau

9 Domains, Varianten, Ausreißer Data Profiling: Verwendung einheitlicher Codes BerufsgruppeBerufsgruppen_Nr Erkennen von abhängigen Domains – Functional Dependency

10 Domains, Varianten, Ausreißer Data Profiling: mit dem Ziel der Standardisierung Eine Domain mit fehlerhaften Inhalten Dr und Dr. Prof und Prof. Hinweis für Standardisierungs- Maßnahme

11 Domains, Varianten, Ausreißer Data Profiling: mit dem Ziel der Standardisierung Erkennen von Varianten Straßenbezeichnungen müssen standardisiert werden, um sie z. B, für eine Haushaltsbildung oder Adressdatenabgleich vergleichen zu können.

12 Unterstützung von Software-Projekten ! Übereinstimmung von Feldname...nr und Feldtyp Durch den Feldnamen vermutet man rein numerische Inhalte sieht gut aus ? Kundennr ist ein wichtiges Feld. Es sollte stimmig sein. Firmenrabatt ist in der Regel ein Rechenfeld

13 Unterstützung von Software-Projekten kritisch! da es sich um einen Schlüssel- kandidaten handelt Felder sind nicht gepflegt Die Zahl 17 kommt häufig vor, hier muss es eine systematische Ursache geben kritisch! weil doppelte Kundennummern ? ? OK

14 Was wird geprüft

15

16 metadaten owb Metadaten


Herunterladen ppt "Der Datenqualität auf der Spur Data Profiling mit Oracle Warehouse Builder – live Beispiel Alfred Schlaucher."

Ähnliche Präsentationen


Google-Anzeigen