Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

Der Datenqualität auf der Spur Data Profiling mit Oracle Warehouse Builder – Analysen rund um die Cheers GmbH Alfred Schlaucher.

Ähnliche Präsentationen


Präsentation zum Thema: "Der Datenqualität auf der Spur Data Profiling mit Oracle Warehouse Builder – Analysen rund um die Cheers GmbH Alfred Schlaucher."—  Präsentation transkript:

1

2 Der Datenqualität auf der Spur Data Profiling mit Oracle Warehouse Builder – Analysen rund um die Cheers GmbH Alfred Schlaucher

3 Themen Oracle und Data Quality Data Quality Vorgehensweise bei der Datenqualitätsanalyse Exemplarische Analysen Cheers GmbH Zusammenfassung der Analyseergebnisse Information Management und Data Warehouse

4 Themen Oracle und Data Quality Data Quality Vorgehensweise bei der Datenqualitätsanalyse Exemplarische Analysen Cheers GmbH Zusammenfassung der Analyseergebnisse Information Management und Data Warehouse

5 Verwaltung und Dokumentation Metadaten Ownerschaften Grid Control B&R Data Warehouse ist mehr als nur eine Datenbank – Den Blick erweitern Effiziente Datenhaltung Speichertechnik ILM Hardware ASM OLAP Datenintegration schnelles Bereitstellen DB-basiertes Laden Master Data Management ETL-Option SAP Zugriff Qualitäts- management Data Profiling Data Auditing Data Rules Daten-Zugriff Security Mandanten BI-Anwendungen Standard-Berichte Interaktive Berichte Data Mining Komplexe Analysen

6 Verwaltung und Dokumentation Metadaten Ownerschaften Grid Control B&R Technologien und Verfahren Effiziente Datenhaltung Speichertechnik ILM Hardware ASM OLAP Datenintegration schnelles Bereitstellen DB-basiertes Laden Master Data Management ETL-Option SAP Zugriff Qualitäts- management Data Profiling Data Auditing Data Rules Daten-Zugriff Security Mandanten BI-Anwendungen Standard-Berichte Interaktive Berichte Data Mining Komplexe Analysen Data Quality Option Enterprise-ETL Label Security Data Mining OBI SE OBI EE Gateways Oracle Enterprise Edition Compression Bitmapped Parallel Query Flashback Streams Data Guard Repository (OWB) Partition OLAP RAC RMAN Diagnostic Pack Tuning Pack SAP Connect OWB-Kontext

7 Themen Oracle und Data Quality Data Quality Vorgehensweise bei der Datenqualitätsanalyse Exemplarische Analysen Cheers GmbH Zusammenfassung der Analyseergebnisse Information Management und Data Warehouse

8 Datenqualität? Was ist das? Unsere Daten sind doch sauber! Bis zu 20% der operativen Daten sind betroffen. Unternehmen finanzieren schlechte mit 30-50% der IT-Ausgaben. Über schlechte Daten redet man nicht, man arrangiert sich.

9 Die Kosten der schlechten Daten

10 Ohne Daten kein Business Daten sind der Treibstoff der Prozesse Operative Prozesse Information Chain Kunde Kunden- betreuer Logistik- system Stamm- daten Marketing Buch- haltung Lager Spedition Kunde Bedarf Adresse Kredit- daten Angebot Bestand Bestell- daten KD-Daten Kredit OK Order Adresse Werbung Verkaufs- daten Rechnung Bezahlung Reklamation Mahnung Liefer- schein

11 Aspekte der Datenqualität Brauchbarkeit der Daten! Verfügbar (Access) Aktuell Korrekt Vollständig Redundanzfrei Dokumentiert Handhabbar Nützlich (TCO) Stimmig

12 Beispiel: Datenqualitätsproblem 5 Millionen Privatkunden-Kontaktdaten Davon 372112 unterschiedliche Berufe Wie wertvoll ist diese Art der Information? Kann damit eine Segmentierung für eine Marketingkampagne gesteuert werden? Datenmaterial lässt Rückschlüsse auf die Geschäftsprozesse zu!

13 Versteckte Kosten durch schlechte Datenqualität Manuelles Nacharbeiten von Daten Beschwerden -> Aufwand in Call Center Erhöhte Projektkosten bei Einführung neuer Systeme Bis 25% gestoppt, bis zu 60% Verzug aufgrund falscher oder fehlender Daten Verspätete Unternehmensberichte Verlorene Kunden durch schlechten Support Produktionsausfälle durch Störung in der Supply Chain

14 Wem hilft das Data Profiling? Software- Entwickler Verstehen der Anwendungsdaten. 2 Datenmodellierer Erkennen von Datenstrukturen. 3 Organisatoren+ Systemplaner Erkennen von Anforderungen. 4 Fachmitarbeiter Erkennung von Schwachstellen in den Prozessen. 1 5 Data Warehouse- Entwickler Lösen von Integrations- aufgaben. Blick in die Vorsysteme. 6 Wartungs- mitarbeiter Überprüfen von Datenregeln. Data Profiling Hilfsmittel für viele Anforderungen

15 Wo anfangen? - eignen sich die Daten für das Data Profiling? - Was ist über die Daten bekannt Wo anfangen? - eignen sich die Daten für das Data Profiling? - Was ist über die Daten bekannt Environment - Datenmengen - Rechner - Planung notwendig Zurechtschneiden der Daten - Daten aufbrechen - Teilmengen bilden - Referenzdaten zusammenführen - Sampling - Mehrfach - Profiling - Einsatz von ETL Analysieren der Daten - Augenfällige Erkenntnisse -> der erste Schuss - Dinge, die sofort auffallen -> Domains / Pattern / PK - Visuelles Analysieren - Graphikeinsatz - Beziehungen analysieren Ableiten von Regeln und Korrekturen - Automatisches Erkennen - Benutzerdefinierte Regeln - Generieren von Korrekturmappings Dokumentieren der Ergebnisse - Ergebnisblatt - Definition Metadaten - Orga - Handbuch Regeln, die nicht abgedeckt werden und deren Lösung - komplexe Lookup – Beziehungen - Rekursive Strukturen - Tupel – übergreifende Abhängigkeiten Ablauf Data Profiling Analyse ETL - Prozess - Mappings - Routinen - Workflow - Metadatenrepository Korrekte Daten 123456X7 Ständige Kommunikation mit der Fachabteilung

16 Induktives und deduktives Vorgehen Wir wissen, vermuten Dinge die nicht stimmen Wir können sinnvolle Analysen aufgrund bekannter Dinge ableiten Wir lassen uns überraschen, was da noch kommt Wir stöbern in den Daten und entdecken Auffälligkeiten beginnen zu kombinieren stellen Hypothesen auf versuchen Zusammenhänge zu beweisen Vermutungen verifizieren Neues entdecken

17 Data Profiling mit OWB Methoden Feintuning zu den Analyse- methoden Die operativen Daten Proto- kollierung laufende Analysen Drill Down zu den operativen Daten

18 Verständlichkeit des Datenmodells (z. B. Homonyme) Kundenstatus: P: Privatkunde F: Firmenkunde G: guter Kunde K: kein Kunde Produktstatus: 1: Großhandelsware f. Baumärkte 2: Produkte kaufbar über Internet 3: Serviceleistung (Kredite und Handwerksleistung) Kunden_Stamm Produkte_Stamm

19 Schlüsselanalyse (Eindeutigkeit in den Stammdaten) Doppelter Datensatz Unterschiedliche Sätze, aber Schlüsselfeld falsch gepflegt Unterschiedliche Sätze, aber Feld wird nicht genutzt

20 Schlüsselanalyse (Eindeutigkeit in den Bewegungsdaten)

21 Beziehungsanalyse (Wer hängt an wem? Wer ist isoliert?) Produkte_Stamm Artikel_Gruppe ChildParent KardinalitätWaisen n:1 Hilfsmittel: Referential

22 Kunden_stamm Zahlung Bestellung Best_Position Kundennummer = 12 Bestellnummer = 30 Kundennummer = 12 Bestellnummer = 30 Kundennummer = 12 Kundennummer = 21 ??? Kreisbeziehung (Irgendwann passen die Daten nicht mehr zusammen)

23 Analyse von Hierarchien Produkte_Stamm Artikel_Gruppe Artikelsparte ARTIKELSPARTENNR 1, 2,3 ARTIKELSPARTENNR 1,4,3 ARTIKELGRUPPENNR 1,2,3,4,5,6,11,10,9,8,7 ARTIKELGRUPPENNR 100,1,6,2,5,4,7,3,10

24 Hierarchie: ARTIKEL_GRUPPE -> ARTIKELSPARTE

25 Beziehung PRODUKTE_STAMM -> ARTIKEL_GRUPPE

26 Vergleich der Wertebereiche von referenzierenden Feldern

27 Position ProdukteGruppenSparten Kunden- Stamm Bestellung Falsche Statuskennzeichnung von Finanzprodukten Orphans Fehlerhafte Spartenkennzeichnung von Gruppen Doppelte Wertebelegung von Statuskennzeichnung für Privat- und Firmenkunden. Fehlerhafte Verschlüsselung von Artikel- und Produkten Doppelte Produktnummern Fehlerhafte, nicht rechenbare Einzelpreisbezeichnung Umsatz pro Sparte? Umsatz pro Gruppe? Umsatz pro Produkt? Werden korrekte Rechnungen gestellt? Umsatz pro Kunde? Macht die Kundenkarte Sinn? Ergebnisse der Hierarchie- und Beziehungsanalyse BI ?

28 Suche nach redundanten Informationen (1. Normalform) Kundenstatus: P: Privatkunde F: Firmenkunde G: guter Kunde K: kein Kunde Kunden_Stamm Folge: Alle Abfragen/Analysen über Privatkunden sind damit nicht mehr sauber durchführbar. (Z. B. Abfragen über die Wirkung der Kundenkarte. Hilfsmittel: Domainanalyse

29 Functional Dependency Abhängigkeit zwischen GESAMT_POS_PREIS und PREIS: Warum ist der hier 98,5 %

30 Suche nach redundanten Informationen (3. Normalform) Hilfsmittel: Beziehungsanalyse Abhängigkeit zwischen GESAMT_POS_PREIS und PREIS: Warum ist der hier 98,5 %

31 Prüfung der aufgestellten Geschäftsregeln

32 Korrekt, muß 0 sein Korrekt: Es kann nur ein Wert gepflegt sein. Korrekt, muß 0 sein Korrekt, das sind richtige Werte Korrekt, muß 0 sein Korrekt: Zusammen 100% (Alle Fälle erfasst) Problem: kein Schlüsselfeld ist gepflegt Korrekt, das sind die richtigen Werte Korrekt, muß 0 sein Korrekt Korrekt: Zusammen 100%. (Alle Fälle erfasst) Problem Korrekt, muß 0 sein Stammdatenregel: Artikelnummer und Produktnummer sind alternativ zu füllen. Ein Statusfeld steuert mit

33 Stammdatenbetrachtung In einigen Fällen fehlen die Einkaufpreise ?

34 Nicht normiertes Datenmaterial Mit solchen Daten kann man nicht rechnen Hilfsmittel: Pattern-Analyse

35


Herunterladen ppt "Der Datenqualität auf der Spur Data Profiling mit Oracle Warehouse Builder – Analysen rund um die Cheers GmbH Alfred Schlaucher."

Ähnliche Präsentationen


Google-Anzeigen