Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

Datenqualitätsanalysen mit Oracle Alfred Schlaucher, Data Warehouse Architect, Oracle.

Ähnliche Präsentationen


Präsentation zum Thema: "Datenqualitätsanalysen mit Oracle Alfred Schlaucher, Data Warehouse Architect, Oracle."—  Präsentation transkript:

1

2 Datenqualitätsanalysen mit Oracle Alfred Schlaucher, Data Warehouse Architect, Oracle

3 Themen Stichwort: Data Quality Vorgehensmodell für Datenqualitätsanalysen Exemplarische Analysen Service GmbH Information Management und Data Warehouse

4 Datenqualität? Was ist das? Unsere Daten sind doch sauber! Bis zu 20% der operativen Daten sind betroffen. Unternehmen finanzieren schlechte Daten mit % der IT-Ausgaben. Über schlechte Daten redet man nicht, man arrangiert sich. Eine Umfrage unter 385 Dt. Finanz- und IT- Spezialisten < 50% IQ-Ziele bereits erreicht 82 % glauben Finanzinformationen könnten für Planung und Strategieentwicklung wesentlich besser genutzt werden Schlechte Datenqualität zwingt bei den meisten Unternehmen zu zusätzlichen Berichten und Analysen

5 Die Kosten der schlechten Daten

6 Versteckte Kosten durch schlechte Datenqualität Manuelles Nacharbeiten von Daten Beschwerden -> Aufwand in Call Center Erhöhte Projektkosten bei Einführung neuer Systeme Bis 25% gestoppt, bis zu 60% Verzug aufgrund falscher oder fehlender Daten Verspätete Unternehmensberichte Verlorene Kunden durch schlechten Support Produktionsausfälle durch Störung in der Supply Chain

7 Ohne Daten kein Business Daten sind der Treibstoff der Prozesse Operative Prozesse Information Chain Kunde Kunden- betreuer Logistik- system Stamm- daten Marketing Buch- haltung Lager Spedition Kunde Bedarf Adresse Kredit- daten Angebot Bestand Bestell- daten KD-Daten Kredit OK Order Adresse Werbung Verkaufs- daten Rechnung Bezahlung Reklamation Mahnung Liefer- schein

8 Aspekte der Datenqualität Brauchbarkeit der Daten! Verfügbar (Access) Aktuell Korrekt Vollständig Redundanzfrei Dokumentiert Handhabbar Nützlich (TCO) Stimmig

9 Data Profiling Software – gestütztes Erkennen von Anomalien in Datenbeständen ( The use of analytical techniques about data for the purpose of developing a thorough knowledge of its content, structure and quality) Interaktiver Analyse-Vorgang Bestandteil von Oracle Warehouse Builder seit 2006

10 Beispiel: Datenqualitätsproblem 5 Millionen Privatkunden-Kontaktdaten Davon unterschiedliche Berufe Wie wertvoll ist diese Art der Information? Kann damit eine Segmentierung für eine Marketingkampagne gesteuert werden? Datenmaterial lässt Rückschlüsse auf die Geschäftsprozesse zu!

11 Top Down und Bottom Up Analysen ergänzen sich Top Down Wir wissen und vermuten Dinge die nicht stimmen Wir können sinnvolle Analysen aufgrund bekannter Dinge ableiten Bottom Up durch Data Profiling Wir lassen uns überraschen, was da noch kommt Wir stöbern in den Daten und entdecken Auffälligkeiten beginnen zu kombinieren stellen Hypothesen auf versuchen Zusammenhänge zu beweisen Vermutungen verifizieren Neues entdecken

12 Data Profiling mit OWB Methoden Feintuning zu den Analyse- methoden Die operativen Daten Proto- kollierung laufende Analysen Drill Down zu den operativen Daten

13 Vorgehensmodell für Datenqualitätsprojekte Erheben der Grunddaten Beschreibung der Geschäftsprozesse Datenmodellprüfungen Detailanalyse Geschäftsfelder Data Ownern / Daten-Interessenten / Konsumenten DQ-Erwartungen Bekannte Schwachstellen Kosten Prioritäten Objektmodell Datenflüsse und – schnittstellen Bekannte Geschäftsregeln Vollständigkeitsbetrachtung Betrachtung der Verständlichkeit Schlüsselanalysen / Beziehungsanalysen Analyse von Hierarchien Suche nach Redundanzen (z. B. Normalisierung) Mengenanalyse / Stammdatenabgleiche Überprüfen der Geschäftsregeln Analyse der erkannten Schwachstellen Verifizieren der DQ Erwartungen

14 Die S ERVICE GmbH Fallbeispiel

15 S ERVICE GmbH Vermittlung von Dienstleistungen für Endkunden rund um das Handwerk Handwerksleistung Darlehen Großhandel für Baumärkte und Einzelhandel Haushaltswaren Heimwerker Gartenbedarf KFZ-Zubehoer Elektroartikel Bereich Internet-/ Versandhandel Computerteile Entstand aus Zusammenschluss mehrerer Vertriebsge- sellschaften Integration der Stammdaten mit Hindernissen Die S ERVICE GmbH Unterscheidung Privatkunden Firmenkunden Kundenkarte Privatkunden

16 S ERVICE GmbH Erwartungen aus dem Unternehmen Vertrieb ControllingManagement MarketingBuchhaltung Vertrieb: wünscht leichtere Auswertungen Was sind wichtige Produkte? Was sind rentable Sparten? Hat sich der Servicebereich gelohnt? Marketing: Absatzzahlen sind nicht aussagefähig Wie viel Kunden gibt es? Lohnt die Kundekarte? Welche Segmentierung gibt es? Buchhaltung: Es fehlen Daten Warum sind die Spediteursrechnungen so hoch? Sind alle Bestellungen korrekt bezahlt worden? Wie hoch sind die Versandkosten pro Lieferung? Was wurde storniert? Controlling: Vergleichbarkeit fehlt Was kosten Produkte im Einkauf? Wie teuer wurden Produkte verkauft? Wie rentabel sind einzelne Produkte Management: Kennzahlen fehlen Wie hoch sind die liquiden Mittel? Wie hoch sind die Außenstände?

17 Bekannte Schwachstellen

18 Kosten der DQ-Probleme

19 Analysemodell: Was wissen wir über den Prozess? Service GmbH Produkte Kunden verkauft Lieferanten Dienst- leistungen PrivatFirmen Kunden- karte Lager HandwerkerSpediteur bestellt beauftragt liefert aus holt ab bietet an beauftragtbietet an beliefert storniert holt stornierte Ware ab liefert ab

20 Objektmodell: Welche Geschäftsobjekte sind an dem Prozess beteiligt? KundeLieferantenZahlungStornierungProdukte Privat- Kunde Firmen- Kunde Kunden- Karte ArtikelServiceLagerBestellungLieferungRetouren Dienst- leister Partner Spediteur Beauf- tragung / Order Bewegungs daten Stamm- daten

21 Geschäftsprozess: Bestellungen Kundendaten prüfen Kreditlimit prüfen Verfüg- barkeit prüfen Dienstleist- ung be- auftragen MAX/MIN Menge Spediteur beauftragen Liefersatz anlegen Bestellsatz updaten Kunden- stamm Produkte- stamm Liefer- schein Vertrag Kunden- stamm Status Bestellung anlegen offene Posten Bestellung Best_Pos Bestellung Best_Pos Lieferung Beschaffung Bestellprozess

22 Datenflüsse / Schnittstellen Kunden- stamm Bestellung Discount ermittlung Produkte- stamm Verpackung Mengen Preise Artikeldaten Zahlung Stornierung Leistungen Beträge Leistungen Beträge

23 Vollständigkeitsanalyse Wichtige Daten fehlen! KundeLieferantenZahlungStornierungProdukte Privat- Kunde Firmen- Kunde Kunden- Karte ArtikelServiceLagerBestellungLieferungRetouren Dienst- leister Partner Spediteur Beauf- tragung / Order Bewegungs daten Stamm- daten Liefernummer fehlt. Identifizierung nur über Bestellnummer Keine Untergliederung nach Positionen möglich.

24 Verständlichkeit des Datenmodells (z. B. Homonyme) Kundenstatus: P: Privatkunde F: Firmenkunde G: guter Kunde K: kein Kunde Produktstatus: 1: Großhandelsware f. Baumärkte 2: Produkte kaufbar über Internet 3: Serviceleistung (Kredite und Handwerksleistung) Kunden_Stamm Produkte_Stamm

25 Schlüsselanalyse (Eindeutigkeit in den Stammdaten) Doppelter Datensatz Unterschiedliche Sätze, aber Schlüsselfeld falsch gepflegt Unterschiedliche Sätze, aber Feld wird nicht genutzt

26 Schlüsselanalyse (Eindeutigkeit in den Bewegungsdaten)

27 Beziehungsanalyse (Wer hängt an wem? Wer ist isoliert?) Produkte_Stamm Artikel_Gruppe ChildParent KardinalitätWaisen n:1 Hilfsmittel: Referential

28 Kunden_ stamm LieferantZahlungStornierung Produkte_ stamm LagerBestellungLieferung Best_ Position Artikel_ Gruppe Artikel_ Sparte Artikelgruppennr Beziehungsanalyse (Wer hängt an wem? Wer ist isoliert?)

29 Kunden_stamm Zahlung Bestellung Best_Position Kundennummer = 12 Bestellnummer = 30 Kundennummer = 12 Bestellnummer = 30 Kundennummer = 12 Kundennummer = 21 ??? Kreisbeziehung (Irgendwann passen die Daten nicht mehr zusammen)

30 Analyse von Hierarchien Produkte_Stamm Artikel_Gruppe Artikelsparte ARTIKELSPARTENNR 1, 2,3 ARTIKELSPARTENNR 1,4,3 ARTIKELGRUPPENNR 1,2,3,4,5,6,11,10,9,8,7 ARTIKELGRUPPENNR 100,1,6,2,5,4,7,3,10

31 Hierarchie: ARTIKEL_GRUPPE -> ARTIKELSPARTE

32 Beziehung PRODUKTE_STAMM -> ARTIKEL_GRUPPE

33 Vergleich der Wertebereiche von referenzierenden Feldern

34 Position ProdukteGruppenSparten Kunden- Stamm Bestellung Falsche Statuskennzeichnung von Finanzprodukten Orphans Fehlerhafte Spartenkennzeichnung von Gruppen Doppelte Wertebelegung von Statuskennzeichnung für Privat- und Firmenkunden. Fehlerhafte Verschlüsselung von Artikel- und Produkten Doppelte Produktnummern Fehlerhafte, nicht rechenbare Einzelpreisbezeichnung Umsatz pro Sparte? Umsatz pro Gruppe? Umsatz pro Produkt? Werden korrekte Rechnungen gestellt? Umsatz pro Kunde? Macht die Kundenkarte Sinn? Ergebnisse der Hierarchie- und Beziehungsanalyse BI ?

35 Suche nach redundanten Informationen (1. Normalform) Kundenstatus: P: Privatkunde F: Firmenkunde G: guter Kunde K: kein Kunde Kunden_Stamm Folge: Alle Abfragen/Analysen über Privatkunden sind damit nicht mehr sauber durchführbar. (Z. B. Abfragen über die Wirkung der Kundenkarte. Hilfsmittel: Domainanalyse

36 Suche nach redundanten Informationen (2. Normalform) Hilfsmittel: Beziehungsanalyse

37 Functional Dependency Abhängigkeit zwischen GESAMT_POS_PREIS und PREIS: Warum ist der hier 98,5 %

38 Suche nach redundanten Informationen (3. Normalform) Hilfsmittel: Beziehungsanalyse Abhängigkeit zwischen GESAMT_POS_PREIS und PREIS: Warum ist der hier 98,5 %

39 Prüfung der aufgestellten Geschäftsregeln

40 Stammdatenregel: Artikelnummer und Produktnummer sind alternativ zu füllen. Ein Statusfeld steuert mit

41 Korrekt, muß 0 sein Korrekt: Es kann nur ein Wert gepflegt sein. Korrekt, muß 0 sein Korrekt, das sind richtige Werte Korrekt, muß 0 sein Korrekt: Zusammen 100% (Alle Fälle erfasst) Problem: kein Schlüsselfeld ist gepflegt Korrekt, das sind die richtigen Werte Korrekt, muß 0 sein Korrekt Korrekt: Zusammen 100%. (Alle Fälle erfasst) Problem Korrekt, muß 0 sein Stammdatenregel: Artikelnummer und Produktnummer sind alternativ zu füllen. Ein Statusfeld steuert mit

42 Stammdatenbetrachtung In einigen Fällen fehlen die Einkaufpreise ?

43 Nicht normiertes Datenmaterial Mit solchen Daten kann man nicht rechnen Hilfsmittel: Pattern-Analyse

44


Herunterladen ppt "Datenqualitätsanalysen mit Oracle Alfred Schlaucher, Data Warehouse Architect, Oracle."

Ähnliche Präsentationen


Google-Anzeigen