Der Datenqualität auf der Spur Data Profiling mit Oracle Warehouse Builder – Analysen rund um die Cheers GmbH Alfred Schlaucher.

Slides:



Advertisements
Ähnliche Präsentationen
Kurzpräsentation der Bewerbung September 2005
Advertisements

Datenbankdesign mit ACCESS.
Daten im Data-Warehouse
Prof. Dr. Dr. h.c. mult. August-Wilhelm Scheer
Datenbanken Einführung.
ERP- und Team-Erweiterungen für Microsoft Project.
Anforderungssystem im Intranet mit Ankopplung an SAP R/3
Die Logistik im SAP R/3-System Möglichkeiten zur Optimierung der Effizienz Dr. A.S. Schmidt Frankfurt-Höchst,
1-1 Schlank und schnell zum Datawarehouse Marc Bastien Oracle Deutschland GmbH BTW Leipzig,
Inhaltlich orientierter Zugriff auf unstrukturierte Daten
Microsoft Access – Einführung – Allgemeine Technologien I
Eine Fallstudie zur Wirtschaftsinformatik
Wirksames Projekt-Management.
Mehrwert aus Daten gewinnen mit Datamining und Textmining
Enterprise Resource Planning
Universität Stuttgart Institut für Kernenergetik und Energiesysteme LE 3.2- LM 8 - LO 9 Definitionen zu LM 8.
Erfahrungen aus Tests komplexer Systeme
Risiken und Chancen Risiko Beurteilung: Dazu gehört die Identifikationen von Risiken, ihre Analyse und das Ordnen nach Prioritäten. Risiko Kontrolle: Dazu.
Universität Stuttgart Institut für Kernenergetik und Energiesysteme Aufgaben des Testens Vergleich des Verhaltens einer Software mit den an sie gestellten.
Datenmodelle, Datenbanksprachen und Datenbankmanagementsysteme
Access 2000 Datenbanken.
Buch S70ff (Informatik I, Oldenbourg-Verlag)
Oracle Warehouse Technologie Single-Engine-Based-Data-Warehouse
Manpower Associates is a $14
Oracle Warehouse Builder 11g
Manpower Associates is a $14
Manpower Associates is a $14
Die Bank von morgen - eine neue Welt für IT und Kunden? 23. Oktober 2001.
Folie 1 Reengineering-Werkzeugen für Webseiten Johannes Martin, University of Victoria Ludger Martin, Technische Universität Darmstadt WSR 2001 Bad Honnef,
Das Pareto-Prinzip 20/80 Vilfredo Pareto, italienischer Ökonom, Soziologe und Wirtschaftsexperte ( ) Das Pareto-Prinzip besagt, daß 1/5 (20%)
Schulz & Löw Consulting GmbH
Softwareprojekt Shopverwaltung
... und alles was dazugehört
Was ist ITOS? –Das Unternehmen ITOS ist im Bereich Informationstechnologie tätig –Entwicklung von Konzepten wie CMS und CRM für Unternehmen, die die interne.
Synergieeffekte durch softwaregestützte Prozessmodelle
© DVS System Software GmbH & Co. KG
Das Warenwirtschaftssystem ist das zentrale IT-System in Handelsunternehmen.
DATA WAREHOUSE Oracle Data Warehouse Mit Big Data neue Horizonte für das Data Warehouse ermöglichen Alfred Schlaucher, Detlef Schroeder DATA WAREHOUSE.
Thats IT!. Titelmasterformat durch Klicken bearbeiten Über uns Mit uns bekommen Sie: Beratung – Doing - Betreuung langjährige Erfahrung umfassende Beratung.
Diomex XcalibuR! Brücke zwischen Industrie und Handel.
2. Woche: Marketing Systems Anfahrt
Allgemeines zu Datenbanken
Flexible Datensicherung für kleine und mittlere Unternehmen
Ihr Mehrwert: Täglich aktuell importierte Kundendaten (Bestände und Transaktionen) Revisionssicher Archivierung Automatisierte Prozessunterstützung Tagesaktuelle.
00:13 Matthias Ansorg FH Gießen-Friedberg1 / 24 Multidimensionale Datenstrukturen - semantische und logische Modellierung Teilvortrag: logische Modellierung.
verstehen planen bearbeiten
Mehr Zeit für den Kunden und wirtschaftlicher Arbeiten mit BIB-Control
Management, Führung & Kommunikation
Das Unternehmen.
xRM1 Pilot Implementierung
Die Management-Tools von Z&H COACH beinhalten zentrale Hilfsmittel für ein Management-System. Sorgfältig angewendet führen diese Tools Ihr Unternehmen.
Dipl.-Inform. (FH) Mike Bach Unterschiedliche Anwendungen im Unternehmen – Warum, Wer und Wie Best-of-Breed vs. Alles aus einer Hand Dipl.-Inform. Mike.
Wissensmanagement Zusammenfassung.
PLANT DATA MANAGEMENT SYSTEM ist ein computergestütztes Dokumentationsverfahren, das die Vorteile einer objektorientierten Datenbank mit den Vorteilen.
Projektgruppe: Internetdienst zur Planung und Modellierung logistischer Netzwerke und Supply Chains Oldenburg, den Hahn/Behrens/Gaudig.
Oracle Portal think fast. think simple. think smart. Dieter Lorenz, Christian Witt.
DATAframe ® Transparenz in Ihrem Unternehmen Referent: XXXXXXX Datum:
DOCUframe ® Ihr Unternehmen aus der ganzheitlichen Perspektive Durchgängige Prozessunterstützung in ECM, CRM, Groupware und WWS Referent: xxxxxxxxxxxxx.
SAP-Forum «Business Intelligence» BI in der Lehre Hagen Pöhnert, Akademischer Leiter Executive MBA Business Process Integration.
Komponenten und Phasen des Data Warehousing
Überblick Einführung in SAP Business One
Verkauf – Debitoren Kunden und Kundengruppen
Oracle Exadata und HP Oracle Database Machine © 2008 Oracle Corporation – Proprietary and Confidential Alfred Schlaucher (Oracle Data Warehouse) EXTREME.
Datenqualitätsanalysen mit Oracle Alfred Schlaucher, Data Warehouse Architect, Oracle.
1 Oracle Warehouse Technologie Single-Engine-Based-Data-Warehouse.
Alfred Schlaucher, Data Warehouse Architect, Oracle Oracle Data Warehouse.
OWB Enterprise Edition Option Alfred Schlaucher Oracle Warehouse Builder Enterprise Edition.
Scamander S O L U T I O N S Befreien Sie Ihre Oracle Applications Daten! Christian Rokitta - Berater Scamander Solutions BV
 Präsentation transkript:

Der Datenqualität auf der Spur Data Profiling mit Oracle Warehouse Builder – Analysen rund um die Cheers GmbH Alfred Schlaucher

Themen Oracle und Data Quality Data Quality Vorgehensweise bei der Datenqualitätsanalyse Exemplarische Analysen Cheers GmbH Zusammenfassung der Analyseergebnisse Information Management und Data Warehouse

Themen Oracle und Data Quality Data Quality Vorgehensweise bei der Datenqualitätsanalyse Exemplarische Analysen Cheers GmbH Zusammenfassung der Analyseergebnisse Information Management und Data Warehouse

Verwaltung und Dokumentation Metadaten Ownerschaften Grid Control B&R Data Warehouse ist mehr als nur eine Datenbank – Den Blick erweitern Effiziente Datenhaltung Speichertechnik ILM Hardware ASM OLAP Datenintegration schnelles Bereitstellen DB-basiertes Laden Master Data Management ETL-Option SAP Zugriff Qualitäts- management Data Profiling Data Auditing Data Rules Daten-Zugriff Security Mandanten BI-Anwendungen Standard-Berichte Interaktive Berichte Data Mining Komplexe Analysen

Verwaltung und Dokumentation Metadaten Ownerschaften Grid Control B&R Technologien und Verfahren Effiziente Datenhaltung Speichertechnik ILM Hardware ASM OLAP Datenintegration schnelles Bereitstellen DB-basiertes Laden Master Data Management ETL-Option SAP Zugriff Qualitäts- management Data Profiling Data Auditing Data Rules Daten-Zugriff Security Mandanten BI-Anwendungen Standard-Berichte Interaktive Berichte Data Mining Komplexe Analysen Data Quality Option Enterprise-ETL Label Security Data Mining OBI SE OBI EE Gateways Oracle Enterprise Edition Compression Bitmapped Parallel Query Flashback Streams Data Guard Repository (OWB) Partition OLAP RAC RMAN Diagnostic Pack Tuning Pack SAP Connect OWB-Kontext

Themen Oracle und Data Quality Data Quality Vorgehensweise bei der Datenqualitätsanalyse Exemplarische Analysen Cheers GmbH Zusammenfassung der Analyseergebnisse Information Management und Data Warehouse

Datenqualität? Was ist das? Unsere Daten sind doch sauber! Bis zu 20% der operativen Daten sind betroffen. Unternehmen finanzieren schlechte mit 30-50% der IT-Ausgaben. Über schlechte Daten redet man nicht, man arrangiert sich.

Die Kosten der schlechten Daten

Ohne Daten kein Business Daten sind der Treibstoff der Prozesse Operative Prozesse Information Chain Kunde Kunden- betreuer Logistik- system Stamm- daten Marketing Buch- haltung Lager Spedition Kunde Bedarf Adresse Kredit- daten Angebot Bestand Bestell- daten KD-Daten Kredit OK Order Adresse Werbung Verkaufs- daten Rechnung Bezahlung Reklamation Mahnung Liefer- schein

Aspekte der Datenqualität Brauchbarkeit der Daten! Verfügbar (Access) Aktuell Korrekt Vollständig Redundanzfrei Dokumentiert Handhabbar Nützlich (TCO) Stimmig

Beispiel: Datenqualitätsproblem 5 Millionen Privatkunden-Kontaktdaten Davon unterschiedliche Berufe Wie wertvoll ist diese Art der Information? Kann damit eine Segmentierung für eine Marketingkampagne gesteuert werden? Datenmaterial lässt Rückschlüsse auf die Geschäftsprozesse zu!

Versteckte Kosten durch schlechte Datenqualität Manuelles Nacharbeiten von Daten Beschwerden -> Aufwand in Call Center Erhöhte Projektkosten bei Einführung neuer Systeme Bis 25% gestoppt, bis zu 60% Verzug aufgrund falscher oder fehlender Daten Verspätete Unternehmensberichte Verlorene Kunden durch schlechten Support Produktionsausfälle durch Störung in der Supply Chain

Wem hilft das Data Profiling? Software- Entwickler Verstehen der Anwendungsdaten. 2 Datenmodellierer Erkennen von Datenstrukturen. 3 Organisatoren+ Systemplaner Erkennen von Anforderungen. 4 Fachmitarbeiter Erkennung von Schwachstellen in den Prozessen. 1 5 Data Warehouse- Entwickler Lösen von Integrations- aufgaben. Blick in die Vorsysteme. 6 Wartungs- mitarbeiter Überprüfen von Datenregeln. Data Profiling Hilfsmittel für viele Anforderungen

Wo anfangen? - eignen sich die Daten für das Data Profiling? - Was ist über die Daten bekannt Wo anfangen? - eignen sich die Daten für das Data Profiling? - Was ist über die Daten bekannt Environment - Datenmengen - Rechner - Planung notwendig Zurechtschneiden der Daten - Daten aufbrechen - Teilmengen bilden - Referenzdaten zusammenführen - Sampling - Mehrfach - Profiling - Einsatz von ETL Analysieren der Daten - Augenfällige Erkenntnisse -> der erste Schuss - Dinge, die sofort auffallen -> Domains / Pattern / PK - Visuelles Analysieren - Graphikeinsatz - Beziehungen analysieren Ableiten von Regeln und Korrekturen - Automatisches Erkennen - Benutzerdefinierte Regeln - Generieren von Korrekturmappings Dokumentieren der Ergebnisse - Ergebnisblatt - Definition Metadaten - Orga - Handbuch Regeln, die nicht abgedeckt werden und deren Lösung - komplexe Lookup – Beziehungen - Rekursive Strukturen - Tupel – übergreifende Abhängigkeiten Ablauf Data Profiling Analyse ETL - Prozess - Mappings - Routinen - Workflow - Metadatenrepository Korrekte Daten X7 Ständige Kommunikation mit der Fachabteilung

Induktives und deduktives Vorgehen Wir wissen, vermuten Dinge die nicht stimmen Wir können sinnvolle Analysen aufgrund bekannter Dinge ableiten Wir lassen uns überraschen, was da noch kommt Wir stöbern in den Daten und entdecken Auffälligkeiten beginnen zu kombinieren stellen Hypothesen auf versuchen Zusammenhänge zu beweisen Vermutungen verifizieren Neues entdecken

Data Profiling mit OWB Methoden Feintuning zu den Analyse- methoden Die operativen Daten Proto- kollierung laufende Analysen Drill Down zu den operativen Daten

Verständlichkeit des Datenmodells (z. B. Homonyme) Kundenstatus: P: Privatkunde F: Firmenkunde G: guter Kunde K: kein Kunde Produktstatus: 1: Großhandelsware f. Baumärkte 2: Produkte kaufbar über Internet 3: Serviceleistung (Kredite und Handwerksleistung) Kunden_Stamm Produkte_Stamm

Schlüsselanalyse (Eindeutigkeit in den Stammdaten) Doppelter Datensatz Unterschiedliche Sätze, aber Schlüsselfeld falsch gepflegt Unterschiedliche Sätze, aber Feld wird nicht genutzt

Schlüsselanalyse (Eindeutigkeit in den Bewegungsdaten)

Beziehungsanalyse (Wer hängt an wem? Wer ist isoliert?) Produkte_Stamm Artikel_Gruppe ChildParent KardinalitätWaisen n:1 Hilfsmittel: Referential

Kunden_stamm Zahlung Bestellung Best_Position Kundennummer = 12 Bestellnummer = 30 Kundennummer = 12 Bestellnummer = 30 Kundennummer = 12 Kundennummer = 21 ??? Kreisbeziehung (Irgendwann passen die Daten nicht mehr zusammen)

Analyse von Hierarchien Produkte_Stamm Artikel_Gruppe Artikelsparte ARTIKELSPARTENNR 1, 2,3 ARTIKELSPARTENNR 1,4,3 ARTIKELGRUPPENNR 1,2,3,4,5,6,11,10,9,8,7 ARTIKELGRUPPENNR 100,1,6,2,5,4,7,3,10

Hierarchie: ARTIKEL_GRUPPE -> ARTIKELSPARTE

Beziehung PRODUKTE_STAMM -> ARTIKEL_GRUPPE

Vergleich der Wertebereiche von referenzierenden Feldern

Position ProdukteGruppenSparten Kunden- Stamm Bestellung Falsche Statuskennzeichnung von Finanzprodukten Orphans Fehlerhafte Spartenkennzeichnung von Gruppen Doppelte Wertebelegung von Statuskennzeichnung für Privat- und Firmenkunden. Fehlerhafte Verschlüsselung von Artikel- und Produkten Doppelte Produktnummern Fehlerhafte, nicht rechenbare Einzelpreisbezeichnung Umsatz pro Sparte? Umsatz pro Gruppe? Umsatz pro Produkt? Werden korrekte Rechnungen gestellt? Umsatz pro Kunde? Macht die Kundenkarte Sinn? Ergebnisse der Hierarchie- und Beziehungsanalyse BI ?

Suche nach redundanten Informationen (1. Normalform) Kundenstatus: P: Privatkunde F: Firmenkunde G: guter Kunde K: kein Kunde Kunden_Stamm Folge: Alle Abfragen/Analysen über Privatkunden sind damit nicht mehr sauber durchführbar. (Z. B. Abfragen über die Wirkung der Kundenkarte. Hilfsmittel: Domainanalyse

Functional Dependency Abhängigkeit zwischen GESAMT_POS_PREIS und PREIS: Warum ist der hier 98,5 %

Suche nach redundanten Informationen (3. Normalform) Hilfsmittel: Beziehungsanalyse Abhängigkeit zwischen GESAMT_POS_PREIS und PREIS: Warum ist der hier 98,5 %

Prüfung der aufgestellten Geschäftsregeln

Korrekt, muß 0 sein Korrekt: Es kann nur ein Wert gepflegt sein. Korrekt, muß 0 sein Korrekt, das sind richtige Werte Korrekt, muß 0 sein Korrekt: Zusammen 100% (Alle Fälle erfasst) Problem: kein Schlüsselfeld ist gepflegt Korrekt, das sind die richtigen Werte Korrekt, muß 0 sein Korrekt Korrekt: Zusammen 100%. (Alle Fälle erfasst) Problem Korrekt, muß 0 sein Stammdatenregel: Artikelnummer und Produktnummer sind alternativ zu füllen. Ein Statusfeld steuert mit

Stammdatenbetrachtung In einigen Fällen fehlen die Einkaufpreise ?

Nicht normiertes Datenmaterial Mit solchen Daten kann man nicht rechnen Hilfsmittel: Pattern-Analyse