Datenqualitätsanalysen mit Oracle Alfred Schlaucher, Data Warehouse Architect, Oracle.

Slides:



Advertisements
Ähnliche Präsentationen
Einführung "Datenbanksysteme"
Advertisements

Fachhochschule Frankfurt am Main University of Applied Sciences Nibelungenplatz 1 D Frankfurt am Main Ralf-Oliver Mevius.
Prof. Dr. Dr. h.c. mult. August-Wilhelm Scheer
Daten- und Informationsqualität. © Prof. T. Kudraß, HTWK Leipzig Management der Informationsqualität Keine verbindlichen Standards oder Vorgaben für Informationsqualität.
spezielle Nutzersichten formale Ebene (deskriptive Regeln)
Datenmodellierung Externe Phase Informationsstruktur
Design- und Entwicklungswerkzeuge
Einsatz von SiSy in der Berufsausbildung
Forum Information and Communication in Mathematics Jahrestagung der ÖMG/DMV Graz.
1-1 Schlank und schnell zum Datawarehouse Marc Bastien Oracle Deutschland GmbH BTW Leipzig,
CIDOC-CRM Universität zu Köln Historisch-kulturwissenschaftliche Informationsverarbeitung AM 2 Dozent: Prof. Dr. Manfred Thaller Referent: Nelson Marambio.
Daten bank St. Wiedemann.
Datenmodelle, Datenbanksprachen und Datenbankmanagementsysteme
IS: Datenbanken, © Till Hänisch 2000 CREATE TABLE Syntax: CREATE TABLE name ( coldef [, coldef] [, tableconstraints] ) coldef := name type [länge], [[NOT]NULL],
Wissensbasierte Daten- interpretation für einen automatisierten und adaptiven Inhaltsintegrationsprozeß Lyndon J B Nixon
PinK Plattform für intelligente Kollaborationsportale Dr. Joachim Quantz, e.V. Berlin, 13. September 2005.
Modellierung der Zugriffslogik auf Datenbanktabellen Software Component Technology for Distributed Applications Andreas Fink.
Treffen mit Siemens Siemens: Werner Ahrens Volkmar Morisse Projektgruppe: Ludger Lecke Christian Platta Florian Pepping Themen:
Access 2000 Datenbanken.
Datenbanken Einführung Merkmale dateiorientierte Datenverwaltung
Was sind Histogramme? (1)
Datenmodellierung - Aufbau einer Datenbank -
Buch S70ff (Informatik I, Oldenbourg-Verlag)
Oracle Warehouse Technologie Single-Engine-Based-Data-Warehouse
Manpower Associates is a $14
Oracle Warehouse Builder 11g
Der Datenqualität auf der Spur Data Profiling mit Oracle Warehouse Builder – Analysen rund um die Cheers GmbH Alfred Schlaucher.
Probleme mit der Einwahl? Operator:
Manpower Associates is a $14
Manpower Associates is a $14
1 Grundlagen und Anwendung der Extensible Markup Language (XML ) Peter Buxmann Institut für Wirtschaftsinformatik Johann Wolfgang Goethe-Universität Frankfurt.
Die Bank von morgen - eine neue Welt für IT und Kunden? 23. Oktober 2001.
Relationale Datenbankmodelle
Requiline Seminar Bassem Ben Helal. Inhalt Motivation Kernfunktionalitäten Architektur Hierarchie Typen Abhängigkeiten Variabilitätspunkte Produktkonfiguration.
© DVS System Software GmbH & Co. KG
Sistema GeoDAT, S.L. GeoBIS, GeoEIS, GIS-Komponente … 2005.
O.Univ.-Prof. Dr. Dimitris Karagiannis Datenbanken administrieren mit phpMyAdmin Martin Marinschek
Datenanbindung zwischen LucaNet und QlikView als Frontend
DATA WAREHOUSE Oracle Data Warehouse Mit Big Data neue Horizonte für das Data Warehouse ermöglichen Alfred Schlaucher, Detlef Schroeder DATA WAREHOUSE.
Datenbank.
Problemstellung Heterogene DV-Strukturen Mangelnde Kapazität in der EDV-Abteilung Historische Daten nicht verfügbar Analysen belasten die vorhandene Infrastruktur.
GIS - Seminar Wintersemester 2000/2001
Allgemeines zu Datenbanken
HORIZONT 1 XINFO ® Das IT - Informationssystem Eclipse Plugin HORIZONT Software für Rechenzentren Garmischer Str. 8 D München Tel ++49(0)89 / 540.
Six Sigma Nina Welsch Oktober 2013 ©2007 IndiTango AG | |
Data Warehouse: ETL-Praktikum
Präsentation von Lukas Sulzer
Einführung in Datenbankmodellierung und SQL
Einrichtung eines Data-Warehouse Servers
verstehen planen bearbeiten
Pki Informationssysteme für Marktforschung präsentiert...
Software Engineering Grundlagen
SQL - Structured Query Language  AIFB SS (1|3) 2.1 Allgemeines zu SQL (1|3) Benennung: SQL: „structured query language" ursprünglich: SEQUEL –
DATAframe ® Transparenz in Ihrem Unternehmen Referent: XXXXXXX Datum:
BHAK/BHAS 1 Salzburg KIDM 2ASBS Schuljahr 2004/05
Datenbanken Produkte Dienstleistungen Referenzen.
Open Data als Businessgrundlage Andreas Woditschka CFO |
Datenbanken Produkte Dienstleistungen Referenzen.
Eindeutige Personenzuordnung mit lokalen Identifiern via ODATA/LDAP
By Thorsten Zisler 1 SQL Datenbank Anbindung an den Supervisor.
Umstellung von Team4-Komponenten auf den Standard- Protokoll-Mechanismus von Microsoft SQL Server 2012 Johann Jansen y Alegret Team4 GmbH Seminarvortrag.
1 Oracle Warehouse Technologie Single-Engine-Based-Data-Warehouse.
Application Performance Management Udo Brede.  Komplexe Umgebungen  Häufige Änderungen  Hohe Aktivität Database Servers Application Servers Web Servers.
/Folie 1Holger Frietsch Historisierung von Zuordnungsänderungen für Dimensionen in relationalen ORACLE8-Data Warehouse- Datenbanken Holger Frietsch.
Alfred Schlaucher, Data Warehouse Architect, Oracle Oracle Data Warehouse.
OWB Enterprise Edition Option Alfred Schlaucher Oracle Warehouse Builder Enterprise Edition.
The IT–Information System
Brainstorming model hierarchy? [ich glaube nicht, dass wir eine Hierarchie definieren können; Gruppen ja] Core Model, technology specific models, purpose.
Intelligent Data Mining
 Präsentation transkript:

Datenqualitätsanalysen mit Oracle Alfred Schlaucher, Data Warehouse Architect, Oracle

Data Quality Data Profiling Standardisierung Match/Merge Rules

„Es ist leichter, Datenqualitätsprobleme zu lösen, als mit Ihnen zu leben.“ (Albert Einstein)

Ein Dashboard mit vielen Charts

Warum ist ein Tooleinsatz bei Datenqualitätsanalysen sinnvoll? Das meiste geht auch ohne Tool, allerdings mühsam Functional Dependencies

Position ProdukteGruppenSparten Kunden- Stamm Bestellung Falsche Statuskennzeichnung von Finanzprodukten Orphans ohne Parents Fehlerhafte Spartenkennzeichnung von Gruppen Doppelte Wertebelegung von Statuskennzeichnung für Privat- und Firmenkunden. Fehlerhafte Verschlüsselung von Artikel- und Produkten Doppelte Produktnummern Fehlerhafte, nicht rechenbare Einzelpreiswerte Umsatz pro Sparte? Umsatz pro Gruppe? Umsatz pro Produkt? Werden korrekte Rechnungen gestellt? Umsatz pro Kunde? Fehler stecken im Detail Der Fehler steckt im Detail

Aspekte der Datenqualität Brauchbarkeit der Daten! Verfügbar (Access) Aktuell Korrekt Vollständig Redundanzfrei Dokumentiert Handhabbar Nützlich (TCO) Stimmig

Die Kosten der schlechten Daten

Data Profiling Software – gestütztes Erkennen von Anomalien in Datenbeständen ( The use of analytical techniques about data for the purpose of developing a thorough knowledge of its content, structure and quality) Interaktiver Analyse-Vorgang Bestandteil von Oracle Warehouse Builder seit 2006

Methoden und Hilfsmittel bei Datenqualitätsanalysen Methoden Attribut-Klassifizierung (Namen) Kategorisierung von Qualitätsregeln Datenmodellierung Vorgehensmodell Tools Data Profiling Tool Data Rules Mechanismus Deduplizierungs-Feature Standardisierung ETL-Tool Datenbank Brain-WareOWB

Oracle Data Quality / Data Profiling Standardanalysen Unique Keys Functional Dependencies Relationships Domains Redundant Columns Patterns, Types Statistiken Six Sigma Rules (Business-/ IT-Rules) Generierung von Korrekturen Auditing Eingebettet in ein ETL-Tool hohe Flexibilität beim Bereitstellen von Daten Direktes Anwenden erkannter Regeln für eine spätere Datenaufbereitung und Minitoring Ablaufumgebung ist die Datenbank Datennähe

Auswahl und Ergebnisansicht Methoden Chart-Darstellung Tabellen-Darstellung Drill-Werte Operative Datensätze Die Tabellen, die zu dem Analyse- fukus gehören Feintuning zu den Analyse- methoden Analyse- Job- Protokolle Aktivierbare Business Rules Starten eines Profiling-Laufs Starten einer Correction- Mapping-Generierung Generierung- Rule

Wertebereichsanalysen (Domain)

Beispiel: Marketingkampagnen 5 Millionen Privatkunden-Kontaktdaten Davon unterschiedliche Berufe  Wie wertvoll ist diese Art der Information?  Kann damit eine Segmentierung für eine Marketingkampagne gesteuert werden? Datenmaterial lässt Rückschlüsse auf die Geschäftsprozesse zu!

Beziehungen (Relational)

Beziehungen (Orphans / Childless)

Formate (Data Type) ? ? ?

Wertmustererkennung (Pattern)

Korrekt, muß 0 sein Korrekt: Es kann nur ein Wert gepflegt sein. Korrekt, muß 0 sein Korrekt, das sind richtige Werte Korrekt, muß 0 sein Korrekt: Zusammen 100% (Alle Fälle erfasst) Problem: kein Schlüsselfeld ist gepflegt Korrekt, das sind die richtigen Werte Korrekt, muß 0 sein Korrekt Korrekt: Zusammen 100%. (Alle Fälle erfasst) Problem Korrekt, muß 0 sein Definieren von Regelwerken (Logical / Business Data Rules)

Stammdatenbetrachtung In einigen Fällen fehlen die Einkaufpreise ?

Nicht normiertes Datenmaterial Mit solchen Daten kann man nicht rechnen Hilfsmittel: Pattern-Analyse

Prüfung der aufgestellten Geschäftsregeln

Korrekt, muß 0 sein Korrekt: Es kann nur ein Wert gepflegt sein. Korrekt, muß 0 sein Korrekt, das sind richtige Werte Korrekt, muß 0 sein Korrekt: Zusammen 100% (Alle Fälle erfasst) Problem: kein Schlüsselfeld ist gepflegt Korrekt, das sind die richtigen Werte Korrekt, muß 0 sein Korrekt Korrekt: Zusammen 100%. (Alle Fälle erfasst) Problem Korrekt, muß 0 sein Stammdatenregel: Artikelnummer und Produktnummer sind alternativ zu füllen. Ein Statusfeld steuert mit

Source Stage Profiling Stage SAP R/3 SAP Integrator non Oracle Gateway / ODBC / FTP Oracle 9i / 10g / 11g DB2, SQL Server Informix, Teradata LDAP Meta Daten Repository Direct Path DBLink Transportable Modules DBMS_LDAP Siebel CRM Oracle eBusiness Text / XML Analyse Datenbank Analyseumgebung

Data Quality Monitoring im DWH Data Quality Dashboards

DaRT – Demonstration Institut für Informatik, Diplomvortrag, Esther Borowski, 10. Oktober /17

Data Profiling im Data Warehouse hat zwei Hauptaufgaben 1.Garantieren von korrekten Berichten 2.Minimieren von Projektkosten

Traditionelle Projektaufwand bei Neuentwicklung Datenanalyse 50% 15 %Daten Modellierung + Systemdesign 10 % Entwurf Transformationen Front End 20% 5 % Arbeit mit ETL Tool Korrektur Phase 1 ?? Korrektur Phase 2 ?? Wartung ?? Wo stecken die Aufwende?

Zieldefinition Bestandsaufnahme Planen Strukturanalysen Regelanalysen Umsetzung Ergebnisse Erwartungen Geschäftsregeln OwnerUserRessourcenKostenModelle Felder Priorisieren Problemkomplexe ObjekteBeziehungenHierarchien DatenWerteFach Abgleich-AltNeudefinitionMonitoring Top Down Bottom Up Vorgehensmodell Datenqualitätsanalyse 6 Phasen, 95 Aktivitäten, 16 Ergebnis-Templates, 1 Metamodell, Klassifizierungen