Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

Oracle Warehouse Builder 11g Alfred Schlaucher Oracle Data Warehouse.

Kopien: 1
Der Datenqualität auf der Spur Data Profiling mit Oracle Warehouse Builder – Analysen rund um die Cheers GmbH Alfred Schlaucher.

Ähnliche Präsentationen


Präsentation zum Thema: "Oracle Warehouse Builder 11g Alfred Schlaucher Oracle Data Warehouse."—  Präsentation transkript:

1

2 Oracle Warehouse Builder 11g Alfred Schlaucher Oracle Data Warehouse

3 Themen Oracle Komponenten für das Data Warehouse Anforderungen Data Warehouse und Datenintegration Oracle Warehouse Builder Data Quality Option Information Management und Data Warehouse

4 Verwaltung und Dokumentation Metadaten Ownerschaften Grid Control B&R Aufbau und Verwaltung von Data Warehouse-Umgebungen Effiziente Datenhaltung Speichertechnik ILM Hardware ASM OLAP Datenintegration schnelles Bereitstellen DB-basiertes Laden Master Data Management ETL-Option SAP Zugriff Qualitäts- management Data Profiling Data Auditing Data Rules Match Merge Daten-Zugriff Security Mandanten BI-Anwendungen Standard-Berichte Interaktive Berichte Data Mining Komplexe Analysen

5 Verwaltung und Dokumentation Metadaten Ownerschaften Grid Control B&R Oracle Komponenten im DWH-Einsatz Effiziente Datenhaltung Speichertechnik ILM Hardware ASM OLAP Datenintegration schnelles Bereitstellen DB-basiertes Laden Master Data Management ETL-Option SAP Zugriff Qualitäts- management Data Profiling Data Auditing Data Rules Match Merge Daten-Zugriff Security Mandanten BI-Anwendungen Standard-Berichte Interaktive Berichte Data Mining Komplexe Analysen Data Quality Option Enterprise-ETL Label Security Data Mining OBI SE OBI EE Gateways Oracle Enterprise Edition Compression Bitmapped Parallel Query Flashback Streams Data Guard Repository (OWB) Partition OLAP RAC RMAN Diagnostic Pack Tuning Pack SAP Connect Oracle EE

6 Oracle Warehouse Builder Design des kompletten Data Warehouse Systems Logisches Design und Beschreibungsinformationen Physisches Oracle Datenbank Design Fast alle Datenbankobjekte von Oracle 10g Bereitstellung der Datenbeschaffungsroutinen 100% SQL und 100% PL/SQL - Generierung Laufzeitkontrolle durch Runtime – System Universelles Metadaten Repository Automatisiertes ETL durch Scriptsprache Data Quality / Data Profiling Gehört zu den am häufigsten benutzten ETL-Tools

7 Es gibt 3 Hauptgründe für den Einsatz von OWB 1.Performance 2.Effizientere Warehouse Architekturen 3.Preis

8 Immer mehr Anwender benutzen Daten Die Anzahl der Systeme und damit der Schnittstellen steigt Die Bereitsstellungszeit der Daten wird zunehmend kürzer Datenmengen wachsen Herausforderungen für Datenintegration und Datenmanagement Neue Anforderungen an Datenintegration und Datenmanagement

9 Datenintegrations- und Datenmanagementaufgaben Zusammenführen von Daten aus heterogenen Systemen Korrigieren von Daten Garantieren von Datenqualität Datenmigration von System zu System Harmonisieren von Datenbeständen Inhaltliches Angleichen Synchronisieren z. B. Abstimmung von verschiedenen Schlüsseln Zuliefern von Daten Benutzergerechtes Bereitstellen Verwalten von Datenbeständen z. B. Historisieren / Archivieren / ILM

10 Lösungen der Vergangenheit Programmierung von Hand Zerstreute Programm-Sourcen Fehler bei der Entwicklung Unnötige Doppelarbeit Schlechte oder fehlende Dokumentation Schlechte Wartbarkeit Enorme Folgekosten Unkündbare Inselexperten Immer wieder Katastrophen im Echtbetrieb Wie war das nur?

11 Vorteile durch Generieren statt Programmieren Vermindern von Fehlern durch Handprogrammierung Tabellen- und Spaltennamen müssen nicht mehr mühsam geschrieben werden Steuerung vieler Entwicklungsschritte durch Wizards Automatische Steuerung von Ziel- und Quellschemen Automatische Validierung (z. B. Typverträglichkeiten) Debugging der Laderoutinen Laufzeitumgebung steht bereit Dokumentation

12 Die Geschichte der ETL-Tools geht in Richtung integrierter Werkzeuge Handprogrammierung Programm- generatoren Separate Engine-gestützte ETL-Werkzeuge Datenbankbasierte ETL-Werkzeuge 2005

13 Warehouse Datenbank Tabellen Index View MView Sequenz Function Procedure Cube Log Access/Excel MessageBroker Siebel Peoplesoft Webservices DB2 OS390, UDB Sybase, Informix, SQL-Server... Oracle (Remote) XML PL/SQL UTL_FILE XML DB-Link Queue Gateway ODBC DB-Link Queue CDC tcp Adapter Streams Ext. Table SAP Int. XML Port XML Port XML FlatFile FTP Port FTP Port FlatFile SQL Loader XML Schnittstellen zu Quell und Zielsystemen (Ausschnitt) any System Knowledge Module (Q2/2008)

14

15 Graphische Entwicklung des Datenbank-basierten ETL-Verfahrens mit OWB SQL Partition-Exchange-Load Streams Change Data Capture Transport Tablespace External Tables Downstream Capture Table Functions Advanced Q. Multi Table INSERT MERGE Errortable-Verfahren Flashback-Verfahren Datenkomprimierung Faktor 2 – 4 A6

16 Quell-Systeme Ziel-System SRCDWH Oracle 9i /10g Warehouse tabellen Warehouse tabellen Bestellung Tabellen Warehouse tabellen Warehouse tabellen WH_Trans- aktionen Tabellen My_Project PL/SQL Design Metadaten OWB-Modelle Runtime Metadaten (Deploys) Unified Repository OWB Datenfluss Deploy Import Design Location LOC_SRC Location LOC_DWH Modul BestelldatenModul Warehouse BestellungWH_ Transaktionen Das OWB Entwicklungs – Szenario (Tool-Architektur)

17 Datenbank-basiertes Laden

18 Datenbank – basiertes ETL SQL basiert, d. h. die Oracle Datenbank wird ausgenutzt Möglichkeit primär mengenbasierte Operationen durchzuführen Wesentlich höhere Performance Automatisiertes Datenbankgeregelte Parallelisieren Datenbankgestütztes Ressources - Management Unterstützung aller aktuellen Datenbank – ETL – Funktionen wie Multiple Inserts Merge (Insert/Update) Direct Path Load Table Functions Partition Exchange and Load

19 Datenbank – basiertes ETL Vollständige Hints – Bibliothek Verwendung aller Datenbank – Funktionen, z. B. auch analytische Funktionen Im Gegensatz zu den von 3. Herstellern nachgebildeten z. T. unvollständigen Funktionen (Beispiel SQL CASE, Decode) Datennahes Entwickeln Leichtes performantes und mengenbasiertes Updaten von Sätzen Ausnutzen temporärere Strukturen Temp – Tables Cache – Tables Ausnutzen besonders schneller Tabellen – Objekte Index – Based Tables Direkter Zugriff auf Tabelleninhalte

20 Datenbank - basiertes ETL Nähe zu Katalogstrukturen Alle Informationen stehen sofort zur Verfügung Komplett – Definition aller physikalischen Objekte im Data Warehouse (Tables, Index, Materialised Views, Partitioning...)

21 Datenbank – basiertes ETL im Zusammenhang mit OWB ETL - Integriertes Data Quality Data Cleansing / Data Profiling ETL – Makro – Bildung / Experts Integrierte datenbankbasierte Workflow – Umgebung Web – basiertes Auswerten von Metadaten und Laufzeitergebnissen Unterstützung der Datenbank – Near Realtime – Funktionalität wie Queues, Streams, CDC, Web Services

22 OWB: Einzelaspekte und Screens

23 Datenmodeller Change Manager Data Viewer Repository Browser Mapper Control Center Scheduler Runtime Audit Process Editor Rules Editor Experts-Macros Dependencies Data Profiler Komponenten OWB

24 Zurück Hinterlegung fachlicher Beschreibungen

25 Zrück Analyse der Quelldaten - Data Profiling Zurück

26 Das gesamte System modellieren Zurück

27 Datenmodelle entwerfen Zurück

28 Komplette Definition von Tabellen Zurück

29 Transformationen mit Mappings

30 Zusätzliche Hilfsfenster des Mappingeditors

31 Operatoren des Mappingeditors Zurück

32 Testdaten- generierung Zurück

33 Process-Editor

34 Metadaten-Dependency-Manager

35 Abhängigkeits- und Auswirkungsanalyse Zurück

36 Metadaten-Browser (Web)

37 Job-Kontrolle im Web

38 Reporting über stattgefundene Ladeläufe Zurück

39 Individuelle Listenreports über Metadaten HTMLDB Zurück

40 Column Transformation Tabellen- Mapping Teil- Prozess Gesamt- Prozess 4 – Schichten Prozessverwaltung

41 Repository Variablen Steuertabellen Workflow / BPEL A1 Metadaten gestützte Steuerungslogik für das Data Warehouse

42 Zusammenfassen von Mappings zu Prozessen

43 Prozesssteuerung z. B. mit Schleifen und Variablen

44 Weitere Infos Die neue Software OWB kann über OTN bezogen werden.

45 Data Quality Management

46 Data Quality Management Prozess

47 Themen Oracle und Data Quality Data Quality Vorgehensweise bei der Datenqualitätsanalyse Exemplarische Analysen Cheers GmbH Zusammenfassung der Analyseergebnisse Information Management und Data Warehouse

48 Datenqualität? Was ist das? Unsere Daten sind doch sauber! Bis zu 20% der operativen Daten sind betroffen. Unternehmen finanzieren schlechte mit 30-50% der IT-Ausgaben. Über schlechte Daten redet man nicht, man arrangiert sich.

49 Die Kosten der schlechten Daten

50 Ohne Daten kein Business Daten sind der Treibstoff der Prozesse Operative Prozesse Information Chain Kunde Kunden- betreuer Logistik- system Stamm- daten Marketing Buch- haltung Lager Spedition Kunde Bedarf Adresse Kredit- daten Angebot Bestand Bestell- daten KD-Daten Kredit OK Order Adresse Werbung Verkaufs- daten Rechnung Bezahlung Reklamation Mahnung Liefer- schein

51 Aspekte der Datenqualität Brauchbarkeit der Daten! Verfügbar (Access) Aktuell Korrekt Vollständig Redundanzfrei Dokumentiert Handhabbar Nützlich (TCO) Stimmig

52 Beispiel: Datenqualitätsproblem 5 Millionen Privatkunden-Kontaktdaten Davon unterschiedliche Berufe Wie wertvoll ist diese Art der Information? Kann damit eine Segmentierung für eine Marketingkampagne gesteuert werden? Datenmaterial lässt Rückschlüsse auf die Geschäftsprozesse zu!

53 Versteckte Kosten durch schlechte Datenqualität Manuelles Nacharbeiten von Daten Beschwerden -> Aufwand in Call Center Erhöhte Projektkosten bei Einführung neuer Systeme Bis 25% gestoppt, bis zu 60% Verzug aufgrund falscher oder fehlender Daten Verspätete Unternehmensberichte Verlorene Kunden durch schlechten Support Produktionsausfälle durch Störung in der Supply Chain

54 Wem hilft das Data Profiling? Software- Entwickler Verstehen der Anwendungsdaten. 2 Datenmodellierer Erkennen von Datenstrukturen. 3 Organisatoren+ Systemplaner Erkennen von Anforderungen. 4 Fachmitarbeiter Erkennung von Schwachstellen in den Prozessen. 1 5 Data Warehouse- Entwickler Lösen von Integrations- aufgaben. Blick in die Vorsysteme. 6 Wartungs- mitarbeiter Überprüfen von Datenregeln. Data Profiling Hilfsmittel für viele Anforderungen

55 Wo anfangen? - eignen sich die Daten für das Data Profiling? - Was ist über die Daten bekannt Wo anfangen? - eignen sich die Daten für das Data Profiling? - Was ist über die Daten bekannt Environment - Datenmengen - Rechner - Planung notwendig Zurechtschneiden der Daten - Daten aufbrechen - Teilmengen bilden - Referenzdaten zusammenführen - Sampling - Mehrfach - Profiling - Einsatz von ETL Analysieren der Daten - Augenfällige Erkenntnisse -> der erste Schuss - Dinge, die sofort auffallen -> Domains / Pattern / PK - Visuelles Analysieren - Graphikeinsatz - Beziehungen analysieren Ableiten von Regeln und Korrekturen - Automatisches Erkennen - Benutzerdefinierte Regeln - Generieren von Korrekturmappings Dokumentieren der Ergebnisse - Ergebnisblatt - Definition Metadaten - Orga - Handbuch Regeln, die nicht abgedeckt werden und deren Lösung - komplexe Lookup – Beziehungen - Rekursive Strukturen - Tupel – übergreifende Abhängigkeiten Ablauf Data Profiling Analyse ETL - Prozess - Mappings - Routinen - Workflow - Metadatenrepository Korrekte Daten X7 Ständige Kommunikation mit der Fachabteilung

56 Induktives und deduktives Vorgehen Wir wissen, vermuten Dinge die nicht stimmen Wir können sinnvolle Analysen aufgrund bekannter Dinge ableiten Wir lassen uns überraschen, was da noch kommt Wir stöbern in den Daten und entdecken Auffälligkeiten beginnen zu kombinieren stellen Hypothesen auf versuchen Zusammenhänge zu beweisen Vermutungen verifizieren Neues entdecken

57 Data Profiling mit OWB Methoden Feintuning zu den Analyse- methoden Die operativen Daten Proto- kollierung laufende Analysen Drill Down zu den operativen Daten

58 Verständlichkeit des Datenmodells (z. B. Homonyme) Kundenstatus: P: Privatkunde F: Firmenkunde G: guter Kunde K: kein Kunde Produktstatus: 1: Großhandelsware f. Baumärkte 2: Produkte kaufbar über Internet 3: Serviceleistung (Kredite und Handwerksleistung) Kunden_Stamm Produkte_Stamm

59 Schlüsselanalyse (Eindeutigkeit in den Stammdaten) Doppelter Datensatz Unterschiedliche Sätze, aber Schlüsselfeld falsch gepflegt Unterschiedliche Sätze, aber Feld wird nicht genutzt

60 Schlüsselanalyse (Eindeutigkeit in den Bewegungsdaten)

61 Beziehungsanalyse (Wer hängt an wem? Wer ist isoliert?) Produkte_Stamm Artikel_Gruppe ChildParent KardinalitätWaisen n:1 Hilfsmittel: Referential

62 Kunden_stamm Zahlung Bestellung Best_Position Kundennummer = 12 Bestellnummer = 30 Kundennummer = 12 Bestellnummer = 30 Kundennummer = 12 Kundennummer = 21 ??? Kreisbeziehung (Irgendwann passen die Daten nicht mehr zusammen)

63 Analyse von Hierarchien Produkte_Stamm Artikel_Gruppe Artikelsparte ARTIKELSPARTENNR 1, 2,3 ARTIKELSPARTENNR 1,4,3 ARTIKELGRUPPENNR 1,2,3,4,5,6,11,10,9,8,7 ARTIKELGRUPPENNR 100,1,6,2,5,4,7,3,10

64 Hierarchie: ARTIKEL_GRUPPE -> ARTIKELSPARTE

65 Beziehung PRODUKTE_STAMM -> ARTIKEL_GRUPPE

66 Vergleich der Wertebereiche von referenzierenden Feldern

67 Position ProdukteGruppenSparten Kunden- Stamm Bestellung Falsche Statuskennzeichnung von Finanzprodukten Orphans Fehlerhafte Spartenkennzeichnung von Gruppen Doppelte Wertebelegung von Statuskennzeichnung für Privat- und Firmenkunden. Fehlerhafte Verschlüsselung von Artikel- und Produkten Doppelte Produktnummern Fehlerhafte, nicht rechenbare Einzelpreisbezeichnung Umsatz pro Sparte? Umsatz pro Gruppe? Umsatz pro Produkt? Werden korrekte Rechnungen gestellt? Umsatz pro Kunde? Macht die Kundenkarte Sinn? Ergebnisse der Hierarchie- und Beziehungsanalyse BI ?

68 Suche nach redundanten Informationen (1. Normalform) Kundenstatus: P: Privatkunde F: Firmenkunde G: guter Kunde K: kein Kunde Kunden_Stamm Folge: Alle Abfragen/Analysen über Privatkunden sind damit nicht mehr sauber durchführbar. (Z. B. Abfragen über die Wirkung der Kundenkarte. Hilfsmittel: Domainanalyse

69 Functional Dependency Abhängigkeit zwischen GESAMT_POS_PREIS und PREIS: Warum ist der hier 98,5 %

70 Suche nach redundanten Informationen (3. Normalform) Hilfsmittel: Beziehungsanalyse Abhängigkeit zwischen GESAMT_POS_PREIS und PREIS: Warum ist der hier 98,5 %

71 Prüfung der aufgestellten Geschäftsregeln

72 Korrekt, muß 0 sein Korrekt: Es kann nur ein Wert gepflegt sein. Korrekt, muß 0 sein Korrekt, das sind richtige Werte Korrekt, muß 0 sein Korrekt: Zusammen 100% (Alle Fälle erfasst) Problem: kein Schlüsselfeld ist gepflegt Korrekt, das sind die richtigen Werte Korrekt, muß 0 sein Korrekt Korrekt: Zusammen 100%. (Alle Fälle erfasst) Problem Korrekt, muß 0 sein Stammdatenregel: Artikelnummer und Produktnummer sind alternativ zu füllen. Ein Statusfeld steuert mit

73 Stammdatenbetrachtung In einigen Fällen fehlen die Einkaufpreise ?

74 Nicht normiertes Datenmaterial Mit solchen Daten kann man nicht rechnen Hilfsmittel: Pattern-Analyse

75 Weitere Infos Die neue Software OWB kann über OTN bezogen werden.

76


Herunterladen ppt "Oracle Warehouse Builder 11g Alfred Schlaucher Oracle Data Warehouse."

Ähnliche Präsentationen


Google-Anzeigen