Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

Oracle Warehouse Builder 11g

Kopien: 1
Der Datenqualität auf der Spur Data Profiling mit Oracle Warehouse Builder – Analysen rund um die Cheers GmbH Alfred Schlaucher.

Ähnliche Präsentationen


Präsentation zum Thema: "Oracle Warehouse Builder 11g"—  Präsentation transkript:

1

2 Oracle Warehouse Builder 11g
Alfred Schlaucher Oracle Data Warehouse

3 Themen Information Management und Data Warehouse
Oracle Komponenten für das Data Warehouse Anforderungen Data Warehouse und Datenintegration Oracle Warehouse Builder Data Quality Option

4 Aufbau und Verwaltung von Data Warehouse-Umgebungen
Verwaltung und Dokumentation Metadaten Ownerschaften Grid Control B&R Effiziente Datenhaltung Speichertechnik ILM Hardware ASM OLAP Datenintegration schnelles Bereitstellen DB-basiertes Laden Master Data Management ETL-Option SAP Zugriff Qualitäts- management Data Profiling Data Auditing Data Rules Match Merge Daten-Zugriff Security Mandanten BI-Anwendungen Standard-Berichte Interaktive Berichte Data Mining Komplexe Analysen

5 Oracle Komponenten im DWH-Einsatz
Oracle EE Compression Data Guard Verwaltung und Dokumentation Metadaten Ownerschaften Grid Control B&R Bitmapped Oracle Enterprise Edition Parallel Query Flashback Effiziente Datenhaltung Speichertechnik ILM Hardware ASM OLAP Streams Datenintegration schnelles Bereitstellen DB-basiertes Laden Master Data Management ETL-Option SAP Zugriff Enterprise-ETL RMAN Data Quality Option Qualitäts- management Data Profiling Data Auditing Data Rules Match Merge Diagnostic Pack OBI SE Tuning Pack RAC Daten-Zugriff Security Mandanten OBI EE Repository (OWB) Partition SAP Connect BI-Anwendungen Standard-Berichte Interaktive Berichte Data Mining Komplexe Analysen OLAP Gateways Label Security Data Mining

6 Oracle Warehouse Builder
Design des kompletten Data Warehouse Systems Logisches Design und Beschreibungsinformationen Physisches Oracle Datenbank Design Fast alle Datenbankobjekte von Oracle 10g Bereitstellung der Datenbeschaffungsroutinen 100% SQL und 100% PL/SQL - Generierung Laufzeitkontrolle durch Runtime – System Universelles Metadaten Repository Automatisiertes ETL durch Scriptsprache Data Quality / Data Profiling Gehört zu den am häufigsten benutzten ETL-Tools

7 Es gibt 3 Hauptgründe für den Einsatz von OWB
Performance Effizientere Warehouse Architekturen Preis

8 Neue Anforderungen an Datenintegration und Datenmanagement
Immer mehr Anwender benutzen Daten Herausforderungen für Datenintegration und Datenmanagement Die Anzahl der Systeme und damit der Schnittstellen steigt Die Bereitsstellungszeit der Daten wird zunehmend kürzer Beispiel: Globus hat in seinem Data Warehouse 2000 Benutzer zu gelassen Ca. 200 – 300 sind zu bestimmten Zeiten gleichzeitig angemeldet. Bestimmte Berichte werden alle 30 Minuten aktualisiert. Benutzer fragen bis 10 mal täglich bestimmte aktualisierte Berichte ab. Kampagnen werden gefahren. In welchen Filialen laufen welche Kampagnenartikel besonders gut. Datenmengen wachsen

9 Datenintegrations- und Datenmanagementaufgaben
Zusammenführen von Daten aus heterogenen Systemen Korrigieren von Daten Garantieren von Datenqualität Datenmigration von System zu System Harmonisieren von Datenbeständen Inhaltliches Angleichen Synchronisieren z. B. Abstimmung von verschiedenen Schlüsseln Zuliefern von Daten Benutzergerechtes Bereitstellen Verwalten von Datenbeständen z. B. Historisieren / Archivieren / ILM

10 „Lösungen“ der Vergangenheit
Programmierung von Hand Zerstreute Programm-Sourcen Fehler bei der Entwicklung Unnötige Doppelarbeit Schlechte oder fehlende Dokumentation Schlechte Wartbarkeit Enorme Folgekosten Unkündbare „Inselexperten“ Immer wieder „Katastrophen“ im Echtbetrieb Wie war das nur?

11 Vorteile durch Generieren statt Programmieren
Vermindern von Fehlern durch Handprogrammierung Tabellen- und Spaltennamen müssen nicht mehr mühsam geschrieben werden Steuerung vieler Entwicklungsschritte durch Wizards Automatische Steuerung von Ziel- und Quellschemen Automatische Validierung (z. B. Typverträglichkeiten) Debugging der Laderoutinen Laufzeitumgebung steht bereit Dokumentation In der ETL – Tool – Diskussion ist immer darüber gestritten worden, ob es günstiger ist Laderoutinen von Hand zu programmieren oder Tools einzusetzen. Die Entscheidung ist längst gefallen, Tools haben sich durchgesetzt.

12 Die Geschichte der ETL-Tools geht in Richtung integrierter Werkzeuge
1992 1996 2000 2005 Datenbankbasierte ETL-Werkzeuge Separate Engine-gestützte ETL-Werkzeuge Programm- generatoren Handprogrammierung

13 Schnittstellen zu Quell und Zielsystemen (Ausschnitt)
FlatFile Oracle (Remote) Log XML FlatFile SAP Int. DB2 OS390, UDB Sybase, Informix, SQL-Server... PL/SQL Warehouse Datenbank Ext. Table XML Port FTP Port Streams tcp CDC Access/Excel Gateway UTL_FILE MessageBroker DB-Link XML ODBC Peoplesoft Queue DB-Link Adapter XML Queue Siebel Tabellen View SQL Loader Sequenz Index Cube Webservices MView Procedure Function FlatFile XML any System Knowledge Module (Q2/2008)

14

15 Graphische Entwicklung des Datenbank-basierten ETL-Verfahrens mit OWB
Errortable-Verfahren Flashback-Verfahren Datenkomprimierung Faktor 2 – 4 SQL Partition-Exchange-Load Streams Change Data Capture Transport Tablespace External Tables Downstream Capture Table Functions Advanced Q. Multi Table INSERT MERGE

16 Das OWB Entwicklungs – Szenario (Tool-Architektur)
Design Metadaten OWB-Modelle Runtime Metadaten (Deploys) Unified Repository OWB Datenfluss Deploy Import Design My_Project Modul Bestelldaten Modul Warehouse Bestellung WH_ Transaktionen Quell-Systeme Ziel-System SRC DWH Oracle 9i /10g Oracle 9i/10g Warehouse tabellen Bestellung Tabellen WH_Trans- aktionen Location LOC_SRC LOC_DWH PL/SQL

17 Datenbank-basiertes Laden

18 Datenbank – basiertes ETL
SQL basiert, d. h. die Oracle Datenbank wird ausgenutzt Möglichkeit primär mengenbasierte Operationen durchzuführen Wesentlich höhere Performance Automatisiertes Datenbankgeregelte Parallelisieren Datenbankgestütztes Ressources - Management Unterstützung aller aktuellen Datenbank – ETL – Funktionen wie Multiple Inserts Merge (Insert/Update) Direct Path Load Table Functions Partition Exchange and Load

19 Datenbank – basiertes ETL
Vollständige Hints – Bibliothek Verwendung aller Datenbank – Funktionen, z. B. auch analytische Funktionen Im Gegensatz zu den von 3. Herstellern nachgebildeten z. T. unvollständigen Funktionen (Beispiel SQL CASE, Decode) Datennahes Entwickeln Leichtes performantes und mengenbasiertes Updaten von Sätzen Ausnutzen temporärere Strukturen Temp – Tables Cache – Tables Ausnutzen besonders schneller Tabellen – Objekte Index – Based Tables Direkter Zugriff auf Tabelleninhalte

20 Datenbank - basiertes ETL
Nähe zu Katalogstrukturen Alle Informationen stehen sofort zur Verfügung Komplett – Definition aller physikalischen Objekte im Data Warehouse (Tables, Index, Materialised Views, Partitioning ...)

21 Datenbank – basiertes ETL im Zusammenhang mit OWB
ETL - Integriertes Data Quality Data Cleansing / Data Profiling ETL – Makro – Bildung / Experts Integrierte datenbankbasierte Workflow – Umgebung Web – basiertes Auswerten von Metadaten und Laufzeitergebnissen Unterstützung der Datenbank – Near Realtime – Funktionalität wie Queues, Streams, CDC, Web Services

22 OWB: Einzelaspekte und Screens

23 Komponenten OWB Control Center Change Manager Datenmodeller Scheduler
Repository Browser Runtime Audit Data Viewer Experts-Macros Mapper Rules Editor Dependencies Process Editor Data Profiler

24 Hinterlegung fachlicher Beschreibungen
Zurück

25 Analyse der Quelldaten - Data Profiling
Zurück Zrück

26 Das gesamte System modellieren Zurück

27 Datenmodelle entwerfen Zurück

28 Komplette Definition von Tabellen Zurück

29 Transformationen mit Mappings

30 Zusätzliche Hilfsfenster
des Mappingeditors

31 Operatoren des Mappingeditors Zurück

32 Testdaten- generierung Zurück

33 Process-Editor

34 Metadaten-Dependency-Manager

35 Abhängigkeits- und Auswirkungsanalyse
Zurück

36 Metadaten-Browser (Web)

37 Job-Kontrolle im Web

38 Reporting über stattgefundene Ladeläufe
Zurück

39 Individuelle Listenreports über Metadaten
HTMLDB Zurück

40 4 – Schichten Prozessverwaltung
Column Transformation Tabellen- Mapping Teil- Prozess Gesamt- Ein 4 – stufiges Workflow – Konzept sollte möglich sein. Auf der untersten Ebene sind es die auf Column – Ebene stattfindenden Prüfungen und Bearbeitungen. Das sind letztlich Funktionsbausteine. Die nächste Ebene sind Wandlungen auf dem Level ganzer Tabellen. Transformationen auf eine zusammenhängende Gruppen von Tabellen sind als Teilprozess zusammenzufassen. Der gesamte Befüllungsprozess für ein Warehouse muss über einen Gesamtprozess abgebildet werden.

41 Metadaten gestützte Steuerungslogik für das Data Warehouse
Repository Steuertabellen Variablen Variablen Workflow / BPEL

42 Zusammenfassen von Mappings zu Prozessen

43 Prozesssteuerung z. B. mit Schleifen und Variablen

44 Weitere Infos Die neue Software OWB kann über OTN bezogen werden.

45 Data Quality Management

46 Data Quality Management Prozess

47 Themen Information Management und Data Warehouse
Oracle und Data Quality Data Quality Vorgehensweise bei der Datenqualitätsanalyse Exemplarische Analysen Cheers GmbH Zusammenfassung der Analyseergebnisse

48 Datenqualität? Was ist das? Unsere Daten sind doch sauber!
Bis zu 20% der operativen Daten sind betroffen. Unternehmen finanzieren schlechte mit 30-50% der IT-Ausgaben. Über schlechte Daten redet man nicht, man arrangiert sich.

49 Die Kosten der schlechten Daten

50 Ohne Daten kein Business Daten sind der Treibstoff der Prozesse
Information Chain Kunde Kunden- betreuer Logistik- system Stamm- daten Marketing Buch- haltung Lager Spedition Bedarf Adresse Kredit- daten Angebot Bestand Bestell- daten KD-Daten Kredit OK Order Adresse Werbung Verkaufs- daten Rechnung Bezahlung Reklamation Mahnung Liefer- schein Im Verlauf der Geschäftsprozesse entstehen ständig Daten. Kunden bestellen beim Kundenbetreuer und teilt eine Order und Adressdaten mit. Der Kundenbetreuer fragt in der Stammdatenhaltung nach der Gültigkeit der Adressdaten und die Kreditwürdigkeit nach. Die Stammdatenverwaltung liefert einen Kundenstammdatensatz. Der Kundenbetreuer fragt in der Logistik und im Lager nach der Verfügbarkeit nach. Bestandsdaten werden geliefert. Der Kunde erhält ein Angebot. Die Order geht in den Orderprozesse an Logistik, Lager und Buchhaltung. Lieferdaten gehen an den Spediteur. Eine Rechnung geht an den Kunden ... ...und eventuell wieder zurück, weil sie falsch ist. Aus den Kundenstamm- und Bestelldaten werden Marketingdaten. Werbeangebote gehen an den Kunden. -> es entsteht eine Informationskette über alle Prozesse hinweg -> Wenn zu Beginn bei der ersten Datenerfassung bereits kleine Fehler gemacht werde, pflanzt sich dieser Fehler in der ganzen Kette fort -> es kommen weitere Fehler hinzu. -> Fehler addieren sich Am Ende sind bis zu 20 % Daten im Unternehmen infiziert. Operative Prozesse

51 Aspekte der Datenqualität
Korrekt Stimmig Vollständig Dokumentiert Brauchbarkeit der Daten! Redundanzfrei Aktuell Verfügbar (Access) Nützlich (TCO) Handhabbar

52 Beispiel: Datenqualitätsproblem
5 Millionen Privatkunden-Kontaktdaten Davon unterschiedliche Berufe Wie wertvoll ist diese Art der Information? Kann damit eine Segmentierung für eine Marketingkampagne gesteuert werden? Datenmaterial lässt Rückschlüsse auf die Geschäftsprozesse zu!

53 Versteckte Kosten durch schlechte Datenqualität
Manuelles Nacharbeiten von Daten Beschwerden -> Aufwand in Call Center Erhöhte Projektkosten bei Einführung neuer Systeme Bis 25% gestoppt, bis zu 60% Verzug aufgrund falscher oder fehlender Daten Verspätete Unternehmensberichte Verlorene Kunden durch schlechten Support Produktionsausfälle durch Störung in der Supply Chain

54 Data Profiling Hilfsmittel für viele Anforderungen
Software- Entwickler Verstehen der Anwendungsdaten. 2 Datenmodellierer Erkennen von Datenstrukturen. 3 Fachmitarbeiter Erkennung von Schwachstellen in den Prozessen. 1 Wem hilft das Data Profiling? 6 Wartungs- mitarbeiter Überprüfen von Datenregeln. Organisatoren+ Systemplaner Erkennen von Anforderungen. 4 5 Data Warehouse- Entwickler Lösen von Integrations- aufgaben. Blick in die Vorsysteme.

55 Ablauf Data Profiling Analyse
Wo anfangen? - eignen sich die Daten für das Data Profiling? - Was ist über die Daten bekannt Ständige Kommunikation mit der Fachabteilung Analysieren der Daten - „Augenfällige“ Erkenntnisse -> der erste Schuss - „Dinge, die sofort auffallen“ -> Domains / Pattern / PK - Visuelles Analysieren - Graphikeinsatz - Beziehungen analysieren Regeln, die nicht abgedeckt werden und deren Lösung - komplexe Lookup – Beziehungen - Rekursive Strukturen - Tupel – übergreifende Abhängigkeiten Environment - Datenmengen - Rechner - Planung notwendig Zurechtschneiden der Daten - Daten aufbrechen - Teilmengen bilden Referenzdaten zusammenführen - Sampling - Mehrfach - Profiling - Einsatz von ETL Ableiten von Regeln und Korrekturen - Automatisches Erkennen - Benutzerdefinierte Regeln - Generieren von Korrekturmappings ETL - Prozess - Mappings - Routinen - Workflow - Metadatenrepository Dokumentieren der Ergebnisse - Ergebnisblatt - Definition Metadaten - Orga - Handbuch Korrekte Daten 1 2 3 4 5 6 7 X

56 „Induktives und deduktives“ Vorgehen
Wir wissen, vermuten Dinge die nicht stimmen Wir können sinnvolle Analysen aufgrund bekannter Dinge ableiten Wir lassen uns überraschen, was da noch kommt Wir stöbern in den Daten und entdecken Auffälligkeiten beginnen zu kombinieren stellen Hypothesen auf versuchen Zusammenhänge zu beweisen Vermutungen verifizieren Neues entdecken

57 Data Profiling mit OWB Methoden Die operativen Daten Feintuning zu
den Analyse- methoden selbstredend Proto- kollierung laufende Analysen Drill Down zu den operativen Daten

58 Verständlichkeit des Datenmodells (z. B. Homonyme)
Kunden_Stamm Kundenstatus: P: Privatkunde F: Firmenkunde G: „guter“ Kunde K: „kein“ Kunde Produkte_Stamm Produktstatus: 1: Großhandelsware f Baumärkte 2: Produkte kaufbar über Internet 3: Serviceleistung (Kredite und Handwerksleistung)

59 Schlüsselanalyse (Eindeutigkeit in den Stammdaten)
Doppelter Datensatz Unterschiedliche Sätze, aber Schlüsselfeld falsch gepflegt Unterschiedliche Sätze, aber Feld wird nicht genutzt

60 Schlüsselanalyse (Eindeutigkeit in den Bewegungsdaten)

61 Beziehungsanalyse (Wer hängt an wem? Wer ist isoliert?)
Child n:1 Parent Produkte_Stamm Artikel_Gruppe Kardinalität Waisen Hilfsmittel: Referential

62 Kreisbeziehung (Irgendwann passen die Daten nicht mehr zusammen)
Bestellung Kundennummer = 12 Bestellnummer = 30 Best_Position ??? Zahlung Bestellnummer = 30 Bestellnummer = 30 Kundennummer = 12 Kundennummer = 21 Kunden_stamm Kundennummer = 12

63 Analyse von Hierarchien
Artikelsparte ARTIKELSPARTENNR 1 , 2 ,3 Artikel_Gruppe ARTIKELSPARTENNR 1,4,3 ARTIKELGRUPPENNR 1,2,3,4,5,6,11,10,9,8,7 Produkte_Stamm ARTIKELGRUPPENNR 100,1,6,2,5,4,7,3,10

64 Hierarchie: ARTIKEL_GRUPPE -> ARTIKELSPARTE

65 Beziehung PRODUKTE_STAMM -> ARTIKEL_GRUPPE

66 Vergleich der Wertebereiche von referenzierenden Feldern

67 Ergebnisse der Hierarchie- und Beziehungsanalyse
BI? Umsatz pro Sparte? Umsatz pro Gruppe? Umsatz pro Produkt? Werden korrekte Rechnungen gestellt? Umsatz pro Kunde? Macht die Kundenkarte Sinn? Sparten Fehlerhafte Spartenkennzeichnung von Gruppen Gruppen Orphans Falsche Statuskennzeichnung von Finanzprodukten Produkte Fehlerhafte Verschlüsselung von Artikel- und Produkten Bestellung Position Doppelte Produktnummern Fehlerhafte , nicht rechenbare Einzelpreisbezeichnung Kunden- Stamm Doppelte Wertebelegung von Statuskennzeichnung für Privat- und Firmenkunden.

68 Suche nach redundanten Informationen (1. Normalform)
Kunden_Stamm Kundenstatus: P: Privatkunde F: Firmenkunde G: „guter“ Kunde K: „kein“ Kunde Folge: Alle Abfragen/Analysen über Privatkunden sind damit nicht mehr sauber durchführbar. (Z. B. Abfragen über die Wirkung der Kundenkarte. Hilfsmittel: Domainanalyse

69 Functional Dependency
Abhängigkeit zwischen GESAMT_POS_PREIS und PREIS: Warum ist der hier 98,5 %

70 Suche nach redundanten Informationen (3. Normalform)
Abhängigkeit zwischen GESAMT_POS_PREIS und PREIS: Warum ist der hier 98,5 % Hilfsmittel: Beziehungsanalyse Abhängigkeit zwischen GESAMT_POS_PREIS und PREIS: Warum ist der hier 98,5 %

71 Prüfung der aufgestellten Geschäftsregeln

72 Stammdatenregel: Artikelnummer und Produktnummer sind alternativ zu füllen. Ein Statusfeld steuert mit Korrekt: Zusammen 100% (Alle Fälle erfasst) Korrekt, muß 0 sein Korrekt: Es kann nur ein Wert gepflegt sein. Korrekt, muß 0 sein Korrekt, muß 0 sein Korrekt, das sind die richtigen Werte Korrekt, das sind richtige Werte Problem: kein Schlüsselfeld ist gepflegt Korrekt, muß 0 sein Korrekt: Zusammen 100%. (Alle Fälle erfasst) Korrekt, muß 0 sein Problem Korrekt

73 Stammdatenbetrachtung In einigen Fällen fehlen die Einkaufpreise
?

74 Nicht normiertes Datenmaterial Mit solchen Daten kann man nicht rechnen
Hilfsmittel: Pattern-Analyse

75 Weitere Infos Die neue Software OWB kann über OTN bezogen werden.

76 Bring up on stage two customers to tell the audience about their experiences.
Manpower Associates is a $14.9B global company with 27,000 employees in the temporary staffing business. Manpower runs a combined PeopleSoft Enterprise and JD Edwards EnterpriseOne shop. These experts in human resources use Enterprise HCM for their own staffing and EnterpriseOne Payroll and Service Billing for handling the large volumes of US-based temporary staff. Manpower is very happy with Oracle’s support since purchasing PeopleSoft and is looking forward to a long relationship with Oracle. Spokesperson will be Jay Schaudies, Vice President, Global eCommerce. Welch Foods is the food processing and marketing arm of National Grape Cooperative Association. Organized in 1945, National Grape is a grower-owned agricultural cooperative with 1,461 members. The company, headquartered in Concord, Massachusetts, operates six plants located in Michigan, New York, Pennsylvania and Washington. The company was running a mix of legacy, home grown, and manual systems that failed to provide senior management with accurate and timely cost and production information. Welch’s required a centralized manufacturing and financial information system to improve management decision making. The solution had to be hot-pluggable with existing technologies, for example, Welch’s Plumtree portal. Welch Foods chose Oracle over SAP for this business-critical application. The key to the customer’s business problem was their ability to manage costs. The company’s costs are driven by fruit solid content in each of their products, and they use a specialized technique called BRIX for measuring and calculating the cost of materials. Welch’s compared SAP and Oracle SAP’s software was too rigid and, therefore, unable to include the BRIX calculation in their manufacturing solution. Only Oracle’s OPM could bind this custom cost method into the Quality Management Process. Technology customer yet to be determined. Current possibilities include eBay and FTD Florists.


Herunterladen ppt "Oracle Warehouse Builder 11g"

Ähnliche Präsentationen


Google-Anzeigen