Präsentation herunterladen
Die Präsentation wird geladen. Bitte warten
2
Oracle Warehouse Builder 11g
Alfred Schlaucher Oracle Data Warehouse
3
Themen Information Management und Data Warehouse
Oracle Komponenten für das Data Warehouse Anforderungen Data Warehouse und Datenintegration Oracle Warehouse Builder Data Quality Option
4
Aufbau und Verwaltung von Data Warehouse-Umgebungen
Verwaltung und Dokumentation Metadaten Ownerschaften Grid Control B&R Effiziente Datenhaltung Speichertechnik ILM Hardware ASM OLAP Datenintegration schnelles Bereitstellen DB-basiertes Laden Master Data Management ETL-Option SAP Zugriff Qualitäts- management Data Profiling Data Auditing Data Rules Match Merge Daten-Zugriff Security Mandanten BI-Anwendungen Standard-Berichte Interaktive Berichte Data Mining Komplexe Analysen
5
Oracle Komponenten im DWH-Einsatz
Oracle EE Compression Data Guard Verwaltung und Dokumentation Metadaten Ownerschaften Grid Control B&R Bitmapped Oracle Enterprise Edition Parallel Query Flashback Effiziente Datenhaltung Speichertechnik ILM Hardware ASM OLAP Streams Datenintegration schnelles Bereitstellen DB-basiertes Laden Master Data Management ETL-Option SAP Zugriff Enterprise-ETL RMAN Data Quality Option Qualitäts- management Data Profiling Data Auditing Data Rules Match Merge Diagnostic Pack OBI SE Tuning Pack RAC Daten-Zugriff Security Mandanten OBI EE Repository (OWB) Partition SAP Connect BI-Anwendungen Standard-Berichte Interaktive Berichte Data Mining Komplexe Analysen OLAP Gateways Label Security Data Mining
6
Oracle Warehouse Builder
Design des kompletten Data Warehouse Systems Logisches Design und Beschreibungsinformationen Physisches Oracle Datenbank Design Fast alle Datenbankobjekte von Oracle 10g Bereitstellung der Datenbeschaffungsroutinen 100% SQL und 100% PL/SQL - Generierung Laufzeitkontrolle durch Runtime – System Universelles Metadaten Repository Automatisiertes ETL durch Scriptsprache Data Quality / Data Profiling Gehört zu den am häufigsten benutzten ETL-Tools
7
Es gibt 3 Hauptgründe für den Einsatz von OWB
Performance Effizientere Warehouse Architekturen Preis
8
Neue Anforderungen an Datenintegration und Datenmanagement
Immer mehr Anwender benutzen Daten Herausforderungen für Datenintegration und Datenmanagement Die Anzahl der Systeme und damit der Schnittstellen steigt Die Bereitsstellungszeit der Daten wird zunehmend kürzer Beispiel: Globus hat in seinem Data Warehouse 2000 Benutzer zu gelassen Ca. 200 – 300 sind zu bestimmten Zeiten gleichzeitig angemeldet. Bestimmte Berichte werden alle 30 Minuten aktualisiert. Benutzer fragen bis 10 mal täglich bestimmte aktualisierte Berichte ab. Kampagnen werden gefahren. In welchen Filialen laufen welche Kampagnenartikel besonders gut. Datenmengen wachsen
9
Datenintegrations- und Datenmanagementaufgaben
Zusammenführen von Daten aus heterogenen Systemen Korrigieren von Daten Garantieren von Datenqualität Datenmigration von System zu System Harmonisieren von Datenbeständen Inhaltliches Angleichen Synchronisieren z. B. Abstimmung von verschiedenen Schlüsseln Zuliefern von Daten Benutzergerechtes Bereitstellen Verwalten von Datenbeständen z. B. Historisieren / Archivieren / ILM
10
„Lösungen“ der Vergangenheit
Programmierung von Hand Zerstreute Programm-Sourcen Fehler bei der Entwicklung Unnötige Doppelarbeit Schlechte oder fehlende Dokumentation Schlechte Wartbarkeit Enorme Folgekosten Unkündbare „Inselexperten“ Immer wieder „Katastrophen“ im Echtbetrieb Wie war das nur?
11
Vorteile durch Generieren statt Programmieren
Vermindern von Fehlern durch Handprogrammierung Tabellen- und Spaltennamen müssen nicht mehr mühsam geschrieben werden Steuerung vieler Entwicklungsschritte durch Wizards Automatische Steuerung von Ziel- und Quellschemen Automatische Validierung (z. B. Typverträglichkeiten) Debugging der Laderoutinen Laufzeitumgebung steht bereit Dokumentation In der ETL – Tool – Diskussion ist immer darüber gestritten worden, ob es günstiger ist Laderoutinen von Hand zu programmieren oder Tools einzusetzen. Die Entscheidung ist längst gefallen, Tools haben sich durchgesetzt.
12
Die Geschichte der ETL-Tools geht in Richtung integrierter Werkzeuge
1992 1996 2000 2005 Datenbankbasierte ETL-Werkzeuge Separate Engine-gestützte ETL-Werkzeuge Programm- generatoren Handprogrammierung
13
Schnittstellen zu Quell und Zielsystemen (Ausschnitt)
FlatFile Oracle (Remote) Log XML FlatFile SAP Int. DB2 OS390, UDB Sybase, Informix, SQL-Server... PL/SQL Warehouse Datenbank Ext. Table XML Port FTP Port Streams tcp CDC Access/Excel Gateway UTL_FILE MessageBroker DB-Link XML ODBC Peoplesoft Queue DB-Link Adapter XML Queue Siebel Tabellen View SQL Loader Sequenz Index Cube Webservices MView Procedure Function FlatFile XML any System Knowledge Module (Q2/2008)
15
Graphische Entwicklung des Datenbank-basierten ETL-Verfahrens mit OWB
Errortable-Verfahren Flashback-Verfahren Datenkomprimierung Faktor 2 – 4 SQL Partition-Exchange-Load Streams Change Data Capture Transport Tablespace External Tables Downstream Capture Table Functions Advanced Q. Multi Table INSERT MERGE
16
Das OWB Entwicklungs – Szenario (Tool-Architektur)
Design Metadaten OWB-Modelle Runtime Metadaten (Deploys) Unified Repository OWB Datenfluss Deploy Import Design My_Project Modul Bestelldaten Modul Warehouse Bestellung WH_ Transaktionen Quell-Systeme Ziel-System SRC DWH Oracle 9i /10g Oracle 9i/10g Warehouse tabellen Bestellung Tabellen WH_Trans- aktionen Location LOC_SRC LOC_DWH PL/SQL
17
Datenbank-basiertes Laden
18
Datenbank – basiertes ETL
SQL basiert, d. h. die Oracle Datenbank wird ausgenutzt Möglichkeit primär mengenbasierte Operationen durchzuführen Wesentlich höhere Performance Automatisiertes Datenbankgeregelte Parallelisieren Datenbankgestütztes Ressources - Management Unterstützung aller aktuellen Datenbank – ETL – Funktionen wie Multiple Inserts Merge (Insert/Update) Direct Path Load Table Functions Partition Exchange and Load
19
Datenbank – basiertes ETL
Vollständige Hints – Bibliothek Verwendung aller Datenbank – Funktionen, z. B. auch analytische Funktionen Im Gegensatz zu den von 3. Herstellern nachgebildeten z. T. unvollständigen Funktionen (Beispiel SQL CASE, Decode) Datennahes Entwickeln Leichtes performantes und mengenbasiertes Updaten von Sätzen Ausnutzen temporärere Strukturen Temp – Tables Cache – Tables Ausnutzen besonders schneller Tabellen – Objekte Index – Based Tables Direkter Zugriff auf Tabelleninhalte
20
Datenbank - basiertes ETL
Nähe zu Katalogstrukturen Alle Informationen stehen sofort zur Verfügung Komplett – Definition aller physikalischen Objekte im Data Warehouse (Tables, Index, Materialised Views, Partitioning ...)
21
Datenbank – basiertes ETL im Zusammenhang mit OWB
ETL - Integriertes Data Quality Data Cleansing / Data Profiling ETL – Makro – Bildung / Experts Integrierte datenbankbasierte Workflow – Umgebung Web – basiertes Auswerten von Metadaten und Laufzeitergebnissen Unterstützung der Datenbank – Near Realtime – Funktionalität wie Queues, Streams, CDC, Web Services
22
OWB: Einzelaspekte und Screens
23
Komponenten OWB Control Center Change Manager Datenmodeller Scheduler
Repository Browser Runtime Audit Data Viewer Experts-Macros Mapper Rules Editor Dependencies Process Editor Data Profiler
24
Hinterlegung fachlicher Beschreibungen
Zurück
25
Analyse der Quelldaten - Data Profiling
Zurück Zrück
26
Das gesamte System modellieren Zurück
27
Datenmodelle entwerfen Zurück
28
Komplette Definition von Tabellen Zurück
29
Transformationen mit Mappings
30
Zusätzliche Hilfsfenster
des Mappingeditors
31
Operatoren des Mappingeditors Zurück
32
Testdaten- generierung Zurück
33
Process-Editor
34
Metadaten-Dependency-Manager
35
Abhängigkeits- und Auswirkungsanalyse
Zurück
36
Metadaten-Browser (Web)
37
Job-Kontrolle im Web
38
Reporting über stattgefundene Ladeläufe
Zurück
39
Individuelle Listenreports über Metadaten
HTMLDB Zurück
40
4 – Schichten Prozessverwaltung
Column Transformation Tabellen- Mapping Teil- Prozess Gesamt- Ein 4 – stufiges Workflow – Konzept sollte möglich sein. Auf der untersten Ebene sind es die auf Column – Ebene stattfindenden Prüfungen und Bearbeitungen. Das sind letztlich Funktionsbausteine. Die nächste Ebene sind Wandlungen auf dem Level ganzer Tabellen. Transformationen auf eine zusammenhängende Gruppen von Tabellen sind als Teilprozess zusammenzufassen. Der gesamte Befüllungsprozess für ein Warehouse muss über einen Gesamtprozess abgebildet werden.
41
Metadaten gestützte Steuerungslogik für das Data Warehouse
Repository Steuertabellen Variablen Variablen Workflow / BPEL
42
Zusammenfassen von Mappings zu Prozessen
43
Prozesssteuerung z. B. mit Schleifen und Variablen
44
Weitere Infos Die neue Software OWB kann über OTN bezogen werden.
45
Data Quality Management
46
Data Quality Management Prozess
47
Themen Information Management und Data Warehouse
Oracle und Data Quality Data Quality Vorgehensweise bei der Datenqualitätsanalyse Exemplarische Analysen Cheers GmbH Zusammenfassung der Analyseergebnisse
48
Datenqualität? Was ist das? Unsere Daten sind doch sauber!
Bis zu 20% der operativen Daten sind betroffen. Unternehmen finanzieren schlechte mit 30-50% der IT-Ausgaben. Über schlechte Daten redet man nicht, man arrangiert sich.
49
Die Kosten der schlechten Daten
50
Ohne Daten kein Business Daten sind der Treibstoff der Prozesse
Information Chain Kunde Kunden- betreuer Logistik- system Stamm- daten Marketing Buch- haltung Lager Spedition Bedarf Adresse Kredit- daten Angebot Bestand Bestell- daten KD-Daten Kredit OK Order Adresse Werbung Verkaufs- daten Rechnung Bezahlung Reklamation Mahnung Liefer- schein Im Verlauf der Geschäftsprozesse entstehen ständig Daten. Kunden bestellen beim Kundenbetreuer und teilt eine Order und Adressdaten mit. Der Kundenbetreuer fragt in der Stammdatenhaltung nach der Gültigkeit der Adressdaten und die Kreditwürdigkeit nach. Die Stammdatenverwaltung liefert einen Kundenstammdatensatz. Der Kundenbetreuer fragt in der Logistik und im Lager nach der Verfügbarkeit nach. Bestandsdaten werden geliefert. Der Kunde erhält ein Angebot. Die Order geht in den Orderprozesse an Logistik, Lager und Buchhaltung. Lieferdaten gehen an den Spediteur. Eine Rechnung geht an den Kunden ... ...und eventuell wieder zurück, weil sie falsch ist. Aus den Kundenstamm- und Bestelldaten werden Marketingdaten. Werbeangebote gehen an den Kunden. -> es entsteht eine Informationskette über alle Prozesse hinweg -> Wenn zu Beginn bei der ersten Datenerfassung bereits kleine Fehler gemacht werde, pflanzt sich dieser Fehler in der ganzen Kette fort -> es kommen weitere Fehler hinzu. -> Fehler addieren sich Am Ende sind bis zu 20 % Daten im Unternehmen infiziert. Operative Prozesse
51
Aspekte der Datenqualität
Korrekt Stimmig Vollständig Dokumentiert Brauchbarkeit der Daten! Redundanzfrei Aktuell Verfügbar (Access) Nützlich (TCO) Handhabbar
52
Beispiel: Datenqualitätsproblem
5 Millionen Privatkunden-Kontaktdaten Davon unterschiedliche Berufe Wie wertvoll ist diese Art der Information? Kann damit eine Segmentierung für eine Marketingkampagne gesteuert werden? Datenmaterial lässt Rückschlüsse auf die Geschäftsprozesse zu!
53
Versteckte Kosten durch schlechte Datenqualität
Manuelles Nacharbeiten von Daten Beschwerden -> Aufwand in Call Center Erhöhte Projektkosten bei Einführung neuer Systeme Bis 25% gestoppt, bis zu 60% Verzug aufgrund falscher oder fehlender Daten Verspätete Unternehmensberichte Verlorene Kunden durch schlechten Support Produktionsausfälle durch Störung in der Supply Chain
54
Data Profiling Hilfsmittel für viele Anforderungen
Software- Entwickler Verstehen der Anwendungsdaten. 2 Datenmodellierer Erkennen von Datenstrukturen. 3 Fachmitarbeiter Erkennung von Schwachstellen in den Prozessen. 1 Wem hilft das Data Profiling? 6 Wartungs- mitarbeiter Überprüfen von Datenregeln. Organisatoren+ Systemplaner Erkennen von Anforderungen. 4 5 Data Warehouse- Entwickler Lösen von Integrations- aufgaben. Blick in die Vorsysteme.
55
Ablauf Data Profiling Analyse
Wo anfangen? - eignen sich die Daten für das Data Profiling? - Was ist über die Daten bekannt Ständige Kommunikation mit der Fachabteilung Analysieren der Daten - „Augenfällige“ Erkenntnisse -> der erste Schuss - „Dinge, die sofort auffallen“ -> Domains / Pattern / PK - Visuelles Analysieren - Graphikeinsatz - Beziehungen analysieren Regeln, die nicht abgedeckt werden und deren Lösung - komplexe Lookup – Beziehungen - Rekursive Strukturen - Tupel – übergreifende Abhängigkeiten Environment - Datenmengen - Rechner - Planung notwendig Zurechtschneiden der Daten - Daten aufbrechen - Teilmengen bilden Referenzdaten zusammenführen - Sampling - Mehrfach - Profiling - Einsatz von ETL Ableiten von Regeln und Korrekturen - Automatisches Erkennen - Benutzerdefinierte Regeln - Generieren von Korrekturmappings ETL - Prozess - Mappings - Routinen - Workflow - Metadatenrepository Dokumentieren der Ergebnisse - Ergebnisblatt - Definition Metadaten - Orga - Handbuch Korrekte Daten 1 2 3 4 5 6 7 X
56
„Induktives und deduktives“ Vorgehen
Wir wissen, vermuten Dinge die nicht stimmen Wir können sinnvolle Analysen aufgrund bekannter Dinge ableiten Wir lassen uns überraschen, was da noch kommt Wir stöbern in den Daten und entdecken Auffälligkeiten beginnen zu kombinieren stellen Hypothesen auf versuchen Zusammenhänge zu beweisen Vermutungen verifizieren Neues entdecken
57
Data Profiling mit OWB Methoden Die operativen Daten Feintuning zu
den Analyse- methoden selbstredend Proto- kollierung laufende Analysen Drill Down zu den operativen Daten
58
Verständlichkeit des Datenmodells (z. B. Homonyme)
Kunden_Stamm Kundenstatus: P: Privatkunde F: Firmenkunde G: „guter“ Kunde K: „kein“ Kunde Produkte_Stamm Produktstatus: 1: Großhandelsware f Baumärkte 2: Produkte kaufbar über Internet 3: Serviceleistung (Kredite und Handwerksleistung)
59
Schlüsselanalyse (Eindeutigkeit in den Stammdaten)
Doppelter Datensatz Unterschiedliche Sätze, aber Schlüsselfeld falsch gepflegt Unterschiedliche Sätze, aber Feld wird nicht genutzt
60
Schlüsselanalyse (Eindeutigkeit in den Bewegungsdaten)
61
Beziehungsanalyse (Wer hängt an wem? Wer ist isoliert?)
Child n:1 Parent Produkte_Stamm Artikel_Gruppe Kardinalität Waisen Hilfsmittel: Referential
62
Kreisbeziehung (Irgendwann passen die Daten nicht mehr zusammen)
Bestellung Kundennummer = 12 Bestellnummer = 30 Best_Position ??? Zahlung Bestellnummer = 30 Bestellnummer = 30 Kundennummer = 12 Kundennummer = 21 Kunden_stamm Kundennummer = 12
63
Analyse von Hierarchien
Artikelsparte ARTIKELSPARTENNR 1 , 2 ,3 Artikel_Gruppe ARTIKELSPARTENNR 1,4,3 ARTIKELGRUPPENNR 1,2,3,4,5,6,11,10,9,8,7 Produkte_Stamm ARTIKELGRUPPENNR 100,1,6,2,5,4,7,3,10
64
Hierarchie: ARTIKEL_GRUPPE -> ARTIKELSPARTE
65
Beziehung PRODUKTE_STAMM -> ARTIKEL_GRUPPE
66
Vergleich der Wertebereiche von referenzierenden Feldern
67
Ergebnisse der Hierarchie- und Beziehungsanalyse
BI? Umsatz pro Sparte? Umsatz pro Gruppe? Umsatz pro Produkt? Werden korrekte Rechnungen gestellt? Umsatz pro Kunde? Macht die Kundenkarte Sinn? Sparten Fehlerhafte Spartenkennzeichnung von Gruppen Gruppen Orphans Falsche Statuskennzeichnung von Finanzprodukten Produkte Fehlerhafte Verschlüsselung von Artikel- und Produkten Bestellung Position Doppelte Produktnummern Fehlerhafte , nicht rechenbare Einzelpreisbezeichnung Kunden- Stamm Doppelte Wertebelegung von Statuskennzeichnung für Privat- und Firmenkunden.
68
Suche nach redundanten Informationen (1. Normalform)
Kunden_Stamm Kundenstatus: P: Privatkunde F: Firmenkunde G: „guter“ Kunde K: „kein“ Kunde Folge: Alle Abfragen/Analysen über Privatkunden sind damit nicht mehr sauber durchführbar. (Z. B. Abfragen über die Wirkung der Kundenkarte. Hilfsmittel: Domainanalyse
69
Functional Dependency
Abhängigkeit zwischen GESAMT_POS_PREIS und PREIS: Warum ist der hier 98,5 %
70
Suche nach redundanten Informationen (3. Normalform)
Abhängigkeit zwischen GESAMT_POS_PREIS und PREIS: Warum ist der hier 98,5 % Hilfsmittel: Beziehungsanalyse Abhängigkeit zwischen GESAMT_POS_PREIS und PREIS: Warum ist der hier 98,5 %
71
Prüfung der aufgestellten Geschäftsregeln
72
Stammdatenregel: Artikelnummer und Produktnummer sind alternativ zu füllen. Ein Statusfeld steuert mit Korrekt: Zusammen 100% (Alle Fälle erfasst) Korrekt, muß 0 sein Korrekt: Es kann nur ein Wert gepflegt sein. Korrekt, muß 0 sein Korrekt, muß 0 sein Korrekt, das sind die richtigen Werte Korrekt, das sind richtige Werte Problem: kein Schlüsselfeld ist gepflegt Korrekt, muß 0 sein Korrekt: Zusammen 100%. (Alle Fälle erfasst) Korrekt, muß 0 sein Problem Korrekt
73
Stammdatenbetrachtung In einigen Fällen fehlen die Einkaufpreise
?
74
Nicht normiertes Datenmaterial Mit solchen Daten kann man nicht rechnen
Hilfsmittel: Pattern-Analyse
75
Weitere Infos Die neue Software OWB kann über OTN bezogen werden.
76
Bring up on stage two customers to tell the audience about their experiences.
Manpower Associates is a $14.9B global company with 27,000 employees in the temporary staffing business. Manpower runs a combined PeopleSoft Enterprise and JD Edwards EnterpriseOne shop. These experts in human resources use Enterprise HCM for their own staffing and EnterpriseOne Payroll and Service Billing for handling the large volumes of US-based temporary staff. Manpower is very happy with Oracle’s support since purchasing PeopleSoft and is looking forward to a long relationship with Oracle. Spokesperson will be Jay Schaudies, Vice President, Global eCommerce. Welch Foods is the food processing and marketing arm of National Grape Cooperative Association. Organized in 1945, National Grape is a grower-owned agricultural cooperative with 1,461 members. The company, headquartered in Concord, Massachusetts, operates six plants located in Michigan, New York, Pennsylvania and Washington. The company was running a mix of legacy, home grown, and manual systems that failed to provide senior management with accurate and timely cost and production information. Welch’s required a centralized manufacturing and financial information system to improve management decision making. The solution had to be hot-pluggable with existing technologies, for example, Welch’s Plumtree portal. Welch Foods chose Oracle over SAP for this business-critical application. The key to the customer’s business problem was their ability to manage costs. The company’s costs are driven by fruit solid content in each of their products, and they use a specialized technique called BRIX for measuring and calculating the cost of materials. Welch’s compared SAP and Oracle SAP’s software was too rigid and, therefore, unable to include the BRIX calculation in their manufacturing solution. Only Oracle’s OPM could bind this custom cost method into the Quality Management Process. Technology customer yet to be determined. Current possibilities include eBay and FTD Florists.
Ähnliche Präsentationen
© 2024 SlidePlayer.org Inc.
All rights reserved.