Präsentation herunterladen
1
Architektur von Data Warehouse Systemen
Rico Landefeld Blockseminar Data Warehousing Lehrstuhl für Datenbanken und Informationssysteme
2
Referenzarchitektur Motivation, Anforderungen, Aufbau Komponenten Arten, Aufgaben Phasen Monitoring, Extract,Transform, Load, Analyse Datenqualität Qualitätsmerkmale, Cleansing
3
Motivation, Einführung
eine Architektur sollte: robust gegen Änderungen sein Anforderungen erfüllen unabhängig von der Implementierung sein Referenzarchitektur ermöglicht Vergleich von DW - Systemen und - Werkzeugen Ausgangspunkt konkreter Implementierung Mittel zur Beschreibung und Visualisierung
4
Anforderungen des Data Warehousings
Verfügbarkeit Belastbarkeit Unabhängigkeit Persistenz Flexibilität Skalierbarkeit Mehrfachverwendbarkeit Individuelle Sichten Effizienz
5
Aufbau (Bauer, A; Günzel, H.)
6
Data Warehouse Manager
7
Data Warehouse Manager
Zentrale Steuerung der Komponenten Initiierung, Steuerung und Kontrolle der DW – Prozesse Datenbeschaffungsprozess periodisch bei Änderungen auf Anforderung überwacht richtige Reihenfolge der ETL Prozesse bei evtl. Abhängigkeiten Fehlerfall Dokumentation Benachrichtigung Wiederanlaufmechanismen zur Steuerung verwendet DWM Informationen aus dem Repositorium
8
Datenquelle
9
Kein Bestandteil des Data Warehouse – Systems Auswahl der Quellen nach
Datenquelle 1 Vertreter für ein oder mehrere zu integrierenden, meist heterogene reale Datenquellen Kein Bestandteil des Data Warehouse – Systems Auswahl der Quellen nach Zweck des DW Systems Qualität der Quelldaten Verfügbarkeit (organisatorische und technische Voraussetzungen) Kosten
10
Klassifikation der Quelldaten Herkunft Zeit
Datenquelle 2 Klassifikation der Quelldaten Herkunft Zeit Nutzungsebene (Primär- oder Metaebene) Inhalt/ Datentyp nach inhaltl. Aspekten Darstellung / Datentyp nach formalen Aspekten Sprache und Zeichensatz Technischer Zeichensatz Schreiborientierung
11
Monitor
12
Monitor 1 Datenquellen nach Änderungsoperationen und deren Auswirkungen auf die für die Analyse im Data Warehouse relevanten Daten beobachten Änderungen müssen propagiert werden Monitor liefert alle relevanten Informationen Monitor liefert nur Hinweis Realisierung abhängig von Datenquelle Systemgesteuerte Mechanismen Aktive Mechanismen Replikationsmechanismen Snapshot basiert Datenreplikation Protokollbasierte Entdeckung
13
Anwendungsgesteuerte Mechanismen Zeitstempelbasierte Entdeckung
Monitor 2 Anwendungsgesteuerte Mechanismen Zeitstempelbasierte Entdeckung Dateivergleich Implementierungsaspekte Entdeckung aller Änderungen vs. Nettoeffekt Benachrichtigung vs. Polling Internes vs. externes Monitoring
14
Extraktions- komponente
15
Extraktionskomponente
Übertragung der Quelldaten in den Arbeitsbereich Extraktionsprozess abhängig von der Monitoringstrategie Festlegung von Zeitpunkten der Extraktionen hängen von Semantik der Daten ab Strategien Periodisch Ereignisgesteuert Sofortige Extraktion bei Änderung technische Realisierung über Schnittstellen (Netzwerk- und Standart Datenbankschnittstellen) Datenvolumen groß, Kompressionsstrategie und Ausnahmebehandlung wichtig
16
Arbeitsbereich
17
Datenhaltungskomponente des Datenbeschaffungsbereich
Arbeitsbereich Datenhaltungskomponente des Datenbeschaffungsbereich während der Datenbeschaffung werden Daten temporär im Arbeitsbereich zwischengespeichert Transformationen (Bereinigung, Integration) können ausgeführt werden ohne das Datenquellen oder Basisdatenbank beeinträchtigt werden Übertragung der Daten in die Basisdatenbank wenn Verarbeitung abgeschlossen
18
Transformations- komponente
19
Transformationskomponente 1
Quelldaten werden für die spätere Ablage in der Basisdatenbank oder im Data Warehouse aufbereitet Daten, Schemata und Datenqualität an Anwendungsanforderungen anpassen Anpassung umfasst Schemaintegration Schemakonflikte: jegliche Inkonsistenzen die bei unterschiedlich modellierten Welten auf Schemaebene auftreten können Transformation in (de)normalisierte Datenstrukturen Schlüsselbehandlung lokale Schlüssel werden auf Surrogate abgebildet Behandlung von impliziter Semantik
20
Transformationskomponente 2
Datenintegration Überführung von Daten aus unterschiedlichen heterogenen Quelle in ein einheitliches Format durch Anpassung von Datentypen Konvertierung von Kodierungen Vereinheitlichung von Zeichenketten Vereinheitlichung von Datumsangaben Umrechnung von Maßeinheiten Kombination / Separierung von Attributwerte Erkennen von zusammengehörigen Datensätzen Behandlung / Vermeidung von Homonym und Synonymfehlern Berechnung abgeleiteter Werte Aggregierung von Werten (z.B. hinsichtlich Lokalität in Raum und Zeit)
21
Transformationskomponente 3
Datenbereinigung Quelldaten durch fehlerhafte, redundante, veraltete oder fehlende Daten verunreinigt Komponenten zur Datenbereinigung können in Kategorien eingeteilt werden Data Scrubbing: unter Ausnutzung von domänenspezifischen Informationen (Geschäftsregeln) können Fehler erkannt und bereinigt werden Data Auditing: unter Ausnutzung von Data - Mining Techniken wird versucht Zusammenhänge im Datenbestand aufzudecken und daraus Regeln abzuleiten - die Ausreißer von Regeln können potentielle Verunreinigungen sein
22
Lade- komponente
23
zwei Komponenten sind für das Weiterleiten zuständig
Ladekomponenten 1 nach Datentransformation befinden sich aufbereitete Daten im Arbeitsbereich zwei Komponenten sind für das Weiterleiten zuständig Ladekomponente Arbeitsbereich -> Basisdatenbank Ladekomponente Basisdatenbank -> Data Warehouse Basisdatenbank wird zum großen Teil mit Detaildaten gefüllt Aktualisierung der materialisierten Sichten im Data Warehouse Änderungen in der Basisdatenbank müssen sich auf die materialisierten Sichten des Data Warehouses übertragen Neuberechnung vs. inkrementelle Aktualisierung selbstwartbare Sichten sagen was materialisierte sichten sind
24
effizientes Laden über Bulk Loader, optimiert auf Datendurchsatz
Ladekomponenten 2 Effizienz des Ladens hat eine große Auswirkung auf alle beteiligten Systeme effizientes Laden über Bulk Loader, optimiert auf Datendurchsatz Ladephasen in einem günstigen Zeitfenster (Nachts, Wochenende) Belastung der Systeme kann mit Partitionierung, Parallelisierung und inkrementellen Sichtenaktualisierung begegnet werden Unterscheidung zwischen Offline und Online Ladevorgängen
25
Basisdatenbank
26
Sammel und Integrationsfunktion (zentrales Datenlager)
Basisdatenbank Sammel und Integrationsfunktion (zentrales Datenlager) Distributionsfunktion (Versorgung der Data Warehouses) kann auch zur Analyse eingesetzt werden ermöglicht Mehrfachverwendung der Daten und Flexibilität Verteilungsfunktion kann mit Nabespeicher – Architektur veranschaulicht werden
27
Data Warehouse
28
für Analysezwecke aufgebaute Datenbank
Data Warehouse für Analysezwecke aufgebaute Datenbank stellt die für die Analysen des Anwenders notwendigen Daten den Analyseprozessen in geeigneter Form zur Verfügung unterstützt Analyseprozesse auch mit Funktionen zur Verarbeitung der Daten Realisierung mit DBMS zur Strukturierung der Daten hat sich für viele Problemstellungen das multidimensionale Datenmodell als zweckmäßig erwiesen
29
Data Marts Integration von Unternehmensdaten (globale Sicht) als zentralistische Lösung problematisch hinsichtlich Skalierung Grundidee inhaltlich beschränkten Fokus des Unternehmens oder eine Abteilung als Teilsicht eines Data Warehouses abzubilden Gründe: Datenschutzaspekte durch Teilsicht auf die Daten Organisatorische Aspekte Verringerung des Datenvolumens Performanzgewinn durch Aggregation Verteilung der Last Unabhängigkeit von den Aktualisierungszyklen des Data Warehouse Unterscheidung in abhängige und unabhängige Data Marts
30
enthalten nur Extrakte des Data Warehouses
Abhängige Data Marts enthalten nur Extrakte des Data Warehouses keine Normierung und Datenbereinigung strukturelle Konsistenz mit Data Warehouse Zusammenschluss von Data Marts zu einem virtuellen Data Warehouse möglich Unterschiedliche Extrakte möglich: Struktureller Extrakt Inhaltlicher Extrakt Aggregierter Extrakt
31
Unabhängige Data Marts
es wird auf eine Basisdatenbank verzichtet geringere Komplexität Nachteile: spätere Data Mart übergreifende Analysen problematisch da keine gemeinsame Sicht auf die Quelldaten Verschleppung von Konsistenz- und Integrationsproblemen
32
Analyse- komponente
33
die Qualität der Datenbasis erhöht zukünftige Analysen verbessert
Analysekomponente 1 Anwendung von Analysefunktionen auf ausgewählte Daten zur Generierung von neuen Informationen Aufbereitung, Veränderung und Bereitstellung der Ergebnisse zwecks Weiterverarbeitung in anderen Systemen oder die Weitergabe an andere Personen oder Instanzen Ergebnisse von Analysen können wieder in die Basisdatenbank bzw. Data Warehouse zurückgeführt werden die Qualität der Datenbasis erhöht zukünftige Analysen verbessert nochmal rückkopplung anschauen
34
Analysekomponente 2 Analysewerkzeuge (Business Intelligence Tools) dienen der Präsentation der gesammelten Daten mit interaktiven Navigations- und Analysemöglichkeiten Darstellungsformen: Tabellen Grafiken Text Funktionen lassen sich hinsichtlich ihrer Komplexität in 3 Kategorien einordnen Data Access (z.B. Reporting) zur Ermittlung von Anfrageergebnissen werden Datenmanipulationssprachen eingesetzt meist in Informations-, Planungs-, und Berichtssysteme integriert Anfragekomplexität ähnlich OLTP
35
Multidimensionales Datenmodell
Analysekomponente 3 OLAP Dynamischer, flexibler und interaktiver Zugriff auf eine Vielzahl von Einträgen Multidimensionales Datenmodell spezifischen Anfrageoperatoren und –techniken, die den Begriff OLAP charakterisieren, werden in multidimensionalen Datenstrukturen abgebildet Grundstein wurde durch Coddsche Regeln von Edgar F. Codd gelegt
36
Ermittlung von Beziehungsmustern
Analysekomponente 4 Data Mining Ermittlung von Beziehungsmustern Abbildung durch logische oder funktionale Beziehungszusammenhänge Ermittlung und Abbildung von Beziehungszusammenhängen in Form eines Modells Verfahren Clusterbildung, Klassifikation, Regression, Abhängigkeitsentdeckung und Abweichungsentdeckung
37
Metadaten Manager
38
steuert die Metadatenverwaltung des Data Warehouse Systems
Metadaten – Manager steuert die Metadatenverwaltung des Data Warehouse Systems wird als Datenbankanwendung für Metadaten definiert die Versions- und Konfigurationsmanagement Integrations-, Zugriffs-, Anfrage-, und Navigationsmöglichkeiten bieten metadatengetriebener Prozess wenn vollständig ausführbare Spezifikationen (Transformationen, Abbildungen) der Datenverarbeitungsschritte als Metadaten gespeichert werden und diese von Werkzeugen interpretiert und ausgeführt werden können Kontrollfluss zwischen Metadaten Manager und Data Warehouse Manager automatische Aktualisierung der Metadaten sinnvoll damit Datenfluss aus Datenquellen erhalten bleibt
39
Repositorium
40
Ablage der Metadaten des Data – Warehouse – Systems Metadaten:
Repositorium 1 Ablage der Metadaten des Data – Warehouse – Systems Metadaten: beschreibende Informationen über Inhalt, Struktur, Kontext und Bedeutung von Daten aber auch prozessbezogene Informationen über die Verarbeitung dieser Daten Einteilung in Fachlich: dienen dem Endanwender helfen ihm Daten im DW zu verstehen, relevante Daten zu finden, Resultate der Auswertungen interpretieren (anwendungsspezifische Dokumentationen, domänenspezifisches Wissen, Thesauri etc.)
41
Beschreibung der logischen und physischen Datenbankschemata
Repositorium 2 Technisch: Beschreibung der logischen und physischen Datenbankschemata Integritätsbedingungen Implementierungsinformationen der verschiedenen Skripte für Extraktion, Transformation, Analyse garantieren Nachvollziehbarkeit Woher stammen die Daten im Data Warehouse Wie und wann wurden Daten geladen Überprüfbarkeit Richtigkeit und Qualität der Auswertung Änderungen in Quellsystemen und deren Auswirkungen auf die Analysesysteme lassen sich interpretieren und abschätzen metadaten kürzen
42
Transformationsphase Ladephase Analysephase
Phasen Monitoring Extraktionsphase Transformationsphase Ladephase Analysephase
43
Taxonomie der Qualitätsmerkmale
Datenqualität Taxonomie der Qualitätsmerkmale Datenqualität Glaubwürdigkeit Nützlichkeit Interpretierbarkeit Schlüsselintegrität Korrektheit Vollständigkeit Einheitlichkeit Schlüsseleindeutigkeit Konsistenz Genauigkeit Eindeutigkeit referentielle Integrität Zuverlässigkeit Zeitnähe Verständlichkeit Redundanzfreiheit
44
Datenqualität – Bereinigungsmaßnahmen (Cleansing)
Korrektheit Bei fehlerhaften Werten muss auf Werte aus der Realwelt zurückgegriffen werden, nur stichprobenartig sinnvoll Statistische Prozesskontrolle Konsistenz Bewertung erfordert domänenspezifisches Wissen Als Repräsentationsformen des Fachwissens kommen in Frage Geschäftsregeln Reguläre Ausdrücke Domänenspezifische Funktionen
45
Datenqualität - Bereinigungsmaßnahmen (Cleansing)
Vollständigkeit Nutzung domänenspezifischen Wissens zur Verbesserung der Vollständigkeit fehlende Werte sollten einheitlich repräsentiert werden NULL Werte sind allerdings nicht zwangsläufig ein Indiz für Datenqualitätsmängel unterschiedliche Semantiken von NULL: Es gibt kein Wert für das Attribut Attributwert ist zur Erfassungszeit nicht bekannt oder wurde aus bestimmten Gründen nicht erfasst Attributwert ist nicht bekannt
46
Datenqualität - Bereinigungsmaßnahmen (Cleansing)
Redundanzfreiheit Kann nur gemessen werden, wenn die Anzahl der in einem Datenbestand repräsentierten Entitäten der Realwelt bekannt ist und damit die Anzahl der Duplikate im Datenbestand abschätzbar ist veraltete Daten erkennen und löschen können bestimmt werden indem materialisierten Sichten analysiert werden Daten die diese Sichten nicht beeinflussen, können gelöscht werden
47
Datenqualität - Probleme
48
Zusammenfassung eine Referenzarchitektur ist idealtypisch, die Architektur realer Systeme weicht zum Teil stark von ihr ab eine Referenzarchitektur bietet jedoch Vergleichs- und Beschreibungsmöglichkeiten unter den Architekturansätzen ist insbesondere die Unterscheidung zwischen Data Warehouses und Data Marts wichtig der Wert von Analyseergebnissen hängt maßgeblich von der Datenqualität ab unter Cleansing versteht man alle Maßnahmen die der Sicherstellung von Korrektheit, Konsistenz, Vollständigkeit und Redundanzfreiheit von Auswertungsdaten dienen beim Cleansing ist der Einsatz von domänenspezifischen Wissen unabdingbar
Ähnliche Präsentationen
© 2024 SlidePlayer.org Inc.
All rights reserved.