Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

Architektur von Data Warehouse Systemen

Ähnliche Präsentationen


Präsentation zum Thema: "Architektur von Data Warehouse Systemen"—  Präsentation transkript:

1 Architektur von Data Warehouse Systemen
Rico Landefeld Blockseminar Data Warehousing Lehrstuhl für Datenbanken und Informationssysteme

2 Referenzarchitektur Motivation, Anforderungen, Aufbau Komponenten Arten, Aufgaben Phasen Monitoring, Extract,Transform, Load, Analyse Datenqualität Qualitätsmerkmale, Cleansing

3 Motivation, Einführung
eine Architektur sollte: robust gegen Änderungen sein Anforderungen erfüllen unabhängig von der Implementierung sein Referenzarchitektur ermöglicht Vergleich von DW - Systemen und - Werkzeugen Ausgangspunkt konkreter Implementierung Mittel zur Beschreibung und Visualisierung

4 Anforderungen des Data Warehousings
Verfügbarkeit Belastbarkeit Unabhängigkeit Persistenz Flexibilität Skalierbarkeit Mehrfachverwendbarkeit Individuelle Sichten Effizienz

5 Aufbau (Bauer, A; Günzel, H.)

6 Data Warehouse Manager

7 Data Warehouse Manager
Zentrale Steuerung der Komponenten Initiierung, Steuerung und Kontrolle der DW – Prozesse Datenbeschaffungsprozess periodisch bei Änderungen auf Anforderung überwacht richtige Reihenfolge der ETL Prozesse bei evtl. Abhängigkeiten Fehlerfall Dokumentation Benachrichtigung Wiederanlaufmechanismen zur Steuerung verwendet DWM Informationen aus dem Repositorium

8 Datenquelle

9 Kein Bestandteil des Data Warehouse – Systems Auswahl der Quellen nach
Datenquelle 1 Vertreter für ein oder mehrere zu integrierenden, meist heterogene reale Datenquellen Kein Bestandteil des Data Warehouse – Systems Auswahl der Quellen nach Zweck des DW Systems Qualität der Quelldaten Verfügbarkeit (organisatorische und technische Voraussetzungen) Kosten

10 Klassifikation der Quelldaten Herkunft Zeit
Datenquelle 2 Klassifikation der Quelldaten Herkunft Zeit Nutzungsebene (Primär- oder Metaebene) Inhalt/ Datentyp nach inhaltl. Aspekten Darstellung / Datentyp nach formalen Aspekten Sprache und Zeichensatz Technischer Zeichensatz Schreiborientierung

11 Monitor

12 Monitor 1 Datenquellen nach Änderungsoperationen und deren Auswirkungen auf die für die Analyse im Data Warehouse relevanten Daten beobachten Änderungen müssen propagiert werden Monitor liefert alle relevanten Informationen Monitor liefert nur Hinweis Realisierung abhängig von Datenquelle Systemgesteuerte Mechanismen Aktive Mechanismen Replikationsmechanismen Snapshot basiert Datenreplikation Protokollbasierte Entdeckung

13 Anwendungsgesteuerte Mechanismen Zeitstempelbasierte Entdeckung
Monitor 2 Anwendungsgesteuerte Mechanismen Zeitstempelbasierte Entdeckung Dateivergleich Implementierungsaspekte Entdeckung aller Änderungen vs. Nettoeffekt Benachrichtigung vs. Polling Internes vs. externes Monitoring

14 Extraktions- komponente

15 Extraktionskomponente
Übertragung der Quelldaten in den Arbeitsbereich Extraktionsprozess abhängig von der Monitoringstrategie Festlegung von Zeitpunkten der Extraktionen hängen von Semantik der Daten ab Strategien Periodisch Ereignisgesteuert Sofortige Extraktion bei Änderung technische Realisierung über Schnittstellen (Netzwerk- und Standart Datenbankschnittstellen) Datenvolumen groß, Kompressionsstrategie und Ausnahmebehandlung wichtig

16 Arbeitsbereich

17 Datenhaltungskomponente des Datenbeschaffungsbereich
Arbeitsbereich Datenhaltungskomponente des Datenbeschaffungsbereich während der Datenbeschaffung werden Daten temporär im Arbeitsbereich zwischengespeichert Transformationen (Bereinigung, Integration) können ausgeführt werden ohne das Datenquellen oder Basisdatenbank beeinträchtigt werden Übertragung der Daten in die Basisdatenbank wenn Verarbeitung abgeschlossen

18 Transformations- komponente

19 Transformationskomponente 1
Quelldaten werden für die spätere Ablage in der Basisdatenbank oder im Data Warehouse aufbereitet Daten, Schemata und Datenqualität an Anwendungsanforderungen anpassen Anpassung umfasst Schemaintegration Schemakonflikte: jegliche Inkonsistenzen die bei unterschiedlich modellierten Welten auf Schemaebene auftreten können Transformation in (de)normalisierte Datenstrukturen Schlüsselbehandlung lokale Schlüssel werden auf Surrogate abgebildet Behandlung von impliziter Semantik

20 Transformationskomponente 2
Datenintegration Überführung von Daten aus unterschiedlichen heterogenen Quelle in ein einheitliches Format durch Anpassung von Datentypen Konvertierung von Kodierungen Vereinheitlichung von Zeichenketten Vereinheitlichung von Datumsangaben Umrechnung von Maßeinheiten Kombination / Separierung von Attributwerte Erkennen von zusammengehörigen Datensätzen Behandlung / Vermeidung von Homonym und Synonymfehlern Berechnung abgeleiteter Werte Aggregierung von Werten (z.B. hinsichtlich Lokalität in Raum und Zeit)

21 Transformationskomponente 3
Datenbereinigung Quelldaten durch fehlerhafte, redundante, veraltete oder fehlende Daten verunreinigt Komponenten zur Datenbereinigung können in Kategorien eingeteilt werden Data Scrubbing: unter Ausnutzung von domänenspezifischen Informationen (Geschäftsregeln) können Fehler erkannt und bereinigt werden Data Auditing: unter Ausnutzung von Data - Mining Techniken wird versucht Zusammenhänge im Datenbestand aufzudecken und daraus Regeln abzuleiten - die Ausreißer von Regeln können potentielle Verunreinigungen sein

22 Lade- komponente

23 zwei Komponenten sind für das Weiterleiten zuständig
Ladekomponenten 1 nach Datentransformation befinden sich aufbereitete Daten im Arbeitsbereich zwei Komponenten sind für das Weiterleiten zuständig Ladekomponente Arbeitsbereich -> Basisdatenbank Ladekomponente Basisdatenbank -> Data Warehouse Basisdatenbank wird zum großen Teil mit Detaildaten gefüllt Aktualisierung der materialisierten Sichten im Data Warehouse Änderungen in der Basisdatenbank müssen sich auf die materialisierten Sichten des Data Warehouses übertragen Neuberechnung vs. inkrementelle Aktualisierung selbstwartbare Sichten sagen was materialisierte sichten sind

24 effizientes Laden über Bulk Loader, optimiert auf Datendurchsatz
Ladekomponenten 2 Effizienz des Ladens hat eine große Auswirkung auf alle beteiligten Systeme effizientes Laden über Bulk Loader, optimiert auf Datendurchsatz Ladephasen in einem günstigen Zeitfenster (Nachts, Wochenende) Belastung der Systeme kann mit Partitionierung, Parallelisierung und inkrementellen Sichtenaktualisierung begegnet werden Unterscheidung zwischen Offline und Online Ladevorgängen

25 Basisdatenbank

26 Sammel und Integrationsfunktion (zentrales Datenlager)
Basisdatenbank Sammel und Integrationsfunktion (zentrales Datenlager) Distributionsfunktion (Versorgung der Data Warehouses) kann auch zur Analyse eingesetzt werden ermöglicht Mehrfachverwendung der Daten und Flexibilität Verteilungsfunktion kann mit Nabespeicher – Architektur veranschaulicht werden

27 Data Warehouse

28 für Analysezwecke aufgebaute Datenbank
Data Warehouse für Analysezwecke aufgebaute Datenbank stellt die für die Analysen des Anwenders notwendigen Daten den Analyseprozessen in geeigneter Form zur Verfügung unterstützt Analyseprozesse auch mit Funktionen zur Verarbeitung der Daten Realisierung mit DBMS zur Strukturierung der Daten hat sich für viele Problemstellungen das multidimensionale Datenmodell als zweckmäßig erwiesen

29 Data Marts Integration von Unternehmensdaten (globale Sicht) als zentralistische Lösung problematisch hinsichtlich Skalierung Grundidee inhaltlich beschränkten Fokus des Unternehmens oder eine Abteilung als Teilsicht eines Data Warehouses abzubilden Gründe: Datenschutzaspekte durch Teilsicht auf die Daten Organisatorische Aspekte Verringerung des Datenvolumens Performanzgewinn durch Aggregation Verteilung der Last Unabhängigkeit von den Aktualisierungszyklen des Data Warehouse Unterscheidung in abhängige und unabhängige Data Marts

30 enthalten nur Extrakte des Data Warehouses
Abhängige Data Marts enthalten nur Extrakte des Data Warehouses keine Normierung und Datenbereinigung strukturelle Konsistenz mit Data Warehouse Zusammenschluss von Data Marts zu einem virtuellen Data Warehouse möglich Unterschiedliche Extrakte möglich: Struktureller Extrakt Inhaltlicher Extrakt Aggregierter Extrakt

31 Unabhängige Data Marts
es wird auf eine Basisdatenbank verzichtet geringere Komplexität Nachteile: spätere Data Mart übergreifende Analysen problematisch da keine gemeinsame Sicht auf die Quelldaten Verschleppung von Konsistenz- und Integrationsproblemen

32 Analyse- komponente

33 die Qualität der Datenbasis erhöht zukünftige Analysen verbessert
Analysekomponente 1 Anwendung von Analysefunktionen auf ausgewählte Daten zur Generierung von neuen Informationen Aufbereitung, Veränderung und Bereitstellung der Ergebnisse zwecks Weiterverarbeitung in anderen Systemen oder die Weitergabe an andere Personen oder Instanzen Ergebnisse von Analysen können wieder in die Basisdatenbank bzw. Data Warehouse zurückgeführt werden die Qualität der Datenbasis erhöht zukünftige Analysen verbessert nochmal rückkopplung anschauen

34 Analysekomponente 2 Analysewerkzeuge (Business Intelligence Tools) dienen der Präsentation der gesammelten Daten mit interaktiven Navigations- und Analysemöglichkeiten Darstellungsformen: Tabellen Grafiken Text Funktionen lassen sich hinsichtlich ihrer Komplexität in 3 Kategorien einordnen Data Access (z.B. Reporting) zur Ermittlung von Anfrageergebnissen werden Datenmanipulationssprachen eingesetzt meist in Informations-, Planungs-, und Berichtssysteme integriert Anfragekomplexität ähnlich OLTP

35 Multidimensionales Datenmodell
Analysekomponente 3 OLAP Dynamischer, flexibler und interaktiver Zugriff auf eine Vielzahl von Einträgen Multidimensionales Datenmodell spezifischen Anfrageoperatoren und –techniken, die den Begriff OLAP charakterisieren, werden in multidimensionalen Datenstrukturen abgebildet Grundstein wurde durch Coddsche Regeln von Edgar F. Codd gelegt

36 Ermittlung von Beziehungsmustern
Analysekomponente 4 Data Mining Ermittlung von Beziehungsmustern Abbildung durch logische oder funktionale Beziehungszusammenhänge Ermittlung und Abbildung von Beziehungszusammenhängen in Form eines Modells Verfahren Clusterbildung, Klassifikation, Regression, Abhängigkeitsentdeckung und Abweichungsentdeckung

37 Metadaten Manager

38 steuert die Metadatenverwaltung des Data Warehouse Systems
Metadaten – Manager steuert die Metadatenverwaltung des Data Warehouse Systems wird als Datenbankanwendung für Metadaten definiert die Versions- und Konfigurationsmanagement Integrations-, Zugriffs-, Anfrage-, und Navigationsmöglichkeiten bieten metadatengetriebener Prozess wenn vollständig ausführbare Spezifikationen (Transformationen, Abbildungen) der Datenverarbeitungsschritte als Metadaten gespeichert werden und diese von Werkzeugen interpretiert und ausgeführt werden können Kontrollfluss zwischen Metadaten Manager und Data Warehouse Manager automatische Aktualisierung der Metadaten sinnvoll damit Datenfluss aus Datenquellen erhalten bleibt

39 Repositorium

40 Ablage der Metadaten des Data – Warehouse – Systems Metadaten:
Repositorium 1 Ablage der Metadaten des Data – Warehouse – Systems Metadaten: beschreibende Informationen über Inhalt, Struktur, Kontext und Bedeutung von Daten aber auch prozessbezogene Informationen über die Verarbeitung dieser Daten Einteilung in Fachlich: dienen dem Endanwender helfen ihm Daten im DW zu verstehen, relevante Daten zu finden, Resultate der Auswertungen interpretieren (anwendungsspezifische Dokumentationen, domänenspezifisches Wissen, Thesauri etc.)

41 Beschreibung der logischen und physischen Datenbankschemata
Repositorium 2 Technisch: Beschreibung der logischen und physischen Datenbankschemata Integritätsbedingungen Implementierungsinformationen der verschiedenen Skripte für Extraktion, Transformation, Analyse garantieren Nachvollziehbarkeit Woher stammen die Daten im Data Warehouse Wie und wann wurden Daten geladen Überprüfbarkeit Richtigkeit und Qualität der Auswertung Änderungen in Quellsystemen und deren Auswirkungen auf die Analysesysteme lassen sich interpretieren und abschätzen metadaten kürzen

42 Transformationsphase Ladephase Analysephase
Phasen Monitoring Extraktionsphase Transformationsphase Ladephase Analysephase

43 Taxonomie der Qualitätsmerkmale
Datenqualität Taxonomie der Qualitätsmerkmale Datenqualität Glaubwürdigkeit Nützlichkeit Interpretierbarkeit Schlüsselintegrität Korrektheit Vollständigkeit Einheitlichkeit Schlüsseleindeutigkeit Konsistenz Genauigkeit Eindeutigkeit referentielle Integrität Zuverlässigkeit Zeitnähe Verständlichkeit Redundanzfreiheit

44 Datenqualität – Bereinigungsmaßnahmen (Cleansing)
Korrektheit Bei fehlerhaften Werten muss auf Werte aus der Realwelt zurückgegriffen werden, nur stichprobenartig sinnvoll Statistische Prozesskontrolle Konsistenz Bewertung erfordert domänenspezifisches Wissen Als Repräsentationsformen des Fachwissens kommen in Frage Geschäftsregeln Reguläre Ausdrücke Domänenspezifische Funktionen

45 Datenqualität - Bereinigungsmaßnahmen (Cleansing)
Vollständigkeit Nutzung domänenspezifischen Wissens zur Verbesserung der Vollständigkeit fehlende Werte sollten einheitlich repräsentiert werden NULL Werte sind allerdings nicht zwangsläufig ein Indiz für Datenqualitätsmängel unterschiedliche Semantiken von NULL: Es gibt kein Wert für das Attribut Attributwert ist zur Erfassungszeit nicht bekannt oder wurde aus bestimmten Gründen nicht erfasst Attributwert ist nicht bekannt

46 Datenqualität - Bereinigungsmaßnahmen (Cleansing)
Redundanzfreiheit Kann nur gemessen werden, wenn die Anzahl der in einem Datenbestand repräsentierten Entitäten der Realwelt bekannt ist und damit die Anzahl der Duplikate im Datenbestand abschätzbar ist veraltete Daten erkennen und löschen können bestimmt werden indem materialisierten Sichten analysiert werden Daten die diese Sichten nicht beeinflussen, können gelöscht werden

47 Datenqualität - Probleme

48 Zusammenfassung eine Referenzarchitektur ist idealtypisch, die Architektur realer Systeme weicht zum Teil stark von ihr ab eine Referenzarchitektur bietet jedoch Vergleichs- und Beschreibungsmöglichkeiten unter den Architekturansätzen ist insbesondere die Unterscheidung zwischen Data Warehouses und Data Marts wichtig der Wert von Analyseergebnissen hängt maßgeblich von der Datenqualität ab unter Cleansing versteht man alle Maßnahmen die der Sicherstellung von Korrektheit, Konsistenz, Vollständigkeit und Redundanzfreiheit von Auswertungsdaten dienen beim Cleansing ist der Einsatz von domänenspezifischen Wissen unabdingbar


Herunterladen ppt "Architektur von Data Warehouse Systemen"

Ähnliche Präsentationen


Google-Anzeigen