Architektur von Data Warehouse Systemen

Slides:



Advertisements
Ähnliche Präsentationen
Stefan Lohrum Konrad-Zuse-Zentrum für Informationstechnik Berlin (ZIB)
Advertisements

Partitionierungstechniken in Datenbanksystemen
Datenbankdesign mit ACCESS.
Daten im Data-Warehouse
Vorgehensmodell - Wasserfallmodell
Heterogene Informationssysteme
Daten- und Informationsqualität. © Prof. T. Kudraß, HTWK Leipzig Management der Informationsqualität Keine verbindlichen Standards oder Vorgaben für Informationsqualität.
2. Data-Warehouse-Architektur
spezielle Nutzersichten formale Ebene (deskriptive Regeln)
Datenmodellierung Externe Phase Informationsstruktur
Das „Vorgehensmodell“
Universität Rostock Fakultät für Informatik und Elektrotechnik Institut für Informatik, Lehrstuhl DBIS Albert-Einstein-Straße 21, D Rostock Putbus,
ACN Closing Cockpit Andrea Mokesch
Problemstellung und Lösungsansätze
Institut für Informatik Abteilung Datenbanken Problemseminar Datacleaning Überblick Datacleaning.
Inhaltlich orientierter Zugriff auf unstrukturierte Daten
Ulrich Kähler, DFN-Verein
Das Entity-Relationship-Modell
Harmonisierung von Ontologien Martin Zobel. Was versteht man in der Informatik unter einer Ontologie? Wikipedia: Unter Ontologie versteht man in der Informatik.
Objektrelationales Mapping mit JPA Testing Jonas Bandi Simon Martinelli.
Konzeption und Realisierung eines Text- Analysesystems zur Automatisierung der Bewerberauswahl von diesem Datenformat jede beliebige Anwendung adaptieren.
Wissensmanagement mit semantischen Netzen – Analyse und Vergleich verschiedener Softwarelösungen Autor: Holger Wilhelm Referentin: Prof. Dr. Uta Störl.
LE LM 10 - LO3 Verfahren zur Qualitätssicherung
Anfragesprachen – Dipl. Ing. Ulrich Borchert / FH Merseburg1/7 Datenbanken werden als Anhäufung von Werten eines Wertebereiches aufgefasst und Datenbankabfragen.
Erweiterte Datenmodelle Referentin: Lena Becker HS: Datenbanken vs. Markup Datum:
Datenbankdesign und Normalisierung
Daten bank St. Wiedemann.
Datenbankentwurf mit Hilfe des ER-Modells entwickeln
Datenmodelle, Datenbanksprachen und Datenbankmanagementsysteme
Entscheidungsunterstützende Systeme (Data Warehouse)
Access 2000 Datenbanken.
Einführung von Groupware
Datenbankentwurfsprozess
M A P K I T Management eines J2EE basierten eCommerce Systems am Beispiel des ATG Dynamo Applikationsservers und BMC Patrol als Managementframework.
Phase 1 Phase 2 Prozessmanagement
Prof. Dr. Gerhard Schmidt pres. by H.-J. Steffens Software Engineering SS 2009Folie 1 Systementwurf Überblick: Entwicklung der globalen Problemlösungsstrategie.
Vorgehensmodelle: Schwergewichtige Modelle
Spezifikation von Anforderungen
Das Wasserfallmodell - Überblick
Entwurf und Realisierung einer digitalen Bibliothek zur Verwaltung von Notenhandschriften Dipl.-Ing. Temenushka Ignatova Datenbank- und Informationssysteme,
Qualitätskontrolle von Datenintegrations-prozessen
Sistema GeoDAT, S.L. GeoBIS, GeoEIS, GIS-Komponente … 2005.
Geo-Informations-Systeme
Prototypentwicklung für ein Testmanagementsystem
Problemstellung Heterogene DV-Strukturen Mangelnde Kapazität in der EDV-Abteilung Historische Daten nicht verfügbar Analysen belasten die vorhandene Infrastruktur.
GIS - Seminar Wintersemester 2000/2001
Überblick über die Datenbankproblematik
Allgemeines zu Datenbanken
UML-Kurzüberblick Peter Brusten.
Replikation und Synchronisation
Skalierbare Reporting-Systeme zwischen Excel™ und Data Warehouse
Paradigmenwechsel in der Unternehmensmodellierung Prof. Dr. Wolfgang Voigt Dipl.-Ing. Päd. Alexander Huwaldt UML Extrakt UML Seminar, Chemnitz
Archiv Def: Siehe Digitales Langzeitarchiv.
00:13 Matthias Ansorg FH Gießen-Friedberg1 / 24 Multidimensionale Datenstrukturen - semantische und logische Modellierung Teilvortrag: logische Modellierung.
GSE-Working Group "Software Engineering 10. November 2008, DKV, Köln Thomas Zeh, E. Merck, Darmstadt Referenzmodell für die Architektur von Data-Warehouse-Systemen.
verstehen planen bearbeiten
Normalisierungsprozess
Mehr Zeit für den Kunden und wirtschaftlicher Arbeiten mit BIB-Control
Software Engineering Grundlagen
Eike Schallehn, Martin Endig
Eike Schallehn, Martin Endig
1 Zahlreiche Transformationen - Achtung Hochspannung Meike Klettke.
SS 2015 – IBB4C Datenmanagement Fr 17:00 – 18:30 R Vorlesung #1 Datenmanagement.
Interoperabilität in Digitalen
Komponenten und Phasen des Data Warehousing
Comprehensive Information Base (CIB) – ein Prototyp zur semantischen Datenintegration Stefan Arts
/Folie 1Holger Frietsch Historisierung von Zuordnungsänderungen für Dimensionen in relationalen ORACLE8-Data Warehouse- Datenbanken Holger Frietsch.
Business Intelligence Data Warehouse
 Präsentation transkript:

Architektur von Data Warehouse Systemen Rico Landefeld Blockseminar Data Warehousing Lehrstuhl für Datenbanken und Informationssysteme

Referenzarchitektur Motivation, Anforderungen, Aufbau Komponenten Arten, Aufgaben Phasen Monitoring, Extract,Transform, Load, Analyse Datenqualität Qualitätsmerkmale, Cleansing

Motivation, Einführung eine Architektur sollte: robust gegen Änderungen sein Anforderungen erfüllen unabhängig von der Implementierung sein Referenzarchitektur ermöglicht Vergleich von DW - Systemen und - Werkzeugen Ausgangspunkt konkreter Implementierung Mittel zur Beschreibung und Visualisierung

Anforderungen des Data Warehousings Verfügbarkeit Belastbarkeit Unabhängigkeit Persistenz Flexibilität Skalierbarkeit Mehrfachverwendbarkeit Individuelle Sichten Effizienz

Aufbau (Bauer, A; Günzel, H.)

Data Warehouse Manager

Data Warehouse Manager Zentrale Steuerung der Komponenten Initiierung, Steuerung und Kontrolle der DW – Prozesse Datenbeschaffungsprozess periodisch bei Änderungen auf Anforderung überwacht richtige Reihenfolge der ETL Prozesse bei evtl. Abhängigkeiten Fehlerfall Dokumentation Benachrichtigung Wiederanlaufmechanismen zur Steuerung verwendet DWM Informationen aus dem Repositorium

Datenquelle

Kein Bestandteil des Data Warehouse – Systems Auswahl der Quellen nach Datenquelle 1 Vertreter für ein oder mehrere zu integrierenden, meist heterogene reale Datenquellen Kein Bestandteil des Data Warehouse – Systems Auswahl der Quellen nach Zweck des DW Systems Qualität der Quelldaten Verfügbarkeit (organisatorische und technische Voraussetzungen) Kosten

Klassifikation der Quelldaten Herkunft Zeit Datenquelle 2 Klassifikation der Quelldaten Herkunft Zeit Nutzungsebene (Primär- oder Metaebene) Inhalt/ Datentyp nach inhaltl. Aspekten Darstellung / Datentyp nach formalen Aspekten Sprache und Zeichensatz Technischer Zeichensatz Schreiborientierung

Monitor

Monitor 1 Datenquellen nach Änderungsoperationen und deren Auswirkungen auf die für die Analyse im Data Warehouse relevanten Daten beobachten Änderungen müssen propagiert werden Monitor liefert alle relevanten Informationen Monitor liefert nur Hinweis Realisierung abhängig von Datenquelle Systemgesteuerte Mechanismen Aktive Mechanismen Replikationsmechanismen Snapshot basiert Datenreplikation Protokollbasierte Entdeckung

Anwendungsgesteuerte Mechanismen Zeitstempelbasierte Entdeckung Monitor 2 Anwendungsgesteuerte Mechanismen Zeitstempelbasierte Entdeckung Dateivergleich Implementierungsaspekte Entdeckung aller Änderungen vs. Nettoeffekt Benachrichtigung vs. Polling Internes vs. externes Monitoring

Extraktions- komponente

Extraktionskomponente Übertragung der Quelldaten in den Arbeitsbereich Extraktionsprozess abhängig von der Monitoringstrategie Festlegung von Zeitpunkten der Extraktionen hängen von Semantik der Daten ab Strategien Periodisch Ereignisgesteuert Sofortige Extraktion bei Änderung technische Realisierung über Schnittstellen (Netzwerk- und Standart Datenbankschnittstellen) Datenvolumen groß, Kompressionsstrategie und Ausnahmebehandlung wichtig

Arbeitsbereich

Datenhaltungskomponente des Datenbeschaffungsbereich Arbeitsbereich Datenhaltungskomponente des Datenbeschaffungsbereich während der Datenbeschaffung werden Daten temporär im Arbeitsbereich zwischengespeichert Transformationen (Bereinigung, Integration) können ausgeführt werden ohne das Datenquellen oder Basisdatenbank beeinträchtigt werden Übertragung der Daten in die Basisdatenbank wenn Verarbeitung abgeschlossen

Transformations- komponente

Transformationskomponente 1 Quelldaten werden für die spätere Ablage in der Basisdatenbank oder im Data Warehouse aufbereitet Daten, Schemata und Datenqualität an Anwendungsanforderungen anpassen Anpassung umfasst Schemaintegration Schemakonflikte: jegliche Inkonsistenzen die bei unterschiedlich modellierten Welten auf Schemaebene auftreten können Transformation in (de)normalisierte Datenstrukturen Schlüsselbehandlung lokale Schlüssel werden auf Surrogate abgebildet Behandlung von impliziter Semantik

Transformationskomponente 2 Datenintegration Überführung von Daten aus unterschiedlichen heterogenen Quelle in ein einheitliches Format durch Anpassung von Datentypen Konvertierung von Kodierungen Vereinheitlichung von Zeichenketten Vereinheitlichung von Datumsangaben Umrechnung von Maßeinheiten Kombination / Separierung von Attributwerte Erkennen von zusammengehörigen Datensätzen Behandlung / Vermeidung von Homonym und Synonymfehlern Berechnung abgeleiteter Werte Aggregierung von Werten (z.B. hinsichtlich Lokalität in Raum und Zeit)

Transformationskomponente 3 Datenbereinigung Quelldaten durch fehlerhafte, redundante, veraltete oder fehlende Daten verunreinigt Komponenten zur Datenbereinigung können in Kategorien eingeteilt werden Data Scrubbing: unter Ausnutzung von domänenspezifischen Informationen (Geschäftsregeln) können Fehler erkannt und bereinigt werden Data Auditing: unter Ausnutzung von Data - Mining Techniken wird versucht Zusammenhänge im Datenbestand aufzudecken und daraus Regeln abzuleiten - die Ausreißer von Regeln können potentielle Verunreinigungen sein

Lade- komponente

zwei Komponenten sind für das Weiterleiten zuständig Ladekomponenten 1 nach Datentransformation befinden sich aufbereitete Daten im Arbeitsbereich zwei Komponenten sind für das Weiterleiten zuständig Ladekomponente Arbeitsbereich -> Basisdatenbank Ladekomponente Basisdatenbank -> Data Warehouse Basisdatenbank wird zum großen Teil mit Detaildaten gefüllt Aktualisierung der materialisierten Sichten im Data Warehouse Änderungen in der Basisdatenbank müssen sich auf die materialisierten Sichten des Data Warehouses übertragen Neuberechnung vs. inkrementelle Aktualisierung selbstwartbare Sichten sagen was materialisierte sichten sind

effizientes Laden über Bulk Loader, optimiert auf Datendurchsatz Ladekomponenten 2 Effizienz des Ladens hat eine große Auswirkung auf alle beteiligten Systeme effizientes Laden über Bulk Loader, optimiert auf Datendurchsatz Ladephasen in einem günstigen Zeitfenster (Nachts, Wochenende) Belastung der Systeme kann mit Partitionierung, Parallelisierung und inkrementellen Sichtenaktualisierung begegnet werden Unterscheidung zwischen Offline und Online Ladevorgängen

Basisdatenbank

Sammel und Integrationsfunktion (zentrales Datenlager) Basisdatenbank Sammel und Integrationsfunktion (zentrales Datenlager) Distributionsfunktion (Versorgung der Data Warehouses) kann auch zur Analyse eingesetzt werden ermöglicht Mehrfachverwendung der Daten und Flexibilität Verteilungsfunktion kann mit Nabespeicher – Architektur veranschaulicht werden

Data Warehouse

für Analysezwecke aufgebaute Datenbank Data Warehouse für Analysezwecke aufgebaute Datenbank stellt die für die Analysen des Anwenders notwendigen Daten den Analyseprozessen in geeigneter Form zur Verfügung unterstützt Analyseprozesse auch mit Funktionen zur Verarbeitung der Daten Realisierung mit DBMS zur Strukturierung der Daten hat sich für viele Problemstellungen das multidimensionale Datenmodell als zweckmäßig erwiesen

Data Marts Integration von Unternehmensdaten (globale Sicht) als zentralistische Lösung problematisch hinsichtlich Skalierung Grundidee inhaltlich beschränkten Fokus des Unternehmens oder eine Abteilung als Teilsicht eines Data Warehouses abzubilden Gründe: Datenschutzaspekte durch Teilsicht auf die Daten Organisatorische Aspekte Verringerung des Datenvolumens Performanzgewinn durch Aggregation Verteilung der Last Unabhängigkeit von den Aktualisierungszyklen des Data Warehouse Unterscheidung in abhängige und unabhängige Data Marts

enthalten nur Extrakte des Data Warehouses Abhängige Data Marts enthalten nur Extrakte des Data Warehouses keine Normierung und Datenbereinigung strukturelle Konsistenz mit Data Warehouse Zusammenschluss von Data Marts zu einem virtuellen Data Warehouse möglich Unterschiedliche Extrakte möglich: Struktureller Extrakt Inhaltlicher Extrakt Aggregierter Extrakt

Unabhängige Data Marts es wird auf eine Basisdatenbank verzichtet geringere Komplexität Nachteile: spätere Data Mart übergreifende Analysen problematisch da keine gemeinsame Sicht auf die Quelldaten Verschleppung von Konsistenz- und Integrationsproblemen

Analyse- komponente

die Qualität der Datenbasis erhöht zukünftige Analysen verbessert Analysekomponente 1 Anwendung von Analysefunktionen auf ausgewählte Daten zur Generierung von neuen Informationen Aufbereitung, Veränderung und Bereitstellung der Ergebnisse zwecks Weiterverarbeitung in anderen Systemen oder die Weitergabe an andere Personen oder Instanzen Ergebnisse von Analysen können wieder in die Basisdatenbank bzw. Data Warehouse zurückgeführt werden die Qualität der Datenbasis erhöht zukünftige Analysen verbessert nochmal rückkopplung anschauen

Analysekomponente 2 Analysewerkzeuge (Business Intelligence Tools) dienen der Präsentation der gesammelten Daten mit interaktiven Navigations- und Analysemöglichkeiten Darstellungsformen: Tabellen Grafiken Text Funktionen lassen sich hinsichtlich ihrer Komplexität in 3 Kategorien einordnen Data Access (z.B. Reporting) zur Ermittlung von Anfrageergebnissen werden Datenmanipulationssprachen eingesetzt meist in Informations-, Planungs-, und Berichtssysteme integriert Anfragekomplexität ähnlich OLTP

Multidimensionales Datenmodell Analysekomponente 3 OLAP Dynamischer, flexibler und interaktiver Zugriff auf eine Vielzahl von Einträgen Multidimensionales Datenmodell spezifischen Anfrageoperatoren und –techniken, die den Begriff OLAP charakterisieren, werden in multidimensionalen Datenstrukturen abgebildet Grundstein wurde durch Coddsche Regeln von Edgar F. Codd gelegt

Ermittlung von Beziehungsmustern Analysekomponente 4 Data Mining Ermittlung von Beziehungsmustern Abbildung durch logische oder funktionale Beziehungszusammenhänge Ermittlung und Abbildung von Beziehungszusammenhängen in Form eines Modells Verfahren Clusterbildung, Klassifikation, Regression, Abhängigkeitsentdeckung und Abweichungsentdeckung

Metadaten Manager

steuert die Metadatenverwaltung des Data Warehouse Systems Metadaten – Manager steuert die Metadatenverwaltung des Data Warehouse Systems wird als Datenbankanwendung für Metadaten definiert die Versions- und Konfigurationsmanagement Integrations-, Zugriffs-, Anfrage-, und Navigationsmöglichkeiten bieten metadatengetriebener Prozess wenn vollständig ausführbare Spezifikationen (Transformationen, Abbildungen) der Datenverarbeitungsschritte als Metadaten gespeichert werden und diese von Werkzeugen interpretiert und ausgeführt werden können Kontrollfluss zwischen Metadaten Manager und Data Warehouse Manager automatische Aktualisierung der Metadaten sinnvoll damit Datenfluss aus Datenquellen erhalten bleibt

Repositorium

Ablage der Metadaten des Data – Warehouse – Systems Metadaten: Repositorium 1 Ablage der Metadaten des Data – Warehouse – Systems Metadaten: beschreibende Informationen über Inhalt, Struktur, Kontext und Bedeutung von Daten aber auch prozessbezogene Informationen über die Verarbeitung dieser Daten Einteilung in Fachlich: dienen dem Endanwender helfen ihm Daten im DW zu verstehen, relevante Daten zu finden, Resultate der Auswertungen interpretieren (anwendungsspezifische Dokumentationen, domänenspezifisches Wissen, Thesauri etc.)

Beschreibung der logischen und physischen Datenbankschemata Repositorium 2 Technisch: Beschreibung der logischen und physischen Datenbankschemata Integritätsbedingungen Implementierungsinformationen der verschiedenen Skripte für Extraktion, Transformation, Analyse garantieren Nachvollziehbarkeit Woher stammen die Daten im Data Warehouse Wie und wann wurden Daten geladen Überprüfbarkeit Richtigkeit und Qualität der Auswertung Änderungen in Quellsystemen und deren Auswirkungen auf die Analysesysteme lassen sich interpretieren und abschätzen metadaten kürzen

Transformationsphase Ladephase Analysephase Phasen Monitoring Extraktionsphase Transformationsphase Ladephase Analysephase

Taxonomie der Qualitätsmerkmale Datenqualität Taxonomie der Qualitätsmerkmale Datenqualität Glaubwürdigkeit Nützlichkeit Interpretierbarkeit Schlüsselintegrität Korrektheit Vollständigkeit Einheitlichkeit Schlüsseleindeutigkeit Konsistenz Genauigkeit Eindeutigkeit referentielle Integrität Zuverlässigkeit Zeitnähe Verständlichkeit Redundanzfreiheit

Datenqualität – Bereinigungsmaßnahmen (Cleansing) Korrektheit Bei fehlerhaften Werten muss auf Werte aus der Realwelt zurückgegriffen werden, nur stichprobenartig sinnvoll Statistische Prozesskontrolle Konsistenz Bewertung erfordert domänenspezifisches Wissen Als Repräsentationsformen des Fachwissens kommen in Frage Geschäftsregeln Reguläre Ausdrücke Domänenspezifische Funktionen

Datenqualität - Bereinigungsmaßnahmen (Cleansing) Vollständigkeit Nutzung domänenspezifischen Wissens zur Verbesserung der Vollständigkeit fehlende Werte sollten einheitlich repräsentiert werden NULL Werte sind allerdings nicht zwangsläufig ein Indiz für Datenqualitätsmängel unterschiedliche Semantiken von NULL: Es gibt kein Wert für das Attribut Attributwert ist zur Erfassungszeit nicht bekannt oder wurde aus bestimmten Gründen nicht erfasst Attributwert ist nicht bekannt

Datenqualität - Bereinigungsmaßnahmen (Cleansing) Redundanzfreiheit Kann nur gemessen werden, wenn die Anzahl der in einem Datenbestand repräsentierten Entitäten der Realwelt bekannt ist und damit die Anzahl der Duplikate im Datenbestand abschätzbar ist veraltete Daten erkennen und löschen können bestimmt werden indem materialisierten Sichten analysiert werden Daten die diese Sichten nicht beeinflussen, können gelöscht werden

Datenqualität - Probleme

Zusammenfassung eine Referenzarchitektur ist idealtypisch, die Architektur realer Systeme weicht zum Teil stark von ihr ab eine Referenzarchitektur bietet jedoch Vergleichs- und Beschreibungsmöglichkeiten unter den Architekturansätzen ist insbesondere die Unterscheidung zwischen Data Warehouses und Data Marts wichtig der Wert von Analyseergebnissen hängt maßgeblich von der Datenqualität ab unter Cleansing versteht man alle Maßnahmen die der Sicherstellung von Korrektheit, Konsistenz, Vollständigkeit und Redundanzfreiheit von Auswertungsdaten dienen beim Cleansing ist der Einsatz von domänenspezifischen Wissen unabdingbar