Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

Architektur von Data Warehouse - Systemen Blockseminar Data Warehousing 2005 Lehrstuhl für Datenbanken und Informationssysteme Rico Landefeld 1 Architektur.

Ähnliche Präsentationen


Präsentation zum Thema: "Architektur von Data Warehouse - Systemen Blockseminar Data Warehousing 2005 Lehrstuhl für Datenbanken und Informationssysteme Rico Landefeld 1 Architektur."—  Präsentation transkript:

1 Architektur von Data Warehouse - Systemen Blockseminar Data Warehousing 2005 Lehrstuhl für Datenbanken und Informationssysteme Rico Landefeld 1 Architektur von Data Warehouse Systemen Rico Landefeld Blockseminar Data Warehousing Lehrstuhl für Datenbanken und Informationssysteme

2 Architektur von Data Warehouse - Systemen Blockseminar Data Warehousing 2005 Lehrstuhl für Datenbanken und Informationssysteme Rico Landefeld 2 Referenzarchitektur  Motivation, Anforderungen, Aufbau Komponenten  Arten, Aufgaben Phasen  Monitoring, E xtract, T ransform, L oad, Analyse Datenqualität  Qualitätsmerkmale, Cleansing

3 Architektur von Data Warehouse - Systemen Blockseminar Data Warehousing 2005 Lehrstuhl für Datenbanken und Informationssysteme Rico Landefeld 3 Motivation, Einführung eine Architektur sollte:  robust gegen Änderungen sein  Anforderungen erfüllen  unabhängig von der Implementierung sein Referenzarchitektur  ermöglicht Vergleich von DW - Systemen und - Werkzeugen  Ausgangspunkt konkreter Implementierung  Mittel zur Beschreibung und Visualisierung

4 Architektur von Data Warehouse - Systemen Blockseminar Data Warehousing 2005 Lehrstuhl für Datenbanken und Informationssysteme Rico Landefeld 4 Anforderungen des Data Warehousings Verfügbarkeit Belastbarkeit Unabhängigkeit Persistenz Flexibilität Skalierbarkeit Mehrfachverwendbarkeit Individuelle Sichten Effizienz

5 Architektur von Data Warehouse - Systemen Blockseminar Data Warehousing 2005 Lehrstuhl für Datenbanken und Informationssysteme Rico Landefeld 5 Aufbau (Bauer, A; Günzel, H.)

6 Architektur von Data Warehouse - Systemen Blockseminar Data Warehousing 2005 Lehrstuhl für Datenbanken und Informationssysteme Rico Landefeld 6 Data Warehouse Manager

7 Architektur von Data Warehouse - Systemen Blockseminar Data Warehousing 2005 Lehrstuhl für Datenbanken und Informationssysteme Rico Landefeld 7 Data Warehouse Manager Zentrale Steuerung der Komponenten Initiierung, Steuerung und Kontrolle der DW – Prozesse  Datenbeschaffungsprozess periodisch bei Änderungen auf Anforderung  überwacht richtige Reihenfolge der ETL Prozesse bei evtl. Abhängigkeiten Fehlerfall  Dokumentation  Benachrichtigung  Wiederanlaufmechanismen zur Steuerung verwendet DWM Informationen aus dem Repositorium

8 Architektur von Data Warehouse - Systemen Blockseminar Data Warehousing 2005 Lehrstuhl für Datenbanken und Informationssysteme Rico Landefeld 8 Datenquelle

9 Architektur von Data Warehouse - Systemen Blockseminar Data Warehousing 2005 Lehrstuhl für Datenbanken und Informationssysteme Rico Landefeld 9 Datenquelle 1 Vertreter für ein oder mehrere zu integrierenden, meist heterogene reale Datenquellen Kein Bestandteil des Data Warehouse – Systems Auswahl der Quellen nach  Zweck des DW Systems  Qualität der Quelldaten  Verfügbarkeit (organisatorische und technische Voraussetzungen)  Kosten

10 Architektur von Data Warehouse - Systemen Blockseminar Data Warehousing 2005 Lehrstuhl für Datenbanken und Informationssysteme Rico Landefeld 10 Datenquelle 2 Klassifikation der Quelldaten  Herkunft  Zeit  Nutzungsebene (Primär- oder Metaebene)  Inhalt/ Datentyp nach inhaltl. Aspekten  Darstellung / Datentyp nach formalen Aspekten  Sprache und Zeichensatz  Technischer Zeichensatz  Schreiborientierung

11 Architektur von Data Warehouse - Systemen Blockseminar Data Warehousing 2005 Lehrstuhl für Datenbanken und Informationssysteme Rico Landefeld 11 Monitor

12 Architektur von Data Warehouse - Systemen Blockseminar Data Warehousing 2005 Lehrstuhl für Datenbanken und Informationssysteme Rico Landefeld 12 Monitor 1 Datenquellen nach Änderungsoperationen und deren Auswirkungen auf die für die Analyse im Data Warehouse relevanten Daten beobachten Änderungen müssen propagiert werden  Monitor liefert alle relevanten Informationen  Monitor liefert nur Hinweis Realisierung abhängig von Datenquelle  Systemgesteuerte Mechanismen Aktive Mechanismen Replikationsmechanismen –Snapshot basiert –Datenreplikation Protokollbasierte Entdeckung

13 Architektur von Data Warehouse - Systemen Blockseminar Data Warehousing 2005 Lehrstuhl für Datenbanken und Informationssysteme Rico Landefeld 13 Monitor 2  Anwendungsgesteuerte Mechanismen Zeitstempelbasierte Entdeckung Dateivergleich Implementierungsaspekte  Entdeckung aller Änderungen vs. Nettoeffekt  Benachrichtigung vs. Polling  Internes vs. externes Monitoring

14 Architektur von Data Warehouse - Systemen Blockseminar Data Warehousing 2005 Lehrstuhl für Datenbanken und Informationssysteme Rico Landefeld 14 Extraktions- komponente

15 Architektur von Data Warehouse - Systemen Blockseminar Data Warehousing 2005 Lehrstuhl für Datenbanken und Informationssysteme Rico Landefeld 15 Extraktionskomponente Übertragung der Quelldaten in den Arbeitsbereich Extraktionsprozess abhängig von der Monitoringstrategie Festlegung von Zeitpunkten der Extraktionen hängen von Semantik der Daten ab Strategien  Periodisch  Ereignisgesteuert  Sofortige Extraktion bei Änderung technische Realisierung über Schnittstellen (Netzwerk- und Standart Datenbankschnittstellen) Datenvolumen groß, Kompressionsstrategie und Ausnahmebehandlung wichtig

16 Architektur von Data Warehouse - Systemen Blockseminar Data Warehousing 2005 Lehrstuhl für Datenbanken und Informationssysteme Rico Landefeld 16 Arbeitsbereich

17 Architektur von Data Warehouse - Systemen Blockseminar Data Warehousing 2005 Lehrstuhl für Datenbanken und Informationssysteme Rico Landefeld 17 Arbeitsbereich Datenhaltungskomponente des Datenbeschaffungsbereich während der Datenbeschaffung werden Daten temporär im Arbeitsbereich zwischengespeichert Transformationen (Bereinigung, Integration) können ausgeführt werden ohne das Datenquellen oder Basisdatenbank beeinträchtigt werden Übertragung der Daten in die Basisdatenbank wenn Verarbeitung abgeschlossen

18 Architektur von Data Warehouse - Systemen Blockseminar Data Warehousing 2005 Lehrstuhl für Datenbanken und Informationssysteme Rico Landefeld 18 Transformations- komponente

19 Architektur von Data Warehouse - Systemen Blockseminar Data Warehousing 2005 Lehrstuhl für Datenbanken und Informationssysteme Rico Landefeld 19 Transformationskomponente 1 Quelldaten werden für die spätere Ablage in der Basisdatenbank oder im Data Warehouse aufbereitet Daten, Schemata und Datenqualität an Anwendungsanforderungen anpassen Anpassung umfasst  Schemaintegration Schemakonflikte: jegliche Inkonsistenzen die bei unterschiedlich modellierten Welten auf Schemaebene auftreten können Transformation in (de)normalisierte Datenstrukturen Schlüsselbehandlung –lokale Schlüssel werden auf Surrogate abgebildet –Behandlung von impliziter Semantik

20 Architektur von Data Warehouse - Systemen Blockseminar Data Warehousing 2005 Lehrstuhl für Datenbanken und Informationssysteme Rico Landefeld 20 Transformationskomponente 2  Datenintegration Überführung von Daten aus unterschiedlichen heterogenen Quelle in ein einheitliches Format durch –Anpassung von Datentypen –Konvertierung von Kodierungen –Vereinheitlichung von Zeichenketten –Vereinheitlichung von Datumsangaben –Umrechnung von Maßeinheiten –Kombination / Separierung von Attributwerte Erkennen von zusammengehörigen Datensätzen Behandlung / Vermeidung von Homonym und Synonymfehlern Berechnung abgeleiteter Werte Aggregierung von Werten (z.B. hinsichtlich Lokalität in Raum und Zeit)

21 Architektur von Data Warehouse - Systemen Blockseminar Data Warehousing 2005 Lehrstuhl für Datenbanken und Informationssysteme Rico Landefeld 21 Transformationskomponente 3  Datenbereinigung Quelldaten durch fehlerhafte, redundante, veraltete oder fehlende Daten verunreinigt Komponenten zur Datenbereinigung können in Kategorien eingeteilt werden –Data Scrubbing: unter Ausnutzung von domänenspezifischen Informationen (Geschäftsregeln) können Fehler erkannt und bereinigt werden –Data Auditing: unter Ausnutzung von Data - Mining Techniken wird versucht Zusammenhänge im Datenbestand aufzudecken und daraus Regeln abzuleiten - die Ausreißer von Regeln können potentielle Verunreinigungen sein

22 Architektur von Data Warehouse - Systemen Blockseminar Data Warehousing 2005 Lehrstuhl für Datenbanken und Informationssysteme Rico Landefeld 22 Lade- komponente

23 Architektur von Data Warehouse - Systemen Blockseminar Data Warehousing 2005 Lehrstuhl für Datenbanken und Informationssysteme Rico Landefeld 23 Ladekomponenten 1 nach Datentransformation befinden sich aufbereitete Daten im Arbeitsbereich zwei Komponenten sind für das Weiterleiten zuständig  Ladekomponente Arbeitsbereich -> Basisdatenbank  Ladekomponente Basisdatenbank -> Data Warehouse Basisdatenbank wird zum großen Teil mit Detaildaten gefüllt Aktualisierung der materialisierten Sichten im Data Warehouse  Änderungen in der Basisdatenbank müssen sich auf die materialisierten Sichten des Data Warehouses übertragen  Neuberechnung vs. inkrementelle Aktualisierung  selbstwartbare Sichten

24 Architektur von Data Warehouse - Systemen Blockseminar Data Warehousing 2005 Lehrstuhl für Datenbanken und Informationssysteme Rico Landefeld 24 Ladekomponenten 2 Effizienz des Ladens hat eine große Auswirkung auf alle beteiligten Systeme  effizientes Laden über Bulk Loader, optimiert auf Datendurchsatz  Ladephasen in einem günstigen Zeitfenster (Nachts, Wochenende)  Belastung der Systeme kann mit Partitionierung, Parallelisierung und inkrementellen Sichtenaktualisierung begegnet werden  Unterscheidung zwischen Offline und Online Ladevorgängen

25 Architektur von Data Warehouse - Systemen Blockseminar Data Warehousing 2005 Lehrstuhl für Datenbanken und Informationssysteme Rico Landefeld 25 Basisdatenbank

26 Architektur von Data Warehouse - Systemen Blockseminar Data Warehousing 2005 Lehrstuhl für Datenbanken und Informationssysteme Rico Landefeld 26 Basisdatenbank Sammel und Integrationsfunktion (zentrales Datenlager) Distributionsfunktion (Versorgung der Data Warehouses) kann auch zur Analyse eingesetzt werden ermöglicht Mehrfachverwendung der Daten und Flexibilität Verteilungsfunktion kann mit Nabespeicher – Architektur veranschaulicht werden

27 Architektur von Data Warehouse - Systemen Blockseminar Data Warehousing 2005 Lehrstuhl für Datenbanken und Informationssysteme Rico Landefeld 27 Data Warehouse

28 Architektur von Data Warehouse - Systemen Blockseminar Data Warehousing 2005 Lehrstuhl für Datenbanken und Informationssysteme Rico Landefeld 28 Data Warehouse für Analysezwecke aufgebaute Datenbank stellt die für die Analysen des Anwenders notwendigen Daten den Analyseprozessen in geeigneter Form zur Verfügung unterstützt Analyseprozesse auch mit Funktionen zur Verarbeitung der Daten Realisierung mit DBMS zur Strukturierung der Daten hat sich für viele Problemstellungen das multidimensionale Datenmodell als zweckmäßig erwiesen

29 Architektur von Data Warehouse - Systemen Blockseminar Data Warehousing 2005 Lehrstuhl für Datenbanken und Informationssysteme Rico Landefeld 29 Data Marts Integration von Unternehmensdaten (globale Sicht) als zentralistische Lösung problematisch hinsichtlich Skalierung Grundidee inhaltlich beschränkten Fokus des Unternehmens oder eine Abteilung als Teilsicht eines Data Warehouses abzubilden Gründe:  Datenschutzaspekte durch Teilsicht auf die Daten  Organisatorische Aspekte  Verringerung des Datenvolumens  Performanzgewinn durch Aggregation  Verteilung der Last  Unabhängigkeit von den Aktualisierungszyklen des Data Warehouse Unterscheidung in abhängige und unabhängige Data Marts

30 Architektur von Data Warehouse - Systemen Blockseminar Data Warehousing 2005 Lehrstuhl für Datenbanken und Informationssysteme Rico Landefeld 30 Abhängige Data Marts enthalten nur Extrakte des Data Warehouses keine Normierung und Datenbereinigung strukturelle Konsistenz mit Data Warehouse Zusammenschluss von Data Marts zu einem virtuellen Data Warehouse möglich Unterschiedliche Extrakte möglich:  Struktureller Extrakt  Inhaltlicher Extrakt  Aggregierter Extrakt

31 Architektur von Data Warehouse - Systemen Blockseminar Data Warehousing 2005 Lehrstuhl für Datenbanken und Informationssysteme Rico Landefeld 31 Unabhängige Data Marts es wird auf eine Basisdatenbank verzichtet geringere Komplexität Nachteile:  spätere Data Mart übergreifende Analysen problematisch da keine gemeinsame Sicht auf die Quelldaten  Verschleppung von Konsistenz- und Integrationsproblemen

32 Architektur von Data Warehouse - Systemen Blockseminar Data Warehousing 2005 Lehrstuhl für Datenbanken und Informationssysteme Rico Landefeld 32 Analyse- komponente

33 Architektur von Data Warehouse - Systemen Blockseminar Data Warehousing 2005 Lehrstuhl für Datenbanken und Informationssysteme Rico Landefeld 33 Analysekomponente 1 Anwendung von Analysefunktionen auf ausgewählte Daten zur Generierung von neuen Informationen Aufbereitung, Veränderung und Bereitstellung der Ergebnisse zwecks Weiterverarbeitung in anderen Systemen oder die Weitergabe an andere Personen oder Instanzen Ergebnisse von Analysen können wieder in die Basisdatenbank bzw. Data Warehouse zurückgeführt werden  die Qualität der Datenbasis erhöht  zukünftige Analysen verbessert

34 Architektur von Data Warehouse - Systemen Blockseminar Data Warehousing 2005 Lehrstuhl für Datenbanken und Informationssysteme Rico Landefeld 34 Analysekomponente 2 Analysewerkzeuge (Business Intelligence Tools) dienen der Präsentation der gesammelten Daten mit interaktiven Navigations- und Analysemöglichkeiten Darstellungsformen:  Tabellen  Grafiken  Text Funktionen lassen sich hinsichtlich ihrer Komplexität in 3 Kategorien einordnen  Data Access (z.B. Reporting) zur Ermittlung von Anfrageergebnissen werden Datenmanipulationssprachen eingesetzt meist in Informations-, Planungs-, und Berichtssysteme integriert Anfragekomplexität ähnlich OLTP

35 Architektur von Data Warehouse - Systemen Blockseminar Data Warehousing 2005 Lehrstuhl für Datenbanken und Informationssysteme Rico Landefeld 35 Analysekomponente 3  OLAP Dynamischer, flexibler und interaktiver Zugriff auf eine Vielzahl von Einträgen Multidimensionales Datenmodell –spezifischen Anfrageoperatoren und –techniken, die den Begriff OLAP charakterisieren, werden in multidimensionalen Datenstrukturen abgebildet Grundstein wurde durch Coddsche Regeln von Edgar F. Codd gelegt

36 Architektur von Data Warehouse - Systemen Blockseminar Data Warehousing 2005 Lehrstuhl für Datenbanken und Informationssysteme Rico Landefeld 36 Analysekomponente 4  Data Mining Ermittlung von Beziehungsmustern Abbildung durch logische oder funktionale Beziehungszusammenhänge Ermittlung und Abbildung von Beziehungszusammenhängen in Form eines Modells Verfahren –Clusterbildung, Klassifikation, Regression, Abhängigkeitsentdeckung und Abweichungsentdeckung

37 Architektur von Data Warehouse - Systemen Blockseminar Data Warehousing 2005 Lehrstuhl für Datenbanken und Informationssysteme Rico Landefeld 37 Metadaten Manager

38 Architektur von Data Warehouse - Systemen Blockseminar Data Warehousing 2005 Lehrstuhl für Datenbanken und Informationssysteme Rico Landefeld 38 Metadaten – Manager steuert die Metadatenverwaltung des Data Warehouse Systems wird als Datenbankanwendung für Metadaten definiert die  Versions- und Konfigurationsmanagement  Integrations-, Zugriffs-, Anfrage-, und Navigationsmöglichkeiten bieten metadatengetriebener Prozess  wenn vollständig ausführbare Spezifikationen (Transformationen, Abbildungen) der Datenverarbeitungsschritte als Metadaten gespeichert werden und diese von Werkzeugen interpretiert und ausgeführt werden können  Kontrollfluss zwischen Metadaten Manager und Data Warehouse Manager automatische Aktualisierung der Metadaten sinnvoll damit Datenfluss aus Datenquellen erhalten bleibt

39 Architektur von Data Warehouse - Systemen Blockseminar Data Warehousing 2005 Lehrstuhl für Datenbanken und Informationssysteme Rico Landefeld 39 Repositorium

40 Architektur von Data Warehouse - Systemen Blockseminar Data Warehousing 2005 Lehrstuhl für Datenbanken und Informationssysteme Rico Landefeld 40 Repositorium 1 Ablage der Metadaten des Data – Warehouse – Systems Metadaten:  beschreibende Informationen über Inhalt, Struktur, Kontext und Bedeutung von Daten aber auch prozessbezogene Informationen über die Verarbeitung dieser Daten  Einteilung in Fachlich : –dienen dem Endanwender –helfen ihm Daten im DW zu verstehen, relevante Daten zu finden, Resultate der Auswertungen interpretieren (anwendungsspezifische Dokumentationen, domänenspezifisches Wissen, Thesauri etc.)

41 Architektur von Data Warehouse - Systemen Blockseminar Data Warehousing 2005 Lehrstuhl für Datenbanken und Informationssysteme Rico Landefeld 41 Repositorium 2 Technisch : –Beschreibung der logischen und physischen Datenbankschemata –Integritätsbedingungen –Implementierungsinformationen der verschiedenen Skripte für Extraktion, Transformation, Analyse  garantieren Nachvollziehbarkeit –Woher stammen die Daten im Data Warehouse –Wie und wann wurden Daten geladen Überprüfbarkeit –Richtigkeit und Qualität der Auswertung  Änderungen in Quellsystemen und deren Auswirkungen auf die Analysesysteme lassen sich interpretieren und abschätzen

42 Architektur von Data Warehouse - Systemen Blockseminar Data Warehousing 2005 Lehrstuhl für Datenbanken und Informationssysteme Rico Landefeld 42 Phasen Monitoring E xtraktionsphase T ransformationsphase L adephase Analysephase

43 Architektur von Data Warehouse - Systemen Blockseminar Data Warehousing 2005 Lehrstuhl für Datenbanken und Informationssysteme Rico Landefeld 43 Datenqualität GlaubwürdigkeitNützlichkeitInterpretierbarkeitSchlüsselintegrität Korrektheit Konsistenz Zuverlässigkeit Vollständigkeit Genauigkeit Zeitnähe Redundanzfreiheit Einheitlichkeit Eindeutigkeit Verständlichkeit Schlüsseleindeutigkeit referentielle Integrität Taxonomie der Qualitätsmerkmale

44 Architektur von Data Warehouse - Systemen Blockseminar Data Warehousing 2005 Lehrstuhl für Datenbanken und Informationssysteme Rico Landefeld 44 Datenqualität – Bereinigungsmaßnahmen (Cleansing) Korrektheit  Bei fehlerhaften Werten muss auf Werte aus der Realwelt zurückgegriffen werden, nur stichprobenartig sinnvoll  Statistische Prozesskontrolle Konsistenz  Bewertung erfordert domänenspezifisches Wissen  Als Repräsentationsformen des Fachwissens kommen in Frage Geschäftsregeln Reguläre Ausdrücke Domänenspezifische Funktionen

45 Architektur von Data Warehouse - Systemen Blockseminar Data Warehousing 2005 Lehrstuhl für Datenbanken und Informationssysteme Rico Landefeld 45 Datenqualität - Bereinigungsmaßnahmen (Cleansing) Vollständigkeit  Nutzung domänenspezifischen Wissens zur Verbesserung der Vollständigkeit  fehlende Werte sollten einheitlich repräsentiert werden  NULL Werte sind allerdings nicht zwangsläufig ein Indiz für Datenqualitätsmängel  unterschiedliche Semantiken von NULL: Es gibt kein Wert für das Attribut Attributwert ist zur Erfassungszeit nicht bekannt oder wurde aus bestimmten Gründen nicht erfasst Attributwert ist nicht bekannt

46 Architektur von Data Warehouse - Systemen Blockseminar Data Warehousing 2005 Lehrstuhl für Datenbanken und Informationssysteme Rico Landefeld 46 Datenqualität - Bereinigungsmaßnahmen (Cleansing) Redundanzfreiheit  Kann nur gemessen werden, wenn die Anzahl der in einem Datenbestand repräsentierten Entitäten der Realwelt bekannt ist und damit die Anzahl der Duplikate im Datenbestand abschätzbar ist veraltete Daten erkennen und löschen  können bestimmt werden indem materialisierten Sichten analysiert werden  Daten die diese Sichten nicht beeinflussen, können gelöscht werden

47 Architektur von Data Warehouse - Systemen Blockseminar Data Warehousing 2005 Lehrstuhl für Datenbanken und Informationssysteme Rico Landefeld 47 Datenqualität - Probleme

48 Architektur von Data Warehouse - Systemen Blockseminar Data Warehousing 2005 Lehrstuhl für Datenbanken und Informationssysteme Rico Landefeld 48 Zusammenfassung eine Referenzarchitektur ist idealtypisch, die Architektur realer Systeme weicht zum Teil stark von ihr ab eine Referenzarchitektur bietet jedoch Vergleichs- und Beschreibungsmöglichkeiten unter den Architekturansätzen ist insbesondere die Unterscheidung zwischen Data Warehouses und Data Marts wichtig der Wert von Analyseergebnissen hängt maßgeblich von der Datenqualität ab unter Cleansing versteht man alle Maßnahmen die der Sicherstellung von Korrektheit, Konsistenz, Vollständigkeit und Redundanzfreiheit von Auswertungsdaten dienen beim Cleansing ist der Einsatz von domänenspezifischen Wissen unabdingbar


Herunterladen ppt "Architektur von Data Warehouse - Systemen Blockseminar Data Warehousing 2005 Lehrstuhl für Datenbanken und Informationssysteme Rico Landefeld 1 Architektur."

Ähnliche Präsentationen


Google-Anzeigen