Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

Komponenten und Phasen des Data Warehousing

Ähnliche Präsentationen


Präsentation zum Thema: "Komponenten und Phasen des Data Warehousing"—  Präsentation transkript:

1 Komponenten und Phasen des Data Warehousing
Simon König

2 Einführung Arbeitskreis „Konzepte des Data Warehousing“ der GI Ziele
Schaffung einer einheitlichen Terminologie Ausgangspunkt für den Vergleich bestehender und die Empfehlung für geplante Data-Warehouse-Systeme Referenzarchitektur soll auf bestehende wie auf zukünftige Architekuren passen Zeigen der Referenzarchitektur, der Phasen und Komponenten, Basisdatenbank zentral, Unterschied DW-DWS hervorheben

3 Datenquellen: Auswahl
Zweck Verfügbarkeit rechtlich sozial technisch organisatorisch Preis Qualität Genauigkeit (Granularität) Vollständigkeit Konsistenz Relevanz Korrektheit Beispiele für Datenquellen Bedeutung: Datenquellen liegen außerhalb des Systems, warum wichtig? Zweck: Analysezwecke Verfügbarkeit: -rechtlich: Datenschutz, Betriebsrat muß zustimmen bei personenbezogenen Daten; -sozial: Gewährt der Besitzer den Zugriff auf Daten; Unternehmenskultur: Datenkommunismus<->Datenkapitalismus -technisch: ist Zugriff überhaupt möglich; Schutz vor unberechtigtem Zugriff bei Übertragung; hinreichend schnelle Übertragung -organisatorisch: liegen Daten rechtzeitig vor (Aktualität) Preis: bei externen Datenquellen für Bereitstellung und Nutzung Qualtität: Glaubwürdigkeit/Zuverlässigkeit, Verständlichkeit, Aktualität, Verwendbarkeit (Relevanz) -Genauigkeit: sind Daten detailliert genug (->Zweck); Währungsumrechnung: hinreichende Anzahl Nachkommastellen; sind Homonymsituationen dokumentiert -Vollständigkeit: wieviele Werte eines Attributes fehlen? existiert semantisches Datenmodell und Beschreibung des physischen Schemas? -Konsistenz: Widerspruchsfreiheit; Passen die Metadaten dazu? Sind Metadaten widerspruchsfrei? -Relevanz: dienen die Daten dem Zweck? -Korrektheit: stimmen die Daten und Metadaten mit der Realität überein? Klassifikation zur Beschreibung und Strukturierung: Herkunft (intern/extern), Zeit (aktuell/historisch), Nutzungsebene (effektiv/Meta), Inhalt (Grafik, Text, Video...), Vertraulichkeitsgrad, Darstellung (boolean, date, numerisch) Anschließend: Klassifikation

4 Extraktion Umfang Arbeitsbereich Zeitliche Steuerung
Struktureller Extrakt Inhaltlicher Extrakt Aggregierter Extrakt Arbeitsbereich Zeitliche Steuerung Periodisch Anfragegesteuert Ereignisgesteuert Sofort Umfang: -strukturell: Teil des Schemas -inhaltlich: -aggregiert: zeitliche Steuerung: -periodisch: abhängig von Dynamik der Daten: Wetterdaten täglich, Spezifikation nicht so häufig -auf Anfrage: -Ereignisgesteuert: zB nach Anzahl von Änderungen; periodisch und Anfrage sind eigentlich auch Ereignisgesteuert -Sofort: bei jeder Änderung, unmittelbar Arbeitsbereich: zentrale Datenhaltungskomponente; temporäre Zwischenspeicherung

5 Monitor Überwachungsstrategie Anwendungsunterstützt Snapshot Log
Zeitstempel Replikation Trigger Anwendungsunterstützt Entdeckung aller Änderungen vs Nettoeffekt; Benachrichtigung vs. Polling; internes vs. externes Monitoring Snapshot: alle Tabellen mit relevanten Informationen müssen repliziert werden Log: ermöglicht die Erkennung _sämtliche_ Änderungen, wenn Log existiert; Log wird ausgewertet, um relevante Änderungen zu erkennen, meist großes Datenvolumen Zeitstempel: Replikation: geänderte Tupel in andere Tabelle (Delta-Tabelle) Trigger: über Trigger werden Änderungen direkt an Monitor geschickt->verzögerungsfrei; aber: Datenquelle muß verändert werden; evtl. Performanzprobleme bei vielen Triggern Anwendung: Zeitstempel oder Dateivergleich

6 Transformation Schematransformation Integration der Einzelschemata
Einmalige Durchführung Ziele Vollständigkeit Korrektheit Minimalität Verständlichkeit überwiegend manuell Vollständigkeit: alle Objekte aus lokalen Schemata müssen sich im globalen Schema wiederfinden Korrektheit: Beibehaltung der Semantik; keine Widersprüche; Bsp: Preis Minimalität: jedes Gegenstand tritt nur einmal im DWH auf Verständlichkeit: Dokumentation des Vorgangs, damit er verstanden und ggf modifiziert werden kann

7 Transformation Schematransformation Konflikte Semantische Konflikte
Beschreibungskonflikte Heterogenitätskonflikte Strukturkonflikte es gibt Verfahren, aber auf die gehe ich nicht ein Benennung: Homonym (Preis), Synonym (Beispiel?) Strukturkonflikte: fehlende (evtl implizierte) Attribute, zB Lieferweg Integritätsbedingungen: funktionale Abhängigkeiten (Beispiel?)

8 Transformation Datentransformation
Überführung der Daten in neue Schemata Durchführung bei jeder Transformation Synonym-, Homonymkonflikte Vereinheitlichung von Kodierungen Integritätsbedingungen Homonym/Synonym: Tippfehler oder sich ändernde Artikelbezeichnungen Kodierung: Datumsformate, Schreibweisen (zB Umlaute, „Name Vorname“ oder umgekehrt), Maßeinheiten, Datentypen, Mann/Frau Integritätsbedingungen: Schlüssel können nicht übernommen werden, da nicht global eindeutig; Erzeugung neuer Schlüssel (Surrogate) und Speicherung in Zuordnungstabelle für zukünftige Änderungen; Problem, wenn Schlüssel Informationen enthält: bei bekannter Semantik können sie in neuen Attributen gespeichert werden; überwiegend manuell

9 Transformation Datenbereinigung Gewährleistung hoher Datenqualität
Durchführung bei jeder Transformation Korrektur fehlerhafter bzw. Ergänzung unvollständiger Daten Referenzielle Integrität beachten Gewährleistung hoher Datenqualität Nachvollziehbarkeit Ergänzung: soweit möglich aus anderen Datenquellen oder Berechnung Fehlen: Erarbeitung einer einheitlichen Darstellung Zwei Bedeutungen für fehlende Daten: es gibt keinen Wert dafür (zB Attribut Ehegatte, oder Haltbarkeit bei dauerhaften Gütern); zum Erfassungszeitpunkt unbekannt->wenn möglich ergänzen, ggf. schätzen Fehler: Berechnen, falls möglich; ggf durch Abgleich mit internen/externen Daten korrigieren (Adressen) Referentielle Integrität: Fremdschlüsselbeziehung und referenzierter Datensatz fehlt, dann entweder Datensatz als fehlerhaft markieren oder löschen überwiegend manuell

10 Basisdatenbank Zentrale Komponente: Datenlager Inhalt (Inmon)
Themenorientierte Daten (subject-oriented) Integrierte Daten (integrated) Dauerhafte Daten (non-volatile) Historische Daten (time-variant) Ausgangspunkt für Data Warehouses Laden nach Abschluß der Transformationsphase Vergleich operativ Noch nicht auf spezielle Analysezwecke hin ausgerichtet Konsistenz

11 Konsistenz Konvergenz: Alle Datenquellen kommen zur Ruhe und werden dann aktualisiert Schwache Konsistenz: Jeder DWH-Zustand reflekiert einen gültigen Zustand an jeder Quelle; aber: mglw. globale Zustände, die lokal nie exitistiert haben Strenge Konsistenz: nach jeder Aktualisierung wird ein global gültiger Zustand erreicht Vollständige Konsistenz: jede Änderung am Quellsystem führt zur Aktualisierung

12 Data Warehouse Extraktion der Daten aus der Basis-datenbank Umfang
Struktureller Extrakt Inhaltlicher Extrakt Aggregierter Extrakt Zeitliche Steuerung Periodisch auf Anfrage Ereignisgesteuert Sofort Physische Datenbank Auf Analysezwecke hin ausgerichtet

13 Nabe-Speiche-Architektur

14 Data Warehouse Data Marts Ansatzpunkt für die Analyse
Verteilung des Data Warehouse abhängige und unabhängige Data Marts Abgrenzung zum Data Warehouse problematisch Ansatzpunkt für die Analyse Externe Sicht auf das Data Warehouse häufig Abteilungsweit Gründe zur weiteren Aufteilung: -Eigenständigkeit (Mobilität) -Datenschutzaspekte -Organisatorische Aspekte (Unabhängigkeit von Abteilungen) -Verringerung des Datenvolumens -Performanzgewinn durch Aggregation -Lastverteilung -Unabhängigkeit von Aktualisierungszyklen des DWH

15 Data Marts abhängig unabhängig
unabhängig: BasisDB fehlt; Data-Mart-übergreifende Analysen nicht möglich, daher Integration, aber problematisch, weil Data Mart bereits Daten aus abteilungsspezifischer Sicht enthält abhängig unabhängig

16 Metadaten Definition Erleichtern das Wiederfinden von Informationen
„Daten über Daten“ fachliche und technische Metadaten Informationen über Datenstrukturen, Datentransformationen, Veränderungen von Metadaten Erleichtern das Wiederfinden von Informationen Ziel: Nachvollziehen der Transformationen der Daten; Richtigkeit und Qualität der Auswertungen kann nachgeprüft werden Auswirkungen von Änderungen an Quellsystemen können abgeschätzt werden fachlich: vordefinierte Anfragen und Berichte, domänenspezifisches Wissen, Kontextinformationen technisch: für Admins; Beschreibung der logischen und physischen Schemata, Integritätsbedingungen, ausführbare Spezifikationen der Datenverarbeitungsschritte inkl. Ausführungsreihenfolge Versetzen die Führung in die Lage, Analysen durchzuführen und Entscheidungsrelevante Informationen zu extrahieren Metadatenmanager

17 Analyse Drei Ansätze Data Access Online Analytical Processing (OLAP)
Rotation oder Pivotierung Roll-up, drill-down, drill-across Slice and dice Data Mining Wer analysiert? Data Access: Berichtswerkzeuge; Lesen, Veränderung durch arithmetische Verknüpfung und Präsentation von Daten OLAP: Interaktive Datenanalyse; multidimensionale Darstellung von Kennzahlen Data Mining: ungerichtete Analysen, dh. Generierung bisher unentdeckter Zusammenhänge (für Vorhersage): Clusterbildung (Häufung von Merkmalsausprägungen, zB Segmentierung von Kunden), Klassifizierung (Zuordnung vorgegebener Klassen, zB Klassifikation von Kunden bzgl Schadensrisiko), Regression (Ursache-Wirkungs-Zusammenhang, Warenkorbanalyse)

18 OLAP

19 OLAP Rotation Roll-up Drill-down Drill-across Slice Dice

20 Architekturbeispiel Zeitungs- und Zeitschriftenverlag
Data-Warehouse-Projekt im Anzeigenbereich Problem: keine übergreifende Auswertungen möglich, da Daten verlagsweit auf verschiedene operative Systeme verteilt->Informationen möglichst vollständig, aktuell, zum richtigen Zeitpunkt und am richtigen Ort verfügbar machen Daten werden täglich in AIS geladen, bereinigt, umgeschlüsselt, vervollständigt und geprüft Integrationsserver und Auswertungsserver physisch getrennt (Unabhängigkeit, Ausfallsicherheit, Kapazitätsverteilung), Abgleich täglich außerhalb der Betriebszeit Steuerung des Datenbeschaffungsprozesses durch DW-Manager (in AIS hinterlegte Prozeduren und Steuerungstabellen) Auswertung: -Impromtu: Berichtsgenerator -Powerplay: OLAP-System Probleme bei Aufbau: -Aufbau von Schnittstellen zu Quellsystemen -Schulung in OLAP, Einstellungsänderung ggü Analyse sowie Förderung von Selbständigkeit

21 Vielen Dank für Ihre Aufmerksamkeit


Herunterladen ppt "Komponenten und Phasen des Data Warehousing"

Ähnliche Präsentationen


Google-Anzeigen