Komponenten und Phasen des Data Warehousing

Slides:

Advertisements

Ähnliche Präsentationen

Daten im Data-Warehouse

Advertisements

Daten- und Informationsqualität. © Prof. T. Kudraß, HTWK Leipzig Management der Informationsqualität Keine verbindlichen Standards oder Vorgaben für Informationsqualität.

2. Data-Warehouse-Architektur

Projektentwicklung im IntegraTUM Projekt

Institut für Informatik Abteilung Datenbanken Problemseminar Datacleaning Überblick Datacleaning.

1-1 Schlank und schnell zum Datawarehouse Marc Bastien Oracle Deutschland GmbH BTW Leipzig,

DEPARTMENT FÜR INFORMATIK

Harmonisierung von Ontologien Martin Zobel. Was versteht man in der Informatik unter einer Ontologie? Wikipedia: Unter Ontologie versteht man in der Informatik.

Eigenschaften und Pflichten vertrauenswürdiger digitaler Archive

Objektrelationales Mapping mit JPA Testing Jonas Bandi Simon Martinelli.

Anfragesprachen – Dipl. Ing. Ulrich Borchert / FH Merseburg1/9 Data Mining Ist die Wissensgewinnung aus Datensammlungen (Knowledge Discovery in Database).

Gottfried Vossen 5. Auflage 2008 Datenmodelle, Datenbanksprachen und Datenbankmanagementsysteme Kapitel 16: Grundlagen des Data Mining.

Datenmodelle, Datenbanksprachen und Datenbankmanagementsysteme

Die Planung des Informationsprodukts “Thematische Karte”

WIESEL – Integration von Wissensmanagement und E-Learning auf der Basis von Semantic Web Technologien Matthias Rust, XML-Tage 2004, Berlin WIESEL Integration.

Universeller Zugriff auf multimediale Dokumentstrukturen auf der Basis von RDF und MPEG-7 Stefan Audersch BerlinXSW Juni.

Entscheidungsunterstützende Systeme (Data Warehouse)

Abgrenzung, Einordnung und Anwendungen Sebastian Hentschel

Informationssysteme SS Informationssysteme Grundvorlesung Informatik Sommersemester 2004 Universität des Saarlandes, Saarbrücken Dr. Ralf Schenkel.

Manpower Associates is a $14

Daten sammeln aus Verschiedenen Datenbanken Dokumenten Dateien

FH-Hof Analyse des R-Baums - Teil 1 Richard Göbel.

Datenmodelle, Datenbanksprachen und Datenbankmanagementsysteme

Entitäten Extraktion Einführung

Betrügern auf der Spur WIN-Treffen 2010 Falko Meyer 04 BW.

Integritätsbedingungen

Transparenzgesetz als Chance für die Verwaltung

Entwicklung eines Data Warehouse © by Sistema GeoDAT, S.L.

Entwurf und Realisierung einer digitalen Bibliothek zur Verwaltung von Notenhandschriften Dipl.-Ing. Temenushka Ignatova Datenbank- und Informationssysteme,

Qualitätskontrolle von Datenintegrations-prozessen

© DVS System Software GmbH & Co. KG

Data Warehouse mit Visual FoxPro

Sistema GeoDAT, S.L. GeoBIS, GeoEIS, GIS-Komponente … 2005.

Eine Einführung in OLAP (Online Analytical Processing)

Zur Veranstaltung Business Intelligence

Entwicklung eines Data Warehouse 2007 © by Sistema GeoDAT, S.L.

Erstellen einer Webseitenstatistik mithilfe eines OLAP-Servers

Problemstellung Heterogene DV-Strukturen Mangelnde Kapazität in der EDV-Abteilung Historische Daten nicht verfügbar Analysen belasten die vorhandene Infrastruktur.

Data und Web Mining KFK Semantic Web: Knowledge Management

Datenbanken und Datenmodellierung

Eidgenössisches Departement des Innern EDI Bundesamt für Statistik BFS Eidgenössisches Finanzdepartement EFD Bundesamt für Informatik und Telekommunikation.

Skalierbare Reporting-Systeme zwischen Excel™ und Data Warehouse

00:13 Matthias Ansorg FH Gießen-Friedberg1 / 24 Multidimensionale Datenstrukturen - semantische und logische Modellierung Teilvortrag: logische Modellierung.

GSE-Working Group "Software Engineering 10. November 2008, DKV, Köln Thomas Zeh, E. Merck, Darmstadt Referenzmodell für die Architektur von Data-Warehouse-Systemen.

Betriebliche Anwendung von Datenbanksystemen: Data Warehouse

Xi © HvK, fleXinfo Hellmut v.Koerber Ackerstrasse CH 5070 Frick Tel/Box/Fax:

Datenschutz und Datensicherheit

Mehr Zeit für den Kunden und wirtschaftlicher Arbeiten mit BIB-Control

Arbeitskreis Produktmodelle März 2003 TU Dresden, Inst. für Computeranwendung im Bauwesen Weise, Katranuschkov 20. März 2003 Ein Kooperationsmodell für.

M&D- Status Seminar Datenanfragen Verfügbare Datensätze Nachfrage zu den Datensätzen Metadaten Benutzer-Anfragen Information/Schulung Probleme To Do Liste.

Analytisches CRM Phonnet Gruppe 1 (Loher, Meier, Rehhorn, Piasini)

Wozu Terminologie? Lexalp, WP 10 – Training

Das Information Warehouse Die Stärken eines zentralen dispositiven Information-Warehouse als informative Kernkomponente in einer heterogenen operativen.

Institute of Scientific Computing – University of ViennaP.Brezany Integration von föderierten Datenbanken Peter Brezany Institut für Scientific Computing.

Eike Schallehn, Martin Endig

Eike Schallehn, Martin Endig

Ist das DANRW vertrauenswürdig? Manfred Thaller Universität zu Köln Köln, Die Herausforderung der Elektronischen Archivierung 16. Januar 2013.

Nachtrag Abgrenzung OLAP / OLTP

Anfragen an multidimensonale Daten

Architektur von Data Warehouse Systemen

Thema 1 Data WareHouse Volker Jahns.

Optimierung von Geschäftsprozessen durch Webformulare und Webworkflow Rainer Driesen Account Manager.

, Claudia Böhm robotron*SAB Anwendungsentwicklung mit dem Java und XML basierten Framework robotron*eXForms Simple Application Builder.

Folie 1 Reiner Buzin, BfS + Marcus Briesen, disy, DOAG „Spatial Day“, Montag, 30. Mai 2016 GISterm Integration von disy GISterm in IMIS.

Technische Universität München Fakultät für Informatik, Lehrstuhl Datenbanksysteme Radio Frequency Identification Datenmanagement Odyssee.

Nachtrag Abgrenzung OLAP / OLTP

Bewerbungsgespräch Herr Niemeyer

Business Intelligence Data Warehouse

Präsentation transkript:

Komponenten und Phasen des Data Warehousing Simon König

Einführung Arbeitskreis „Konzepte des Data Warehousing“ der GI Ziele Schaffung einer einheitlichen Terminologie Ausgangspunkt für den Vergleich bestehender und die Empfehlung für geplante Data-Warehouse-Systeme Referenzarchitektur soll auf bestehende wie auf zukünftige Architekuren passen Zeigen der Referenzarchitektur, der Phasen und Komponenten, Basisdatenbank zentral, Unterschied DW-DWS hervorheben

Datenquellen: Auswahl Zweck Verfügbarkeit rechtlich sozial technisch organisatorisch Preis Qualität Genauigkeit (Granularität) Vollständigkeit Konsistenz Relevanz Korrektheit Beispiele für Datenquellen Bedeutung: Datenquellen liegen außerhalb des Systems, warum wichtig? Zweck: Analysezwecke Verfügbarkeit: -rechtlich: Datenschutz, Betriebsrat muß zustimmen bei personenbezogenen Daten; -sozial: Gewährt der Besitzer den Zugriff auf Daten; Unternehmenskultur: Datenkommunismus<->Datenkapitalismus -technisch: ist Zugriff überhaupt möglich; Schutz vor unberechtigtem Zugriff bei Übertragung; hinreichend schnelle Übertragung -organisatorisch: liegen Daten rechtzeitig vor (Aktualität) Preis: bei externen Datenquellen für Bereitstellung und Nutzung Qualtität: Glaubwürdigkeit/Zuverlässigkeit, Verständlichkeit, Aktualität, Verwendbarkeit (Relevanz) -Genauigkeit: sind Daten detailliert genug (->Zweck); Währungsumrechnung: hinreichende Anzahl Nachkommastellen; sind Homonymsituationen dokumentiert -Vollständigkeit: wieviele Werte eines Attributes fehlen? existiert semantisches Datenmodell und Beschreibung des physischen Schemas? -Konsistenz: Widerspruchsfreiheit; Passen die Metadaten dazu? Sind Metadaten widerspruchsfrei? -Relevanz: dienen die Daten dem Zweck? -Korrektheit: stimmen die Daten und Metadaten mit der Realität überein? Klassifikation zur Beschreibung und Strukturierung: Herkunft (intern/extern), Zeit (aktuell/historisch), Nutzungsebene (effektiv/Meta), Inhalt (Grafik, Text, Video...), Vertraulichkeitsgrad, Darstellung (boolean, date, numerisch) Anschließend: Klassifikation

Extraktion Umfang Arbeitsbereich Zeitliche Steuerung Struktureller Extrakt Inhaltlicher Extrakt Aggregierter Extrakt Arbeitsbereich Zeitliche Steuerung Periodisch Anfragegesteuert Ereignisgesteuert Sofort Umfang: -strukturell: Teil des Schemas -inhaltlich: -aggregiert: zeitliche Steuerung: -periodisch: abhängig von Dynamik der Daten: Wetterdaten täglich, Spezifikation nicht so häufig -auf Anfrage: -Ereignisgesteuert: zB nach Anzahl von Änderungen; periodisch und Anfrage sind eigentlich auch Ereignisgesteuert -Sofort: bei jeder Änderung, unmittelbar Arbeitsbereich: zentrale Datenhaltungskomponente; temporäre Zwischenspeicherung

Monitor Überwachungsstrategie Anwendungsunterstützt Snapshot Log Zeitstempel Replikation Trigger Anwendungsunterstützt Entdeckung aller Änderungen vs Nettoeffekt; Benachrichtigung vs. Polling; internes vs. externes Monitoring Snapshot: alle Tabellen mit relevanten Informationen müssen repliziert werden Log: ermöglicht die Erkennung _sämtliche_ Änderungen, wenn Log existiert; Log wird ausgewertet, um relevante Änderungen zu erkennen, meist großes Datenvolumen Zeitstempel: Replikation: geänderte Tupel in andere Tabelle (Delta-Tabelle) Trigger: über Trigger werden Änderungen direkt an Monitor geschickt->verzögerungsfrei; aber: Datenquelle muß verändert werden; evtl. Performanzprobleme bei vielen Triggern Anwendung: Zeitstempel oder Dateivergleich

Transformation Schematransformation Integration der Einzelschemata Einmalige Durchführung Ziele Vollständigkeit Korrektheit Minimalität Verständlichkeit überwiegend manuell Vollständigkeit: alle Objekte aus lokalen Schemata müssen sich im globalen Schema wiederfinden Korrektheit: Beibehaltung der Semantik; keine Widersprüche; Bsp: Preis Minimalität: jedes Gegenstand tritt nur einmal im DWH auf Verständlichkeit: Dokumentation des Vorgangs, damit er verstanden und ggf modifiziert werden kann

Transformation Schematransformation Konflikte Semantische Konflikte Beschreibungskonflikte Heterogenitätskonflikte Strukturkonflikte es gibt Verfahren, aber auf die gehe ich nicht ein Benennung: Homonym (Preis), Synonym (Beispiel?) Strukturkonflikte: fehlende (evtl implizierte) Attribute, zB Lieferweg Integritätsbedingungen: funktionale Abhängigkeiten (Beispiel?)

Transformation Datentransformation Überführung der Daten in neue Schemata Durchführung bei jeder Transformation Synonym-, Homonymkonflikte Vereinheitlichung von Kodierungen Integritätsbedingungen Homonym/Synonym: Tippfehler oder sich ändernde Artikelbezeichnungen Kodierung: Datumsformate, Schreibweisen (zB Umlaute, „Name Vorname“ oder umgekehrt), Maßeinheiten, Datentypen, Mann/Frau Integritätsbedingungen: Schlüssel können nicht übernommen werden, da nicht global eindeutig; Erzeugung neuer Schlüssel (Surrogate) und Speicherung in Zuordnungstabelle für zukünftige Änderungen; Problem, wenn Schlüssel Informationen enthält: bei bekannter Semantik können sie in neuen Attributen gespeichert werden; überwiegend manuell

Transformation Datenbereinigung Gewährleistung hoher Datenqualität Durchführung bei jeder Transformation Korrektur fehlerhafter bzw. Ergänzung unvollständiger Daten Referenzielle Integrität beachten Gewährleistung hoher Datenqualität Nachvollziehbarkeit Ergänzung: soweit möglich aus anderen Datenquellen oder Berechnung Fehlen: Erarbeitung einer einheitlichen Darstellung Zwei Bedeutungen für fehlende Daten: es gibt keinen Wert dafür (zB Attribut Ehegatte, oder Haltbarkeit bei dauerhaften Gütern); zum Erfassungszeitpunkt unbekannt->wenn möglich ergänzen, ggf. schätzen Fehler: Berechnen, falls möglich; ggf durch Abgleich mit internen/externen Daten korrigieren (Adressen) Referentielle Integrität: Fremdschlüsselbeziehung und referenzierter Datensatz fehlt, dann entweder Datensatz als fehlerhaft markieren oder löschen überwiegend manuell

Basisdatenbank Zentrale Komponente: Datenlager Inhalt (Inmon) Themenorientierte Daten (subject-oriented) Integrierte Daten (integrated) Dauerhafte Daten (non-volatile) Historische Daten (time-variant) Ausgangspunkt für Data Warehouses Laden nach Abschluß der Transformationsphase Vergleich operativ Noch nicht auf spezielle Analysezwecke hin ausgerichtet Konsistenz

Konsistenz Konvergenz: Alle Datenquellen kommen zur Ruhe und werden dann aktualisiert Schwache Konsistenz: Jeder DWH-Zustand reflekiert einen gültigen Zustand an jeder Quelle; aber: mglw. globale Zustände, die lokal nie exitistiert haben Strenge Konsistenz: nach jeder Aktualisierung wird ein global gültiger Zustand erreicht Vollständige Konsistenz: jede Änderung am Quellsystem führt zur Aktualisierung

Data Warehouse Extraktion der Daten aus der Basis-datenbank Umfang Struktureller Extrakt Inhaltlicher Extrakt Aggregierter Extrakt Zeitliche Steuerung Periodisch auf Anfrage Ereignisgesteuert Sofort Physische Datenbank Auf Analysezwecke hin ausgerichtet

Nabe-Speiche-Architektur

Data Warehouse Data Marts Ansatzpunkt für die Analyse Verteilung des Data Warehouse abhängige und unabhängige Data Marts Abgrenzung zum Data Warehouse problematisch Ansatzpunkt für die Analyse Externe Sicht auf das Data Warehouse häufig Abteilungsweit Gründe zur weiteren Aufteilung: -Eigenständigkeit (Mobilität) -Datenschutzaspekte -Organisatorische Aspekte (Unabhängigkeit von Abteilungen) -Verringerung des Datenvolumens -Performanzgewinn durch Aggregation -Lastverteilung -Unabhängigkeit von Aktualisierungszyklen des DWH

Data Marts abhängig unabhängig unabhängig: BasisDB fehlt; Data-Mart-übergreifende Analysen nicht möglich, daher Integration, aber problematisch, weil Data Mart bereits Daten aus abteilungsspezifischer Sicht enthält abhängig unabhängig

Metadaten Definition Erleichtern das Wiederfinden von Informationen „Daten über Daten“ fachliche und technische Metadaten Informationen über Datenstrukturen, Datentransformationen, Veränderungen von Metadaten Erleichtern das Wiederfinden von Informationen Ziel: Nachvollziehen der Transformationen der Daten; Richtigkeit und Qualität der Auswertungen kann nachgeprüft werden Auswirkungen von Änderungen an Quellsystemen können abgeschätzt werden fachlich: vordefinierte Anfragen und Berichte, domänenspezifisches Wissen, Kontextinformationen technisch: für Admins; Beschreibung der logischen und physischen Schemata, Integritätsbedingungen, ausführbare Spezifikationen der Datenverarbeitungsschritte inkl. Ausführungsreihenfolge Versetzen die Führung in die Lage, Analysen durchzuführen und Entscheidungsrelevante Informationen zu extrahieren Metadatenmanager

Analyse Drei Ansätze Data Access Online Analytical Processing (OLAP) Rotation oder Pivotierung Roll-up, drill-down, drill-across Slice and dice Data Mining Wer analysiert? Data Access: Berichtswerkzeuge; Lesen, Veränderung durch arithmetische Verknüpfung und Präsentation von Daten OLAP: Interaktive Datenanalyse; multidimensionale Darstellung von Kennzahlen Data Mining: ungerichtete Analysen, dh. Generierung bisher unentdeckter Zusammenhänge (für Vorhersage): Clusterbildung (Häufung von Merkmalsausprägungen, zB Segmentierung von Kunden), Klassifizierung (Zuordnung vorgegebener Klassen, zB Klassifikation von Kunden bzgl Schadensrisiko), Regression (Ursache-Wirkungs-Zusammenhang, Warenkorbanalyse)

OLAP

OLAP Rotation Roll-up Drill-down Drill-across Slice Dice

Architekturbeispiel Zeitungs- und Zeitschriftenverlag Data-Warehouse-Projekt im Anzeigenbereich Problem: keine übergreifende Auswertungen möglich, da Daten verlagsweit auf verschiedene operative Systeme verteilt->Informationen möglichst vollständig, aktuell, zum richtigen Zeitpunkt und am richtigen Ort verfügbar machen Daten werden täglich in AIS geladen, bereinigt, umgeschlüsselt, vervollständigt und geprüft Integrationsserver und Auswertungsserver physisch getrennt (Unabhängigkeit, Ausfallsicherheit, Kapazitätsverteilung), Abgleich täglich außerhalb der Betriebszeit Steuerung des Datenbeschaffungsprozesses durch DW-Manager (in AIS hinterlegte Prozeduren und Steuerungstabellen) Auswertung: -Impromtu: Berichtsgenerator -Powerplay: OLAP-System Probleme bei Aufbau: -Aufbau von Schnittstellen zu Quellsystemen -Schulung in OLAP, Einstellungsänderung ggü Analyse sowie Förderung von Selbständigkeit

Vielen Dank für Ihre Aufmerksamkeit