Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

Daten im Data-Warehouse

Ähnliche Präsentationen


Präsentation zum Thema: "Daten im Data-Warehouse"—  Präsentation transkript:

1 Daten im Data-Warehouse
Vorgelegt von : Beytül Yamac, Hilal-Merve Sahin, Jorjet Uysal Mein heutiges Thema ist: Daten im Data-Warehouse

2 Gliederung Was ist Data Warehouse Aufbau eines Data Warehouse
ETL- Prozesse Anforderung und Arten der Daten Fazit

3 Definition Data Warehouse
unternehmensweites Konzept entscheidungsrelevante Daten strukturiert, bereinigt und verdichtet historische Daten Ein Data Warehouse kann als unternehmensweites Konzept der Datenhaltung verstanden werden, in dem entscheidungsrelevante Daten aus unterschiedlichen Quellsystemen gespeichert und für analytische Aufgaben der Unternehmensführung bereitgehalten werden. Die Daten liegen dabei in einer strukturierten, bereinigten und verdichteten Form vor. Im Gegensatz zur operativen Datenbasis, bei der Daten i. d. R. nach Abschluss des Vorgangs schwer zugreifbar archiviert oder gelöscht werden, sammelt das Data Warehouse Daten über einen langen Zeitraum (dauerhaft). Die Speicherung der Daten erfolgt dabei relational und/oder multidimensional.

4 Externe Datenquellen OLAP Data Warehouse Data Mining Operative
Extraktion Transformation Laden Data Mining Operative Datenbanken Daten aus operative Datenquellen des Unternehmen und aus externen Quellen (Internet) werden nach Extraktion und Transformation ins Data Warehouse geladen und können mehrdimensional oder/und relational gespeichert werden. Die Daten des DWH liegen in Datenbanken vor, die i.d.R. nicht direkt zu Analysezwecken verwendet werden. Statt dessen werden die benötigten Daten aus dem DWH entnommen, denormalisiert und in Data Marts geladen. Data Marts können als kleine DWHs angesehen werden, die anwendungsbezogene Daten stark verdichtet bereitstellen. Zur Analyse der Daten werden Online Analytical Processing Systeme (OLAP) und Data Mining eingesetzt. Das OLAP Werkzeuge unterstützt mehrdimensionales Datenbanksysteme zum aufdecken von erfolgsrelevanten Informationen. Das Data Mining ist ein Analysewerkzeug, das Zusammenhänge und Auffälligkeiten innerhalb der Daten aufdeckt d.h. sie Sucht nach verborgenen Schätzen (Trends, Muster Zusammengehörigkeit) Die Auswahl der richtigen Extraktions-, und Transaktionswerkzeuge ist der entscheidenste Schritt beim Aufbau eines DWH. Dies ist häufig der aufwendigster Teil des Data Warehousing und macht 80% der entwicklung aus. Hier werden Rohdaten analysieren, selektieren und für die Zusammenführung in das Data Warehouse vorbereitet. Nach erfolgter Zusammenführung werden diese Werkzeuge für umfangreiche Prüfungen und ggf. Korrekturen genutzt. Erschwert wird das Zusammenführen der Daten insbesondere dadurch, dass in einer Daten verarbeitenden Stelle verschiedene Computersysteme und -programme eingesetzt werden, die ganz unterschiedliche Daten strukturen erzeugen. Data Marts

5 ETL- Prozesse Die Extraktionsphase (E) Die Transformationsphase (T)
Die Ladephase (L) Extraktion: Selektion eines Ausschnitts der Daten aus den Quellen und Bereitstellung für Transformation Ist ein rein technisch ausgerichteter Prozess und beinhaltet (Temporäre Selektion, Temporäre Selektion, Dublettenidentifikation ) Transformation: Bei der Transformation der selektierten Rohdaten steht der betriebswirtschaftlich logische Aspekt im Mittelpunkt Daten werden an vorgegebene Schema- und Qualitätsanforderungen angepasst. Alle Daten auf ein einheitliches Format (z.B. [CWM] männlich-weiblich, 0-1,m-w; Daten bereinigen, Logische Integration zusammengehöriger Datenkategorien) Bei der Transformation der selektierten Rohdaten steht der betriebswirtschaftlich logische Aspekt im Mittelpunkt Laden: physisches Einbringen der Daten aus dem Arbeitsbereich in das Data Warehouse (Fortlaufende Aktualisierung bzw. Ergänzung, Übertragungsprotokollierung)

6 Anforderung an Daten Themenorientiert Integriert Zeitorientiert
Beständig Themenorientiert: Das Data Warehouse enthält nicht alle Daten des Unternehmens, sondern nur die entscheidungsunterstützende Daten (z.B. Produkte, Vertrieb oder Kundendaten). Die anwendungsorientierter Daten (z.B. Lagerkontrolle und Produktabsatz) werden nicht berücksichtet. Integration: Die Daten werden bei der Übernahme in das Data Warehouse vereinheitlicht, um so trotz großer Heterogenität der Datenquellen einen konsistenten Datenbestand zu erhalten (ETL). Zeitorientierung: Die Zeitbezogenheit von Daten äußert sich Art und Weise: Speicherung von historischen Daten letzten 5-10 Jahre Datenanalyse über einen Zeitraum hinweg Daten als eine Reihe zeitlicher Schnappschüsse Beständigkeit: Daten, die einmal korrekt in das Data Warehouses geladen werden sind unveränderlich und können nur ergänzt werden. Es wird nur lesend auf die Daten zugegriffen. Dadurch wird die Wiederholbarkeit der Analyseergebnisse gewährleistet.

7 Warehouse-Manager Metadaten Stark zusammen- gefasste Daten Einfüge-
Abfrage- Manager Wenig zusammen- gefasste Daten Detaillierte Daten Datenbanksystem Detaillierte Daten: Dieser Wh- Bereich nimmt alle im Datenbankschema vorhandenen detaillierten Daten auf. Es werden regelmäßig detaillierten Daten hinzugefügt , um die zusammengefassten Daten zu ergänzen. Wenig und stark zusammen gefasste Daten: Dieser Wh –Bereich nimmt alle vordefinierten Wenig und stark zusammen gefassten Daten auf. Der Bereich ist transient ,weil er laufenden Veränderungen unterliegt um auf sich veränderte Abfrageprofile reagieren zu können. Der Zweg der Zusammenfassung liegt in der Beschleunigung der Abfrage. Mit der anfänglichen Zusammenfassung der Daten sind jedoch erhöhte Betriebskosten wird aber ausgeglichen dadurch das die Notwendigkeit wegfällt beim Beantworten der Abfragen ständige zusammenfassende Operationen durchzuführen (z.B. Sortierung Gruppierung). Fortlaufende Aktuaiesierung wenn neu Daten in DW aufgenommen Archiv-/Sicherungsdaten: Dieser Wh –Bereich nimmt die detaillierten und zusammengefassten Daten zum Zweg der Archivierung und Sicherung auf. Auch wenn die zusammengefassten. Daten aus detaillierten Daten erstellt sind kann es erforderlich sein zusammengefasste Daten zu sichern falls diese über die Aufbewahrungszeit der detaillierten Daten hinaus erhalten bleiben sollen. Metadaten: Als Metadaten oder Metainformationen bezeichnet man allgemein Daten, die Informationen über andere Daten enthalten. Bei den beschriebenen Daten handelt es sich oft um größere Datensammlungen (Dokumente) wie Bücher, Datenbanken oder Dateien. Metadaten beschreiben den Dateninhalt des DAta Warehouse, was sich darin befindet , woher es ursprünglich stammt und was mit ihm hinsichtlich Reinigung Integration und Zusammenfassung unternommen wurde. Sie dient der Auflösung semantischer Unklarheiten während der Datenbereinigung und während der Ergebnisinterpretation. Warehouse-Manager Archiv-/ Sicherungsdaten

8 Fazit bereinigte und zusammengefasste Daten
schnell wertvolle Informationen Entscheidungen unterstützen Datenqualität Dadurch, das entscheidungsrelevante Daten aus unterschiedlichen Quellsystemen in einer bereinigten und zusammengefassten Form gespeichert und zu Analyse für die Unternehmensführung bereitgehalten werden können z.B. Entscheidungsträger in Unternehmen schnell wertvolle Informationen erhalten, um Planungs- und Entscheidungsprozesse wirkungsvoll zu unterstützen. Die Daten des DWH helfen Unternehmen komplexere Fragestellungen zu bewältigen. Die Aus der Analyse gewonnenen Daten können wieder ins DWH einfließen was zur folge hat, das die Datenqualität steigt.


Herunterladen ppt "Daten im Data-Warehouse"

Ähnliche Präsentationen


Google-Anzeigen