Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

Schüle / Locher: Raum-zeit-thematisches Forschungs-DWH für SAS-Datawarehousing'98, Zürich, 25. November 1998 01/07/00 Entwurf eines DWH für Volkswirtschaftliche.

Ähnliche Präsentationen


Präsentation zum Thema: "Schüle / Locher: Raum-zeit-thematisches Forschungs-DWH für SAS-Datawarehousing'98, Zürich, 25. November 1998 01/07/00 Entwurf eines DWH für Volkswirtschaftliche."—  Präsentation transkript:

1 Schüle / Locher: Raum-zeit-thematisches Forschungs-DWH für SAS-Datawarehousing'98, Zürich, 25. November 1998 01/07/00 Entwurf eines DWH für Volkswirtschaftliche Analysen (Economic Research) von Hannes Schüle, für das Seminar Warehousing und Mining, WS 99/00 Prof. Schek und Dr. Böhm, ETHZ 1

2 Intro / Thema ... DWH als Labor: Thesauri, offene Dimensionen
Thesauri und offene Dimensionen als "Labor" ... Das DWH soll den Forscher und Forscherinnen im Team des Economic Research als Datenbasis und als Plattform der Zusammenarbeit dienen. Das DWH solle für verschiedene Statistiken offen sein: d.h. keine vorgängige Festlegung auf bestimmte Daten und Dimensionen. Dimensionen sollen die Forschungsmodelle unterstützen können: d.h. Hypothesen sollen abgespreichert und anhand von neuen Analysen getestet werden. Ich stelle den Projektrahmen vor und gehe insbesondere auf die Bedeutung der Thesauri ein. Intro / Thema Business Case Grundbegriffe Abfragen, Datenexport, Lösungsansatz Thesauri Fazit, Fazit, Literatur, Adressen

3 Intro / Thema ... DWH im Arbeitsprozess des Economic Research
Methoden-basis Analyse Kunden DWH Statistik Ökonometrie Produkte: z.B. Standortquali-tätsindex, Prognosen, Studien Branchenanalyse Regionenanalyse Konjunkturanalyse Immobilienmarktanalyse

4 Business Case ... Kundenprofil (Economic Research)
Team Economic Research Switzerland ist ein Team von rund 15 OekonomInnen und StatistikerInnen. Hauptgeschäftsfelder Erstellen fundierter, wissenschaftlicher Prognosen und Ratings zu Branchen und Regionen der Schweiz Analysen zu aktuellen volkswirtschaftlichen Themen Daten- und Methodenbasis Datenquellen: KOF, BA Statistik, Oberzolldirektion, EU Methoden: eigene Methoden, die laufend erweitert werden Stärken Breite thematische Ausrichtung mit umfassenden Schwerpunkten und Fokussierung auf die Schweiz Intro / Thema Business Case Grundbegriffe Abfragen, Datenexport, Lösungsansatz Thesauri Fazit, Literatur, Adressen

5 Business Case ... Anforderungen
Abfrage/ Export DWH Daten-quellen Methoden-basis Software Know-how Analyse

6 Business Case ... Anforderungen
Ziele, allgemein Einheitliche Datenbasis für alle Analysen und MitarbeiterInnen Rasche Einbindung neuer, aktueller Datenbestände Bessere Zusammenarbeit über das DWH Ziele für den ersten Release Datenschema für hohe Flexibilität Handhabung einer sich über Zeit verändernde geographischen Struktur („Raum“) Interaktives Abfragetool zur Auswahl von Raumeinheiten, Themen, Zeitrahmen und Periodentyp (Monat, Quartal, Semester, Jahr) sowie Export in Exceltabellen Intro / Thema Business Case Grundbegriffe Abfragen, Datenexport, Lösungsansatz Thesauri Fazit, Literatur, Adressen

7 Business Case ... Anforderungen an Abfrageoberfläche
Auswahl je einer Menge von Termen und von geographishen Raumeinheiten, eines Zeitrahmens (von-bis oder Anzahl Perioden retour) und von Periodentypen. Abfragen ausführen, Abfrage-Definitionen speichern, bestellen (über Nacht, Wochenende), bearbeiten und verwalten im Menusystem Code-Generator für Query, sowie für Export und Transformation der Resultate. Term auswählen mit Extras, wie Raumkontrolle (nur Terme zu bereits gewählten Raumeinheiten anzeigen), Filter (Substring), Multi-Selektion von Unterbäumen. Intro / Thema Business Case Grundbegriffe Abfragen, Datenexport, Lösungsansatz Thesauri Fazit, Literatur, Adressen

8 Business Case ... hohe Anforderungen
Schüle / Locher: Raum-zeit-thematisches Forschungs-DWH für SAS-Datawarehousing'98, Zürich, 25. November 1998 01/07/00 Business Case ... hohe Anforderungen An die NutzerInnen Wir dürfen hohe Anforderungen an die BenutzerInnen stellen: Verständnis für die Daten, Zusammenhänge, Abläufe Es braucht eine/n WH-Administrators/in (eine Vollzeitstelle) für Dataload, Koordination, Beratung. An das DWH BenutzerInnen dürfen hohe Anforderungen an das DWH stellen: Flexibilität, Offenheit, bequemes Abfragetool Intro / Thema Business Case Grundbegriffe Abfragen, Datenexport, Lösungsansatz Thesauri Fazit, Literatur, Adressen 3

9 Business Case ... Zuständigkeit geregelt, Zugriff für alle möglich
Datenbestand A Datenbestand B Datenbestand C Datenbestand D Verantwortung Ökonom A Ökonom B Ökonom C Ökonom D Zugriff DWH Datenablage

10 Grundbegriffe ... Erfolgsfaktoren für ein DWH Projekt
Definition (Projektsicht): Ein DWH ist ... ... die Beschreibung (und Umsetzung) des Prozesses von der Datenextraktion, -aquistion, Speicherung und zur Verfügung Stellung für unterschiedliche Benutzeranforderungen, Reporting, Analysen. Ein erfolgreiches DWH basiert ... ... auf einem "Buisness Case" (Problemlösungsbedarf), ... dem adäqauten Einsatz der DWH-Technologie und ... auf der engen Zusammenarbeit der Beteiligten auf allen Seiten: EntwicklerInnen des DWH, BetreiberInnen des DWH und (zukünftigen) NutzerInnen des DWH. Intro / Thema Business Case Grundbegriffe Abfragen, Datenexport, Lösungsansatz Thesauri Fazit, Literatur, Adressen

11 Grundbegriffe ... Glossar spezieller Begriffe
Charakteristik Ausprägung einer Dimensionen, wie „Teilzeit über 50%“ der Dimension Beschäftigungsgrad. Term (Begriff) Mass, einschliesslich Einheit, mit den Charakteristika meist mehrerer Dimensionen. Bsp.: „Import Elektrokleinmaterialien in Franken“. In Anlehnung an das von Stefan Waltert vorgestellte Paper zu Dimensional Updates, sind Terme Ausprägungen von „Level Groups“, ohne die Dimensionen Zeit und geographischer Raum. Klassen sind Einteilungen nach Merkmalen Kohorte Gruppe von gleichaltrigen Personen Verdichtungen sind materialisierte Views Intro / Thema Business Case Grundbegriffe Abfragen, Datenexport, Lösungsansatz Thesauri Fazit, Literatur, Adressen

12 Grundbegriffe... Datenextraktion, -haltung und Exploration ...
Schüle / Locher: Raum-zeit-thematisches Forschungs-DWH für SAS-Datawarehousing'98, Zürich, 25. November 1998 01/07/00 Grundbegriffe... Datenextraktion, -haltung und Exploration ... Der Knochen veranschaulicht den DWH-Prozess Extraktion links Datenhaltung in der Mitte und Exploration rechts Intro / Thema Business Case Grundbegriffe Abfragen, Datenexport, Lösungsansatz Thesauri Fazit, Literatur, Adressen 4

13 WH-"Knochen" ... Intro / Thema Business Case Grundbegriffe
Schüle / Locher: Raum-zeit-thematisches Forschungs-DWH für SAS-Datawarehousing'98, Zürich, 25. November 1998 01/07/00 WH-"Knochen" ... Intro / Thema Business Case Grundbegriffe Abfragen, Datenexport, Lösungsansatz Thesauri Fazit, Literatur, Adressen 5

14 Abfragen ... Abfrageoberfläche
Anforderungen Auswahl je einer Menge von Termen und von geographishen Raumeinheiten, eines Zeitrahmens (von-bis oder Anzahl Perioden retour) und von Periodentypen. Abfragen ausführen, Abfrage-Definitionen speichern, bestellen (über Nacht, Wochenende), bearbeiten und verwalten im Menusystem Code-Generator für Query, sowie für Export und Transformation der Resultate. Term auswählen mit Extras, wie Raumkontrolle (nur Terme zu bereits gewählten Raumeinheiten anzeigen), Filter (Substring), Multi-Selektion von Unterbäumen. Intro / Thema Business Case Grundbegriffe Abfragen, Datenexport, Lösungsansatz Thesauri Fazit, Literatur, Adressen

15 Abfragen ... Snapshoot Intro / Thema Business Case Grundbegriffe
Abfragen, Datenexport, Lösungsansatz Thesauri Fazit, Literatur, Adressen

16 Abfragen ... Volatile Raumstruktur
Anforderung: Handhabung des räumlichen Wandels (v.a. Gemeindefusionen und -aufteilungen): Zu jedem Zeitpunkt gilt für alle Daten genau eine Raumstruktur. Der Wandel muss transparent dargestellt werden. Lösung: Im Thesaurus zum Raum werden Gültigkeitsdauer der Raumeinheiten und der Zuordnung definiert. Bei Abfragen über die Gültigkeitsdauer hinweg, kann die Auswahl auf alle Raumeinheiten des kleinsten gemeinsamen Vielfachen erweitert werden (= iterative Raumerweiterung). Intro / Thema Business Case Grundbegriffe Abfragen, Datenexport, Lösungsansatz Thesauri Fazit, Literatur, Adressen

17 Datenexport ... Resultate in Excel und SAS-Tabellen
Zu jeder Abfrage-Definition gehört entweder / oder: Export in ein bestimmtes Datenblatt eines Excel-Sheets. Dabei wird auch festgelegt, welche der drei Dimensionen (Raum, Zeit, Thema) zu Reihen und welche zu Kolonnen werden sollen. Für Resultate als SAS-Tabelle kann je Periodentyp die Struktur Datenwürfel, Zeitreihe mit wahlweise Termen oder Räumen als Variablen oder eine dimensionale Denormalisierung gewählt werden (Beispiel folgt am Schluss). Intro / Thema Business Case Grundbegriffe Abfragen, Datenexport, Lösungsansatz Thesauri Fazit, Literatur, Adressen

18 Lösungsansatz ... Allg. DWH-Idee als Datenwürfel
Anstelle in einer Vielzahl von relationalen Tabellen werden alle Statistiken einer einzigen Relation, einem „Würfel“ mit den Achsen Raum, Zeit und Thema gehalten (und eventuell einem zweiten Raum für Pendler, Güterströme). Die Achsen Raum und Thema werden über Thesauri kontrolliert (auch die Abfragedefinition erfolgt über diese zwei Thesauri). Diesen bekannten, logischen Datenwürfel haben wir mutig direkt als physikalisches Schema implementiert. Das Schema gilt Zeitreihen UND für Raumdaten. Metadaten stellen sicher, dass die Fakten in ein relationales Tabellensystem umgestellt werden können. Intro / Thema Business Case Grundbegriffe Abfragen, Datenexport, Lösungsansatz Thesauri Fazit, Literatur, Adressen

19 Lösungsansatz ... Levelgroups: Verpackte Dimensionen im Term
Anforderung: Besonders wichtig ist eine flexible Bauweise des Warehouse’. Eine Erweiterung muss so einfach sein, dass sie für einen Ökonomen durchführbar ist ! Zu Beginn einer jeden Erweiterung werden die Daten strukturiert. Intro / Thema ... Lösungsansatz (Mass) (Dimensionen) Term-Code Raum-Code Perioden-Code

20 Lösungsansatz ... Auch das Mass wird im Term verpackt
Standardmodell für ein DWH: Modell WDH Economic Research: D=Dimension, C=Charakteristika, W=Wert, T=Term Intro / Thema Business Case Grundbegriffe Abfragen, Datenexport, Lösungsansatz Thesauri Fazit, Literatur, Adressen

21 Lösungsansatz ... Datenwürfel
Die Faktentabelle, das Kernstück des Datawarehouse, identifiziert jeden einzelnen Wert mittels Term-, Raum- und Perioden-Code. Perioden-Code Term-Code Besch. Index 2.Sekt. >50% Raum-Code Wirtschaftsraum Zentralschweiz 2. Raumbezug Variablen-Wert

22 Thesauri ... Termthesaurus (Begriffe)
Der Thesaurus (Schatz. Tresor) enthält alle Begriffe in poly-hierarchisch geordneter Form. Wir unterscheiden: Basisbegriff , unterster Level („Neubauten, EFH<5 Zimmer, freistehend, aus Holz, private Bauherren“) Kategorie, auch Oberbegriff („Neubauten EFH nach Bauherrschaft“). Oberbegriffe helfen beim Suchen im Thesaurus und erlauben Multi-Selektion aller direkt darunter liegenden Begriffe. Begriff verdichteter Daten , übergeordneter Level („Neubauten, EFH, total, private Bauherren“). Die normalerweise nachgefragten Verdichtungen werden abgelegt (bei Abfrage und Export werden keine Daten berechnet). Intro / Thema Business Case Grundbegriffe Abfragen, Datenexport, Lösungsansatz Thesauri Fazit, Literatur, Adressen

23 Thesauri ... Termthesaurus
Beziehungstyp: TREE: Hierarchie SUMM: summierbar TEIL: nicht disjunkte Teilmenge Tabelle für die hierarchische Gliederung der Terme Intro / Thema Business Case Grundbegriffe Abfragen, Datenexport, Lösungsansatz Thesauri Fazit, Literatur, Adressen Term-Tabelle Dient der hierarchischen Gliederung (Kateogorie)

24 Thesauri ... Termthesaurus: Praxis, Erfahrugen
Einlesen und Verdichten der Daten, sowie der Unterhalt des Thesaurus erfolgen gleichzeitig. Aufbau und Verwaltung des Begriffsthesaurus ist eine der zentralen Aufgaben des/der WH-Administrators/in. Ausser eine wachsenden Bibliothek von SQL-Code, SAS DATA-Steps und Summary-Prozeduren sowie Scripts zum iterativen, parametrisierten Aufruf stehen zur Adminstration „nur“ noch das grosse Fachwissen über die jeweils bearbeiteten Statistiken zur Verfügung. Ein Tool zur Handhabung von Level Groups oder ein Viewgitter stehen bisher nicht zur Verfügung. Nur eine gute Systematik erlaubt es, hunderttausende von Begriffen „im Griff“ zu haben. Intro / Thema Business Case Grundbegriffe Abfragen, Datenexport, Lösungsansatz Thesauri Fazit, Literatur, Adressen

25 Thesauri ... Dimensionen und ihre Charakteristika
Erst mittels der Dimensionen lassen sich Statistiken verbinden: Auch Dimensionen und ihrer Charakteristika sind polyhierarchisch strukturiert und werden als generisches Snowflake-Schema abgelegt. Die „verpackten“ Dimensionen aus Termen und Räumen sind Charakteristika zugeordent: Der Term „Neubauten, EFH<5 Zimmer, freistehend, aus Holz, private Bauherren“ folgenden Charakteristika: - Neubauten (Dimension: Hauptbegriff [=Mass]) - EFH<5 Zimmer (D: Wohnobjekt nach Zimmerzahl) - freistehend (D: Bauobjekt-Standort) - aus Holz (D: Bauobjekt-Hauptmaterial) - private Bauherren (D: Bauherrschaft) Intro / Thema Business Case Grundbegriffe Abfragen, Datenexport, Lösungsansatz Thesauri Fazit, Literatur, Adressen

26 Thesauri ... Beispiel Dimension Alterskohorten
Schüle / Locher: Raum-zeit-thematisches Forschungs-DWH für SAS-Datawarehousing'98, Zürich, 25. November 1998 01/07/00 Thesauri ... Beispiel Dimension Alterskohorten Dimensionen: Charakteristika: Beziehungen: 5-J. und 10-Jahres jährige j. (5-J.-Kohorte) in Alterskohorten jährige j. (Oberdim. 10-J) Charakteristika-Charakteristika-Bez. (CC) Oberdimension/Ch. Unterdimension/Ch. D_KEY1 C_KEY1 D_KEY2 C_KEY2 BRANCH LEBMIT BERUFG BÄCK MILCHW ...... J10 J20_29 J05 J20_24 J25_29 Dimensionen (D_) D_KEY D_NAME Berufsgruppen Branchen 10-J. -Kohorten 5-Jahres-Kohorten Charakteristika (C_) C_KEY C_NAME 20- bis 29-jährige 20- bis 24-jährige 25- bis 29-jährige Lebensmittel Bäckereiberufe METZG Metzgereiberufe B. Milchwirtsch. 17

27 Thesauri ... Offene Dimensionen: Status
Offene Dimensionen als Analyseinstrument: Offen heisst, dass neue (Zwischen-) Levels eingefügt werden können und zweitens. Abbilden von Hypothesen als Klassen (Dimensionen). Beispielsweise das Klassieren von Gemeinden nach Beschäftigungsstreuung und das Testen dieser Streuung zusammen mit anderen Faktoren zur Erklärung der „Gesundheit“ der Gemeindefinanzen. Verbinden von Statistiken, etwa Daten zu finden, welche über 5 Jahre hinweg mit mindestens vier Dimensionen mit der Zahl der Arbeitslosen verbunden werden können. Zur Analyse werden oft denormalisierte Tabellen benötigt. Das Beispiel Erstellen von MDDB Datamarts folgt. Intro / Thema Business Case Grundbegriffe Abfragen, Datenexport, Lösungsansatz Thesauri Fazit, Literatur, Adressen

28 Thesauri ... MDDB: Denormalisierung ausgewählter Fakten (1)
Schüle / Locher: Raum-zeit-thematisches Forschungs-DWH für SAS-Datawarehousing'98, Zürich, 25. November 1998 01/07/00 Thesauri ... MDDB: Denormalisierung ausgewählter Fakten (1) Aus normalisierten Daten kann eine MDDB erstellt werden: 19

29 Thesauri ... MDDB: Denormalisierung ausgewählter Fakten (2)
Schüle / Locher: Raum-zeit-thematisches Forschungs-DWH für SAS-Datawarehousing'98, Zürich, 25. November 1998 01/07/00 Thesauri ... MDDB: Denormalisierung ausgewählter Fakten (2) Intro / Thema Business Case Grundbegriffe Abfragen, Datenexport, Lösungsansatz Thesauri Fazit, Literatur, Adressen Ausschnitt aus den Dimensionen 20

30 Thesauri ... MDDB: Denormalisierung ausgewählter Fakten (3)
Schüle / Locher: Raum-zeit-thematisches Forschungs-DWH für SAS-Datawarehousing'98, Zürich, 25. November 1998 01/07/00 Thesauri ... MDDB: Denormalisierung ausgewählter Fakten (3) Term und Raum sind mit Dimensionen verbunden, diese haben wiederum Beziehungen (nicht dargestellt) zu Oberdimensionen. 21

31 Gesamtsicht Datenschema, Thesauri Abfrage „Datenwürfel“ (Raum-Zeit-Thema), Klassen
Abfragedefinition A_: Grunddaten AT: Abfr.-Term AR: Abfr,-Raum AR: Abfr,-Raum 2 (AP: A.-Perioden) P_: Perioden Thema Raum D_: Daten TT: Term-Bez. RR: Raum-Bez. Q_: Quellen T_: Term R_: Raum TC: Term-Charakterisitka.- H_: Help-Texte RC: Raum- Charakterisitka -Bez. Bez. Dimensionen D_: Dimensionen M:M 1:M 1:1 CC: Charakterisitka-Bez C_: Charakteristika

32 Fazit ... Wir haben eine Basis gelegt, um alle notwendigen Metadaten für eine vielfältige Weiterentwicklung des Data Handling von WH-Fakten aus sich rasch verändernden Quellen sicherzustellen. Die Grundanforderungen - offen, generisch, flexibel, ausbaufähig - sind erfüllt und eine Reihe von „Goodies“, wie etwa die Raumerweiterung oder die Periodenverdichtung, entwickelt worden. Es müssen nun Methoden für die Operationen auf Thesaurus und Dimensionen implementiert werden. Die neuere Literatur zeigt, dass hier ein grosses Potential sinnvoller Werkzeuge entwicklet worden ist. Über eine Erweiterung wird offen nachgedacht: Export von ausgewählten Data und Information Marts ins Web von Kunden des Economic Research. Intro / Thema Business Case Grundbegriffe Abfragen, Datenexport, Lösungsansatz Thesauri Fazit, Literatur, Adressen

33 Fazit Ganz persönlich Das Projekt verband - für mich persönlich - meine Erfahrungen aus der historischen Fachinformatik mit raum-zeit-thematischen Datenbanken und -analysen mit der WH-Technologie. Mit dem Wissen, das ich in den letzten Monaten an der ETH mitbekommen habe, hätte ich mir einiges Kopfzerbrechen ersparen können, wohl aber auch mehr Arbeit aufgeladen (ich denke da v.a. Level-Groups, Viewgitter, Thesaurusoperationen). Intro / Thema Business Case Grundbegriffe Abfragen, Datenexport, Lösungsansatz Thesauri Fazit, Literatur, Adressen

34 Literatur Zum Projekt DWH Economic Research
Schüle, H. (1998): SAS-Data Warehouse Technologie für die Forschung. Eine raum-zeit-thematische Datenbank für Economic Research. In: - Geschichte und Informatik / Histoire et Informatique Vol 9. Bern. S Rappl, K. (1998): Ein Data Warehouse für sektorale und regionale Analysen - Anforderungen der Nutzer. Referat in: Warehosing‘98, Proceedings. Zürich. Ohne Seitenzahlen Schüle, H.; Locher R. (1998): Ein raum-zeit-thematisches SAS-Data Warehouse für ein Economic Research Team - offenes, generisches Datenschema und Abfrageoberfläche. Referat in: Warehosing‘98, Proceedings. Zürich. Ohne Seitenz. [Internes Dokument] (1998): CCV - DWH - Benutzerhandbuch. [Internes Dokument] (1999): Economic Research - DWH-Administratorenhandbuch. Intro / Thema Business Case Grundbegriffe Abfragen, Datenexport, Lösungsansatz Thesauri Fazit, Literatur, Adressen

35 Literatur Zum Dimension Handling
Zu Dimension Handling, Level Groups, Views: Carlos A. Hurtado, Alberto O. Mendelzon, Alejandro Vaisman (1999): Maintaining Data Cubes under Dimension Updates. Proc. of the Int'l Conference on Data Engineering. H. Schouten (1999): Analysis and Design of Data Warehouses. In: Proceedings of the Intl. Workshop Design and Management of Data Warehouses. Heidelberg. P C. Quix (1999): Repository Support for Data Warehouse Evolution. In: Proceedings of the Intl. Workshop Design and Management of Data Warehouses. Heidelberg. P M.O. Akinde, M.H. Böhlen (1999): Constructing GPSJ View Graphs In: Proceedings of the Intl. Workshop Design and Management of Data Warehouses. Heidelberg. P Intro / Thema Business Case Grundbegriffe Abfragen, Datenexport, Lösungsansatz Thesauri Fazit, Literatur, Adressen

36 Literatur und Adressen Zum Projektvorgehen
J.A. Rodero, M.G. Piattini, J.A. Toval (1999): The Audit of the Data Warehouse Framework. In: Proceedings of the Intl. Workshop Design and Management of Data Warehouses. Heidelberg. P Rapid Data Warehousing with the SAS System. Cary 1996, 1998. Adressen: gmx.ch Mit-Realisierung: iiic.ethz.ch WH-Administrator (Kunde): Ueli Braun, Economic Research, CREDIT SUISSE, Zürich, credit-suisse.ch Intro / Thema Business Case Grundbegriffe Abfragen, Datenexport, Lösungsansatz Thesauri Fazit, Literatur, Adressen


Herunterladen ppt "Schüle / Locher: Raum-zeit-thematisches Forschungs-DWH für SAS-Datawarehousing'98, Zürich, 25. November 1998 01/07/00 Entwurf eines DWH für Volkswirtschaftliche."

Ähnliche Präsentationen


Google-Anzeigen