Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

FHTW Berlin Datenbanken Prof. Dr. Zschockelt Business Intelligence (BI) Business Intelligence (BI) gilt heute als generalisierender Begriff für Methoden.

Ähnliche Präsentationen


Präsentation zum Thema: "FHTW Berlin Datenbanken Prof. Dr. Zschockelt Business Intelligence (BI) Business Intelligence (BI) gilt heute als generalisierender Begriff für Methoden."—  Präsentation transkript:

1 FHTW Berlin Datenbanken Prof. Dr. Zschockelt Business Intelligence (BI) Business Intelligence (BI) gilt heute als generalisierender Begriff für Methoden des intelligenten Sammelns und Auswerten von Daten mit dem Ziel einen Mehrwert für die Unternehmenssteuerung zu erzielen. Das Messen der wich- tigsten Ist-Zustände (Key Performance Indicator) im Verbund mit analytischen Verfahren (OLAP, Data Mining) und daraus abgeleiteten Vorher- sagen (Forecasting) sollen den Produk- tivitätsfaktor "Informa- tion" maximal verwer- ten.

2 FHTW Berlin Datenbanken Prof. Dr. Zschockelt Die Business-Intelligence-Pyramide Hervor- ragende Kapitalrendite Zusammensetzung und Umsetzung Wissen (Fähigkeit zum Beantworten aller geschäftsrelevanten Fragen) Erkenntnisse (gezielt, zeitnahe, vollständige, aber auch einfache Analyse) Informationen (relevant, vollständig, kontextbezogen, zuverlässig, aktuell) Daten (Integration, Bereinigung, Unternehmensmodellierung, Konsolidierung; Transformation und Aggregation) Quelle: frei nach IT-FOKUS 6/2003

3 FHTW Berlin Datenbanken Prof. Dr. Zschockelt Data Warehouse Ein Data Warehouse ist eine sachverhaltsbezogene, integrierte, unveränderliche und zeitraumbezogene Datensammlung zur Unterstützung von Managementent­scheidungen. W. H. Inmon (USA 1996) Mit dem Begriff Data Warehouse i.e.S. wird generell eine von den opera- tionalen DV-Systemen isolierte Datenbank umschrieben, die als unter- nehmensweite Datenbasis für alle Ausprägungen managementunter- stützender Systeme dient und durch eine strikte Trennung von operatio- nalen und entscheidungsunterstützenden Daten und Systemen gekenn- zeichnet ist. Mucksch, Behme (BRD 1997) Ein Data Warehouse ist eine Sammlung von integrierten Informationen, welche von den betrieblichen operativen Systemen und anderen externen Datenquellen gewonnen werden. Der spezielle Zweck ist die Unterstützung von betrieblichen Entscheidungen, nicht betrieblichen Tätigkeiten. M. J. Corey, M. Abbey (USA 1997) Es gibt sehr gute Portale, z. B.:

4 FHTW Berlin Datenbanken Prof. Dr. Zschockelt Grundlegende Architektur eines Data Warehouse ( frei nach Quelle: Anahory/Murray: Datawarehouse, S. 59 ) Ausführliche Informationen Zusammen- fassungsin- formationen Meta-Daten Archivierte ausführliche Informationen Einfügemanager Abfragemanager Warehouse-Manager OLAP-Werkzeuge Operationale Daten Externe Daten

5 relationalmultidimensional (denormalisiert Star- bzw. Snowflake-Schema)(Cube) Auswertung mittels OLAP (Online Analytical Processing) ROLAP MOLAP (relationales OLAP) (multidimensionales OLAP) HOLAP (hybrides OLAP) FHTW Berlin Datenbanken Prof. Dr. Zschockelt Speicherung im Data Warehouse

6 FHTW Berlin Datenbanken Prof. Dr. Zschockelt Spezielle Data-Warehouse-Datenmodelle strukturieren das Data Warehouse (DWH) Kernpunkt der Speicherung ausführlicher Data-Warehouse Informationen zu einem ausgewählten Thema ist immer eine Faktentabelle mit zu analysierenden Messwerten. Diese wird mit Dimensionswerten (vermutete Einflussgrößen auf die Entwicklung der Fakten) indiziert, um die Fakten aus unterschiedlichen Sichten analysieren zu können. Das daraus entstehende typische Schema des Modells wird Star-Schema (bzw. in erweiterter Form auch Star- oder Snowflake-Schema) genannt). Fakt Dimension 1 Dimension 4 Dimension 5 Dimension 3 Dimension 2 Dimension n

7 Legende: Faktentabelle Star-Dimensionsdaten Snowflake-Dimensionsdaten FHTW Berlin Datenbanken Prof. Dr. Zschockelt Starflake-Schema einer Datenbank Beispiel Periode Markt Vertrieb Versand (Fakten) Monat Quartal Sommer- Saison Produkt

8 FHTW Berlin Datenbanken Prof. Dr. Zschockelt Beispiel einer Dimensionstabelle "Periode" SchlüsselBezeichnungJahrQuartalMonatSaison 00001Jan Feb Mär Apr Mai Jun ……………… 01007Jul Aug Sep Okt Nov Dez Jan Spalten in Dimensionstabellen spiegeln Hierarchien wieder, z. B. Jahr Quartal Monat Bezeichnung aber auch Saison Jahr u.a.

9 FHTW Berlin Datenbanken Prof. Dr. Zschockelt Hierarchien in Dimensionen 1. Ausgeglichene Hierachien Beispiel Periode1. Quartal JanuarFebruarMärz 2. Quartal AprilMaiJuni 3. Quartal JuliAugustSeptember 4. Quartal OktoberNovemberDezember JahrQuartalMonat Anmerkung: Benennung der Hierarchien einfach. 2. Unausgeglichene Hierachien Beispiel Abteilungsstruktur Firmenkunden GroßkundenKleinkunden Privatkunden Region SüdRegion Nord Öffentlicher Dienst Anmerkung: Benennung der Hierarchien schwierig Unregelmäßige Hierachien Beispiel Regionen Land Region Staat Anmerkung: Benennung der Hierarchien einfach, aber bestimmte Hierarchie- stufen ggf. bedeutungslos für bestimmte Werte. Z. B. keine Region und kein Staat für Lichtenstein.

10 FHTW Berlin Datenbanken Prof. Dr. Zschockelt Fragestellungen - Datenräume - Methoden FragestellungRaumMathematische Disziplin Welchen Preis hat Produkt 3497? DatenraumMengenlehre, Mengenalgebra Welcher Umsatz wurde mit Produkt 3497 in Berlin im Monat Februar 2001 erzielt? Multidimensionaler Raum Online Analytical Processing (OLAP): Pivot Tabellen Wie haben sich die Umsätze in den letzten drei Jahren verändert? VarianzraumData Mining: Regression Korrelation Welche Faktoren beeinflussen den Umsatz unserer Produkte in den Mittelmeerländern? Raum der Einflussgrößen Data Mining: Entscheidungsbäume, Cluster Analyse, Neuronale Netze

11 FHTW Berlin Datenbanken Prof. Dr. Zschockelt Typisierung von OLAP-Abfragen rotate ("Drehen" des OLAP-Würfels) Es interessiert der Zusammenhang einiger ausgewählter Dimensionen. slice ("Ausschneiden" von Ebenen aus dem OLAP-Würfel) Eine Dimension wird auf einen interessierenden Wert eingeschränkt. dice ("Abteilen" von Teilwürfeln aus dem OLAP-Würfel) Einschränkung der Dimensionen auf einen ausgewählten Wertebereich.

12 FHTW Berlin Datenbanken Prof. Dr. Zschockelt Zur Methodik der Pivot-Tabelle (am Beispiel MS-Excel) Fakten Dimension 1 (vertikal) Dimension 3 (Blatt) Dimension 2 (horizontal) Quelldaten

13 Fakten (Measures)DimensionRoll-upDrill-Down 1000 Produkt A Produkt B960 … 5345 Produkt­gruppe Produkt E 450 Produkt F … 4600 Produkt­gruppe … Produkt- kategorie X … Gesamt FHTW Berlin Datenbanken Prof. Dr. Zschockelt Navigieren in multidimensionalen Speichern Roll-upvom Detail zur Aggregation Drill-downvom Aggregat zum Detail

14 OLAP-DatenbankRelationale Datenbank Art der Abfrageanalytischtransaktionsorientiert AbfragespracheHerstellerspezifisch, zukünftig standar- disiert durch das OLAP-Council und Microsofts OLE DB for OLAP Structured Query Language (SQL) Abfragegeschwin- digkeit vorhersagbar schnellnicht vorhersagbar Berechnungsmög- lichkeiten umfangreich und über mehrere Dimensionen (Cross Dimensional) begrenzt Update- Mechanismus zyklischEchtzeit Speicherformmehrdimensionalzweidimensional Wachstum der Daten Abhängig von der Dichte der Daten, daher schwierig vorhersagbar einfach vorhersagbar Technisches Symbol FHTW Berlin Datenbanken Prof. Dr. Zschockelt Gegenüberstellung OLAP/RDBMS

15 FHTW Berlin Datenbanken Prof. Dr. Zschockelt Datentransformation mit ETL-Tools Data Warehouse Data Mart OLTP-Datenbank ETL Extract Transform Load DatenquellenZiel-Datenbank ETL-Tools dienen zur Migration von Quelldaten in eine andere Datenressource in der Regel innerhalb einer analytischen Umgebung.

16 FHTW Berlin Datenbanken Prof. Dr. Zschockelt Merkmale des ETL-Prozesses MerkmalAusprägungBeschreibung Art der Extraktion volle Extraktion Extraktion aller in einem Quellsystem vorhandenen Datensätze Delta-Extraktion Einlesen eingefügter oder aktualisierter Datensätze Extraktionsszenario Push-Szenario Initiator des ETL-Prozesses ist das Quellsystem Pull-Szenario Initiator des ETL-Prozesses ist das Data Warehouse Warte-/Ladezeit synchrone ExtraktionExtraktion der Datensätze in Real-time asynchrone Extraktion Datensätze werden gespeichert und später weitergeleitet asynchrones Batching erfolgt auf Abruf, ereignisgesteuert oder per zeitlicher Einplanung (Scheduling) Gültigkeitsbereich der Daten Mapping Projektion aller Datensätze der Quellsysteme SelektionAuswahl analyserelevanter Daten Aggregationfestgelegte Granularitätsstufe

17 FHTW Berlin Datenbanken Prof. Dr. Zschockelt Ausgewählte Analysewerkzeuge für BI AnbieterProduktWWW ArcplaninSight/dynaSightwww.arcplan.de Business Objects BusinessObjects/ CognosNowaView/PowerPlaywww.cognos.de ComshareDecisionWebwww.codec.de HyperionWired for OLAPwww.hyperion.de Information Builders WebFOCUSwww.informationbuilders.com Intellicube Software AG OnVisionwww.intellicube.de KnosysProClaritywww.dcsoft.de MicrosoftMS-Excel 2000www.microsoft.de MIS AGDecisionwarewww.mis.de Seagate Software Infowww.seagatesoftware.com

18 FHTW Berlin Datenbanken Prof. Dr. Zschockelt Business Objekts Enterprise Beispiel eines BI-Tools Quelle: IT-FOKUS 6/2003

19 FHTW Berlin Datenbanken Prof. Dr. Zschockelt Portale als Data Warehouse Client Beispiel BA: Ziel: Kombination von Data Warehouse-, Analyse- und Reporting- Lösungen auf Basis einer integrierten Portalstruktur. Technologische Integration von OLTP- und Data Warehouse- Systemen. Online-Verfügbarkeit des Data Warehouse. Abrufbarkeit von unterschiedlichen Endgeräten; Wiedererkennungseffekte. Angemessene Sicherheit bei parallelen Zugriffsmöglichkeiten. Anforderungen Portal-Framework (z. B. zur Personalisierung ). Einbindung heterogener Datenquellen durch Portlets. Endnutzergerechte BI-Tools. Data-Warehouse-Basisstruktur. IT-Infrastruktur

20 FHTW Berlin Datenbanken Prof. Dr. Zschockelt Beispiel InSight Marktführer der BI-Tools Aus der MS-OLAP-Server-DEMO footmart werden ausgewählte Sichten (rechte Seite) als Grafik angezeigt. Quelle: von Arcplan.http://www.dynasight.com/

21 FHTW Berlin Datenbanken Prof. Dr. Zschockelt Übersicht über relevante Data Warehouse Anbieter AnbieterProduktWWW CognosBI Platformwww.cognos.de *.com HyperionHyberion Essbasewww.hyberion.de *.com IBMVisual Warehousewww.ibm.de Information BuildersSmartMartwww.informationbuilders.com InformixInformix MetaCube ROLAPwww.informix.com MicrosoftOLAP- / Analysis Serviceswww.microsoft.de *.com MicroStrategy NCRTeraDatawww.ncr.com OracleExpresswww.oracle.de PilotDSS Suitewww.pilotsw.com SAPBusiness Warehousewww.sap.de SASSAS Systemwww.sas.com Seagate SoftwareHoloswww.seagatesoftware.com SybaseSybase Warehouse Studiowww.sybase.com

22 FHTW Berlin Datenbanken Prof. Dr. Zschockelt Marktübersicht Data Warehouses (Computer Zeitung Ausgabe 09/2004) AnbieterHerstellerProduktnameWeb-AdresseInstallationszahl (D/USA) Aruba Informatik EIS / EIPwww.aruba-informatik.deca. 350 Installationen gesamt Bytesteps Olympwww.bytesteps.netauf Anfrage Group 1 Software Sagent Solutionwww.group1.de100 (Deutschland), (weltweit) Informatica Powercenterwww.informatica.com/de500 (Deutschland), (weltweit) MicroStrategy Deutschland MicroStrategyMicroStrategy 7iwww.microstrategy.dekeine Angabe MID Innovatorwww.mid.deauf Anfrage m:pro IT Consult m:odm/m:pro object Data Modelwww.mpro.de30 Oracle Oracle Data Warehousewww.oracle.com/dekeine Angabe Orenburg Board M.I.T.www.board.de> PeopleSoft Enterprise Warehousewww.peoplesoft.dekeine Angabe Retek Deutschland Retek Data Warehousewww.retek.comca. 50 Samac Software Dyna Server/400www.samac.dekeine Angabe Samac Software Dyna Server/Windowswww.samac.dekeine Angabe Samac Software Mining Server/400www.samac.dekeine Angabe Samac Software MIT/400www.samac.dekeine Angabe Scopeland Technology Scopeland 2000 (DW)www.scopeland.deca. 100 Teradata, a division of NCR TeradataTeradate Warehouse Minerwww.teradata.com100 Kunden weltweit Transaction Software Transbase Hypercubewww.transaction.dekeine Angabe Alle Daten beruhen auf Angaben der Hersteller oder Distributoren. Für die Richtigkeit der Daten wird keine Haftung übernommen. (c) AWi Verlag

23 FHTW Berlin Datenbanken Prof. Dr. Zschockelt Typische betriebliche Data-Warehouse-Umgebung Data Marts für Abteilungen

24 FHTW Berlin Datenbanken Prof. Dr. Zschockelt Anwendungsszenarien für Data Mining Data Mining bietet eine Reihe von Methoden, die je nach Aufgabe und Fragestellung zum Einsatz kommen, um bisher verborgene Zusammenhänge in der Datenbasis aufzudecken. Aufgaben des Data Mining Methoden des Data Mining Beispielhafte Fragestellungen Prognosemodell Response-Wahr- scheinlichkeit Identifikation ertragreicher Segmente Analyse von Kaufmustern Customer Profiling Prognose Segmentierung und Kategorisierung Assoziations- analyse Klassifikation Neuronale Netze Entscheidungs- bäume Cluster- verfahren Assoziations- verfahren i n MS-SQL-Server 2000 Analysis Services implementiert. Beispielhafte Fragestellungen Aufgaben des Data Mining Methoden des Data Mining

25 FHTW Berlin Datenbanken Prof. Dr. Zschockelt Prinzip des Training und der Vorhersage " Training des Modells" Einflussdaten Vorhersagedaten Falldaten Häufigkeiten Vorhersage (apply) Klassenbildung (build) Ein Modell wird trainiert, auf Basis der ermittelten Wahrscheinlichkeiten werden Vorhersagedaten berechnet.

26 FHTW Berlin Datenbanken Prof. Dr. Zschockelt MS-Analysis-Services Begriffswelt Ziel eines Dataminingmodells ist das Erkennen von Mustern in einer datenbank- gespeicherten Datenmenge (= trainieren); zum Beispiel das Erkennen des Musters, nach dem Kunden ihre Kundenkarten auswählen. Um die für die Mustererkennung erforderlichen Daten auswerten zu können, muss eine Tabelle (Dimension) ausgewählt werden, welche die zu untersuchenden Fälle enthält (Fallschlüsseltabelle). Nach der Data Warehouse Begriffswelt sind die zu untersuchen-den Fälle immer Bestandteil einer Dimension (nicht der Fakten). Ein Fall bezeichnet die Datensammlung, aus der eine zu analysierende Einheit besteht (z. B. die Daten eines Kunden).Er wird durch die Fallschlüsselspalte (z. B. Kunden-ID) identifiziert. Eine Eigenschaft des Falls (Vorhersagbare Spalte(n)) ist auszuwählen. Für diese sollen verursachende Eingabewerte ermittelt werden. Dafür stehen unterschiedliche Methoden zur Verfügung: "Microsoft Decision Trees" für die Berechnung von Entscheidungsbäumen. "Microsoft Clustering" ("Nearest Neighbor-Verfahren") für die Clusteranalyse (hierbei entfallen vorhersagbare Spalten).

27 FHTW Berlin Datenbanken Prof. Dr. Zschockelt MS-Analysis-Service Plus und Minus Erweiterung der DB-Funktionalität Transfermöglichkeit des Mo- dells auf andere Datenquellen Gemeinsame Bedienoberfläche mit OLAP-Tools Enge Integration mit OLAP- Speicher und RDBMS MS- SQL-Server 2000 Gute Dokumentation, inklusive Anwendungsbeispiel Geringer Methodenvorrat Schlichte Ergebnisprä- sentation MS OLE DB Provider for Data Mining Services un- ausgereift. + -

28 FHTW Berlin Datenbanken Prof. Dr. Zschockelt Bewertung von Data Mining Plattformen durch Gartner Group Ability to Execute Oracle SAP SAS Information Builders Microsoft Hyperion Seagate Comshare Pilot Software CA/Platinum Gentia Sagent AlphaBlox Panorama Arcplan Niche Player Visionaries Completeness of Vision ChallengersLeaders

29 FHTW Berlin Datenbanken Prof. Dr. Zschockelt Spezialisten machen Data Mining wahrnehmbar Beispiel SPSS ( )http://www.spss.de Das Konzept des Predictive Analytics soll aus der Analyse des Vergangenen Modelle für die Zukunft generieren. "Predictive analytics connects data to effective action by drawing reliable conclusions about current conditions and future events. "

30 FHTW Berlin Datenbanken Prof. Dr. Zschockelt Produktübersicht SPSS Statistik SPSS Produktlinie SPSS WebApp Data Mining AnswerTree Clementine LexiQuest Business Intelligence OLAP Hub Showcase® Solutions Predictive Analytic Applications DataDistilleries Market Research SPSS MR Dimensions NetGenesis Predictive Web Analytics SPSS Predictive Marketing Components Analytical components


Herunterladen ppt "FHTW Berlin Datenbanken Prof. Dr. Zschockelt Business Intelligence (BI) Business Intelligence (BI) gilt heute als generalisierender Begriff für Methoden."

Ähnliche Präsentationen


Google-Anzeigen