Business Intelligence (BI) FHTW Berlin Datenbanken Prof. Dr. Zschockelt Business Intelligence (BI) Business Intelligence (BI) gilt heute als generalisierender Begriff für Methoden des intelligenten Sammelns und Auswerten von Daten mit dem Ziel einen Mehrwert für die Unternehmenssteuerung zu erzielen. Das Messen der wich-tigsten Ist-Zustände (Key Performance Indicator) im Verbund mit analytischen Verfahren (OLAP, Data Mining) und daraus abgeleiteten Vorher-sagen (Forecasting) sollen den Produk-tivitätsfaktor "Informa-tion" maximal verwer-ten.
Die Business-Intelligence-Pyramide FHTW Berlin Datenbanken Prof. Dr. Zschockelt Die Business-Intelligence-Pyramide Hervor- ragende Kapitalrendite Zusammensetzung und Umsetzung Wissen (Fähigkeit zum Beantworten aller geschäftsrelevanten Fragen) Erkenntnisse (gezielt, zeitnahe, vollständige, aber auch einfache Analyse) Informationen (relevant, vollständig, kontextbezogen, zuverlässig, aktuell) Daten (Integration, Bereinigung, Unternehmensmodellierung, Konsolidierung; Transformation und Aggregation) Quelle: frei nach IT-FOKUS 6/2003
FHTW Berlin Datenbanken Prof. Dr. Zschockelt Data Warehouse Ein Data Warehouse ist eine sachverhaltsbezogene, integrierte, unveränderliche und zeitraumbezogene Datensammlung zur Unterstützung von Managemententscheidungen. W. H. Inmon (USA 1996) Ein Data Warehouse ist eine Sammlung von integrierten Informationen, welche von den betrieblichen operativen Systemen und anderen externen Datenquellen gewonnen werden. Der spezielle Zweck ist die Unterstützung von betrieblichen Entscheidungen, nicht betrieblichen Tätigkeiten. M. J. Corey, M. Abbey (USA 1997) Mit dem Begriff Data Warehouse i.e.S. wird generell eine von den opera-tionalen DV-Systemen isolierte Datenbank umschrieben, die als unter-nehmensweite Datenbasis für alle Ausprägungen managementunter-stützender Systeme dient und durch eine strikte Trennung von operatio-nalen und entscheidungsunterstützenden Daten und Systemen gekenn-zeichnet ist. Mucksch, Behme (BRD 1997) Es gibt sehr gute Portale, z. B.: http://www.datawarehousingonline.com/
FHTW Berlin Datenbanken Prof. Dr. Zschockelt Grundlegende Architektur eines Data Warehouse ( frei nach Quelle: Anahory/Murray: Datawarehouse, S. 59 ) Einfügemanager Abfragemanager Operationale Daten Zusammen- fassungsin- formationen Ausführliche Informationen Meta-Daten Externe Daten Warehouse-Manager OLAP-Werkzeuge Archivierte ausführliche Informationen
Speicherung im Data Warehouse FHTW Berlin Datenbanken Prof. Dr. Zschockelt Speicherung im Data Warehouse relational multidimensional (denormalisiert Star- bzw. Snowflake-Schema) (Cube) Auswertung mittels OLAP (Online Analytical Processing) ROLAP MOLAP (relationales OLAP) (multidimensionales OLAP) HOLAP (hybrides OLAP)
eine Faktentabelle mit zu analysierenden Messwerten. FHTW Berlin Datenbanken Prof. Dr. Zschockelt Spezielle Data-Warehouse-Datenmodelle strukturieren das Data Warehouse (DWH) Kernpunkt der Speicherung ausführlicher Data-Warehouse Informationen zu einem ausgewählten Thema ist immer eine Faktentabelle mit zu analysierenden Messwerten. Diese wird mit Dimensionswerten (vermutete Einflussgrößen auf die Entwicklung der Fakten) indiziert, um die Fakten aus unterschiedlichen Sichten analysieren zu können. Das daraus entstehende typische Schema des Modells wird Star-Schema (bzw. in erweiterter Form auch Star- oder Snowflake-Schema) genannt). Fakt Dimension 1 Dimension 4 Dimension 5 Dimension 3 Dimension 2 Dimension n
Starflake-Schema einer Datenbank Beispiel FHTW Berlin Datenbanken Prof. Dr. Zschockelt Starflake-Schema einer Datenbank Beispiel Monat Quartal Produkt Periode Sommer- Saison Versand (Fakten) Vertrieb Markt Legende: Faktentabelle Star-Dimensionsdaten Snowflake-Dimensionsdaten
Beispiel einer Dimensionstabelle "Periode" FHTW Berlin Datenbanken Prof. Dr. Zschockelt Beispiel einer Dimensionstabelle "Periode" Schlüssel Bezeichnung Jahr Quartal Monat Saison 00001 Jan. 2000 2000 1 00002 Feb. 2000 2 00003 Mär. 2000 3 00004 Apr. 2000 4 00005 Mai 2000 5 00006 Jun. 2000 6 … 01007 Jul. 2001 2001 7 01008 Aug. 2001 8 01009 Sep. 2001 9 01010 Okt. 2001 10 01011 Nov. 2001 11 01012 Dez. 2001 12 02001 Jan. 2002 2002 Spalten in Dimensionstabellen spiegeln Hierarchien wieder, z. B. Jahr Quartal Monat Bezeichnung aber auch Saison Jahr u.a.
Hierarchien in Dimensionen FHTW Berlin Datenbanken Prof. Dr. Zschockelt Hierarchien in Dimensionen 1. Ausgeglichene Hierachien Beispiel Periode 1. Quartal Januar Februar März 2. Quartal April Mai Juni 3. Quartal Juli August September 4. Quartal Oktober November Dezember Jahr Quartal Monat Anmerkung: Benennung der Hierarchien einfach. 2002 2. Unausgeglichene Hierachien Beispiel Abteilungsstruktur Firmenkunden Großkunden Kleinkunden Privatkunden Region Süd Region Nord Öffentlicher Dienst Anmerkung: Benennung der Hierarchien schwierig. 3. Unregelmäßige Hierachien Beispiel Regionen Land Region Staat Anmerkung: Benennung der Hierarchien einfach, aber bestimmte Hierarchie-stufen ggf. bedeutungslos für bestimmte Werte. Z. B. keine Region und kein Staat für Lichtenstein.
Fragestellungen - Datenräume - Methoden FHTW Berlin Datenbanken Prof. Dr. Zschockelt Fragestellungen - Datenräume - Methoden Fragestellung Raum Mathematische Disziplin Welchen Preis hat Produkt 3497? Datenraum Mengenlehre, Mengenalgebra Welcher Umsatz wurde mit Produkt 3497 in Berlin im Monat Februar 2001 erzielt? Multidimensionaler Raum Online Analytical Processing (OLAP): Pivot Tabellen Wie haben sich die Umsätze in den letzten drei Jahren verändert? Varianzraum Data Mining: Regression Korrelation Welche Faktoren beeinflussen den Umsatz unserer Produkte in den Mittelmeerländern? Raum der Einflussgrößen Data Mining: Entscheidungsbäume, Cluster Analyse, Neuronale Netze
Typisierung von OLAP-Abfragen FHTW Berlin Datenbanken Prof. Dr. Zschockelt Typisierung von OLAP-Abfragen rotate ("Drehen" des OLAP-Würfels) Es interessiert der Zusammenhang einiger ausgewählter Dimensionen . slice ("Ausschneiden" von Ebenen aus dem OLAP-Würfel) Eine Dimension wird auf einen interessierenden Wert eingeschränkt. dice ("Abteilen" von Teilwürfeln aus dem OLAP-Würfel) Einschränkung der Dimensionen auf einen ausgewählten Wertebereich.
Zur Methodik der Pivot-Tabelle (am Beispiel MS-Excel) FHTW Berlin Datenbanken Prof. Dr. Zschockelt Zur Methodik der Pivot-Tabelle (am Beispiel MS-Excel) Fakten Dimension 1 (vertikal) Quelldaten Dimension 3 (Blatt) Dimension 2 (horizontal)
Navigieren in multidimensionalen Speichern FHTW Berlin Datenbanken Prof. Dr. Zschockelt Navigieren in multidimensionalen Speichern Fakten (Measures) Dimension Roll-up Drill-Down 1000 € Produkt A 960 € Produkt B … 5345 € Produktgruppe 1 2020 € Produkt E 450 € Produkt F 4600 € Produktgruppe 2 123560 € Produkt- kategorie X 876500 € Gesamt 876500 Roll-up vom Detail zur Aggregation Drill-down vom Aggregat zum Detail
Gegenüberstellung OLAP/RDBMS FHTW Berlin Datenbanken Prof. Dr. Zschockelt Gegenüberstellung OLAP/RDBMS OLAP-Datenbank Relationale Datenbank Art der Abfrage analytisch transaktionsorientiert Abfragesprache Herstellerspezifisch, zukünftig standar-disiert durch das OLAP-Council und Microsofts OLE DB for OLAP Structured Query Language (SQL) Abfragegeschwin-digkeit vorhersagbar schnell nicht vorhersagbar Berechnungsmög-lichkeiten umfangreich und über mehrere Dimensionen (Cross Dimensional) begrenzt Update-Mechanismus zyklisch Echtzeit Speicherform mehrdimensional zweidimensional Wachstum der Daten Abhängig von der Dichte der Daten, daher schwierig vorhersagbar einfach vorhersagbar Technisches Symbol
Datentransformation mit ETL-Tools FHTW Berlin Datenbanken Prof. Dr. Zschockelt Datentransformation mit ETL-Tools Datenquellen Ziel-Datenbank Data Warehouse Data Mart OLTP-Datenbank ETL Extract Transform Load ETL-Tools dienen zur Migration von Quelldaten in eine andere Datenressource in der Regel innerhalb einer analytischen Umgebung.
Merkmale des ETL-Prozesses FHTW Berlin Datenbanken Prof. Dr. Zschockelt Merkmale des ETL-Prozesses Merkmal Ausprägung Beschreibung Art der Extraktion volle Extraktion Extraktion aller in einem Quellsystem vorhandenen Datensätze Delta-Extraktion Einlesen eingefügter oder aktualisierter Datensätze Extraktionsszenario Push-Szenario Initiator des ETL-Prozesses ist das Quellsystem Pull-Szenario Initiator des ETL-Prozesses ist das Data Warehouse Warte-/Ladezeit synchrone Extraktion Extraktion der Datensätze in Real-time asynchrone Extraktion Datensätze werden gespeichert und später weitergeleitet asynchrones Batching erfolgt auf Abruf, ereignisgesteuert oder per zeitlicher Einplanung (Scheduling) Gültigkeitsbereich der Daten Mapping Projektion aller Datensätze der Quellsysteme Selektion Auswahl analyserelevanter Daten Aggregation festgelegte Granularitätsstufe
Ausgewählte Analysewerkzeuge für BI FHTW Berlin Datenbanken Prof. Dr. Zschockelt Ausgewählte Analysewerkzeuge für BI Anbieter Produkt WWW Arcplan inSight/dynaSight www.arcplan.de Business Objects BusinessObjects/ OLAP@Work www.businessobjects.com Cognos NowaView/PowerPlay www.cognos.de Comshare DecisionWeb www.codec.de Hyperion Wired for OLAP www.hyperion.de Information Builders WebFOCUS www.informationbuilders.com Intellicube Software AG OnVision www.intellicube.de Knosys ProClarity www.dcsoft.de Microsoft MS-Excel 2000 www.microsoft.de MIS AG Decisionware www.mis.de Seagate Software Info www.seagatesoftware.com
Business Objekts Enterprise Beispiel eines BI-Tools FHTW Berlin Datenbanken Prof. Dr. Zschockelt Business Objekts Enterprise Beispiel eines BI-Tools Quelle: IT-FOKUS 6/2003
Portale als Data Warehouse Client FHTW Berlin Datenbanken Prof. Dr. Zschockelt Portale als Data Warehouse Client Ziel: Kombination von Data Warehouse-, Analyse- und Reporting-Lösungen auf Basis einer integrierten Portalstruktur. Anforderungen Technologische Integration von OLTP- und Data Warehouse-Systemen. Online-Verfügbarkeit des Data Warehouse. Abrufbarkeit von unterschiedlichen Endgeräten; Wiedererkennungseffekte. Angemessene Sicherheit bei parallelen Zugriffsmöglichkeiten. Portal-Framework (z. B. zur Personalisierung ). Einbindung heterogener Datenquellen durch Portlets. Endnutzergerechte BI-Tools. Data-Warehouse-Basisstruktur. IT-Infrastruktur Beispiel BA: http://www.hyperwave.com/d/references/ba.html
Beispiel InSight Marktführer der BI-Tools FHTW Berlin Datenbanken Prof. Dr. Zschockelt Beispiel InSight Marktführer der BI-Tools Aus der MS-OLAP-Server-DEMO footmart werden ausgewählte Sichten (rechte Seite) als Grafik angezeigt. Quelle: http://www.dynasight.com/ von Arcplan.
Übersicht über relevante Data Warehouse Anbieter FHTW Berlin Datenbanken Prof. Dr. Zschockelt Übersicht über relevante Data Warehouse Anbieter Anbieter Produkt WWW Cognos BI Platform www.cognos.de *.com Hyperion Hyberion Essbase www.hyberion.de *.com IBM Visual Warehouse www.ibm.de Information Builders SmartMart www.informationbuilders.com Informix Informix MetaCube ROLAP www.informix.com Microsoft OLAP- / Analysis Services www.microsoft.de *.com MicroStrategy www.microstrategy.com NCR TeraData www.ncr.com Oracle Express www.oracle.de Pilot DSS Suite www.pilotsw.com SAP Business Warehouse www.sap.de SAS SAS System www.sas.com Seagate Software Holos www.seagatesoftware.com Sybase Sybase Warehouse Studio www.sybase.com
Marktübersicht Data Warehouses (Computer Zeitung Ausgabe 09/2004) FHTW Berlin Datenbanken Prof. Dr. Zschockelt Marktübersicht Data Warehouses (Computer Zeitung Ausgabe 09/2004) Anbieter Hersteller Produktname Web-Adresse Installationszahl (D/USA) Aruba Informatik EIS / EIP www.aruba-informatik.de ca. 350 Installationen gesamt Bytesteps Olymp www.bytesteps.net auf Anfrage Group 1 Software Sagent Solution www.group1.de 100 (Deutschland), 2.000 (weltweit) Informatica Powercenter www.informatica.com/de 500 (Deutschland), 5.000 (weltweit) MicroStrategy Deutschland MicroStrategy MicroStrategy 7i www.microstrategy.de keine Angabe MID Innovator www.mid.de m:pro IT Consult m:odm/m:pro object Data Model www.mpro.de 30 Oracle Oracle Data Warehouse www.oracle.com/de Orenburg Board M.I.T. www.board.de > 1.000 PeopleSoft Enterprise Warehouse www.peoplesoft.de Retek Deutschland Retek Data Warehouse www.retek.com ca. 50 Samac Software Dyna Server/400 www.samac.de Dyna Server/Windows Mining Server/400 MIT/400 Scopeland Technology Scopeland 2000 (DW) www.scopeland.de ca. 100 Teradata, a division of NCR Teradata Teradate Warehouse Miner www.teradata.com 100 Kunden weltweit Transaction Software Transbase Hypercube www.transaction.de Alle Daten beruhen auf Angaben der Hersteller oder Distributoren. Für die Richtigkeit der Daten wird keine Haftung übernommen. (c) AWi Verlag 1999-2004.
Typische betriebliche Data-Warehouse-Umgebung FHTW Berlin Datenbanken Prof. Dr. Zschockelt Typische betriebliche Data-Warehouse-Umgebung Data Marts für Abteilungen
Anwendungsszenarien für Data Mining FHTW Berlin Datenbanken Prof. Dr. Zschockelt Anwendungsszenarien für Data Mining Beispielhafte Fragestellungen Aufgaben des Data Mining Methoden des Data Mining Prognosemodell Response-Wahr-scheinlichkeit Prognose Neuronale Netze Identifikation ertragreicher Segmente Segmentierung und Kategorisierung Entscheidungs- bäume Analyse von Kaufmustern Assoziations-analyse Cluster- verfahren Customer Profiling Klassifikation Assoziations- verfahren Beispielhafte Fragestellungen Aufgaben des Data Mining Methoden des Data Mining in MS-SQL-Server 2000 Analysis Services implementiert. Data Mining bietet eine Reihe von Methoden, die je nach Aufgabe und Fragestellung zum Einsatz kommen, um bisher verborgene Zusammenhänge in der Datenbasis aufzudecken.
Prinzip des Training und der Vorhersage FHTW Berlin Datenbanken Prof. Dr. Zschockelt Prinzip des Training und der Vorhersage Vorhersagedaten Einflussdaten Vorhersage (apply) Klassenbildung (build) "Training des Modells" Häufigkeiten Falldaten Ein Modell wird trainiert, auf Basis der ermittelten Wahrscheinlichkeiten werden Vorhersagedaten berechnet.
MS-Analysis-Services Begriffswelt FHTW Berlin Datenbanken Prof. Dr. Zschockelt MS-Analysis-Services Begriffswelt Ziel eines Dataminingmodells ist das Erkennen von Mustern in einer datenbank-gespeicherten Datenmenge (= trainieren); zum Beispiel das Erkennen des Musters, nach dem Kunden ihre Kundenkarten auswählen. Um die für die Mustererkennung erforderlichen Daten auswerten zu können, muss eine Tabelle (Dimension) ausgewählt werden, welche die zu untersuchenden Fälle enthält (Fallschlüsseltabelle). Nach der Data Warehouse Begriffswelt sind die zu untersuchen-den Fälle immer Bestandteil einer Dimension (nicht der Fakten). Ein Fall bezeichnet die Datensammlung, aus der eine zu analysierende Einheit besteht (z. B. die Daten eines Kunden).Er wird durch die Fallschlüsselspalte (z. B. Kunden-ID) identifiziert. Eine Eigenschaft des Falls (Vorhersagbare Spalte(n)) ist auszuwählen. Für diese sollen verursachende Eingabewerte ermittelt werden. Dafür stehen unterschiedliche Methoden zur Verfügung: "Microsoft Decision Trees" für die Berechnung von Entscheidungsbäumen. "Microsoft Clustering" ("Nearest Neighbor-Verfahren") für die Clusteranalyse (hierbei entfallen vorhersagbare Spalten).
MS-Analysis-Service Plus und Minus FHTW Berlin Datenbanken Prof. Dr. Zschockelt MS-Analysis-Service Plus und Minus - + Erweiterung der DB-Funktionalität Transfermöglichkeit des Mo- dells auf andere Datenquellen Gemeinsame Bedienoberfläche mit OLAP-Tools Enge Integration mit OLAP- Speicher und RDBMS MS- SQL-Server 2000 Gute Dokumentation, inklusive Anwendungsbeispiel Geringer Methodenvorrat Schlichte Ergebnisprä-sentation MS OLE DB Provider for Data Mining Services un-ausgereift.
Bewertung von Data Mining Plattformen durch Gartner Group FHTW Berlin Datenbanken Prof. Dr. Zschockelt Bewertung von Data Mining Plattformen durch Gartner Group Challengers Leaders Ability to Execute Oracle SAP SAS Information Builders Microsoft Hyperion Seagate Comshare Pilot Software CA/Platinum Gentia Sagent AlphaBlox Panorama Arcplan Niche Player Visionaries Completeness of Vision
Spezialisten machen Data Mining wahrnehmbar FHTW Berlin Datenbanken Prof. Dr. Zschockelt Spezialisten machen Data Mining wahrnehmbar Beispiel SPSS ( http://www.spss.de ) Das Konzept des Predictive Analytics soll aus der Analyse des Vergangenen Modelle für die Zukunft generieren. "Predictive analytics connects data to effective action by drawing reliable conclusions about current conditions and future events. "
Produktübersicht SPSS FHTW Berlin Datenbanken Prof. Dr. Zschockelt Produktübersicht SPSS Statistik SPSS Produktlinie SPSS WebApp Data Mining AnswerTree Clementine LexiQuest Business Intelligence OLAP Hub Showcase® Solutions Predictive Analytic Applications DataDistilleries Market Research SPSS MR Dimensions NetGenesis Predictive Web Analytics SPSS Predictive Marketing Components Analytical components