Methoden der Datengewinnung Datenbanken In der heutigen Wirtschaftspraxis dominant: Relationale Datenbanksysteme (RDBMS) Massendatenverwaltung in OLTP-Systemen (OnLine Transaction Processing) Deklarative DBMS-Sprache: SQL (Structured Query Language, früher auch SEQUEL: Structured English QUEry Language) Problem: in OLTP-Systemen werden Daten für die Massenverwaltung optimiert, nicht hingegen für die Abfragen (Joins) 11/10/2018
Methoden der Datengewinnung Datawarehouse-Konzept ... Sammlung von EDV-Werkzeugen zur Gewinnun von entscheidungsrelevanten Informationen aus Daten ... bildet die Basis für PRÄSENTATIONEN (Grafiken, Berichte) und AUSWERTUNGEN (OLAP - OnLine Analytical Processing, Datamining) IDC-Studie aus 1996: durchschnittlicher ROI nach 3 Jahren eines Datawarehouses: 400% (bis zu 600% Spitze) Voraussetzungen: objektorientierte Software, Speicherung komplexer Daten und sehr umfangreicher Daten (VLDB) 11/10/2018
Methoden der Datengewinnung Datawarehouse-Konzept Datenstrom: OLTP ===> Datawarehouse Mögliche Anwendungen: - Customer Retention - Customer Services - Risk assessment and fraud detection Retrospektive Analyse vs. prospektive Analyse 11/10/2018
Methoden der Datengewinnung OLAP (OnLine Analytical Processing) OLAP gliedert die Unternehmensdaten in mehrere logische Dimensionen (Umsatz je Region, Gewinn je Produkt, Kosten pro Kostenstelle, Marktanteil je Markt etc.) Eignet sich für Problemstellungen, die mit SQL und Spreadsheets nicht gelöst werden können Antwortzeit für eine typische Fragestellung sollte < 5 sec. liegen (unabhängig von der Größe der Datenbank) Die OLAP-Entwicklung wurde von betriebswirtschaftlichen Fragestellungen und nicht von den Datenbankherstellern vorangetrieben 11/10/2018
Methoden der Datengewinnung OLAP (OnLine Analytical Processing) Typisches OLAP-Problem: automatisches Umrechnen von Gewinnen und Umsätzen in eine Gewinnspanne (Gewinn / Umsatz) bezogen auf unterschiedliche Variable (Produkt, Region, Vertriebskanal, Markt etc.) 1995: vier OLAP-Software-Hersteller gründen das OLAP-Council (http://www.olapcouncil.org) Anfang 1998: Microsoft gibt eigenen OLAP-Schnittstellen-Standard bekannt (OLE DB for OLAP, http://www.microsoft.com/data/oledb/olap/) 11/10/2018
Methoden der Datengewinnung OLAP (OnLine Analytical Processing) Die wichtigsten praktischen Voraussetzungen für OLAP-Produkte: - Schneller Datenzugriff, - schnelle Berechnungen, - Ausdruckskraft der Berechnungsformeln, - anwenderfreundliche Benutzeroberflächen, - flexible Ansichten und - Mehrbenutzerbetrieb Spreadsheets eignen sich praktisch nicht für OLAP-Anwendungen 11/10/2018
Methoden der Datengewinnung OLAP (OnLine Analytical Processing) Darstellung höherdimensionaler Ansichten in OLAP-Software: Produkt: Schuhe Umsatz direkte indirekte Gesamt- Spanne Kosten Kosten kosten Jänner 520 320 110 430 90 Februar 400 250 130 380 20 März 430 300 120 420 10 April 490 320 150 470 20 Mai 520 310 180 490 30 Juni 390 230 150 380 10 Juli 470 290 160 450 20 August 500 360 150 510 -10 September 450 290 140 430 20 Oktober 480 290 140 430 50 November 510 310 150 460 50 Dezember 550 330 160 490 60 11/10/2018
Methoden der Datengewinnung OLAP (OnLine Analytical Processing) Multidimensional Domain Structures (MDS): ... dienen zur Markierung mehrdimensionaler Zustände auf unterschiedlichen Skalen Wesentliches Merkmale von OLAP-Software: Zahlenverdichtung über Hierarchien hinweg 12 Regeln für OLAP von Codd (von TM/1 abgeschaut - OLAP-Benchmark) 11/10/2018
Methoden der Datengewinnung Datamining ... ist die Automatisierung des Entdeckens von Information in großen Datenmengen andere Bezeichnung: Knowledge Discovery in Databases (KDD) ... wurde auch schon früher betrieben (z.B. Regressionsan-alysen), aber noch nicht so genannt! 2 unterschiedliche Anwendungen: - supervised learning (classification studies) - unsupervised learning (clustering studies) KDD gilt zur Zeit als „strategisches Betriebsgeheimnis“! 11/10/2018
Methoden der Datengewinnung Datamining Beginn des Datamining: „Reinigung“ der Daten Planung der Studie Auswahl eines Training- und eines Verifikations-Datenbestands Wichtigste Techniken: Entscheidungsbäume (Decision Trees) Genetische Algorithmen (Genetic Algorithms) Neuronale Netze (Neural Nets) 11/10/2018
Methoden der Datengewinnung XML und XBRL XML: ein vom W3C-Konsortium beschlossener, vom Anwender frei definierbarer Sprachstandard. Beispiel: <!xml version=”1.0”!> <liste> <kunde> <name>Microsoft</name> <ort>München</ort> </kunde> </liste> 11/10/2018
Methoden der Datengewinnung XML und XBRL Eigene Tags können in einer Document Type Definition festgelegt werden. XML-Serverdatenbanken sind bereits verfügbar. Diese Technologie besitzt das schnellste Wachstum und das größte Zukunftspotential im gesamten EDV- und Internet-Bereich! In Zukunft: weblications (Webpage = application) 11/10/2018
Methoden der Datengewinnung Standard zum Datenaustausch von Bilanz-, Kontensalden-, Journal- und Belegdaten (existiert zur Zeit als draft, endgültige Version ab 1.3.2000): www.xbrl.org Wird als Standard-Datenformat in alle neuen MS-Produkte integriert. Ersatz für EDIFACT-Standard. 11/10/2018