R zieht ein in das Oracle Data Warehouse

Slides:



Advertisements
Ähnliche Präsentationen
News von der SAP TechEd zum Thema Business Intelligence Jörg Funke
Advertisements

E-Commerce Shop System
Prof. Dr. Dr. h.c. mult. August-Wilhelm Scheer
Zur Rolle der Sprache bei der Modellierung von Datenbanken
Rechnernetze und verteilte Systeme (BSRvS II)
Data Mining Anwendungen und Techniken
Design- und Entwicklungswerkzeuge
Systemverwaltung wie es Ihnen gefällt.
Christian Elsner, Country Manager D/A/CH Hannover, Wertschöpfungsfaktor Web Analytics Präsentation für die RedDot Usergroup e.V.
1-1 Schlank und schnell zum Datawarehouse Marc Bastien Oracle Deutschland GmbH BTW Leipzig,
Inhaltlich orientierter Zugriff auf unstrukturierte Daten
8 Behandlung von Begriffen 8.1 Grundlagen aus Logik und Psychologie
Mehrwert aus Daten gewinnen mit Datamining und Textmining
Customer Relationship Management
CIDOC-CRM Universität zu Köln Historisch-kulturwissenschaftliche Informationsverarbeitung AM 2 Dozent: Prof. Dr. Manfred Thaller Referent: Nelson Marambio.
Gottfried Vossen 5. Auflage 2008 Datenmodelle, Datenbanksprachen und Datenbankmanagementsysteme Kapitel 16: Grundlagen des Data Mining.
Demoprogramm: Clustering Eine graphische Demonstration verschiedener Clusteringalgorithmen anhand des Clusterings von Punkten im zweidimensionalen Raum.
Projekt A4: Alignment of Situation Models Gert Rickheit Sven Wachsmuth Constanze Vorwerg Agnes Swadzba SFB-Kolloqium,
Beispielrelation Buchbestellungen H = Menge der bedeutenden Ziele = {a, d} Schwelle T = 4 Stichprobe S = {a, b, a, a, a, a} mit s = |S| = 6 N = Anzahl.
Manpower Associates is a $14
OO Analyse und Entwurf für Anwender XIII. Objektorientierte Benutzeroberfäche Dr. Michael Löwe.
Spatial Decision Support Systems (SDSS)
Wolfgang Patscheider, Leiter EDV Mag. Michael Ruzicka, Konsulent
Christian Schulz, Marc Thielbeer, Sebastian Boldt
Multilevel Optimization of E-Commerce - Strategy
Zur Veranstaltung Business Intelligence
Letzter Tag Spaeter Zeitpunkt letzte Lied hoert man weiter.
Online Projekt-Management Planio GmbH Warschauer Str. 70A D Berlin Phone: (030)
Projektvorgehen.
DATA WAREHOUSE Oracle Data Warehouse Mit Big Data neue Horizonte für das Data Warehouse ermöglichen Alfred Schlaucher, Detlef Schroeder DATA WAREHOUSE.
DataMining Von Daten zu Informationen und Wissen
Projektarbeit PHP 5.3 / MySQL & Content Management Systems
Data Mining mit SQL Server 2008 und Excel 2007
Institut für Kartographie und Geoinformation Prof. Dr. Lutz Plümer Geoinformation I Vorlesung 10 WS 2000/2001 Gerhard Gröger Einführung in ArcInfo 8.
Reiner Ganser Solution Architect 1stQuad Solutions GmbH Presentation Subtitle.
| Basel Wege in die Cloud: Office 365 Dennis Hobmaier, Technical Solutions
Sesame Florian Mayrhuber

Data Mining Cup 2012 Wissensextraktion – Multimedia Engineering
Seminar: Entwicklung verteilter eingebetteter Systeme WS05/06 Betreuer: Info:
Allgemeines zu Datenbanken
NDepend - Kurzvorstellung Stefan Lieser Web:
Marktübersicht für Content Management Systeme
Ispirer Systems Präsentation des Unternehmens Copyright (c) Ispirer Systems Ltd. Alle Rechte vorbehalten.
Einführung in Datenbankmodellierung und SQL
Einrichtung eines Data-Warehouse Servers
Marketingkonzept Impulse.
Mehr Zeit für den Kunden und wirtschaftlicher Arbeiten mit BIB-Control
Marktübersicht Die Linusbank Problembeschreibung Projektplan
Klassifikation und Regression mittels neuronaler Netze
Vorgehen Business Analyse
Vorgehen Business Analyse
ArcView als SDE - Client SDE Client inklusive! ArcViewGIS: ArcView GIS: Michael Jacobi ESRI GmbH ESRI EUROPEAN USER CONFERENCE.
OOSE nach Jacobson Sebastian Pohl/ST7 Betreuer: Prof. Dr. Kahlbrandt.
Werkzeuge: ArcCatalog, ArcMap, ArcToolbox, ArcScene Birgit Abendroth
Projekt A4: „Alignment of Situation Models“ Dr. Gerd Rickheit Dr. Sven Wachsmuth Dr. Constanze Vorwerg Agnes Swadzba SFB-Kolloqium,
CL Tree MW 31.1 Business Intelligence Wintersemester 2015 / 2016 Stanislav Prokupetz.
Oracle Exadata und HP Oracle Database Machine © 2008 Oracle Corporation – Proprietary and Confidential Alfred Schlaucher (Oracle Data Warehouse) EXTREME.
Oracle Text bei sehr großen Datenmengen Referent Martin Augst Senior Project / Account Manager Semantec GmbH Benzstr.
Warum Data Science Ausbildung an einer Wirtschaftsuniversität? Axel Polleres, Institut für Informationswirtschaft, WU
Alfred Schlaucher, Data Warehouse Architect, Oracle Oracle Data Warehouse.
Beschriftung: Labels und Annotationen
datengetriebene Marketing-Entscheidungen zu treffen
Scamander S O L U T I O N S Befreien Sie Ihre Oracle Applications Daten! Christian Rokitta - Berater Scamander Solutions BV
Relationales Geodatenmanagement mit
Daten als Basis für Entscheidungen
Intelligent Data Mining
Integrating Knowledge Discovery into Knowledge Management
 Präsentation transkript:

R zieht ein in das Oracle Data Warehouse Alfred Schlaucher

Themen Business Intelligence und Advanced Analytics Vorhersage Algorithmen Oracle Data Miner Oracle R Enterprise

Business Intelligence Arbeitsteilung Business Intelligence Advanced Analytics Data Mining Oracle R Enterprise Enterprise Information Layer User View Layer Data Integration Layer Process neutral / 3 NF Data Warehouse

Aus Merkmalen Wissen filtern Selbständig Im_Beruf_Seit ? Angestellt Raucher Geschieden Alter Weinpräferenz Ruhestand_Seit Predictive Analytics Kunde_Seit Anzahl Kinder Mehrfachkäufer Verheiratet Level_Ausbildung Verheiratet Anzahl_Ehen Führerschein Wohnregion Einkommens_Gruppe Geschlecht Affinität_Videospiele Wohnsituation Berufstätig Bildung Online_Affinität Krank_Seit Sportlich_Aktiv Führerschein

Übersicht Mining-Algorithmen und -Verfahren Problem Algorithmen Bedeutung + Anwendung Klassification Einteilung von Objekten in Gruppen (bekannte Klassen) anhand von gemeinsamen Merkmalen Logistic Regression (GLM) Decision Trees Naïve Bayes Support Vector Machine Vorhersage von Eigenschaften in Abhängigkeit von anderen Eigenschaften Regression Multiple Regression (GLM) Support Vector Machine Anomaly Detection One Class SVM Erkennen von Ausressern und Anomalien Attribute Importance Minimum Description Length (MDL) Finden relevanter Merkmale. Fokussierung auf aussagekräftige Attribute Association Rules Analyse von Beziehungen, Warenkorb-Analysen Apriori Clustering Hierarchical K-Means Finden von gemeinsamen Merkmalen zur Bildung von neuen (unbekannten) Gruppen Hierarchical O-Cluster Textanalysen, Finden von immerwiederkehrenden Mustern Feature Extraction Nonnegative Matrix Factorization F1 F2 F3 F4 Copyright 2011 Oracle Corporation 5

Vorhersage Analyse-Schritte und Anforderungen Daten sammeln Zeitaufwendige Analyseprozesse Mehrere Interationen Workflows von immer wiederkehrenden Arbeitsschritten Ressourcen-intensive Datenanalysen Daten identifizieren The solution for these challenges is a nosql db. Is a key value store. These have been around for 40 years. Were isam on mainframe. Give key value example – give customer key and return customer profile. Nosql database good for app’s where just need simple db requests (key/value lookup, no join’s) [not new: m/f isam, BDB], use a schema defined dynamically at runtime by the application itself, and have extreme scalability requirements What’s new: instead of just creating one index, create many indexes and hash to appropriate one. Daten analysieren Daten aufbereiten

InDatabase – Analysen Oracle R Enterprise / Oracle Data Mining Analysen in der Datenbank Keine Datenbewegungen Kurze Analysezeiten und schnelleres Arbeiten Große Datenmengen Skalierbar R code und/oder SQL Built-in security Schneller The solution for these challenges is a nosql db. Is a key value store. These have been around for 40 years. Were isam on mainframe. Give key value example – give customer key and return customer profile. Nosql database good for app’s where just need simple db requests (key/value lookup, no join’s) [not new: m/f isam, BDB], use a schema defined dynamically at runtime by the application itself, and have extreme scalability requirements What’s new: instead of just creating one index, create many indexes and hash to appropriate one. Sicher Skalierbar

Beispiel: “Un-loyale Kunden” Einkommen Monate Kundenverhältnis Mobiltelefon “Churner” vs. Loyale Kunden Source: Inspired from Data Mining Techniques: For Marketing, Sales, and Customer Relationship Management by Michael J. A. Berry, Gordon S. Linoff

Beispiel: “Un-loyale Kunden” Einkommen Monate Kundenverhältnis Mobiltelefon “Churner” vs. Loyale Kunden Segment #3: IF CUST_MO > 7 AND INCOME < $175K, THEN Prediction = Cell Phone Churner, Confidence = 83%, Support = 6/39 Segment #1: IF CUST_MO > 14 AND INCOME < $90K, THEN Prediction = Cell Phone Churner, Confidence = 100%, Support = 8/39 Source: Inspired from Data Mining Techniques: For Marketing, Sales, and Customer Relationship Management by Michael J. A. Berry, Gordon S. Linoff

Oracle Data Miner 11g Release 2 GUI Copyright 2011 Oracle Corporation

Oracle Data Miner 11g Release 2 GUI “Churner” Modell in Abhängigkeit von Einkommen und Dauer des Kundenverhältnisses Copyright 2011 Oracle Corporation

R – Statistische Programmiersprache users sales history returns online PCA 5 Factor 3 Factor 1 Clustering 4 Groups 28 16 2 1 80 60 40 20 OPEN SOURCE Sprache und Umgebung STATISTISCHE BERECHNUNGEN und Graphik STÄRKE liegt in der schnellen graphischen Aufbereitung (Plots) >5,300 statistische Packages LEICHT ERWEITERBAR durch Open Source Community

Daten-Visualisierung mit R http:// gallery.r-enthusiasts.com/

Graphische Bediener-Oberflächen Auswahl bei den GUIs Bereiche: R Console Plot-Bereich Ergebnis-Bereich Messages Standard GUI / Rstudio / Rcommander/.../...

Warum nutzen immer mehr Anwender R Warum R Oft mehr Funktionen, als in klassischen Tools Kann mehr Neue Funktionen, sind oft in R als erstes implemtiert Ist schnell Point Die Entwickler der Funktionen sind oft per Mail direkt erreichbar Ist ansprechbar - offene Kommunikation Weltweit wird mit R gearbeitet “Schläft nicht” Was kosten die übrigen Tools? Ist günstiger

Einfache Beispiele zur Darstellung der R-Sprachmimik > alter <- c(19,20,20,19,25,26,22,25,29) Vektor > geschl <- c(1,2,2,1,2,2,2,1,2) > geschl.faktor <- factor(geschl) Faktor > bsp.data.frame <- data.frame(alter,geschl.faktor) Data-Frame Einfache statistische Funktion round(tapply(alter ,geschl,mean,na.rm=TRUE),0) Durchschnittliches Alter pro Geschlecht

Klassisches Daten-Handling ohne Oracle R Enterprise Lokale Daten Datenbank R Engine z. B. ODBC z. B. CSV df <-read.csv(file.choose()) class(df) names(df) objects() dim(df)c Häufiges Datenbewegen, Hauptspeicherlimitierung im Client, lange Laufzeiten

Oracle R-Angebote Oracle R Distribution ROracle Oracle R Enterprise Free download, pre-installed on Oracle Big Data Appliance, bundled with Oracle Linux Enterprise support for customers of Oracle R Enterprise, Big Data Appliance, and Oracle Linux Contribute bug fixes and enhancements to open source R ROracle Open source Oracle database interface driver for R based on OCI Maintainer is Oracle – rebuilt from the ground up Many bug fixes and optimizations Oracle R Enterprise Transparent access to database-resident data from R Embedded R script execution through database managed R engines Statistics engine Oracle R Connector for Hadoop R interface to Oracle Hadoop Cluster on BDA Access and manipulate data in HDFS, database, and file system Write MapReduce functions using R and execute through natural R interface

Mögliche Szenarien mit Oracle R-Enterprise RAM R Engine Direkten Zugriff auf alle Tabellen in der Datenbank File System RAM R Engine Auslagern der Analysen in die Datenbank Zurückholen der Ergebnisse Anlegen neuer Objekte in der Datenbank Parallelisierung durch die Datenbank File System RAM R Engine R-Analysen über SQL-Funktionen (Batch) Parallelisierung durch die Datenbank File System SQL

Oracle R Enterprise – Data Sources R user on desktop R Engine Oracle R Enterprise packages Andere R Packages Direkter Zugriff Direkter Zugriff RODBC, DBI, etc Andere Datenbanken Import / Load Data File systems Push Pull Results SQL R Engine Other R packages Oracle R Enterprise packages Andere R Packages Transparent Layer Parallel Aufrufe Select ...Fro ..Table(....) begin Create Function end User tables Oracle Datenbank Database Links Bulk import External Tables Andere Datenbanken File systems

Oracle Transparency Layer Support ORE bietet eine “in-database execution” – Funktionalität als transparente Schicht an Was bedeutet transparent? R Benutzter benötigen nur R Syntax Benutzer sehen Datenbank-Objecke als spezielle R Objekte Unterstützt werden fast alle R-Funktionen des Basis-R-Pakets Unterstützt R's Statistik und Graphik-Pakete

Beispiele für den transparenten Zugriff Connect to a specific schema and database One connection active at a time library(ORE) ore.connect("RQUSER","SID","HOST", "PASSWORD",1521) ore.create( ONTIME_S, table = "NEW_ONTIME_S") ore.create( ONTIME_S, view = "NEW_ONTIME_S_VIEW") ore.drop(table="NEW_ONTIME_S") ore.drop(view="NEW_ONTIME_S_VIEW") t <- ore.get("ONTIME_S","RQUSER") ore.attach() v <- ore.push(c(1,2,3,4,5)) ore.sync() ore.sync("RQUSER") ore.sync(table=c("ONTIME_S", "NARROW")) ore.sync("RQUSER", table=c("ONTIME_S", "NARROW")) ore.exists("ONTIME_S", "RQUSER") ore.exec("create table F2 as select * from ONTIME_S") Create a database table from a data.frame, ore.frame. Create a view from an ore.frame. Drop table or view in database Store R object in database as temporary object, returns handle to object. Data frame, matrix, and vector to table, list/model/others to serialized object Synchronize ORE proxy objects in R with tables/views available in database, on a per schema basis Returns TRUE if named table or view exists in schema

Gezielte Steuerung von Scripten innerhalb der Datenbank Oracle Datenbank with(ERSTIS,split(alter,geschl)) Lokale R-Engine auf PC DB-Server-Maschine ERSTIS Tabelle wird in den lokalen Speicher kopiert und lokal analysiert mod <- ore.doEval( function(param) { library(ORE) ore.connect(user="RQUSER", password="RQUSER", sid="ORCL", host="192.168.1.16",port=1521) ore.sync() ore.attach() mod <- with(ERSTIS,split(alter,geschl)) }); Oracle Datenbank Lokale R-Engine auf PC ERSTIS DB-Server-Maschine Tabelle bleibt in der DB. Analyse findet im Speicher des DB-Servers statt Das Ergebnis wird zurückgeliefert R-Engine auf DB-Server R-Engine auf DB-Server R-Engine auf DB-Server

Gezieltes Ansteuern einer Verarbeitungsvariante (Beispiel Regressions Modell) mod <- ore.doEval( function(param) { library(ORE) ore.connect(user="RQUSER", password="RQUSER„, sid="ORCL", host="192.168.1.16",port=1521) ore.sync() ore.attach() mod <- ore.lm(lz.1 ~ zuf.inh.1,ERSTIS) mod }); mod_local <- ore.pull(mod) class(mod_local) summary(mod_local) mod <- ore.doEval( function(param) { dat <- ore.pull(ONTIME_S) mod <- lm(ARRDELAY ~ DISTANCE + DEPDELAY, dat) mod }); mod_local <- ore.pull(mod) class(mod_local) summary(mod_local) Daten bleiben im Memory Der Oracle Datenbank Daten im Memory der R-Engine auf dem DB-Server Laufzeit: 3 Sekunden Laufzeit: 110 Sekunden

Beispiele für Graphiken praktisch „direkt aus der Datenbank“

Beispiele für Graphiken praktisch „direkt aus dem Netz“

Beispiel für Graphiken: Cluster-Analyse Baum - Darstellung

Cluster-Analyse library(cluster)

Integrierte R Umgebungen Oracle R Connector for Hadoop ORE Client Host R Engine Hadoop Cluster Software MapReduce Nodes HDFS Oracle Big Data Appliance Oracle Exadata ORHC Native R MapReduce Native R HDFS Zugriff Mehr Produktivität

Big Data Connectors und Oracle R Enterprise R-Package R-Package R Environment Oracle R Connector for Hadoop Oracle R Enterprise (Advanced Analytics) HDFS Cluster-Machines Oracle Server-Machine Oracle 11.2 hdfs_stream External Table HDFS Oracle Direct Connector for HDFS Preprocessor: hdfs_stream Target Table RAM R Engine Hive Table CSV + / n CSV Data pump Offline Mode direct path convential path Parallel Execution Oracle Loader for Hadoop OCI Online Mode LoaderMap JDBC Partitioned + sorted MapReduce Job Framework

Kontakt und mehr Informationen Oracle Data Warehouse Community Mitglied werden Viele kostenlose Seminare und Events Download – Server: www.ORACLEdwh.de Kontakt über Alfred.Schlaucher@oracle.com Nächste deutschsprachige Oracle DWH Konferenz: 19. + 20. März 2013 Kassel