Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

1 R zieht ein in das Oracle Data Warehouse Alfred Schlaucher.

Ähnliche Präsentationen


Präsentation zum Thema: "1 R zieht ein in das Oracle Data Warehouse Alfred Schlaucher."—  Präsentation transkript:

1 1 R zieht ein in das Oracle Data Warehouse Alfred Schlaucher

2 2 Business Intelligence und Advanced Analytics Vorhersage Algorithmen Oracle Data Miner Oracle R Enterprise Themen

3 3 Arbeitsteilung Enterprise Information Layer User View Layer Data Integration Layer Process neutral / 3 NF Business Intelligence Advanced Analytics Data Warehouse Data MiningOracle R Enterprise

4 4 Aus Merkmalen Wissen filtern Alter Anzahl Kinder Verheiratet Einkommens_Gruppe Wohnsituation Bildung Führerschein Berufstätig Geschlecht Wohnregion Kunde_Seit Mehrfachkäufer Weinpräferenz Raucher Im_Beruf_Seit Selbständig Angestellt Ruhestand_Seit Krank_Seit Sportlich_Aktiv Führerschein Geschieden Anzahl_Ehen Online_Affinität Affinität_Videospiele Level_Ausbildung ? Predictive Analytics

5 5 Übersicht Mining-Algorithmen und -Verfahren Klassification Association Rules Clustering Attribute Importance ProblemAlgorithmenBedeutung + Anwendung Einteilung von Objekten in Gruppen (bekannte Klassen) anhand von gemeinsamen Merkmalen Minimum Description Length (MDL) Finden relevanter Merkmale. Fokussierung auf aussagekräftige Attribute Hierarchical K-Means Hierarchical O-Cluster Finden von gemeinsamen Merkmalen zur Bildung von neuen (unbekannten) Gruppen Apriori Analyse von Beziehungen, Warenkorb-Analysen Multiple Regression (GLM) Support Vector Machine Vorhersage von Eigenschaften in Abhängigkeit von anderen Eigenschaften Regression Feature Extraction Nonnegative Matrix Factorization Textanalysen, Finden von immerwiederkehrenden Mustern Logistic Regression (GLM) Decision Trees Naïve Bayes Support Vector Machine One Class SVM Erkennen von Ausressern und Anomalien Anomaly Detection F1 F2 F3 F4

6 6 Zeitaufwendige Analyseprozesse Mehrere Interationen Workflows von immer wiederkehrenden Arbeitsschritten Ressourcen-intensive Datenanalysen Vorhersage Analyse-Schritte und Anforderungen Daten sammeln Daten identifizieren Daten aufbereiten Daten analysieren

7 7 Analysen in der Datenbank Keine Datenbewegungen Kurze Analysezeiten und schnelleres Arbeiten Große Datenmengen Skalierbar R code und/oder SQL Built-in security InDatabase – Analysen Oracle R Enterprise / Oracle Data Mining

8 8 Beispiel: Un-loyale Kunden Einkommen Monate Kundenverhältnis Mobiltelefon Churner vs. Loyale Kunden Source: Inspired from Data Mining Techniques: For Marketing, Sales, and Customer Relationship Management by Michael J. A. Berry, Gordon S. Linoff

9 9 Beispiel: Un-loyale Kunden Einkommen Monate Kundenverhältnis Segment #1: IF CUST_MO > 14 AND INCOME < $90K, THEN Prediction = Cell Phone Churner, Confidence = 100%, Support = 8/39 Segment #3: IF CUST_MO > 7 AND INCOME < $175K, THEN Prediction = Cell Phone Churner, Confidence = 83%, Support = 6/39 Source: Inspired from Data Mining Techniques: For Marketing, Sales, and Customer Relationship Management by Michael J. A. Berry, Gordon S. Linoff Mobiltelefon Churner vs. Loyale Kunden

10 10 Oracle Data Miner 11g Release 2 GUI

11 11 Oracle Data Miner 11g Release 2 GUI Churner Modell in Abhängigkeit von Einkommen und Dauer des Kundenverhältnisses

12 12 R – Statistische Programmiersprache users sales history returns online PCA 5 Factor 3Factor 1Clustering 4 Groups

13 13 Daten-Visualisierung mit R gallery.r-enthusiasts.com/

14 14 Auswahl bei den GUIs Bereiche: R Console Plot-Bereich Ergebnis-Bereich Messages Standard GUI / Rstudio / Rcommander/.../... Graphische Bediener-Oberflächen

15 15 Warum nutzen immer mehr Anwender R Warum R Ist schnell Ist ansprechbar - offene Kommunikation Schläft nicht Point Kann mehr Ist günstiger Was kosten die übrigen Tools? Oft mehr Funktionen, als in klassischen Tools Neue Funktionen, sind oft in R als erstes implemtiert Die Entwickler der Funktionen sind oft per Mail direkt erreichbar Weltweit wird mit R gearbeitet

16 16 > alter <- c(19,20,20,19,25,26,22,25,29) > geschl <- c(1,2,2,1,2,2,2,1,2) > geschl.faktor <- factor(geschl) Vektor Faktor > bsp.data.frame <- data.frame(alter,geschl.faktor) Data-Frame round(tapply(alter,geschl,mean,na.rm=TRUE),0) Einfache Beispiele zur Darstellung der R-Sprachmimik Einfache statistische Funktion Durchschnittliches Alter pro Geschlecht

17 17 Klassisches Daten-Handling ohne Oracle R Enterprise R Engine Lokale Daten Datenbank df <-read.csv(file.choose()) class(df) names(df) objects() dim(df)c z. B. ODBC z. B. CSV Häufiges Datenbewegen, Hauptspeicherlimitierung im Client, lange Laufzeiten

18 18 Oracle R Distribution – Free download, pre-installed on Oracle Big Data Appliance, bundled with Oracle Linux – Enterprise support for customers of Oracle R Enterprise, Big Data Appliance, and Oracle Linux – Contribute bug fixes and enhancements to open source R ROracle – Open source Oracle database interface driver for R based on OCI – Maintainer is Oracle – rebuilt from the ground up – Many bug fixes and optimizations Oracle R Enterprise – Transparent access to database-resident data from R – Embedded R script execution through database managed R engines – Statistics engine Oracle R Connector for Hadoop – R interface to Oracle Hadoop Cluster on BDA – Access and manipulate data in HDFS, database, and file system – Write MapReduce functions using R and execute through natural R interface Oracle R-Angebote

19 19 Mögliche Szenarien mit Oracle R-Enterprise RAM R Engine Direkten Zugriff auf alle Tabellen in der Datenbank File System RAM R Engine Auslagern der Analysen in die Datenbank Zurückholen der Ergebnisse Anlegen neuer Objekte in der Datenbank R Engine Parallelisierung durch die Datenbank File System RAM R Engine R-Analysen über SQL-Funktionen (Batch) R Engine Parallelisierung durch die Datenbank File System SQL

20 20 Oracle R Enterprise – Data Sources User tables Oracle Datenbank Bulk import File systems Database Links SQLResults R user on desktop External Tables File systems Direkter Zugriff Andere Datenbanken Direkter Zugriff RODBC, DBI, etc R Engine Andere R Packages Import / Load Data R Engine Other R packages Oracle R Enterprise packages R Engine Other R packages Oracle R Enterprise packages R Engine Andere R Packages Oracle R Enterprise packages Andere Datenbanken Oracle R Enterprise packages Push Pull Select...Fro..Table(....) begin Create Function end Parallel Aufrufe Transparent Layer

21 21 ORE bietet eine in-database execution – Funktionalität als transparente Schicht an Was bedeutet transparent? – R Benutzter benötigen nur R Syntax – Benutzer sehen Datenbank-Objecke als spezielle R Objekte – Unterstützt werden fast alle R-Funktionen des Basis-R-Pakets – Unterstützt R's Statistik und Graphik-Pakete Oracle Transparency Layer Support

22 22 Beispiele für den transparenten Zugriff Connect to a specific schema and database One connection active at a time Create a database table from a data.frame, ore.frame. Create a view from an ore.frame. Drop table or view in database Store R object in database as temporary object, returns handle to object. Data frame, matrix, and vector to table, list/model/others to serialized object Synchronize ORE proxy objects in R with tables/views available in database, on a per schema basis Returns TRUE if named table or view exists in schema library(ORE) ore.connect("RQUSER","SID","HOST", "PASSWORD",1521) ore.create( ONTIME_S, table = "NEW_ONTIME_S") ore.create( ONTIME_S, view = "NEW_ONTIME_S_VIEW") ore.drop(table="NEW_ONTIME_S") ore.drop(view="NEW_ONTIME_S_VIEW") t <- ore.get("ONTIME_S","RQUSER") ore.attach() v <- ore.push(c(1,2,3,4,5)) ore.sync() ore.sync("RQUSER") ore.sync(table=c("ONTIME_S", "NARROW")) ore.sync("RQUSER", table=c("ONTIME_S", "NARROW")) ore.exists("ONTIME_S", "RQUSER") ore.exec("create table F2 as select * from ONTIME_S")

23 23 R-Engine auf DB-Server Gezielte Steuerung von Scripten innerhalb der Datenbank mod <- ore.doEval( function(param) { library(ORE) ore.connect(user="RQUSER", password="RQUSER", sid="ORCL", host=" ",port=1521) ore.sync() ore.attach() mod <- with(ERSTIS,split(alter,geschl)) }); with(ERSTIS,split(alter,geschl)) Oracle Datenbank ERSTIS Oracle Datenbank ERSTIS R-Engine auf DB-Server Tabelle wird in den lokalen Speicher kopiert und lokal analysiert Tabelle bleibt in der DB. Analyse findet im Speicher des DB-Servers statt Das Ergebnis wird zurückgeliefert DB-Server-Maschine

24 24 Gezieltes Ansteuern einer Verarbeitungsvariante (Beispiel Regressions Modell) mod <- ore.doEval( function(param) { library(ORE) ore.connect(user="RQUSER", password="RQUSER, sid="ORCL", host=" ",port=1521) ore.sync() ore.attach() mod <- ore.lm(lz.1 ~ zuf.inh.1,ERSTIS) mod }); mod_local <- ore.pull(mod) class(mod_local) summary(mod_local) Daten bleiben im Memory Der Oracle Datenbank mod <- ore.doEval( function(param) { dat <- ore.pull(ONTIME_S) mod <- lm(ARRDELAY ~ DISTANCE + DEPDELAY, dat) mod }); mod_local <- ore.pull(mod) class(mod_local) summary(mod_local) Daten im Memory der R-Engine auf dem DB-Server Laufzeit: 3 Sekunden Laufzeit: 110 Sekunden

25 25 Beis Beispiele für Graphiken praktisch direkt aus der Datenbank

26 26 Beispiele für Graphiken praktisch direkt aus dem Netz

27 27 Beispiel für Graphiken: Cluster-Analyse Baum - Darstellung

28 28 Cluster-Analyse library(cluster)

29 29 Native R MapReduce Native R HDFS Zugriff Mehr Produktivität Integrierte R Umgebungen Oracle R Connector for Hadoop ORE Client Host R Engine Hadoop Cluster Software R Engine MapReduce Nodes HDFS Oracle Big Data Appliance Oracle Exadata R Engine ORE ORHC

30 30 Big Data Connectors und Oracle R Enterprise Oracle 11.2 R Environment Oracle Direct Connector for HDFS External Table Oracle Loader for Hadoop Preprocessor: hdfs_stream CSV Data pump Parallel Execution HDFS hdfs_stream Partitioned + sorted OCI JDBC direct path convential path Hive Table CSV + / n LoaderMap Target Table Offline Mode Online Mode Oracle Server-Machine HDFS Cluster-Machines MapReduce Job Framework Oracle R Connector for Hadoop R-Package Oracle R Enterprise (Advanced Analytics) R-Package RAM R Engine

31 31 Kontakt und mehr Informationen Oracle Data Warehouse Community Mitglied werden Viele kostenlose Seminare und Events Download – Server: Kontakt über Nächste deutschsprachige Oracle DWH Konferenz: März 2013 Kassel

32 32


Herunterladen ppt "1 R zieht ein in das Oracle Data Warehouse Alfred Schlaucher."

Ähnliche Präsentationen


Google-Anzeigen