R What is this R thing, and is it worth some effort?

Slides:



Advertisements
Ähnliche Präsentationen
Der Foliensatz ist unter einer Creative Commons-Lizenz lizenziert:
Advertisements

Problemlösen am Beispiel des Rückwärtsarbeitens
? Stichwortverzeichnis … zum Suchen
Stichwortverzeichnis
Heute Mathe, morgen DLR! Dr. Margrit Klitz
Einführung in Web- und Data-Science Grundlagen der Stochastik
gemeinsam.innovativ.nachhaltig.
Wissenschaftliche Methodik
3. Schafft das Internet neue Transaktionsdesign?
Umweltbezogene Entscheidungen - multidimensionale Bewertungsverfahren -
Michael Artin: Geometric Algebra
3 Elektrochemische Wandler
Elektro-Skateboards Teil I Grundlagen
Stichwortverzeichnis
8 Zündung/Motormanagement
Stichwortverzeichnis
2 Elektrische Maschinen in Kraftfahrzeugen
Herstellung von kristallinen Metalloxiden über die Schmelze mit einem Spiegelofen Gruppe 8: Yuki Meier, Vivien Willems, Andrea Scheidegger, Natascha Gray.
Kapitel 4 Traveling Salesman Problem (TSP)
Markus Lips März 2017 ETH-Vorlesung, 6. Sem. Agrarwissenschaft BSc Agrartechnik II.
Einführung in die Wahrscheinlichkeitsrechnung
Motoremissionen mobiler Anlagen – Stand der Technik
Lieber Leser, liebe Leserin,
Inhaltsverzeichnis In der vorliegenden Präsentation finden Sie unter anderem Antworten auf folgende Fragen… warum ist eine Gesetzesinitiative zum Betriebliches.
Einführung in Web- und Data-Science
Algorithmen und Datenstrukturen
Algorithmen und Datenstrukturen
Industrie 4.0 für die Ausbildung 4.0
Entwicklung epistemologischer Überzeugungen
Das Verdauungssystem Präsentiert von Theresa
MasterBAV© Die neue Generation BAV
Algorithmen und Datenstrukturen
Rehwild die richtige Altersbestimmung
PSG II Neuer Pflegebedürftigkeitsbegriff und dessen Begutachtung (NBA)
Medientechnische Infrastrukturen für virtuelle und lokale Lernräume
Wissensmanagement im Zeitalter von Digitaler Transformation
«Wir bereiten uns auf die Deutschlandreise vor»
GABI UND BEN.
Pflege & Finanzierung 01. Juni 2017 Dr. Sonja Unteregger
Das Arbeitgebermodell in Zeiten des
Microsoft® Office PowerPoint® 2007-Schulung
Einführung in Web- und Data-Science
Pensionsrück-stellungen Prof. Dr. Matthias Hendler
Mathematik 10.
Betriebliche Gesundheitsförderung 2
Vorlesung Wasserwirtschaft & Hydrologie I
Liebe BetrachterInnen,
Rosebrock: Geometrische Gruppen
Forschungsmethoden in der Teilchenphysik
Neue Unterrichtsmaterialien zur Teilchenphysik Philipp Lindenau CERN | Herzlich willkommen! Präsentation mit Notizen hinterlegt!
Eröffnungsveranstaltung
Aktuelle Themen aus dem KVJS-Landesjugendamt Referat 44
Roomtour - Podio für Anfänger
175 Jahre UZH Krisenkommunikation
Frauen- Männerriegen KONFERENZ
Schulung für Microsoft® Office SharePoint® 2007
Was ist eigentlich Datenschutz?
Aktuelle Aspekte des Europäischen Zivilprozessrechts
Einführung in die Benutzung des Einkaufportals der Eckelmann AG
Wer wir sind! Ihr S-Campus-Team direkt im Campus Center. Sven Deussing
Non-Standard-Datenbanken
Amand Fäßler 3. Januar 2017; RC Bregenz
Mathematik 11 Analytische Geomerie.
Non-Standard-Datenbanken
Menger-Schwamm Ausgangsfigur in Stufe 0 ist ein Würfel
Sortieren auf Multiprozessorrechnern
Wurzeln und Irrationalität nach U.Wagner, OHG Tuttlingen
Langzeitbelichtung Ein Zugang zur Kinematik in Klassenstufe 7/8
Eine kleine Einführung in das Projekt „Mausefallenauto“
VO Aktuelle Forschung in der Biomechanik Ziel:
 Präsentation transkript:

R 101 - What is this R thing, and is it worth some effort? Meet a new companion Thomas „Tom“ Martens Principal Consultant, Alegri International Service GmbH thomas.martens@alegri.eu Personal blog: minceddata.wordpress.com

Bevor wir starten!

Our Sponsors If you think, that a SQL Saturday is a nice possibility to learn from and network with fellow SQL Server enthusiasts FOR FREE, I just ask you one thing: Visit the sponsor booths and chat with the sponsors! They are covering the expenses for each and every of you, with is around EUR 60 …

My Sponsor Gründungsjahr 2001 mehr als 650 Mitarbeiter in der DACH- Region und Rumänien (Nearshore) Niederlassungen an 11 Standorten 80% der DAX 100-Unternehmen zählen zu unseren Klienten Lösungen für den Mittelstand & Großkunden Microsoft und SAP Partner Consulting Excellence in Microsoft Enterprise Solutions und SAP/ERP Solutions Hamburg Köln Frankfurt Stuttgart München Basel Wien Zürich Walldorf Cluj-Napoca Berlin

Pre-cap!

Was ist dieses R Ding? Everyone has heard phrases like "Data is the new oil" or "Data Analytics will shape business", and maybe you are also wondering what this R thing is about and if it's worth the effort to learn something new. This session is going to explain what R is and how it can help to refine your data and to better understand your business. Meaning, it provides ideas where R can be used in helping to answer some data related questions. An overview is given how R works with Power BI, from data cleansing to data enhancing to data visualization. An explanation is given why R will be a great addition to the SQL Server arsenal and how R can be used with Azure Machine Learning. This session is not about coding or statistics, but about introducing a great new companion.

Was ist dieses R Ding? Everyone has heard phrases like "Data is the new oil" or "Data Analytics will shape business", and maybe you are also wondering what this R thing is about and if it's worth the effort to learn something new. This session is going to explain what R is and how it can help to refine your data and to better understand your business. Meaning, it provides ideas where R can be used in helping to answer some data related questions. An overview is given how R works with Power BI, from data cleansing to data enhancing to data visualization. An explanation is given why R will be a great addition to the SQL Server arsenal and how R can be used with Azure Machine Learning. This session is not about coding or statistics, but about introducing a great new companion.

Was ist dieses R Ding? Everyone has heard phrases like "Data is the new oil" or "Data Analytics will shape business", and maybe you are also wondering what this R thing is about and if it's worth the effort to learn something new. This session is going to explain what R is and how it can help to refine your data and to better understand your business. Meaning, it provides ideas where R can be used in helping to answer some data related questions. An overview is given how R works with Power BI, from data cleansing to data enhancing to data visualization. An explanation is given why R will be a great addition to the SQL Server arsenal and how R can be used with Azure Machine Learning. This session is not about coding or statistics, but about introducing a great new companion.

Was ist dieses R Ding? Data Analytics will shape business", and maybe you are also what R is how it can help where R can be used how R works with Power BI why R will be a great addition to the SQL Server arsenal and how R can be used with Azure Machine Learning. This session is not about coding or statistics, but about introducing a great new companion.

Inhalt Was ist R! Microsoft und R Wo R helfen kann! Learning R?!

Was ist dieses R Ding

R – DIE statistische Programmiersprache R-project : R is a language and environment for statistical computing and graphics Wikipedia: R ist eine freie Programmiersprache für  statistisches Rechnen und statistische Grafiken Microsoft: R is a language! You do data analysis by writing functions and scripts, not by pointing and clicking. That may sound daunting if you are new to programming, but R is an easy language to learn, and a very natural and expressive one for data analysis.

Die R Community Groß(e)artige community auf stackoverflow.com: 167105 Fragen (39339 unbeantwortet, ohne Antwort Tag) – 19.01.2017 109015 Fragen (22940 unbeantwortet, ohne Antwort Tag) – 08.10.2015 R bietet zur Zeit (19.01.2017) 9903 Windows binaries (ständig wachsend) source: cran-mirror http://cran.us.r-project.org

R Pakete (packages) http://www. maths. lancs. ac

Bedeutung von R (nach http://spectrum.ieee.org) 2015 2016 2014 IEEE: Institut of Electrical and Electronic Engineers – www.ieee.org 2016: http://spectrum.ieee.org/computing/software/the-2016-top-programming-languages 2015: http://spectrum.ieee.org/computing/software/the-2015-top-ten-programming-languages

Bedeutung von R http://www. kdnuggets

Punkte, die zu berücksichtigen sind R als Desktop Applikation  läuft grundsätzlich im Arbeitsspeicher des Clients Die freie Programmiersprache (open source / community driven) R bringt es mit sich, dass es unterschiedliche Notationen in verschiedenen Paketen gibt  Hier kann das R-Consortium (https://www.r-consortium.org/) Abhilfe schaffen

Microsoft und R

Microsoft und R (R in meinen Lieblingsprodukten) SQL Server 2016 ? Power BI R R Server Azure Machine Learning

Azure Machine Learning und R Server

Azure Machine Learning / R Server Plattform zur Entwicklung und Anwendung von skalierbaren analytischen Modellen. Diese Modelle können als Webservice veröffentlicht werden und stehen hierdurch anderen Applikationen zur Beantwortung analytischer Fragestellungen zur Verfügung. R Server Eigenständige Server-Komponente (enthalten im SQL Server 2016) auf Windows und Linux, die Anwendung von analytischen Modellen auf großen Datenbeständen auch außerhalb des SQL Server ermöglicht, bspw. HD Insight, Teradata, …

Power BI und R

Microsoft Power BI und R … durch Algorithmen Muster erkennen / Vorhersagen treffen … R Scripte liefern data.frames, die im Modell verwendet werden können Umfangreiche R Bibliotheken zur Datenvisualisierung … Komplexe Zusammenhänge können visualisiert werden … Daten aus … in das Power BI Modell integrieren … Datenbanken SQL und NoSQL … R data.frames können als Tabellen verwendet werden Binaries

Power BI: Extraktion aus rdata files Zugriff auf „proprietäre“ R Daten-Strukturen (data.frames) über Power BI Funktionalitäten = RData.FromBinary( File.Contents("C:\Program Files\Microsoft SQL Server\130\R_SERVER\library\RevoScaleR\unitTestData\boston.Rdata") )

Power BI: Extraktion aus sas7bdat files Zugriff auf „exotische“ Datei-Typen über „spezialisierte“ R packages = R.Execute(" #install.packages(""sas7bdat""); library(""sas7bdat""); sas7file <- ""C://Program Files//Microsoft SQL Server//130//R_SERVER//library//RevoScaleR//unitTestData//AirlineSampleDate.sas7bdat"" datafromsas7bdat <- read.sas7bdat(sas7file)")

Power BI: Feature Engineering (bspw. Clustering) Anwendung von Funktionen und Algorithmen zur „Erweiterung“ des Power BI Datenmodells

Power BI: Feature Engineering (Clustering) Integration von R in den „Data Wrangling“ (aka as ETL) Prozess

Power BI: Datenvisualisierung mit R „Einfache“ Erstellung beliebig komplexer Datenvisualisierungen durch viele spezialisierte R packages

Der SQL Server und R

Mircosoft SQL Server – The Data Science Part Inhalt hier geliehen von Microsoft  Source: „Read the SQL Server 2016 Deeper Insights Across Data technical white paper“ http://www.microsoft.com/en-us/server-cloud/products/sql-server-2016/ This integration of R with SQL Server means that database professionals can use T-SQL for advanced analytics on operational data and models, and they can secure and ensure their availability. With SQL Server 2016, data scientists no longer need to extract data from SQL Server via Microsoft Open Database Connectivity (ODBC) to analyze it with R.

Microsoft SQL Server and R (in-database analytics) execute sp_execute_external_script @language = N'R' , @script = N' library("data.table"); dt <- as.data.table(InputDataSet); dt$NewColName <- dt$BaseColName * 2; OutputDataSet <- dt[, list(NewColName)]; ' , @input_data_1 = N' SELECT 1 as BaseColName union SELECT 2 as BaseColName ;' WITH RESULT SETS (([NewColName] int NOT NULL)); Microsoft R Server (formerly known as Revolutions Analytics server)

Microsoft SQL Server und R Alle Einsatzszenarien von R im Zusammenspiel mit Power BI gelten genau so auch für den SQL Server! Also eben nicht nur für „Data Science“!

Wo R helfen kann!

Daten Extraktion Es stehen für nahezu jede Datenquelle spezifische Pakete zur Verfügung, die es ermöglichen die Daten aus diesen Datenquellen in das eigene Datenmodell zu integrieren: NoSQL – Datenbanken wie MongoDB, Cassandra, … Binaries – Tabellen aus SPSS, SAS, Stata Binaries – z.B. exif-Informationen aus Bilddateien Web Datenquellen Natürlich auch txt, RDBMS, …

Data Transformation / Cleansing Es stehen umfangreiche Funktionen / Pakete zur Verfügung um text-Daten zu transformieren JSON-Datenquellen XML-Datenquellen Ganze Web-Seiten (dies, geht allerdings schon in Richtung text mining Fehlende Daten durch die Anwendung statistischer Methoden ergänzen

Data Modeling / Application of Statistical Methods Eine große Anzahl von Paketen bieten die Möglichkeit analytische Methoden auf Daten anzuwenden (R is a statistical Programming Language) Clustering Random Forests Ensemble Modeling Graph / Netzwerk – Analyse Boosting …

Data Processing / Feature Engineering Verschiedenste Pakete bieten die Möglichkeit analytische Funktionen anzuwenden um neue Spalten zu “engineeren” Vergleichbar mit den Windowing Functions des SQL Servers, also bspw. Function(…) OVER(PARTITION BY … ORDER BY …) Grenzen entstehen eigentlich nur durch einen Mangel an Phantasie  Allerdings erfolgt dies heute immer in einem Batch (sp_execute_external …), vor diesem Hintergrund ist die Anwendung von R-Skripten heute nicht so dynamisch wie die Windowing-Functions

Data Visualization Inspiriert durch IBCS: http://www.hichert.com/de/excel/excel-templates/templates-2012.html Datenvisualisierung nicht nur in Power BI sondern auch in den Reporting Services Demographische Daten Just for fun 

Learning R

Learning R Wie wir lernen und neue Kompetenzen entwickeln? Un- conscious competence Endlich Geige spielen, beim Fahrrad fahren! Es sehr einfach, das Gelernte anzuwenden Conscious competence Ich muss mich konzentriere, das Gelernte anzuwenden Ich kanns auch! Conscious incompetence Ich habe jemanden gesehen, der das kann! Ich weiß, dass ich etwas nicht weiß Based on ideas from Noel Burch https://en.wikipedia.org/wiki/Four_stages_of_competence Unconscious incompetence Ich weiß nicht, dass ich etwas nicht weiß Freihändig Fahrrad fahren geht nicht!

Learning R Wie wir lernen und neue Kompetenzen entwickeln? Un- conscious competence Conscious competence Conscious incompetence Bestehendes verbessern! Etwas neues Lernen! Unconscious Incompetence

Learning R Wie wir lernen und neue Kompetenzen entwickeln? Power Query („M“) DAX MDX SSRS T-SQL Mein Tip: Starten mit einer konkreten Fragestellung, für die ein konkreter Lösungsansatz noch nicht existiert! alt Verfügbarkeit neu Time to conquer

Ressourcen R Basics Statistics Basics Online Kurs: https://www.datacamp.com/ Online Kurs: http://tryr.codeschool.com/levels/1/challenges/3 Buch: R in a Nutshell Buch (pdf): http://www.burns-stat.com/pages/Tutor/R_inferno.pdf (etwas schwieriger, dafür immer wieder downloadbar) Statistics Basics https://www.openintro.org/stat/ Einführung in Statistik (kostenfrei) Machine Learning / Advanced Analytics Buch: Machine Learning for Predictive Data Analytics Daten Visualisierung Buch: R Graphics Cookbook: Practical Recipes for Visualizing Data

𝑓 =( + ) * Wo R helfen kann - Recap! Daten Extraktion Daten Transformation / Daten Cleansing Daten Modellierung (Advanced Analytics) Statistische Modelle für Mustererkennung (zum Beispiel Cluster-Bildung) und für Vorhersage-Modelle (Predictive Analytics) Machine Learning Daten Processing / Feature Engineering Daten Visualisierung 𝑓 =( + ) *

Please give us feedback! How did you like it? Please give us feedback! to the event: www.sqlsaturday.com/579/eventeval.aspx to me as a speaker: www.sqlsaturday.com/579/sessions/sessionevaluation.aspx

Our Sponsors If you think, that a SQL Saturday is a nice possibility to learn from and network with fellow SQL Server enthusiasts FOR FREE, I just ask you one thing: Visit the sponsor booths and chat with the sponsors! They are covering the expenses for each and every of you, with is around EUR 60 …