如何在CDSW中使用R绘制直方图

2018-04-01 19:17:48 浏览数 (1)

温馨提示:要看高清无码套图,请使用手机打开并单击图片放大查看。

1.文档编写目的


Cloudera的新产品CDSW(Cloudera Data Science Workbench)集成了R、Scala、Python2、Python3等语言进行统计和数据分析。本文档主要讲述如何在CDSW中使用R语言绘制直方图和饼图,并使用Hive数仓作为数据源。

  • 内容概述

1.创建R工程

2.工程启动及示例运行

3.R直方图示例代码

4.R饼图示例代码

  • 测试环境

1.CM和CDH版本为5.11.2

2.RedHat7.2

3.CDSW1.1.1

  • 前置条件

1.CDH集群正常

2.Impala/Hive中已有TPC_DS相应的表和数据

3.CDSW安装且正常运行

2.创建R工程


1.登录CDSW平台

2.点击“New Project”创建R工程,输入工程名称,选择模板为R

3.点击“Create Project”,完成R工程创建

创建工程选择Template模板时会附带R的示例。

3.启动工程及运行示例


1.进入myfirstR工程

2.点击“Open Workbench”

3.选择R运行环境及 Engine配置

4.点击“Launch Session”

5.等待容器启动成功

6.验证是否启动成功

以上version内容正常显示,terminal均能正常打开则表示启动成功。

7.运行示例

显示如下

点击运行Run或者旁边播放按钮运行代码(Run可以逐行运行或者运行所有)

运行结果

整个界面由三个区域组成,左边工程文件列表,中间代码显示区域,右边运行结果展示。

4.R直方图示例代码


1.安装R依赖包

代码语言:txt复制
## 安装R运行依赖包
install.packages("Rcpp",dependencies = TRUE)
install.packages("gcookbook",dependencies = TRUE)
install.packages("data.table",dependencies = TRUE)
install.packages("ggplot2",dependencies = TRUE)
install.packages("RJDBC")

2.创建一个新的R文件

3.编写R绘制直方图代码

代码语言:txt复制
## 加载R运行依赖包
library(ggplot2)
library(gcookbook)
library(data.table)
library(DBI)
library(rJava)
library(RJDBC)

## 将R连接Impala所依赖的jar包加载到当前运行环境
hadoop.class.path = list.files(path=c("/opt/cloudera/parcels/CDH/lib/hadoop"),pattern="jar", full.names=T);
#hive.class.path = list.files(path=c("/opt/cloudera/parcels/CDH/lib/hive/lib"),pattern="jar", full.names=T); #此处是加载Hive的依赖包,如果使用hive jdbc则加载相应的依赖包
impalajdbc.class.path = list.files(path=c("/driver/impalajdbc"), pattern="jar", full.names=T)
cp = c(hadoop.class.path,impalajdbc.class.path)
  .jinit(classpath=cp,parameters="-Djavax.security.auth.useSubjectCredsOnly=false")

## 设置Java运行参数
options(java.parameters = "-Xmx8g")

## 使用RJDBC连接Impala
drv <- JDBC("com.cloudera.impala.jdbc41.Driver", "/driver/impalajdbc/ImpalaJDBC41.jar",identifier.quote="`")
conn <- dbConnect(drv, "jdbc:impala://ip-172-31-26-80.ap-southeast-1.compute.internal:21050/tpcds_parquet")

## 获取当前时间
tt <- Sys.time()

sql = "select tt.scope,count(*) count from (
select case
    when cs_sales_price >=0 and cs_sales_price < 15 then '1'
    when cs_sales_price >= 15 and cs_sales_price < 30 then '2'
    when cs_sales_price >=30 and cs_sales_price < 45 then '3'
    when cs_sales_price >= 45 and cs_sales_price < 60 then '4'
    when cs_sales_price >= 60 and cs_sales_price < 75 then '5'
    when cs_sales_price >= 75 and cs_sales_price < 100 then '6'
    when cs_sales_price >= 100 then '7'
    else '8'
  end as scope,cs_sales_price
    from catalog_sales ) tt GROUP BY tt.scope"

## 执行SQL获取查询结果
tabledata <- dbGetQuery(conn, sql)
## 将SQL返回的结果转化为data.table数据集
VDT <- data.table(tabledata)
## 设置直方图的横坐标和纵坐标及类型
p <- ggplot(VDT, aes(x=scope, y=count))   geom_bar(stat="identity")
### 销售额区间分布直方图
p   scale_x_discrete(breaks=c("1","2","3","4","5","6","7","8"),
  labels=c("0~15","15~30","30~45","45~60","60~75","75~100","100~","other"))
## 输出直方图耗时:
Sys.time() - tt
dbDisconnect(conn) #关闭连接

4.示例运行

5.R饼图示例代码


  1. 编写R绘制饼图代码
代码语言:txt复制
## 加载R运行依赖包
library(ggplot2)
library(gcookbook)
library(data.table)
library(DBI)
library(rJava)
library(RJDBC)

## 将R连接Impala所依赖的jar包加载到当前运行环境
hadoop.class.path = list.files(path=c("/opt/cloudera/parcels/CDH/lib/hadoop"),pattern="jar", full.names=T);
#hive.class.path = list.files(path=c("/opt/cloudera/parcels/CDH/lib/hive/lib"),pattern="jar", full.names=T);
impalajdbc.class.path = list.files(path=c("/driver/impalajdbc"), pattern="jar", full.names=T)
cp = c(hadoop.class.path,impalajdbc.class.path)
.jinit(classpath=cp,parameters="-Djavax.security.auth.useSubjectCredsOnly=false")

## 设置Java运行参数
options( java.parameters = "-Xmx8g" )

## 使用RJDBC连接Impala
drv <- JDBC("com.cloudera.impala.jdbc41.Driver", "/opt/cloudera/parcels/CDH/lib/hive/lib/hive-jdbc.jar",identifier.quote="`")
conn <- dbConnect(drv, "jdbc:impala://ip-172-31-26-80.ap-southeast-1.compute.internal:21050/tpcds_parquet")

## 获取当前时间
tt <- Sys.time()

sql = "select tt.scope,count(*) count from (
select case
    when cs_sales_price >=0 and cs_sales_price < 15 then '1'
    when cs_sales_price >= 15 and cs_sales_price < 30 then '2'
    when cs_sales_price >=30 and cs_sales_price < 45 then '3'
    when cs_sales_price >= 45 and cs_sales_price < 60 then '4'
    when cs_sales_price >= 60 and cs_sales_price < 75 then '5'
    when cs_sales_price >= 75 and cs_sales_price < 100 then '6'
    when cs_sales_price >= 100 then '7'
    else '8'
  end as scope,cs_sales_price
    from catalog_sales ) tt GROUP BY tt.scope"

## 执行SQL获取查询结果
tabledata <- dbGetQuery(conn, sql)

## 将SQL返回的结果转化为data.table数据集
VDT <- data.table(tabledata)

## 用order()让数据框的数据按 scope 列数据从大到小排序
VDT = VDT[order(VDT$scope, decreasing = TRUE),]
## 将数字1替换为"0~15"方式
myLabel = c("0~15","15~30","30~45","45~60","60~75","75~100","100~","other")
myLabel = paste(myLabel, "(", round(VDT$count / sum(VDT$count) * 100, 2), "%)", sep = "")

## 绘制销售额区间分布饼图
ggplot(VDT, aes(x = "", y = count, fill = scope))  
  geom_bar(stat = "identity", width = 1)      ## width >= 1 时中心的杂点将消失
  coord_polar(theta = "y")  
  labs(x = "", y = "", title = "")  
  theme(axis.ticks = element_blank())  
  theme(legend.title = element_blank(), legend.position = "top")  
  scale_fill_discrete(breaks = VDT$scope, labels = myLabel)  
  theme(axis.text.x = element_blank())   ## 白色的外框即是原柱状图的X轴,把X轴的刻度文字去掉即可

## 输出饼图耗时:
Sys.time() - tt

dbDisconnect(conn)
#关闭连接

2.示例运行效果

醉酒鞭名马,少年多浮夸! 岭南浣溪沙,呕吐酒肆下!挚友不肯放,数据玩的花! 温馨提示:要看高清无码套图,请使用手机打开并单击图片放大查看。


推荐关注Hadoop实操,第一时间,分享更多Hadoop干货,欢迎转发和分享。

原创文章,欢迎转载,转载请注明:转载自微信公众号Hadoop实操

0 人点赞