不知道大家平时在使用R的时候有没有见到过这样一些比较奇怪的操作符,%>%, %T>%, %$% 和 %<>%。今天小编就来跟大家掰次掰次。这些操作符都是来自于一个叫做magrittr的R包,所以我们先来安装一下。
代码语言:javascript复制install.packages('magrittr')
一、%>% (向右操作符,forward-pipe operator)
假设现在我们要完成这样一个任务
1.取10000个符合正态分布的随机数。
2.求这个10000个数的绝对值,然后乘以50。
3.把结果转换成一个100行100列的矩阵。
4.计算矩阵中每行的均值,并四舍五入只保留整数。
5.把结果除以7求余数,并话出余数的直方图。
正常青年一般会这样做
代码语言:javascript复制#设置种子序列,保证结果可重复
set.seed(123)
n1<-rnorm(10000)
n2<-abs(n1)*50
n3<-matrix(n2,ncol = 100)
n4<-round(rowMeans(n3))
hist(n4%%7)
偷懒青年一般会这样做
代码语言:javascript复制set.seed(123)
hist(round(rowMeans(matrix(abs(rnorm(10000))*50,ncol=100)))%%7)
文艺青年会这样做,用到magrittr里面的%>%操作符
代码语言:javascript复制library(magrittr)
set.seed(123)
rnorm(10000) %>%
abs %>% `*` (50) %>%
matrix(ncol=100) %>%
rowMeans %>% round %>%
`%%`(7) %>% hist
%>% (向右操作符,forward-pipe operator)是最常用的一种操作符,就是把左侧准备的数据或表达式,传递给右侧的函数调用或表达式进行运行,可以连续操作就像一个链条一样。现实原理如下图所示,使用%>%把左侧的程序的数据集A传递右侧程序的B函数,B函数的结果数据集再向右侧传递给C函数,最后完成数据计算。
二、%T>%(向左操作符,tee operator)
我们把上面的需求稍微调整一下,在最后增加一个要求。
1.取10000个符合正态分布的随机数。
2.求这个10000个数的绝对值,然后乘以50。
3.把结果转换成一个100行100列的矩阵。
4.计算矩阵中每行的均值,并四舍五入只保留整数。
5.把结果除以7求余数,并话出余数的直方图。
6.对余数求和
如果我们还用%>%操作符,就会得到如下的错误
代码语言:javascript复制library(magrittr)
set.seed(123)
rnorm(10000) %>%
abs %>% `*` (50) %>%
matrix(ncol=100) %>%
rowMeans %>% round %>%
`%%`(7) %>% hist %>% sum
由于输出直方图后,返回值为空,那么再继续使用管道,就会把空值向右进行传递,这样计算最后一步时就会出错。这时我们需求的是,把除以7的余数向右传递给最后一步求和。
对于这种情况,我们就可以用到 %T>% 了,%T>%(向左操作符,tee operator),其实功能和 %>% 基本是一样的,只不过它是把左边的值做为传递的值,而不是这一步计算得到的值。这种情况的使用场景也是很多的,比如,你在数据处理的中间过程,需要打印输出或图片输出,这时整个过程就会被中断,用向左操作符,就可以解决这样的问题。
我们来看看效果
代码语言:javascript复制set.seed(123)
rnorm(10000) %>%
abs %>% `*` (50) %>%
matrix(ncol=100) %>%
rowMeans %>% round %>%
`%%`(7) %T>% hist %>% sum
这个时候我们可以正常的得到柱形图和最后的和
%T>%现实原理如下图所示,使用%T>%把左侧的程序的数据集A传递右侧程序的B函数,B函数的结果数据集不再向右侧传递,而是把B左侧的A数据集再次向右传递给C函数,最后完成数据计算。
三、 %$% (解释操作符,exposition pipe-operator)
%% 的作用是把左侧数据的属性名传给右侧,让右侧的调用函数直接通过名字,就可以获取左侧的数据。比如,我们获得一个data.frame类型的数据集,通过使用 %%,在右侧的函数中可以直接使用列名操作数据。
现实原理如下图所示,使用%$%把左侧的程序的数据集A传递右侧程序的B函数,同时传递数据集A的属性名,作为B函数的内部变量方便对A数据集进行处理,最后完成数据计算。
下面定义一个10行3列的data.frame,列名分别为x,y,z,获取x列大于5的数据集。使用 %$% 把列名x直接传到右侧进行判断。这里.代表左侧的完整数据对象。一行代码就实现了需求,而且这里不需要显示的定义中间变量。
代码语言:javascript复制set.seed(123)
data.frame(x=1:10,y=rnorm(10),z=letters[1:10]) %$% .[x>5,]
如果不使用%$%,我们通常的代码写法为:
代码语言:javascript复制library(magrittr)
set.seed(123)
df<-data.frame(x=1:10,y=rnorm(10),z=letters[1:10])
df[df$x>5,]
四、%<>% (复合赋值操作符,compound assignment pipe-operator)
%<>%复合赋值操作符, 功能与 %>% 基本是一样的,多了一项额外的操作,就是把结果写回到最左侧的对象(覆盖原来的值)。比如,我们需要对一个数据集进行排序,那么需要获得排序的结果,用%<>%就是非常方便的。
现实原理如下图所示,使用%<>%把左侧的程序的数据集A传递右侧程序的B函数,B函数的结果数据集再向右侧传递给C函数,C函数结果的数据集再重新赋值给A,完成整个过程。
代码语言:javascript复制library(magrittr)
set.seed(123)
x<-rnorm(10)
x %>% abs %>% sort
x
取完绝对值,排完序之后的结果并没有直接写到x里面去
但是如果使用%<>%操作符,你会发现取完绝对值,排完序之后的结果直接覆盖掉了原来的x。
代码语言:javascript复制library(magrittr)
set.seed(123)
x<-rnorm(10)
x %<>% abs %>% sort
x
今天的分享就先到这里,希望大家有所收货,并能学以致用。