今天的学习内容是R包,R包是多个函数的集合,本次主要是学习dplyr包。
安装和加载R包
- 设置镜像
每次下载R包时,都需要重新配置镜像。为了避免这种繁琐的操作可以使用
file.edit('~/.Rprofile')
建一个R的配置文件文件直接进行设置,在配置文件中运行以下代码options("repos" = c(CRAN="https://mirrors.tuna.tsinghua.edu.cn/CRAN/")) #对应清华源
options(BioC_mirror="https://mirrors.ustc.edu.cn/bioc/") #对应中科大源
然后保存,再重启一下RStudio,运行options()$repos
和options()$BioC_mirror
出现以下内容就发现已经配置好了
options()$repos
CRAN
"https://mirrors.tuna.tsinghua.edu.cn/CRAN/"
options()$BioC_mirror
[1] "https://mirrors.ustc.edu.cn/bioc/"
安装
安装命令是install.packages(“包”)
(安装在CRAN里的包),或者BiocManager::install(“包”)
(安装在Biocductor)即可安装对应的包。之前已经安装过dplyr包了,所以直接加载即可
加载
library(包)
和require(包)
均可实现加载的目的。
library(dplyr) 载入程辑包:‘dplyr’
The following objects are masked from ‘package:stats’:filter, lag
The following objects are masked from ‘package:base’: intersect, setdiff, setequal, union
示例数据
使用内置数据集iris的简化版
代码语言:txt复制test <- iris[c(1:2,51:52,101:102),]
dplyr五个基础函数
mutate(),新增列
select(),按列筛选
filter()筛选行
arrange(),按某1列或某几列对整个表格进行排序
summarise():汇总
进行汇总时可以结合group_by
,实用性更强
dplyr两个实用技能
管道操作 %>% (cmd/ctr shift M)
管道操作可以直接省略中间步骤,导出最后的结果
count统计某列的unique值
dplyr处理关系数据
将2个表进行连接
代码语言:txt复制test1<- data.frame(x = c('b','e','f','x'), z = c("A","B","C",'D'))
test2<- data.frame(x = c('a','b','c','d','e','f'), y = c(1,2,3,4,5,6))
內连inner_join,取交集
左连left_join
一开始不懂左连是什么意思,可能是数学没学好。其实就是以左边那个表格作为连接的依据找到对应的值,如果没有就以NA表示
全连full_join
半连接:返回能够与y表匹配的x表所有记录semi_join
反连接:返回无法与y表匹配的x表的所记录anti_join
简单合并
在相当于base包里的cbind()函数和rbind()函数;注意,bind_rows()函数需要两个表格列数相同,而bind_cols()函数则需要两个数据框有相同的行数
以上就是本次的学习内容了