学习小组DAY6-Creep

2023-11-06 00:08:22 浏览数 (1)

今天的学习内容是R包,R包是多个函数的集合,本次主要是学习dplyr包。

安装和加载R包

  1. 设置镜像 每次下载R包时,都需要重新配置镜像。为了避免这种繁琐的操作可以使用file.edit('~/.Rprofile')建一个R的配置文件文件直接进行设置,在配置文件中运行以下代码 options("repos" = c(CRAN="https://mirrors.tuna.tsinghua.edu.cn/CRAN/")) #对应清华源 options(BioC_mirror="https://mirrors.ustc.edu.cn/bioc/") #对应中科大源 然后保存,再重启一下RStudio,运行options()$reposoptions()$BioC_mirror出现以下内容就发现已经配置好了
代码语言:txt复制
options()$repos
CRAN 
"https://mirrors.tuna.tsinghua.edu.cn/CRAN/" 
options()$BioC_mirror
[1] "https://mirrors.ustc.edu.cn/bioc/"

安装

安装命令是install.packages(“包”)(安装在CRAN里的包),或者BiocManager::install(“包”)(安装在Biocductor)即可安装对应的包。之前已经安装过dplyr包了,所以直接加载即可

加载

library(包)require(包)均可实现加载的目的。

代码语言:txt复制
library(dplyr)                                                                                     载入程辑包:‘dplyr’
The following objects are masked from ‘package:stats’:filter, lag
The following objects are masked from ‘package:base’: intersect, setdiff, setequal, union

示例数据

使用内置数据集iris的简化版

代码语言:txt复制
test <- iris[c(1:2,51:52,101:102),]

dplyr五个基础函数

mutate(),新增列

select(),按列筛选

filter()筛选行

arrange(),按某1列或某几列对整个表格进行排序

summarise():汇总

进行汇总时可以结合group_by,实用性更强

dplyr两个实用技能

管道操作 %>% (cmd/ctr shift M)

管道操作可以直接省略中间步骤,导出最后的结果

count统计某列的unique值

dplyr处理关系数据

将2个表进行连接

代码语言:txt复制
test1<- data.frame(x = c('b','e','f','x'),  z = c("A","B","C",'D'))
test2<- data.frame(x = c('a','b','c','d','e','f'),  y = c(1,2,3,4,5,6))

內连inner_join,取交集

左连left_join

一开始不懂左连是什么意思,可能是数学没学好。其实就是以左边那个表格作为连接的依据找到对应的值,如果没有就以NA表示

全连full_join

半连接:返回能够与y表匹配的x表所有记录semi_join

反连接:返回无法与y表匹配的x表的所记录anti_join

简单合并

在相当于base包里的cbind()函数和rbind()函数;注意,bind_rows()函数需要两个表格列数相同,而bind_cols()函数则需要两个数据框有相同的行数

以上就是本次的学习内容了

0 人点赞