因子(Factors)在R语言中通过将变量转换成因子就可以使之成为R里的名义变量,关于名义变量的概念大家可以自行百度,这里就不赘述。对于因子的理解,我们可以将其简单地看成一种建立了映射关系的分类变量,举个简单的例子,比如性别简单地可以分为两类(‘男性’和‘女性’),如果将性别这个变量转换成因子,那么在R中‘男’就可以变成2,‘女’就变成1,同时建立了一个1à‘男’和2à‘女‘这样的映射关系,这样的好处是可以使R的运行更加高效。
代码语言:javascript复制# 建立性别变量,20个男性,30个女性
gender <- c(rep("male",20), rep("female", 30))
gender1 <- factor(gender)
# 这样男就变成了1,女就变成了2(按照字母表排的)
summary(gender)
# 当然我们也可以自己指定映射的对应关系
gender2 <- factor(gender, levels=c('male','female'),labels = c(1,2))
通常一个有序化的因子就等同于有序变量,无序化的因子就是一个分类变量。
R语言中常用基本函数
我们以R语言中内置的鸢尾花数据集为例进行简单讲解
代码语言:javascript复制object <- iris #将鸢尾花数据集赋予object这个变量,object实际上是一个数据框
length(object) # 返回对象的长度(在这里实际返回数据框的列数)
str(object) # 查看对象的结构
class(object) # 查看对象的类型
names(object) # 查看对象的名称
dim(object) #查看对象的维度(在这里实际上返回数据框的行数和列数)
mean(object$Sepal.Length) #计算花萼长度的平均值
median(object$Sepal.Length) #计算花萼长度的中位数
quantile(iris$Sepal.Length) #计算花萼长度的四分位数
var(iris$Sepal.Length) #计算花萼长度的方差
sd(iris$Sepal.Length) #计算花萼长度的标准差
接下来的object不是之前所使用的鸢尾花数据集,在这里它就是一个统称,可以是向量、矩阵、数据框以及因子等
代码语言:javascript复制c(object,object,...) # 将对象合并成一个向量
cbind(object, object, ...) # 将对象按列合并
rbind(object, object, ...) # 将对象按行合并
ls() # 列出当前环境下的所有变量名称
今天的内容就分享到这里了,下期将会和大家分享R语言中的数据输入和输出,敬请期待!!!