利用 R 进行数据挖掘,数据来源于著名的 state.x77 数据集。这个数据集提供了美国 50 个州在 1997 年人口、收 入、文盲率、预期寿命、谋杀率和高中毕业率、气温以及土地面积的数据。通过数据搜集的信息,想知道哪些因素...
连续型变量独立性检验,如果数据分布满足正态分布可以使用t检验,否则使用wilcox检验。
假设检验是用来判断样本与样本,样本与总体的差异是由抽样误差引起还是本质差别造成的统计推断方法。其基本原理是先对总体的特征做出某种假设,然后通过抽样研究的统计推理,对此假设应该被拒绝还是接受做出推断。其基本原...
filter()函数用于筛选出一个观测子集,第一个参数是数据库框的名称,第二个参数以及随后的参数是用来筛选数据框的表达式。
在做统计分析的过程中,经常需要进行随机抽样,R 提供了多种生成随机数的函数,并且可以进行多种形式的抽样。
数据透视表excel中有这个分析数据的功能,在R语言中同样可以实现。对一个表格分组计算相应的特征,比如不同国家所有城市的人口总数等。R提供了apply系列函数,包括apply,lapply,sapply,tapply,vapply等,可以对二维数据进行计算,...
一般的 R 函数只能接受固定类型的数据,例如绘制热图,输入数据必须是数值型向量,数据框则不行,线性回归分析中,输入数据必须为一个数据框。因此,需要熟悉各种数据类型之间的转换。此外,在做数据转换的过程中,还要记住,有些数据...
所有的数据集合可以分为三类,连续型,名义型和有序型。连续型例如1 2 3 4 5 8 9 10,名义型如sample1 sample2 sample3 ,而有序型 good better best;周一,周二,周三……等。在R中名义型变量和有序性变量称为因子,factor。这些分...
数据框是一种表格式的数据结构,属于一种二维表,分为行和列。数据框旨在模拟数据集,与其他统计软件例如 SAS 或者 SPSS 中的数据集的概念一致。数据集通常是由数据构成的一个矩形数组,行表示观测,列表示变量。不同的行业对...
R 语言的一大优势就是有各种各样的扩展包,所谓 R 扩展包,就是将数据处理的算法通过 R函数来实现,再加上测试数据,说明文档整合在一起,就是 R 的扩展包。在使用 R 的过程中,肯定需要使用到 R 的包,因此,需要掌握 R 包的管理,包...