【V课堂】R语言十八讲(九)—-假设检验

2018-04-23 09:50:21 浏览数 (1)

前面八章介绍了R软件的基础知识,这些知识都是零碎的操作与处理,虽然不能处理一个完整的实际案例,但却非常重要,接下来,主要讲数据挖掘中处理实际案例之前,所需要的一些模型和功能,我们先从传统的统计学开始,然后到数据挖掘算法,首先,我们会讲讲统计学中的基础知识模型,包括假设检验,线性回归,方差分析,等等.

1.检验

什么叫检验叻? 很简单就是去判断一件事的真伪,运用到统计学上就是去检验一个假设的真伪,去检验一个结论,一个说法的真伪.

数学原理:根据提出的假设,推导出一个理论性结果,然后与样本的实际观测结果相对比,若其差距超出了给定的范围,我们就认为假设不成立,也就是拒绝原假设,若其差距没有超出给定的范围,我们只是暂时接受假设,这里的的接受是指含有一点无奈的意思,即暂时还没有充分的证据推翻你的结论,而无奈接受结论,因为我们这里并没证明结论一定为真,只是通过这个模型没有推翻而已,这就是接受无奈,反对有理.在实际生活中也有很多这样的思想,比方疑罪从无的原则,即只要没有充分的证据证明我有罪,那么只能无奈的接受我没有罪.所以假设检验有一定的局限性,在运用时,原假设的设定非常有讲究..

具体操作;

例1:有两个样本数据,他们是独立的,且分别来自正太分布的总体,现在我们的问题就是去检验这两个样本所代表的总体的均值是否相等,在统计学中我们认为当然也可以证明两个独立样本的均值之差,经过标准化处理后,服从t分布,而t分布的概率密度分布图像跟正太分布是差不多的,现在我们假设两个总体均值相等,如果按照假设的来,那么两个样本均值之差及其标准化之后的数值应该是0或者0左右不远处吧(因为样本有随机性,),那么如果我们计算出的值距离0很远很远,这种事情发生的概率很小很小,但现在我们一次样本中就发生了,我们有理由相信根本不是我们中了彩票,一下子就碰到了这么小概率的事件,而是你给出的假设有问题,不是真实的.所以我们有理由拒绝给出的假设,从而推翻某一结论.

运用R的函数t.test(样本1数据,样本2数据) 就可以检验两个来自正太总体的独立样本.

结果分析:画红线是我标上去的,1.分别是t检验量,自由度,和P值 2.95%的置信区间 3.两组数据的平均值

P值(P value)就是当原假设为真时所得到的样本观察结果或更极端结果出现的概率。如果P值很小,说明原假设情况的发生的概率很小,而如果出现了,根据小概率原理,我们就有理由拒绝原假设,P值越小,我们拒绝原假设的理由越充分。这里是0.96比较高,就接受原假设咯. t值在置信区间内我们就暂且相信原假设了..

而非独立样本则t.test(样本1数据,样本2数据,paired=T)

多于两组的样本我们用方差分析,这在以后会说到.

若不知道总体是否服从同一分布,但两组样本独立 则 wilcox.test( 样本1数据,样本2数据 )

若不知道总体是否服从同一分布,且两组样本不独立,则 wilcox.test( 样本1数据,样本2数据 ,paired=T )

例2.有一组数据,来自正太总体.现在检验其总体均值是否为某个数,比方100.那么原假设就是u=100,而在统计学上已经证明样本均值标准化后,服从相应的正太分布.那么我们就用Z分位检验就可以了.

总结:只要其服从什么分布,就用相应的统计量来检验就可以啦,.检验的根据就是,如果你的原假设为真,那么这件事情发生的概率我是可以根据样本实际观测值计算出来的,若得到的结果表明,这个事概率很小很小,比规定的还小,我们就有理由拒绝原假设,若其概率没有比规定的小,我们就暂且接受吧.

未完待续

0 人点赞