写给数据分析的初学者

2018-03-09 17:45:17 浏览数 (1)

在QQ群里听到一些网友在讨论数据分析的话题。有人正为自己学会了spss而高兴,有人说自己还略懂sas,还有人提到了sql查询语言。大家都在积极地学习,希望能在数据分析领域有所建树。然而在这些网友中,统计科班出身的并不多。所以,他们一味地认为软件会的多,就表明数据分析能力强。其实,这是一个误区。纵然你练了十八般武器,但并见得你就能拼得过别人的三板斧。作者以为统计软件学起来并不难,难得是理解统计方法的内涵。出于对大家的引导,问了三个问题,一来帮大家义务扫盲,二来希望大家能重视基础。

第一个问题:样本均值大家都不陌生吧!就是小学生都会计算的那个东西。在统计学里,均值很关键,因为它派生出许多重要的统计量。单独使用均值来分析问题的情况很少,至少要配上众数、中位数、最大值、最小值和方差,才能大概了解数据的概况。当然,媒体报道例外,人家的目的就是用爆炸性的数据吸引眼球,为此不惜沦为标题党。均值之外,还有两个重要的统计量最容易搞混,那就是标准差和标准误。这两个概念你搞清楚了吗?果然,群里好多人都不吱声了。估计一半是百度去了,剩下的几个也在发着企鹅摇头的困惑表情。如果读博文的你也不知道,建议看一下本人的上一篇博文《标准差与标准误的区别》,在此不再赘述。

第二个问题:相关分析知道吧,就是那个衡量两列数据线性相关的方法。相关系数也应该很清楚,取值范围是【-1,1】。我要问的是复相关系数,就是回归分析里用来衡量因变量与一组自变量之间相关关系的度量尺度。复相关系数的取值范围是多少呢?这个知道的更少了,一个个发出来的都是不知道,只有一个弱弱地回答不是【-1,1】吗?我既然这么问,那就肯定不是了,复相关衡量的是一个变量与一组变量线性组合后的相关系数。因为这一组变量经过了线性组合,也就是加加减减,所以正负的方向就没有了,只剩了量的大小,所以取值范围是【0,1】。还有一个就是那个修正后的决定系数2,这个家伙的取值范围又是多少呢?不要只看到平方就断定它是非负的,特殊情况下它是会小于0的。

第三个问题:这个问题有点趣味性了,表达起来就一句话:如果一枚硬币连投10次都是正面,问第11次出现正面的概率是多少?

问题一出,答案马上就来了。1/2、 0.5、应该是0.5吧、支持楼上、楼上正解。

真的是吗?我又发问。

马上就有人顶贴:大家坚持住,肯定是0.5。

大家没有其他更合理的答案了吗?我又试探着询问,真的希望能有一个不同的回答呀。可是,这次大家没有一个人倒戈,那是相当的坚持!

快给答案吧,大家催促着。

100%吧,或者接近100%。我敲出了这样一个答案。

瞎说吧、胡扯呢、巨汗……这就是大家的反应。

那就听我慢慢道来。我尽量选择一种最容易让大家接受的方法来解释。一个硬币连抛10次都出现正面的概率是0.510,绝对的小概率事件。在一次实验中,小概率事件发生,那么我们就应该拒绝原假设。原假设是什么?硬币出现正反的概率是0.5。所以,我们可以大胆地推断,硬币本身就是一个两面都是正面的硬币,所以说第11次出现正面的概率是100%,或者接近100%。

立马,就有人对我的答案提出了质疑。说我的答案有点偏,顿时嘘声一片。

我只能厚着脸皮继续解释。树上10只鸟,猎枪一枪打死1只,树上还剩0只的结论大家都应该同意吧。因为我们考虑的是实际问题,不是10-1等于几的数学算式。所以大家在幼儿园的时候就知道枪声响过,树上一只鸟都不会剩。试想,你和你的朋友打赌投硬币猜正反,如果10次之后朋友投出来的都是正面,你会怎么想?兄弟你出千了吧,硬币肯定有问题吧!相信用不了10次,你就会提出这样的质疑了。如果说计算概率,0.5没有错,独立事件发生的概率不因之前的情况而改变。但是,如果用假设检验的思想,100%的结论就更合理了。之所以说0.5的结果不对,不是说你的计算出错了,而是在把实际问题转换成统计问题的时候,你太教条了,太书本了。这道貌似概率计算的问题,实则是假设检验的考题。由于你选错了方法,所以即使整个计算都精益求精,但结果依然不会正确。就如同10-1=9,谁都不会说错,但若用到猎枪打鸟上,就是你的不对了。

多看看统计学的基础教程吧,我只能这样建议大家。建议每一位立志数据分析的人士,都能有一个坚实的统计学基础。统计基于概率,但重点在研究规律。所谓的历史可以重演,重演的结果就是下一次还会出现正面!记住一句话:数据分析用对了可以创造财富,用错了绝对有害无益。

谨以此文献给即将或正在从事数据分析的人士。

0 人点赞