统计更加在乎的是模型应用的完善,即数据必须要符合模型的假定。任何一个模型都有假定。数据挖掘中,如决策树和神经网络做的时候很少会提到假定,实际上他们的假定和回归差不多。很多时候,我们用R或者SAS建立一个决策树会发现效果不好,效果不好的原因就是你的数据不符合假定。决策树这种模型其实是没有底蕴的,即没有体系帮忙进行检验,所以这种模型在建模之前一定要对数据进行预处理,让数据去符合假定。如果想建好一个模型,在建模之前需要面对下面这些点:
1 模型的可解释性:建出的模型的关系必须是和实际业务有联系的,如果你的模型的可解释性关系是比较荒谬、不符合常识的,那么即使模型在技术层面非常好也是无用的
2 模型和技术的假定一定要自己清楚
3 模型能否抵御维度诅咒:回归要求自变量间不能相关,维度越高越容易相关,这就是维度诅咒,不光回归需要这个,决策树和神经网络也需要,建模时模型变数比较大就是这个原因
4 模型能否稳健的应对异常值
5 定性数据问题如何应付
6 缺失值是否需要提前处理:例如回归是需要补缺的,但是决策树不需要补缺,因为决策树不怕缺失值,在决策树看来缺失值就是一个普通的值
7 计算的复杂性:其实不用被各种很炫的模型吓住,其实商业数据分析中使用最多的模型就是回归,这里的回归不是普通的回归,是逻辑回归,将这一个模型搞明白,基本的工作就会平趟了,其他的算法会一点就可以了,因为其他的算法都不太稳健,稳健性最好的就是回归
8 计算的复杂性:统计软件的特点就是计算过程是高度隐藏,计算过程不可见就会造成我们的疑问,这个软件算的对不对呢,其实对不对是取决于计算过程中的误差的,当用统计软件建模的时候,涉及到的误差有四种:
a 测量误差:第一种误差,统计是理性测感性的过程,但是理性测感性有一个麻烦,例如去医院看病,描述身体难受程度的时候不好衡量,这样就会衍生出疼痛等级的概念。这里涉及到一个很有趣的指数-恋爱指数,是用来衡量天气好坏程度的综合指标
b 模型误差
c 计算机的舍入误差:这个是由算法控制的
d 截断误差:计算是有位长限制的,一个统计软件做的好不好是要去衡量其对截断误差的控制程度的
所以统计软件做的对不对是需要经过认证的,目前数据分析领域中完全过了认证的软件只有SAS,因其商业软件的性质,有人负责。R基础包进过了认证,大部分的延伸包没有经过认证。PYTHON2.0经过了认证,PYTHON3.0版本没有经过认证。SPSS也没有经过认证,如果用SAS和SPSS一起跑一个典型相关分析,结果是不一样的,所以建模时需要人为去控制计算层面的复杂性。