模型一般形式
统计模型的一般形式是Y=m(X) e。其中Y为输出变量、响应变量、因变量、被解释变量;m为均值;e为不可控因子,可以理解为噪声。故模型等式右边是用X组成的函数去描述Y的均值,即模型是在平均的意义下去描述自变量与因变量间的关系,所以在解读模型的时候,我不会将模型说死。
模型中不同形式的m(X)会幻化为不同的模型体系,一般可以将模型分为两大类:
1、m(X)可以幻化为数学公式,即公式模型,一般比较成熟的都是公式模型,例如回归模型的理论与底蕴就比较完善,模型的假定都是可以进行检验的;
2、m(X)过于复杂,用公式无法描述,需要用算法去描述,即算法模型,例如决策树模型。
其实,建模的作用就是将看上去不太可能的事情联系到一起,同时又能将事情的来龙去脉解释清楚。模型构建之前都有假定,模型构建的好不好、是否合适都取决于模型是否符合假定,当然更核心的还是要关注模型在业务场景的应用,这才是建模的最主要的目的。
回归的基本思路
在模型领域,解释性较好的模型毋庸置疑就是回归。回归模型主要能做两件事情,一是用模型去体现事物间的关系,即解释模型变量间的关系;二是用模型进行预测。
如下图所示,回归建模的工作流程即 将客观现实转化为数据后进行建模,终极目标是用数学模型将事物的来龙去脉解释清楚,作为数据分析师,讲故事的能力真的非常重要。
回归模型里的坑
构建回归模型时经常需要对变量进行变换,在调整量纲的过程中不怕数据长度发生变化,怕的是数据的相对长度发生变化,因为眼睛能看到的空间为欧式空间,欧式空间的弱点是数据很容易受到量纲的影响,所以在构建模型进行数据变换的时候并不能随心所欲的变换。
数据变换过程中我经常会使用BOX-COX变换,这种变换的方法为:
1、λ不等于0的时候,
2、λ等于0的时候,
这种BOX-COX的数据变换方式有几个特点:
1、这种变换可以改变分布形状,使数据成为对称甚至正态分布,至少,这种变换能将数据分布往正态分布方向拉一拉;
2、这种变换能保持原数据的大小次序;
3、这种变换对变换结果有比较好的解释。例如:
λ=2的时候变换变为了
,可以叫做平方变换;
λ=1的时候变换变为了
,可以叫做恒等变换;
λ=0.5的时候变换变为
,可以叫做平方根变换;
λ=0的时候可以叫做对数变换;
λ=-0.5的时候,y可以叫做平方根倒数变换;
4、变换需要y的最大值和y的最小值的比值要大于2,即原始数据Y的最大值和最小值的变化范围不能太小使用BOX-COX变换才是有效的,如果变化范围过小则数据不敏感。但是实际工作中我还没有遇到过比值小于2的情况。
怎样衡量模型好坏
建模过程中首先应该考虑检验能否通过,如果检验通过,则需要考虑模型好不好、行不行,即必须要进行模型诊断,任何一个模型都有一个正常、期待的样子,即假定,模型建好后都应该看下模型拟合的结果是否符合假定,建模不是很难的过程,困难的点在于数据是否符合假定的衡量。
简单线性回归模型的假定
简单线性回归模型有下面几个假定:
1、线性假定
所谓线性假定指构建模型时需将模型构建成线性的模式,例如Y=b0 b1x2 e,虽然是x2的形式,但可将x2的整体看做X。即在进行参数估计的时候,自变量X可以采用任何形式,但是模型整体需要保证是类线性的模式;
2、正交假定
X和e之间不相关;
3、独立同分布
残差间相互独立,方差需齐性,即相等;
4、Y服从正态分布
一般直接检验因变量Y是不是正态分布比较麻烦,实际检验的是残差。
单变量线性回归模型SAS示例
单变量线性回归模型一般形式为:Y=b0 b1X1 e。其中Y为因变量,X为自变量或预测变量,e为扰动项,b为模型的系数。如下示例建模背景为针对消费与收入构建单变量线性回归模型,下面为SAS实现代码以及我对模型结果的解读思路:
PROC REG DATA=XUHUI PLOTS(ONLY)=ALL;
Linear_Regression_Model:
MODEL cost=income/dw spec;
OUTPUT OUT=result
PREDICTED=predicted_cost
RESIDUAL=residual_cost
STUDENT=student_cost
RSTUDENT=rstudent_cost;
RUN;
QUIT;
结果解读:
1、看F检验结果与调整R方:
F检验,如果P值小则为合理;
调整R方,这里调整R方过小,说明这个一元回归模型可能仅仅一个自变量是不够的;
2、看DW与spc:
DW为自相关衡量指标,靠近2没有自相关,靠近4和0有自相关,这里DW为1.42有点靠近未判定区。一般,DW只能检验一阶自相关,更复杂的情况无法检验;
spc为异方差检验指标,即怀特检验,即下方第一和第二距制定的检验,P值小表明没有异方差。
其实,DW检验也好、怀特检验也好,都属于弱检验,他们的检验结果的可靠性和实用性不大,只能作为参考,一般实际中我还是会去看残差图再次进行检验。
3、看分布,类似钟型,如果不是钟型可以对Y做Box-Cox变换。
4、利用预测值残差图查看模型是否符合假定
如果模型符合假定,那么模型的残差均值为0、方差为常数,图形中方差用范围去体现,比较期望的状态应该是以均值为中心、区间保持稳定。这里残差图的形态说明出现了异方差,即消费越大花钱的方差越大,需要进行变换,这个地方我不太喜欢用最小二乘的方法进行处理,一般我会想去用合适的方法对变量进行变换。
5、拟合诊断图:
第一列图形用于判断数据是否是正态,右上角的四张图用于判断强影响点。