分类选择模型
当被解释变量Y为 取有限个可能值 的分类变量时,需要建立分类选择模型。分类选择模型大约有十几个左右,例如:
- 线性概率模型
- 对数线性模型
- 逻辑回归模型
- 条件逻辑回归模型
- 名义逻辑回归模型
- probit模型
但是实际用到最多的基本都是逻辑回归模型,尤其在商业分析中,基本能够想到的离散选择的应用领域80%以上都会使用逻辑回归模型去解决问题。
逻辑回归模型的SAS实现代码
数据分析中,尽量不要构建 有序的 三分类或三分类以上的 逻辑回归模型,如果遇到Y是三或三以上分类的情况,最好通过合并的方式将Y转换成二元回归,这样模型的性质会更加稳健。例如Y取三个值,则需要以其中一个取值作为参照,构建两个逻辑回归模型,这与哑变量的思路差不多。
SAS中实现逻辑回归的过程步很多,下面模型的业务背景为构建手机用户流失与否与在网时长的逻辑回归模型,代码为:
1、如果只是单纯建立逻辑回归模型,可以使用logistic过程步:
2、如果除逻辑回归外,还要做其他的事情,可以用genmod过程步来实现:
逻辑回归模型结果解读
在模型结果解读上,我更为关注下面几个方面:
1、模型总体显著程度检验:
逻辑回归没有提供R方,因此无法知道解释变量解释了变异的百分比,SAS中提供了三种极大似然估计常用的统计量,当三个检验均显著时说明至少有一个解释变量具有解释力度。
2、最大似然估计:
变量每个水平的估计系数,这里手机在网时长time的回归系数出现了负数,说明用户在网时间越长流失掉的可能性就会越小,这个地方不用过于关注。
3、优比估计:
每个变量一单位变化的优势比,如果优势比大于1表明随着该解释变量的增加Y=1的概率增大,这里表示随着在网时间的增加用户流失掉的可能性越小。
4、预测概率与观测响应关联:
由最大似然估计可以知道,用户在网时间越长流失掉的可能性就会越低,那么以这样的准则去衡量建模样本中的每一条样本,共计比较了2959086次,其中符合这样的准则的样本占比为86%,不符合这样的准则的样本占比为11%,没有区分能力的样本占比为2.6%。符合准则的样本占比越大则表明模型构建的越好,这里符合准则的样本占比为86%,还是不错的。
5、ROC曲线:
上方预测概率与观测响应的关联表中,右下角的c值可以看做是ROC曲线下方的面积,这部分面积有的软件中会称之为AUC值。
其实对于离散选择模型而言,评价模型好坏的指标基本为四个,即:
ROC曲线、lift曲线、KS曲线与洛伦兹曲线。SAS中仅提供了ROC曲线,其余三个衡量指标需要自己去代码实现,信用评分模型中也是非常关注好坏样本的区分度曲线KS的。
另外,由于SAS实现逻辑回归时无法进行怀特检验,所以查看逻辑回归模型是否符合建模假定需要依据部分图形区间进行判断,一般需要保证入模的X为钟型分布,当然最好是正态分布,实际中只要保证这一点,模型基本不会有太大的问题。
如果建模样本数据非正态该怎么办呢?这种情况,就需要进行WOE转换了。
因果关系建模与取数逻辑
回归模型并不是严格意义上的因果关系,回归是可以进行预测的,但是,如果仅仅考虑预测的精度,而不重视业务中的因果关系,即使模型内部、外部的有效性很高,这种模型的预测效果也是暂时的,因为根本因素没有确定明白,一旦改变根本因素,那么模型马上就会失效。
例如衡量促销效果对空调销量的影响时而构建模型时,Y表示买与不买,入模变量之一为促销。这种场景构建模型时需要注意,Y与X的时间维度不能相同,因为打出促销活动后,需为顾客预留一定的反应时间去进行衡量、分析与对比,即需Y的数据需进行时间滞后,这样的一段时间即为表现期。由于每个行业的体系、策略不同,模型样本表现期的指定也是不同的。