WOE是什么
WOE是一种证据权重,全称为weight of evidence,是变量压缩时我会采用的第二种方法。目前WOE变换也是信用评分模型中标准的处理流程、必不可少的步骤之一。
WOE怎么算
下面即为WOE的计算过程,其中,WOE=LN(P(Y=1)/P(Y=0))。SAS中可自动实现WOE转换,使用高性能的逻辑回归过程即可实现,或者使用公式直接带入也可以得到,非常简单。
入模变量全部进行WOE转换
需要注意的是,WOE有一个挑战,例如0-1形式的性别变量,其本身无法进行连续化处理,理论上这种天生离散的变量是无法进行WOE转换的,但是一般情况下为方便建模,所有的变量都会进行WOE处理。后续建模时原始变量就不再使用了,入模的是WOE处理后的变量。
WOE转换的优势
虽然,WOE转换对于模型质量的提升贡献不大,但是从自变量压缩、模型复杂性降低的角度而言,WOE还是比较实用的。
一般,数据按照密度分布划分会有四种分布形态,即钟型、水平、U型与J型分布。如果数据为钟型且非对称分布,即数据分布有偏移,则需要通过变换将数据拉成对称的分布形态,如果数据不是钟型分布而是其他三种分布,此时如果想将数据转换成正态分布,通过BOX-COX变换是无能为力的,这时可以利用WOE转换。
通常,我的做法是:
- 先将连续变量变成离散的形式,这个过程可以利用决策树对连续变量进行分组,构建决策树时只需保留Y与待分组的变量,每一个叶子上的区间即为分组;
- 分组后进行WOE转换。
以上,即可将一个非正态的分布变成了正态的形式。当然,将连续变量分组最直观的好处就是便于打分,一般,严格的FICO模型,要求每一个连续变量都必须进行分组处理。