来源:DataFunTalk本文约3000字,建议阅读5分钟本文以一位读者在实际业务中遇到的问题为切入点,和大家分享模型策略的分析方法。
[ 导读 ] 做风控的同学都知道,要做好一个模型可能已经有一定的难度:需要我们构建适合于解决问题的样本、清晰定义目标变量、加工并选择好的特征、采用合适的模型方法等,每一步都要避免其中的各种“坑”。然而,当我们做了一系列模型之后,可能又会面临一个更加考验技巧的任务——如何有效地应用好模型,尤其是有多个模型的情况下,如何制定恰当的应用策略方法。
图1 读者遇到的业务难题
01、模型策略分析方法
模型策略是基于已有风控模型制订最优决策的整体方法,它决定了模型价值是否能够被充分发挥,直接影响信贷业务的盈利水平。模型策略分析流程主要包含样本提取、模型策略的制订、模型策略评估、模型策略的上线与验证,以及模型策略回顾,如图2所示。
图2 模型策略分析路程
1. 样本选取
样本选取是指选取制订模型策略所需的样本集,通常包含风控模型开发时的跨时间验证集(OOT)和近期授信样本集(BackScore),如图3所示。在模型策略开发中,我们只需要准备模型分和逾期标签。跨时间验证集包含逾期标签,一般是近期放款且有表现的样本集,主要用于衡量同时期新模型相对于旧模型的模型效果提升度和制订决策点(Cut-off)时的效果预估。近期授信样本集是指近期所有进入模型打分阶段的样本集,包含被模型通过和拒绝的所有样本,主要用于设定新模型在预期通过率下的模型阈值。
图3 模型策略样本划分
跨时间验证集需要包含订单标识、模型分和逾期标签列,近期授信样本集需要包含订单标识和模型分列。
2. 模型策略的制订
模型策略的制订主要决定模型的组合方式和阈值。在制订相关方案时,我们需要在转化率和坏账率之间进行权衡,以实现最大收益。模型策略应用方案可分为单模型策略和多模型组合策略。
(1)单模型策略
单模型策略是指利用单一模型分进行决策,故只需要确定单一模型的最优决策点。单模型适用场景:
- 信贷业务开展前期,线上只有一个模型。
- 信贷业务开展中期,虽然线上模型增多,但是模型间关联性较强,此时,大多以单模型决策为主。
单模型策略的制订决策点设定方式如下:
① 基于模型通过率与坏账率的决策点设定
在模型通过率与坏账率之间寻找一个决策点,理想的状态是该决策点的设立可提高通过率并降低坏账率。而在实际使用过程中,可能出现下列情形。
- 保持目标模型通过率,降低坏账率。迭代后的新模型上线后,其性能(AUC、KS等指标)通常比线上正在决策的模型好。因此,在信贷业务稳定时,我们可使用此方式,在保证当前通过率的情况下,期望新模型降低坏账率。例如,当前模型通过率为30%,我们可利用近期授信样本集找到通过率30%对应的模型分,并将其作为新模型的决策阈值。
- 提升模型通过率,保持坏账率。由于不同金融机构所处的发展时期不同,故对业务的诉求会有差异。当金融机构的信贷业务高速发展时,金融机构不一定要降低坏账率,而是需要在保持当前坏账率的同时,提升通过率。例如,当前坏账率为5%,我们需要利用跨时间验证集和近期授信样本集评估得到坏账率为5%时的模型分,并将其作为决策阈值。
- 提高模型通过率,同时降低坏账率。当新模型的效果较旧模型有大幅提升时,新模型可以同时满足目标通过率和坏账率的需求。此时,我们需要绘制决策曲线,横轴表示模型通过率,纵轴表示坏账率。通过观察决策曲线的走势,我们可以选择合适的决策点。
决策曲线示例如图4所示,当前的决策点在A点时,我们可以选择D点为新决策点,模型通过率和坏账率都会有所优化;如果选择B点为新决策点,即保持模型通过率为40%,那么坏账率将从15%优化到5%;如果选择C点为新决策点,即保持坏账率为
如何制定有效的模型应用策略?
15%,那么模型通过率将从40%提升到60%。
图4 决策曲线示例
② 基于lift的决策点设定
lift表示风控模型对预测目标中不良客户的识别比例高于随机识别比例的倍数。以1为标准,lift小于1表示该模型比随机识别捕捉了更少的不良客户,lift等于1表示该模型的表现等同于随机识别,lift大于1表示该模型比随机识别捕捉了更多的不良客户。在通常情况下,lift的值越大越好。
我们将所有客户的模型评分分为10~20箱,从低到高排序,按分数排序累计至该分箱的不良客户占所有不良客户的比例(Cumulative Bad(%)by model)与随机排序累计至该分段的不良客户占所有不良客户的比例(Cumulative Bad(%)randomly)的比值即lift。图5为实际的lift计算示例,图6为对应的lift提升图。
图5 lift计算示例
图6 lift提升图
通过观察图6,我们可以发现,第一箱(序号0)的lift值为3.13,即该模型预测分数最低的10%客户坏账率是随机识别客户坏账率的3倍多。通过lift的大小,我们可以设定模型的决策阈值。
模型策略本质上是通过科学方法选择模型的最优决策点。上面两种决策点设定方法可以帮助我们快速设定模型决策点并上线应用,但它们主要依靠人的经验,没有考虑到决策阈值对通过率、坏账率和其他成本的多重影响。因此,它们未必是利润达到最大的决策方案。下面将介绍最优化算法在模型策略制订中的应用。
(2)多模型组合策略
多模型组合策略是基于两个或两个以上模型分组合生成的模型应用方案。多模型组合策略的优势如下:
- 能够充分发挥多个模型性能互补的优势。
- 内外部模型组合的使用能够有效降低数据成本。
多模型组合策略的应用方式如下:
① 多模型融合准入
多模型融合准入是指利用加权或其他方式将多个模型分融合成一个模型分,再划分风险等级上线决策,如图7所示。从本质上来说,融合后的多模型与单模型是一样的。我们通常采用等频或等距方式对模型分进行划分,一般划分为9个等级(RG1~RG8,RGX),RG1的风险等级最低,RG8的风险等级最高,RG1~RG8表示通过,RGX表示直接拒绝。
图7 多模型融合准入
② 多模型串行准入
多模型串行准入是指将多个模型以串行方式按先后顺序依次决策准入,前一个模型决策通过的样本再经过下一个模型决策进行评估,依此类推,由最后一个模型生成风险等级,如图8所示。
图8 多模型融合准入
在实际业务场景中,多模型串行准入较为常用,适用于多个优势互补的模型分,既有助于多个模型分发挥最大价值,又可节省数据成本。通常,无成本模型先于有成本模型决策。
③多模型交叉准入
多模型交叉准入分为两个阶段:
- 准入阶段,由前置模型完成。
- 交叉阶段,由后置的两个模型共同生成风险等级,如图9所示。在此方法中,直接由后置的两个模型交叉进行准入。
图9 多模型交叉准入
该方法的优势在于,利用模型分交叉生成的风险等级矩阵更能体现多模型的优势,风险等级的划分也更细。需要注意的是,在生成风险等级的过程中,我们要充分考虑每个交叉格子中样本量,保证其具有统计学意义。
在开发新模型时,在同一OOT样本集上,新模型在相关技术指标(AUC、KS、Gini等)上一定优于旧模型。如果我们贸然使用新模型决策,那么仍然具有潜在的风险:
- 一是新模型训练样本集的特征一般通过回溯得到,有可能发生特征线上与线下不一致风险。
- 二是新模型是在旧模型决策后的样本上评估的,相对于将来应用时的样本存在一定的差异,虽然新模型和旧模型是在同一样本上进行对比的,但这依然对旧模型不公平。
因此,即使线下评估新模型的效果更好,在上线初期,我们也不建议使用新模型进行全流量决策。通常情况下,我们需要采用分流测试方式,即在保持相同通过率的条件下,对比新旧模型,观察贷后逾期率的差异,从而选择更优的模型策略。
编辑:于腾凯