图灵,英格玛和金融评分卡WOE

2022-03-08 19:06:12 浏览数 (2)

作者简介:如算法“百晓生”,熟悉各类算法原理,典故,应用,背后八卦,心中有一本算法的“兵器谱”,又如算法“扫地僧”利用所在各公司的各种资源,或依托具体业务积累落地经验,或求教于业界大佬行业经验,或旁听于公司邀请的科学家。偶有所得,便欣然忘食。平生所爱,唯算法和剑法,情不知所起,一往而深。

最近机缘巧合,和人谈起自己曾经金融评分卡相关领域的一些事情,所以想写篇短文,笔者多年来有幸接触,合作,共事了中国互联网金融风控领域最优秀的一批算法工程师,建模人员。WOE评分卡模型是大家的基本功,业务和数据上各显神通,创造了很多风控保护下的业务高速增长,高倍杠杆的传奇,当然这些不足为外人道矣,人活一世有人活成了面子,有人活成了里子。但是WOE评分卡背后的来龙去脉,却鲜有人知,或者被非金融风控算法同学所鄙视算法深度。其实WOE也就是weight of evidence背后有很深刻的数学原理,以及来源于图灵(对,就是我们的人工智能祖师爷)和他的助手GOOD破译二战时候的德国engima密码工作。

首先大概说下本人在WOE(weight of evidence)方面经过的一些有趣故事

1,参与业内某厂某风险打分产品的早期工作,WOE工具从传统金融评分卡到应用于互联网反欺诈反作弊风控的先驱例子。

2,最早在某厂分享2012年英国GCHQ解密图灵论文,图灵是WOE的最早提出人,结合在英国剑桥大学国王学院门口商店,购买的英格玛原型玩具。

3, 所在算法小组在某厂算法峰会展示首创自动化WOE分箱算法工具。

4, 某厂供应链金融使用评分卡模型给供应商授信

在风控,尤其是金融风控领域都有一个经典的工具,Weight Of Evidence(WOE) 处理特征的方式,用于账户或其它主体维度的风险打分,又叫做评分卡Scoreboard 。当然这个有很多的好处,比如说能够让风险特征经过分箱处理以后,使得特征和风险能够存在一个线性关系,满足金融风控的可解释性,比如业务同学一个人绑的银行卡多还是少和逾期概率之间的灵魂拷问。

风控算法同学熟知的WOE,对某个特征进行了分箱以后,若对于某个分箱i,

Pyi是正样本中样本特征落在分箱中概率,Pni是负样本中样本特征落在分箱中概率Pyi是正样本中样本特征落在分箱中概率,Pni是负样本中样本特征落在分箱中概率

那么对于一个特征它的information value(IV)值

当一个IV值越大的时候则,变量的区分度越好,本人曾在一个算法小组,做过一个自动化分箱工具就是以IV的最大值为优化目标,在某大厂算法峰会上展示。当每个特征i的Pni一样的时候,IV就等价于仙农的信息熵了,所以可以看出来信息熵不过是,对于负样本而言,特征在不同分箱中等概率的一个情况。信息熵是IV值的特殊情况,所以笔者也很奇怪,为什么有些同学一听到信息熵就高大上,听说WOE和IV就觉得没有深度,金融评分卡不过如此。

这个本来在业界是一直认为weight of evidence是Irving John Good提出,他1950年的著作,Probability and the Weighing of Evidence。 Good在二战中和图灵一起在Bletchley公园破解德军的秘密,二战后先是和图灵一起在曼彻斯特大学工作,在剑桥牛津都担任过研究岗位,延续图灵在贝叶斯统计,人工智能和计算机科学方面的工作,最后去了美国。帮助了围棋的流行,预测了超人类智能,以及创造了技术奇点这样的词汇。

大众可能因为模仿游戏知道了图灵破解德军密码的往事大众可能因为模仿游戏知道了图灵破解德军密码的往事
Good1950年著作中的Evidence公式Good1950年著作中的Evidence公式

上述公式右边其实就是大家熟知的WOE, O(H|E) = P(H|E) / ( 1- P(H|E) ), O表示概率中的发生比,P表示事情发生的概率,H表示Hypothesis, E表示Evidence. 在我们评分卡训练中,H就是样本为Positive, E就是某个特征值的分箱。上述公式可以用贝叶斯定理证明,所以这个是WOE的概率解释。充分综合考虑了,有一个特征和没有一个特征情况下,正样本发生概率差异,以及正样本本身发生与否的概率差异。

文中GOOD也提到了图灵建议的这个公式,当然没有提到破译密码的故事和上下文。

“O(H | E)/O(#)is the factor by which the initial odds of H must be multiplied in order to obtain the final odds. Dr. A. M. Turing suggested in a conversation in 1940 that the word “ factor” should be regarded as a technical term in this connexion, and that it could be more fully described as the factor in favour of the hypothesis H in virtue of the result of the experiment.”

2012年英国GCHQ解密了图灵在二战中的论文,让我们发现原来WOE是来源于图灵是如何破解德军的英格玛密码。另外坊间有个段子,图灵发现了一个黎曼猜想的反例,但是涉及到密码系统复杂度计算问题,英国征服一直不予公开。因为以图灵的能力做了很长时间黎曼猜想,目前公布的都是一些微小贡献和他能力不相符合。参考著名的RSA加密算法,也是GCHQ先提出来的,保密无法公布而错失了计算机图灵奖了。总之,大家坐等以后英国GCHQ解密图灵更多论文。其实笔者在英国时候,GCHQ来学校作过宣讲,我因为国籍问题无法参加,其实我只对GCHQ未解密的图灵论文感兴趣。

让我们一起来看看图灵最早的思路

2012年英国GCHQ解密的图灵二战时期论文,概率在密码学的应用2012年英国GCHQ解密的图灵二战时期论文,概率在密码学的应用

图灵首先介绍了,odds(奇异值 = P/(1−P) ,P是一个事件发生的概率。接着是Factor Principle(因子原理)的介绍

图灵说“Nearly all applications of probability to cryptography depend on the factor principle (or Bayes’ Theorem). ”几乎所有的概率到密码的应用都是基于因子原理也就是贝叶斯定理。

一个理论后验奇异值和先验奇异值之间的关系一个理论后验奇异值和先验奇异值之间的关系

图灵引入了“the factor for the theory on account of the data”.

接着图灵引入了,Decibanage这个概念,也就是上面这个factor取一个对数log,以 10的10分支一次方为底。大家可以发现这就是WOE了。“The logarithm of the factor, taken to the base power(10,1/10) is called decibanage in favour of the theory.”

那么如何应用到密码破译中呢,可以简单直观的理解为字母原值和加密后值的先验后验概率关系。

一些密码破译方面细节我就不展开了,可以看出图灵在组合数学和概率计数方面的扎实功底,这个领域后面被匈牙利数学家Paul Erdos发扬光大,这又是另外一段传奇。

波斯塞尔柱帝国加密器波斯塞尔柱帝国加密器
二战德国英格玛加密器二战德国英格玛加密器

最近笔者看见了约公元1200年波斯塞尔柱帝国的加密器,被震惊了一看就是懂群论又懂组合数学的人发明的。也看见了加密算法应用隐私计算,可以解决目前金融风控的数据隐私问题。也许冥冥中自有天意。多少年来,围绕WOE和评分卡的故事层出不穷,有业务的地方就有风险,有金融的地方就有杠杆,江湖子弟少年老,红粉佳人两鬓斑。笔者后面的一些工作,也许又是一段新的传奇,但也难逃图灵祖师爷一切的安排,也许一个新的山峰冲上了,发现GCHQ又解密了一篇图灵的论文。

0 人点赞