数据猿报道,2017年10月25日,由 数据猿 联合《清华金融评论》共同主办的“2017金融科技价值峰会——数据驱动金融商业裂变”在北京隆重召开。本文为数据猿现场直播“友戏互联联合创始人兼CTO于亮”的发言实录。
作者 | 于亮
官网 | www.datayuan.cn
微信公众号ID | datayuancn
数据猿报道,2017年10月25日,由 数据猿 联合《清华金融评论》共同主办的“2017金融科技价值峰会——数据驱动金融商业裂变”在北京隆重召开。本届峰会主要从「消费金融」、「供应链金融」、以及「金融前沿科技探索」三个角度深入探索数据智能为金融领域带来哪些颠覆式的变革!
以下是数据猿现场直播“友戏互联联合创始人兼CTO于亮”的发言实录:
大家下午好,我来自友戏互联,今天我希望能够跟在座的各位分享一下我们作为初创企业,从技术应用到底层的数据建模再到下面的搭建大概会用到哪些技术,以及都是怎么应用的。我希望能够将使用的经验与大家做一个分享。
介绍一下我们的产品,名字叫“小腰包”,是一款消费金融产品。接下来我主要想把介绍重点放在我们的风险风控系统上,包括我们怎么去做风险识别的,最后介绍一下系统架构。
我们跟腾讯去接入所有目标客户在它的社交平台上出现过的所有行为数据,维度大概有1130多个,我们定义了1500多个规则,同时在1500个规则里我们抽象出930个规则级,帮我们去判断用户是好还是坏。当然如果是好的,我们将不再用这个东西去做,主要是判断坏的用户。这里面同时也融合了我们的价值网络,在我们的友戏平台上真正去跑一套风控引擎的时候,是有多套规则同时在跑的,也就是说,我们在内部做了一套竞争的机制,通过后期用户的表现,反馈到模型中,去筛选哪一套模型更加健壮,从而丰富我们的模型。
无论是做数据,还是做模型,首先是对黑产的识别,我们跑了8500多万条数据,从中找到黑产一共1370个。同时我们凯撒用到的风控模型拥有一定的可解释性,避免了一些使用机器学习时会出现的弊端,因为对于机器学习来说,特别是对于离散型的非结构化的数据,其中还是存在很多问题的。
从算法的角度来讲,我们也用了一些和在座嘉宾或者友商同样在用的算法,比如说朴素贝叶斯,效率非常高。同时我们用决策树,还有集成学习,我们把用户的身份属性、语言能力、信贷历史、消费行为、社交行为、社交偏好等等进行归集,最终判断用户的还款意愿。因为还款能力我们可以通过基础信息判断,但还款意愿还是需要靠集成学习的相关算法完成的。
我们接入了那么多的数据维度,更关注的无非是用户的社交信息、关系网。所有的一切我们都有渠道做相关的验证,同时对用户做相关的评分。
友戏平台更多考虑的是用户的日常交友、消费偏好,喜欢买什么东西,甚至喜欢什么样的奢侈品牌,包括整个社交圈等。我们大概花了四个半月的时间,把大量的精力投入到用户的具像画像上。
当然,我们在识别风险的过程中,也使用了很多的定量工具。以前很多银行在用,流程差不太多,比如说我们会监控所有的线上贷款的状况,客户给的反馈,并通过我们的策略,以及刚才提到的机器学习的算法,人工调整的策略,做在线和离线评估,从而得到用户反馈,并进行进一步的模型优化。其中我们也用到了深度学习的算法,因为在真正去跑深度学习,训练模型的过程中,能够帮我抽象很多用户的特征以及用户行为的特征,跑一定量数据的时候,这些特征会非常非常明显。
我们现在在友戏平台上,运用了很多基于互联网的技术,能够帮助我们将业务拆分为几百个微服务,使得底层更加健壮、更加方便。