聚信立创始人兼CEO罗皓在会上表示,随着政策的开放,国民消费习惯的改变以及金融机构的不断涌现,这给大数据风控提供契机的同时也伴随着大挑战,比如:如何满足这些没有信用记录的新型消费者并对其进行风险控制
2016年8月21日,由上海市经济和信息化委、上海市科委指导,上海大数据联盟与数据猿共同主办的《魔方大数据(9):行业应用系列圆桌会议 —“金融大数据”》活动顺利举办。
本次活动聚焦金融大数据,围绕智能投顾、区块链、征信业务等热点话题展开了深入的讨论,与会分享嘉宾有:原上海证券交易所白硕、聚信立创始人兼CEO罗皓、微众银行创新研究负责人姚辉亚、普林科技金融事业部总经理王冉冉、汇付天下数据科学家何雯、挖财网研究总监方竞。
以下是“聚信立创始人兼CEO罗皓”发言实录,数据猿现场整理:
非常高兴有机会参与上海大数据联盟举办的这样一个论坛。我们做大数据已经做了三年多了,在上海这种同行的交流本身比较少,所以我个人也希望未来有越来越多的同行业的交流来探讨数据的合作和分析方面的事情。
我们是一家金融大数据公司,主要服务信贷行业,帮助客户去获取、整合、清洗、分析数据,为客户提供风险控制方面的服务。
我是1999年念的大学,本科念精算,然后在国外读了统计学。我是在国内前十位考过SAS认证统计师,这个认证也是在国内主要的银行、信用卡公司广泛被运用的一个分析建模的工具。
2005年开始在通用电气公司、渣打银行、Discover公司,特别注解一下Discover是以前摩根史丹利下面的信用卡公司,摩根史丹利跟Discover在2008年的时候,金融危机之前分家了,我也是在它分家之后加入了这家公司。我在通用电气、渣打银行、Discover一共工作了七年半,主要在日本、新加坡和美国做信用卡和个人贷款的模型、建模、分析、大数据,包括决策引擎这方面的工作。
我从2011年开始创业,2011年底到2013年5月份做了一年半的网络舆情监控,当时我们看到了微博很火、社交网络很火,很多的粉丝、网友在网上留下很多信息,这些信息可能以帖子的形式存在的,有很多关于品牌的,是以非结构化的形式存在的。当时做了一年半的网络舆情监控,帮助很多品牌,比如肯德基、麦当劳、路虎汽车等等帮他们去分析粉丝在网络上面讨论他们的什么东西,都在聊什么,好的地方是什么、坏的地方是什么,相当于做了很多的社交网络的舆情分析。
后来我们做了社交网络的广告监控,在2011年、2012年时候有一种广告的形式是非常火的,利用在社交网络上面有影响力的大号,比如说微博上面有很多有影响力的大号,很多品牌会找他们合作,转发或者评论一些这样的广告,我们也做很多这方面的广告监控。我们2013年开始转型,做我们现在做的这个事。我们现在做的本质上就是用互联网和大数据去帮助放贷机构或者资产端的客户判断借款人的风险。
先讲一下这个事的背景,为什么大数据在近三年,2013年、2014年、2015年,包括2016年,对行业有这么大的冲击?这里首先有一个大的背景,国内的个人消费信贷,以前的信贷主要由银行所统治或者垄断的,但是近几年大家可以从这个表当中看到,2014年到2015年年底的时候,实际上国内个人消费信贷已经到19万亿,预计到2019年的时候这个数字会剧增到接近41万亿,42万亿左右。
这中间发生了几件事情:
第一是政策的开放。国务院也开始放开消费金融市场的准入,看到去年非常多的消费金融公司,持牌的也好,非持牌的也好,还有很多P2P公司都在做这一块市场。
第二是整个消费习惯在改变。我们看到新一代的消费者,包括很多年轻人,白领、蓝领,还有很多学生,用新型的移动互联网设备、工具,通过这种工具连接到场景,线上、线下,比如说京东白条、蚂蚁花呗,这是线上的消费金融。
线下也有非常多的消费金融公司在跟场景合作,可以看到非常多的非标的消费场景,比如教育、旅游、医美,比如说还看到非常多的娱乐、体育等等。消费者通过不同的场景,线上也好、线下也好,通过移动互联网获取各种各样的分期跟信贷的服务。
第三个越来越多的金融机构出现。以前大家用老的数据、传统数据,现在更多的消费者在线上、在线下借非常小的贷款分期产品,对于风控来说越来越多的机构需要去满足实时审批、实时风控的需求。
这个大背景下带来几个比较大的挑战,但也是大数据在风控运用上的一个契机:
第一个挑战,我们可以看到在中国有超过4亿人是缺乏银行征信信息的,这些人也是互联网或者说消费金融的浪潮下最需要被授信的一群消费者。据我们的统计,人行的信息大概覆盖六亿人,但是这中间的六亿人里面差不多有详实信息的只有将近两亿人,还有很多人其实叫白户,这些人没有太多的信息,所以没有办法从人行的征信信息判断这个人的信用状态。这是第一个挑战。
第二个挑战,我们看到很多的信贷申请行为从线下往线上转移。2013年的时候我就跟很多的信用卡公司打交道,比如建行信用卡中心。我们了解到,整个2013年线上申请的量比2012年翻了差不多四倍,这是非常大的改变。
我们看到这些年出现了很多的信贷机构把网上申请通道摆为第一个重视的通道,这是第一。第二看到有很多渠道专门整合这种信贷的申请入口放到网上,越来越多的消费者不局限于自己生活或者自己工作周边的一些银行或金融机构去借贷,而是可以通过互联网找更适合自己的借贷入口。
在这两个大的背景下,如何去满足这些新型的消费者?包括我们自己也有很多的客户是小白领,刚毕业的,22岁到24岁、25岁这种。还有大学生,18岁到22岁,其实是没有工作的,或者说没有那种稳定的通过劳动获得收入来源。还有很多的蓝领,包括我们也做了很多的客户,像富士康工厂这样的工厂人群。对于这些人,很多人都在线上申请贷款。
传统来说,线下这一块至少可以看到这个人,从欺诈的角度来看,这个人是骗子的可能性比较少,至少可以看到他的脸,还有他的身份证,两者可以做非常多的比较。
那么线上,包括这么多人没有信用记录,在几个风险点上面提出了条件:
1.欺诈风险。这个借款人是不是骗子?以前线下借款还好,线上开一个玩笑你甚至不知道电脑后面坐的是人还是狗。第一个判断欺诈,看身份,看图片,比如说脸是不是对应的是他本人。
如果这个人不是一个骗子,有没有能力还钱?有没有能力去还钱又可以分成两个层面:第一是可能的收入、可能的资产,比如说他的工资、奖金、股票、房产、汽车,包括收入、不动产等等;还有一种是他的负债情况,或者换句话说是多头借债的情况,收入是一方面,在外面的负债是第二个方面,两者相减才能得到还款能力。
2.信用风险。第三个如果万一借款人既不是骗子,也有能力还钱,但是如果哪一天不还钱了,怎么办呢?如何找到这个人?因为我们知道在中国违约的借款人最重要、最显著的特征,比如说只要欠款90天以上的,最显著的是电话失联,找不到这个人。
我们看到一个巨大的契机,互联网的数据归根到底解决几个大的问题,判断欺诈风险、信用风险,以及人一旦严重违约以后如何找到这个人,这是互联网数据运用的几个重点的领域。
在这里,我想重点提一下欺诈风险,这是互联网数据可以帮到非常大的领域,据我们的统计,我们看到在中国的新金融领域,银行或者信用卡行业覆盖不到的,包括有非常多的消费金融公司、小贷公司、无抵押信用贷款提供商、P2P公司,超过60%的损失是欺诈产生的,接近60%。
也就说明了什么问题呢?这些人根本不是来借钱的,是来骗钱的。换句话说,这个人的信用风险已经不重要了,这个人有没有还款能力、收入并不重要,因为很多贷款量是非常少的,比如说一万、两万元,因为本身借款金额并不大。
所以我们看到互联网数据,包括市场上面非常多的,比如基于设备指纹的大数据公司,包括基于手机号为ID的数据公司,再往上还会看到人脸识别公司,甚至还会看到声纹识别公司,本质上面60%大家都在处理这个问题,就是欺诈风险。在这60%里面我们看到的最严重的两种情况,第一个是黑中介的平台套现,单个欺诈的成分是非常高的,一个人要伪造那么多的信息去借款,本身经济上面来看不是一个合算的事情。
所以我们看到在国内有大量的中介存在在各种的,像QQ群、百度贴吧等,各种社交网站上面,以这种形式存在,周围集结了一大帮骗子,黑中介帮他们申请这样的贷款。第二是看到信息造假的情况。最后一个是多头借贷,说是互联网数据,不如说通过一种商业模式或者通过一种技术。
商业模式就是大家共享数据的一种模式,或者通过一种技术,比如说通过设备指纹、通过SDK嵌入到客户的APP或者客户端里面收集数据,解决多头借贷,本质上面也属于互联网数据当中的一种。
所以以上三个是我们现在做数据的,主要解决的三个问题,以及在收集什么样的数据,信用风险、欺诈风险、多头借贷。
我们来系统的比较一下,传统数据(比如央行征信报告)和互联网数据之间的区别,两者有什么优点和缺点?
对于央行征信报告,第一是里面有非常多的个人基本信息、信用卡的信息,基本信息包括身份信息、配偶信息、居住信息、职业信息。第二个有非常多的个人借贷的历史信息,这是央行征信最大的优点,但这个仅限于银行体系内,也是央行征信最大的缺点。
优点是说覆盖的是一大批的正规金融机构,消费者只要在这些正规金融机构里面有借贷行为,这个记录非常详实,但是对于新金融领域,对于一些非银行的领域,存在信用交换的交易场所,比如说交易的行为,比如说保险、租车,这其实都是跟信用相关的,但这没有纳入到人行征信里面的。包括信贷交易信息明细、贷款信息查询。
总的来说央行的征信报告沿袭了国外的,在美国的三大征信机构,央行的征信记录,不管从内容、结构、功能上面,都跟国外主流的征信机构提供的数据是类似的。
我们看看互联网下的大数据,比如说我个人把互联网的数据定义成两种:账户内信息、账户外信息,我们这边特指的可能更偏账户内的信息。
账户内信息。要自己授权别人才能看到的一些信息。通俗的讲,自己通过登陆行为才能看到信息,比如说你的电商购物记录,信用卡的帐单,这不是什么机构通过任何开放的搜索就能搜出来的,像谷歌、百度这样搜是搜不出来的。
电商数据,购物信息,运营商的通话、短信,包括手机的使用行为信息,公积金社保数据、学信数据、社交数据,通过登录的行为已经提供了一种授权的方式。所以我们看到市场上面有非常多的数据公司,包括我们也提供一种数据抓取的平台工具。
账户外信息。一般比如说社交网站是一种开放式的,像新浪微博是不需要登录的,只要把账号给你就可以看到。另外还有一种存在的形式,像各大论坛、各种BBS,这是账户外的信息。
我们看到从这两种数据的对比来看,人行的征信报告,毫无疑问跟金融更相关,直接可以看到借贷人的历史。当然如果银行的征信报告可以覆盖全国的范围内当然是非常好的事情,可能互联网数据的用武之地不是那么的大。
但是很可惜它的覆盖面不是很广,在中国覆盖四亿人,四亿人里面只有两亿人的信息是详实的,另外两亿人的信息并不是那么详实的。而在中国的信贷人群和人行征信覆盖的人群缺口,现在差不多是四亿到六亿左右。现在这么火热的新金融也好、互联网金融也好,实际上主要在抢这一块市场。
第二个是获取困难。如果到银行借钱或者到传统的金融机构获取信贷的服务,银行是可以获取人行的征信报告,但对于新金融、消费金融、P2P,其实拿不到的,所以需要本人到人民银行打印。
对比而言,互联网大数据有很明显的优势:
第一获取非常迅速。如果有API接口,或者网页抓取的技术,一般两到五分钟可以在借款人授权的情况下面获得数据。
第二个覆盖面非常广。现在全国通过接口的方式可以提供数据的公司也好、网站也好,非常多,我们上次看到有1.5万家左右。
第三个是信息真实全面。没有办法做假的,这个信息来源不是这个借款人,而是从第三方网站过来的。获取迅速,覆盖面广,信息真实、全面。缺点是什么?不包含央行征信报告中的借贷信息,这个对于年轻的群体相对没有那么重要,因为这些人本来就没有什么借款信息,比如说学生,刚毕业的白领、蓝领。
总的来说,我们对于互联网大数据的理解是,如果从借贷这个市场来看,我觉得在18岁到30岁之间的年轻群体,帮他们提供小额、微额的贷款,这个领域提供数据是非常有效的,速度、覆盖面、信息的全面性,还有数据的价格,为什么?人行的征信报告一般是8元到15元,我们算一个账,新金融的小微借贷,小一点的一两千或者五六千,通过率是非常低的,很多公司通过率不到5%,我们算CPS,人行征信这种10元出去的话,如果通过率不到5%,相当于CPS要乘20倍,也就是说每个人花200元买一份。
实际上很多的新金融公司是负担不起这个价格的,很可能贷款才贷两千,利息可能才赚四百,加上资金成本、运营成本,是不可能能够正常运转的。所以我觉得这就是互联网数据的机会,这些数据从获取的角度,从价格,看到很多的,像设备反欺诈、账户内信息、网页抓取的信息也好,相对资质比较差的借款人、小额贷款,价格上面可以维持让这些公司在风险控制上面能够正常运转。
举几个例子,关于互联网的数据怎样获取?有三种方式:
第一种通过授权的方式。这边有一个借款人,蓝领,没有信用卡,需要在某P2P平台贷款5万元。来到这个平台,这个平台会要求这个用户授权,这个平台会把用户通过网页的形式推到第三方数据公司,这个第三方的数据公司在获得这个人的授权以后会启动数据抓取的工具,可以是API的形式,也可以是网页抓取的模式,再到第三方或者第四方网站抓,比如说某一个信用卡公司、比如说某一个电商,我们看到国内很多类似的公司,不管是记帐类的还是网页爬虫的公司都在做这个事情。
这些公司收到这个数据,会对数据进行几个步骤的工作,第一进行清洗,然后进行整合,然后加工,加工是非常重要的工作。为什么?这些数据不是传统的信贷数据,所以存在认知的问题。很多的金融机构没有用过这种,比如说电商,以前大家都没有用过,但直觉上面大家知道这个数据一定有用,你必须把这个数据翻译成金融机构可以理解的形式,它才可以对这些数据进行正确的使用。
信息反回来给到借款平台,借款平台对这个人的资质进行判断,所以这是一种非常经典的模式。在国内有大多数,第一个做网页抓取,第二个叫做数据批发的公司,其实本质上面也是做这么一件事情,就是说我拿一些数的资源,放贷方如果对我提出查询的需求,我会对这些数据公司调它的API,拿数据。这是第一种。
第二种,网络监控。其实我们公司也做了非常多的类似产品,我相信也有一些类似的数据公司也做这样的产品。
就是说从开放的网站我们会抓取非常多的,像百度贴吧、赶集,网站上面有非常多的分类信息网站,包括很多的社交网站,各种群,里面存在大量的黑中介、套现的人,他们会有一个他们自己的社区,甚至可以说他们有他们自己的世界,里面有非常多的集团欺诈的头目,下面会有非常多的粉丝,他们会在这个里面天天在讨论一些套现啊,怎么样通过做假资料贷款啊,里面会有非常多的帖子,而且里面留有非常多的相关人的联络方式,手机号、QQ号等等。
我们也在做这种工作,现在实时监控超过八百多个网站,包括社交网站、BBS、论坛、各种群,我们会每天通过一系列的关健词去搜索,看看出现了什么样的帖子。比如说这边有一个新的“口子”大家要不要攻略。“口子”现在是一个行话,出了一个新的贷款网站,一般大家都叫“口子”,经常看到出了一个新的“口子”,谁要借钱,这边有攻略。发过来以后,他们要卖钱的。
所以我们看到非常多的地下套现、诈骗团伙,包括集团。我们会对这些网站进行监控,也可以做成一份报告,比如说提供一个手机号或者一个身份证、QQ号,可以看到这个QQ号在哪些论坛、群里面出现过,这个其实是非常有效的防欺诈的利器。这个模式从公开网站上面获取资料,然后对借款人去做排查和筛选的模式。刚才讲的是通过借款人授权的。这个模式不需要授权,这是公开信息,可以在公开信息上面做筛选和排查。
第三种模式是网络的模式。其实本质上面跟征信的模式是一样的。比如说看到市面上有很多基于设备的指纹和SDK公司,嵌入代码以后,周期性或者实时从APP里面收集一些数据,比如说设备的硬件、设备的Email号,设备安过什么APP,甚至设备出现过在哪,这个模式通过网络的方式收集数据的,联防联控的方式。
我们看到的,在市场上面三种通过互联网的数据来做风控的三种经典的模式。我今天在这不具体探讨用什么技术了。我的体会,把数据产业链分成三步的话:第一步,数据采集。第二步,数据加工。第三步,分析和建模。
第一,数据采集。我们现在深刻感觉到,在新金融没兴起之前,其实数据的采集和加工并不存在太大的问题,如果大家只是针对银行那部分客户,更多的竞争可能在分析和建模, 20年前的互联网也没有那么发达,搜索引擎也没有那么发达,共享经济也没有出来,所以大家会花很多时间、精力在已有的数据上面建模和分析。
但是近两三年我们看到一个不一样的趋势,新金融出来以后,大量的借款人,年轻的借款人,在中国差不多有四亿多的群体,得不到信贷这方面的帮助。所以对于这些人的信用判断就显得特别的迫切,这样的情况下面,数据的采集是第一位的。因为这些人以前没有什么信用记录的,如何判断他的信用状况,就变得异常重要。
第二,数据加工业。这个很重要,因为数据这个跟其他的商品、产品不太一样。比如说数据跟货币就有非常大的区别,货币是一种标准化的东西,北京一元跟上海的一元是一样的,价值一样。但数据是非常主观的东西,每一笔贷款、每一个借款人或者说每一个行业或者每一个场景,同样的数据,它的价值是不一样的。这是第一个问题,就是如何定价的问题。
第二个问题是这个数据如何把它进行翻译的问题,因为数据是一个非标准化的东西,各行各业,同一个数据,比如说电商的购物记录,对于保险公司和对信贷机构,使用的方式、方法,包括看的字段是完全不一样的,这个中间需要非常多的行业经验,你要把这个数据转化成那个行业的专业人士懂的形式,这是我们的经验。
我对中国数据行业未来的判断,整体地竞争会慢慢的从数据的采集变成数据的加工,因为中国的数据市场未来一定会变得更开放,会有两个大的趋势:第一个是数据越来越开放;第二个是数据的来源会越来越趋向于集中式的这种存储,而不会这么分散。
举一个例子,我们也在采集公积金社保,中国公积金社保的网站有六百多个,所以信息是非常分散的,我们觉得在未来五年内,一是数据越来越开放,二是不那么分散,越来越集中。这两个背景下,数据的加工变得更重要。
第三个,数据建模。我个人的判断,数据建模的重要性在略微下降。我们看二十年前做模型,一般我们看到的有各种各样的博士,博士后都有,但是比如说我近几年看到的很多建模人员,但凡有三年到五年的开发经验,工程师也可以做,现在互联网大大改变了这个行业。可以看到现在很多谷歌的网站上面有开源包。
三年前谈机器学习很神秘,谈深度学习也觉得很神秘,现在在谷歌上面搜有各种各样的开源包。举一个不恰当的例子,这跟做饭一样,你不会做这个菜,我会做,你找我做。但现在随着搜索引擎、分享经济,各种各样的菜谱你可以搜到。所以你有基础的炒、蒸、煮的技术加上一个菜谱也可以是八九不离十。
未来建模的技术会越来越标准化,而且可以开源化,你只要具备基础的这种,或者不需要那么高深的技术,用开源包得到的效果和专业人士做出来的东西差不多,这一点,包括我以前七年半的工作经历包括现在自己创业得到的反馈都是一致的。
最后讲一下我们公司的情况,从2013年5月份开始做,聚信立这样的公司依靠大数据互联网的账户内信息去分析这个借款人的资信状况,帮助客户去为他提供贷款。到目前为止,我们总共接近服务国内500家主流的消费金融公司、P2P公司以及银行系的客户,包括国内的像宜信、人人贷、趣分期、京东、百度这些都是我们的客户。
我们总共处理借款人超过1200万人,在今年年底总共处理的独立借款人应该会超过2000万,占整个新金融领域的借款人差不多占到一半的数目。
我们公司也是2011年年底成立的,2014年完成京东A轮融资,2015年我们被评为国内的创新公司100强,现在也在做B轮融资。这是我今天演讲的主要内容和主题。非常感谢大家!