大数据文摘作品,转载要求见文末
大数据文摘记者 宁云州
在大数据应用场景中,互联网金融一直是一个诱人但危机四伏的领域:实时性高、交易量大、风险性高。而像蚂蚁金服这样一家用户量过6亿的互联网金融机构,更是需要面对“百亿个节点万亿条边的超大规模,并且实时更新的关系图进行高并发低延时的读写”。
“金融的业务场景对于实时性的要求都很高,比如说在转账的时候,我们几乎需要在这一瞬间判断这一笔转账是不是有风险,要求响应速度非常的高,才能把钱在一秒之中转出去。”蚂蚁金服首席数据架构师俞本权这样告诉大数据文摘记者,“但在这个过程中除了风险控制之外,还有很多其他的操作,真正留给风控来检查的时间大概也就两百毫秒左右,在这两百毫秒内我们要做规则的判断、数据及其特征的提取及最终判断这笔转账的风险,所以每一个毫秒我们都要尽力争取。”
7月13日至15日,全球数据盛会Strata Data Conference展会在北京召开。蚂蚁金服首席数据架构师俞本权发表了题为《GeaBase 蚂蚁金服超大规模实时图数据库》的演讲,系统介绍了GeaBase的技术细节和应用范例。演讲结束后,他接受了大数据文摘的独家采访,对GeaBase本身的特点及其支撑的业务场景特性做了深入解读。
应对超大规模复杂关系网络:蚂蚁金服的尝试
“在金融场景中,数据在本质上的组织方式很多是以‘图’的关系图谱的方式存在的。” 俞本权说。
“我们人之间互相转账会形成资金关系网,设备是否连接在同一个wifi中,是否经常出现在同一个地点中(可能是同一家庭的设备),支付的账号和设备之间,银行卡之间都构成了关系网”,俞本权接着补充道:“对于这样本身具有网络关系的数据,其实用传统的关系型数据库或者一些开源的图数据库也能够进行存储和计算,但当规模扩大之后,我们就必须使用一个满足超大规模复杂关系网络在线上环境中高并发低延时的读写需求的图数据库来支撑业务的实施”。
而为天猫、支付宝业务提供金融技术支持的蚂蚁金服,其关系网络的规模和复杂性又有多高呢?
2016年,双十一当天创造了10亿的交易笔数和1207亿的交易额,订单处理达到了12万笔/秒,而且这每秒钟十几万的支付操作对于系统的压力不仅仅是十几万次交互,最后落到系统上的压力,大概是每秒100万次交互,面对这样的数据量还要实现高并发低延时,传统的数据库是完全无法应对的。
为应对这种独特的业务需求,蚂蚁金服从2015年开始研发GeaBase(Graph Exploration and Analytics Database)并逐渐投入使用。
如何在百亿个节点万亿条边的超大规模的实时图上实现高并发低延时的读写需求
“金融的业务场景中很多操作对于实时性的要求都很高,比如说在转账的时候,我们几乎需要在这一瞬间判断这一笔转账是不是有风险,要求响应速度非常的高,才能把钱在一秒之中转出去,但在这个过程中除了风险控制之外,还有很多其他的操作,真正留给风控来检查的时间大概也就两百毫秒左右,在这两百毫秒内我们要做规则的判断、数据及其特征的提取及最终判断这笔转账的风险,所以每一个毫秒我们都要尽力争取”,俞本权接着说道:“我们现在的数据已经达到了百亿个节点,万亿条边的规模,而且在支付宝的这个应用场景里,支付的频度是非常快的,特别是当双11或双12这种大型促销的时候,QPS(Queries Per Second, 每秒查询率)在百万级别以上,我们支持高并发低延迟的业务需求,就是在这样的环境下产生的。”
由蚂蚁金服在Strata大会现场发布的测试数据来看,GeaBase在各方面的的性能达到了Titan(另一款图数据库)的四十倍到九十倍。
在GeaBase的设计和实施中,蚂蚁金服采用了多种措施来提升数据库的性能。
在存储层,使用一致性哈希算法把数据的ID映射到虚拟节点上,再把虚拟节点映射到物理机上。
而在服务层上,整个GeaBase分为存储层和计算层,GeaBase的功能主要通过计算层当中的各种模块实现。
在执行层上,使用异步执行引擎、优化通信等方法来提升性能。
另外,GeaBase还引入了多集群和多方位的监控体系来保证整个系统的高可用性。
GeaBase两大典型应用:风险、诈骗识别与好友推荐
“图数据的最典型应用之一就是进行风险识别和诈骗识别,比如在资金关系网络中,如果我们发现资金的流动形成一个闭环,这就很可能是一个洗钱行为的讯号。”俞本权说道。
在蚂蚁金服的特殊应用场景下,图数据库还有很多其他有趣的应用,比较典型的是对用户行为可信度的衡量。
“当你的手机出现在不该出现的地方,登录在陌生的设备上或者以前发生过欺诈行为的设备上时,我们就将对这个账户的风险做出控制。”俞本权称。
比如当一个用户在一个设备上进行登陆的时候,蚂蚁金服需要判断这次登陆是不是有风险,如果有风险,就会发送验证码或者问用户一些挑战性的问题来验证这是否是用户本人的操作。
“当然,这样的验证过程对用户是有打扰的,我们也希望减少这样的打扰。举个例子来说,当你进行转账的时候,你可能会借用你家人的设备来进行登陆,当我们要判断这样的交易是否有风险的时候,就需要应用到背后复杂的关系网络,比如当你经常使用的设备和你现在使用的这台设备经常连接在同一个wifi下,或者这两台设备晚上经常处于相同的地点时,我们就基本可以肯定这是你家人的设备,那么这次交易的可信度就会比较高”, 俞本权接着补充道:“而如果你的账号被骗子盗取,他是在一个全新的设备上登陆这个账号,或者他在自己的设备上登陆,这个设备很有可能在我们的黑名单中有记录,这次交易的可信度就比较低”
基于GeaBase的另外一个典型应用是推荐算法,在蚂蚁金服堪称漫长的产品线中,无论是好友推荐、内容推荐还是商品推荐都能找到其用武之地。在Strata大会的演讲现场,蚂蚁金服基础技术部图计算及存储技术团队负责人叶小萌介绍了一种基于GeaBase的好友推荐算法。这种算法从GeaBase中提取用户的社交网络关系,并计算一个用户的朋友的集合(F)与其朋友的朋友的朋友的集合(FOFOF)的交集,并选择交集内元素多的好友推荐给用户。
事实上,蚂蚁金服使用基于GeaBase的推荐算法的领域并不局限于社交网络,在咨询推荐,理财产品推荐,征信评价(芝麻信用分)等业务场景中,图数据都得到了大量的应用。
“这些应用其实具有很强的相似性,落在系统底层对于数据库的要求就是要实现超大规模数据下的高并发和低延时,以及系统架构能够实现线性拓展”,俞本权总结道。
本文部分内容来自全球数据盛会Strata Data Conference大会上蚂蚁金服首席数据架构师俞本权14日下午的演讲《GeaBase 蚂蚁金服超大规模实时图数据库》。
关于转载 如需转载,请在开篇显著位置注明作者和出处(转自:大数据文摘 | bigdatadigest),并在文章结尾放置大数据文摘醒目二维码。无原创标识文章请按照转载要求编辑,可直接转载,转载后请将转载链接发送给我们;有原创标识文章,请发送【文章名称-待授权公众号名称及ID】给我们申请白名单授权。未经许可的转载以及改编者,我们将依法追究其法律责任。联系邮箱:zz@bigdatadigest.cn。