卢明樊:爱奇艺的业务安全风控“秘籍”

2020-04-22 11:21:30 浏览数 (1)

“风控是不能脱离业务存在的,是业务运营的重要组成部分。”

在过去的一年,拼多多受到羊毛党大规模攻击,航空公司网站遭遇大量虚假订票查询,生鲜平台“呆萝卜”频频暴雷……现实而惨重的代价,验证了业务安全正逐步成为企业持续发展的生命线。

企业的一大半困扰都来自业务风险,而如何结合特定场景下的业务,降低、控制围绕着业务的风险应该是绝大多数企业反复思考的“保命”命题。此次,我们采访到了爱奇艺云服务高级总监和安全团队负责人卢明樊,深入探讨企业业务安全风控体系的搭建之路,希望从爱奇艺“4年一中台”的实践,为不同类型的企业打开业务风控思路。

卢明樊:爱奇艺云服务高级总监和安全团队负责人,在加入爱奇艺之前,曾任职于Intel和VMWare,在云计算、云存储、大数据风控、安全体系建设等方面都有着丰富的经验。

打通风控落地前的任督“二”脉

如果风控是一本真经的话,那么修炼之前一定要打通任督二脉,才能事半功倍,日进千里……

所谓任督二脉,就“二”在知不知道风险在哪里?知不知道风控的真正目的?

随着企业业务发展,业务种类和形态趋于复杂,用户权益以及业务价值逐渐变高, 这时候,企业开始腹背受敌。除了面临来自基础安全层面的传统黑客入侵攻击和内部破坏泄露的挑战,在业务安全方面承受的威胁和挑战也越来越大。

都说知己知彼,百战不殆,那么第一步就是要了解企业面临的风险有哪些,出现在哪些业务场景中。

常见的业务威胁类型

1、账号安全风险。撞库盗号屡见不鲜,正常用户信息被泄露,相关权益被窃取或者恶意分享,直接危害到个人隐私甚至资金和人身安全。 2、拉新裂变促活等增长活动招引大量的羊毛党或者投放渠道的恶意作弊,导致企业的大量投入打水漂,养肥了羊毛党而业务一蹶不振。 3、对内容或者社区型的平台而言,不良信息的恶意传播会导致被监管,从而影响业务的可持续性甚至带来存亡危机,优质内容也面临被爬取和盗用的风险。 4、对生态型的平台而言,虚假作弊流量泛滥,严重干扰了平台运营策略,导致劣币驱逐良币的效应,甚至平台利益分配机制因此被利用而导致大量利益被套取。 5、电商、支付和金融场景下的欺诈风险更为普遍,卖家、买家、出资方甚至中间平台往往在欺诈事件中惨遭损失。

与此同时,虽然国家层面对黑产不断加大的打击和治理力度,企业自身的防御意识和能力也在不断提升,但是黑产威胁也呈现出很多新的变化,比如:

(1)利益驱动下规模还在变大。

据粗略统计,目前中国黑产从业人员已经超过200万,黑产市场规模达到千亿级别。

(2)产业链分工更细致完整。

已经实现从社工钓鱼,逆向破解,APP伪造,恶意植入,漏洞挖掘,羊毛情报分享,物料(IP,设备,号,证,信息)供应,批量工具和自动化操作,任务分包和网赚平台,群控云控,打码接码,交易变现等精细化分工。即使面对企业业务的越来越复杂的逻辑,黑产也可以在短时间内通过整合资源快速形成攻击能力,业务方的小小漏洞或者失误就可以在非常短的时间内被利用而造成损失。

(3)广泛使用云计算、大数据、AI等新技术。

例如利用的IP从简单的代理到秒拨再到云拨的演进,从脚本到虚拟机再到真机群控进而真机云控演进,大量引入了AI技术来突破验证码等各种人机校验等,导致技术能力不足的业务方往往容易在对抗中落于下方。明确企业面临的业务风险,并做了充分评估后,再去思考风控问题。而在风控体系落地前,三大心得送给大家:

风控离不开业务

首先,风控不能脱离业务而存在,其次,风控要保障的是业务可持续性稳定发展并达成其发展目标,两者的目标是一致的,所以,“风控是业务运营的重要组成部分”这一点应该达到共识。

风控是在可控的范围内经营风险

控制并不是要消灭所有发现的风险,而是可以考虑风险阻断、风险转移、风险累积自担等多种方法,需要对投入、损失或者收益不断的监控和评估,通过动态调整策略达到风险可控的目标。毕竟一味阻断风险可能带来的过大的投入,用户体验严重下降,业务发展阻滞等问题,因此风险的运营应该纳入到业务运营活动中来。

风控系统因企业而异

理想状态下,企业都需要有风控系统。但是!

风控作为一个集成了风险意识教育,风险评估,加固,高性能引擎,威胁情报,前端能力(加固,数据采集,验证),拦截阻断能力,离线和流式大数据系统,数仓,算法模型,跨业务联防联控,持续预警监控,应急响应,策略优化,持续运营的综合性系统……构建一个全栈的风控系统需要投入相当的成本。现实背景下,做不做风控系统,需要企业做好评估。

可以识别核心风险和关键威胁,并且在业务系统中加入一定的风险控制策略或者独立的风控系统来支撑,通过自行研发或者采购来满足集成构建风控能力,至于采用哪种方式,还是实事求是,根据自身具备的基础设施、服务资源和可增加的投入,实现风险—投入的最大化收益。

有目标地冲刺,爱奇艺4年1中台

如果了解的话,应该知道爱奇艺的业务安全风控起步并不算早。

2013年,卢明樊加入爱奇艺,2015年从0开始建设安全团队,重构安全架构和服务体系。2016年,他将目光转向了爱奇艺的业务安全风控。

彼时,面临的问题是:

1、业务线各自为战,仅依靠安全事件驱动, 在本业务做事前单点防御,对抗经验和数据无法实现跨业务共享,存在重复建设和平台资源浪费,单点防御容易被黑产各个击破, 无法做到跨业务跨团队的联防联控。 2、业务风控相关策略是简单设置的阈值型规则为主,没有引入数据分析或者机器学习等能力, 容易造成防御不足或者防御过度,不能快速识别攻击变化进行调整,往往因为和业务代码耦合,依赖业务开发, 测试和上线,占用业务排期而失去快速响应能力,容易成为业务关键路径, 对业务稳定性造成影响。 3、风险处置手段单一,严重依赖IP,公共出口误杀严重,以限频,限流,图文验证为主,黑白名难维护,无退出机制。

可以说,起步不算早,问题不算少,横批:难。

但是,在这样的背景下,卢明樊还是定下了一系列目标,画下了一张“大饼”,带着团队的安全人员一起冲刺。

如果是从头开始建设企业业务安全风控系统,那为什么不一次性先做到位,在设计过程中就融入安全?卢明樊秉持着这样的理念,将服务、运营、数据、算法和前后端协同都纳入考虑。再结合痛点高的Pilot业务安全问题,不断完善优化。

在目标驱动下,爱奇艺的业务风控系统成型,又随着接入的业务以及相关场景越来越多,为了解决新业务接入成本高、策略不易复用、数据繁芜、业务参与风险运营不足、客诉响应耗时消力、常态化救火应急等诸多问题,风控系统逐步向风险中台迈进。

爱奇艺风险中台的全景架构,主要由以下几个部分组成:

业务中心

业务通过业务中心实现快速接入,业务场景如属于已支持的预设场景,即可复用场景化解决方案和策略模板,非预设场景可以通过定制化接入,所有接入实现了角色和权限管控,并获得实时风险决策API的接入方式和文档,方便联调测试。此外,业务中心也会根据依赖的数据和验证策略引导业务接入依赖的其他前后端能力(如设备指纹,生物探针,验证中心等)。

统一实时风险决策接口服务

业务接入后,业务的后台服务即可调用统一实时风险决策接口服务,该服务依托于风险中台的六大核心引擎,分别为:规则引擎、模型引擎、查询引擎、工作流和决策引擎、场景引擎、仿真和灰度引擎。

注意:实时风险决策接口服务对可用性和性能要求非常高,特别是在单次访问高业务价值的情况下,必须做到超高并发,低延迟,低超时率,断熔限流托底等各种服务能力。

数据中心

数据中心依托于爱奇艺的各类云数据库和大数据平台,利用HBase、TiDB、HiGraph(图存储)、MongoDB、ES、Druid、HDFS、Hive等多种数据库和数仓来存储各种类型的数据,所有这些数据通过离线、流式分析、图分析、机器学习推理能力,以及风控指标特征计算平台对各种数据源进行分析、统计、推理得到。

风控所用的数据源包括但不限于威胁情报、实时风控日志、业务数据、设备数据、行为数据、验证数据、数据中心其他风险数据、客诉数据等等。

智能算法中心

提供各种算法模型,满足实时和离线的各种需要,包括并不限于: 大规模异常检测,关联分析,社区挖掘和图分析,人机识别和校验算法,信誉计算算法,模块化的通用无监督算法,行为式垃圾检测算法,风险预警算法等。

前端能力接入实现云端协同

根据不同业务场景的需求数据维度不同,业务前端可通过集成集成前端SDK来采集相应的数据,并通过采集服务接收,这些数据会成为风险决策的重要数据来源。例如: 我们提供了智能验证的产品-验证中心,以SDK的形式嵌入保证了业务前端切换验证方式通过手工云配以及动态升降级就可以快速切换。

运营中心

风险中台运营中心不仅提供了接入业务的管理,监控和报表能力,数据中心管理和各种引擎的运维能力等基础功能,另外提供了提供精细化运营的支撑,囊括了 策略中心,评价体系,深度检测,案件管理,和智能报警等多个模块。

策略中心

进行各业务的策略配置,支持场景管理和策略模版维护和模型配置。风险中台的策略中心支持树型风险点配置模式, 可快速装配策略集, 并控制对外展现粒度,对一个新业务定制化支持的情况下,新增策略集时间由之前的2人天降低为0.5人天,极大提高了业务接入的效率。

此外,运营中心初步建立起了策略,数据,模型等相关评价体系,结合线上拦截效果,贡献度和引发客诉情况进行综合评价,逐步提精去芜。。

值得注意的是,作为风控团队,需要充分考虑平台的独特场景和业务价值所在,确保核心业务和生态的健康发展,业务价值得到保护。以内容平台爱奇艺为例:

付费会员业务爱奇艺目前最大的业务,风控应从账号安全角度切入,账号风控要提供 批量注册识别,防撞库,批量登陆识别等攻击防护,并且能够作为联防联控关键攻防点,此外,与会员活动中台统一对接,建立前后置业务的领取、发放闭环监控及拦截机制,做好活动风控,确保所有营销活动都能够得到有效保护,做好账号分享的实时及离线识别及处置机制,同时监控市面黑市价格,及时发现攻防对抗的趋势进行策略调整和实时风控结合,对发现的被盗号和异常分享号都制定离线发现和处置。 前端反馈的用户行为数据流是商业智能、推荐和广告等业务所依赖的重要数据源,爱奇艺风控会结合跨业务风控数据以及用户行为数据流进行联合反作弊建模,确保这些关键数据流的准确可信,才可以保证内容持续运营和正确决策,以及在分成模式下降低平台资损。 由于大量的自制S 综艺引入了投票助力机制,必然会导致各种利益方尝试通过刷票的方式来影响结果,这个对节目制作正常流程和公平公正会带来非常大冲击,风控系统持续优化各环节子系统,引入第三方审计,全流程风险可控。 由于允许用户上传音视频,发布图文内容,就会有黑产尝试通过发布大量低质量甚至侵权的内容,试图通过平台分发来获得更多流量和分成来获利,更有黑产尝试通过发布不良内容来为不法行为导流,严重危害平台安全,爱奇艺风控和审核系统密切配合,成为机器审核的关键一环,风控会综合结合用户信誉、设备信誉、情报、欺诈特征、行为分析、图关联、人机识别、审核特征等多种特征进行综合构建行为式反垃圾风控解决方案,识别各种异常上传和发布行为,设置风险等级,并且和审核系统组成双向闭环,通过风险级别来调整其他审核环节的审核优先级和力度,确保在攻击下的高效审核,同时通过鉴白和智能验证等多种能力对冲风险,来降低对好用户上传体验的打扰。 此外,对于内容平台而言,保护内容生态,尤其是保护平台上的优质内容尤为重要,防止这部分内容的泄露、盗播、盗链,除了做好媒资文件保护,防盗链前后端加固,终端DRM溯源等方案以外,风控会纳入到前端加固,安全签名,WAF前置处置和风控业务侧处置的全链路反爬虫方案中,通过离线数据分析,会发现识别盗链团伙使用的物料等进行监控发现和处置。

小步慢走,风控体系建设9步

从爱奇艺的实践中,可以看到风控的目标驱动力、业务安全风控框架、内容平台风控难点所在等。而具体如何落地?风控建设处于不同阶段的企业“可以根据能力建设的分阶段来提升”。卢明樊给出了风控建设的9个阶段:

1.识别和管控风险:

风控要拥抱业务,和安全以及业务一起在企业内部梳理出哪些业务是高风险的,并且和业务方一起识别出关键风险场景,并且确定目前防御现状,根据二八原则,风控系统要优先解决重要业务及其核心场景的头部风险。后续可以推动安全SDL或者项目评审相关的流程中将业务风险评估作为一个重要环节,确保业务风险充分识别可以及时对接风控。

2.系统快速构建

如果业务单一,场景比较简单,可以和业务服务结合进行构建或者使用开源或者第三方商业解决方案进行快速开箱构建,如果业务多场景复杂而且逻辑多变的情况,应该考虑设计独立的全栈风控系统,实现方式可以基于企业的自身基础服务设施(云计算、大数据、人工智能领域)能力,综合结合商业、开源、自研的解决方案来实施风控系统不同环节的实现。

3.优化引擎服务

风控系统对接支持业务后,应当充分考虑如何优化风控系统的服务架构,确保实时风控服务的低延迟低熔断,既要做到保证业务服务不会因为风控服务增加延迟,从而导致业务服务质量下降或者过多资源占用,也需要避免风控服务因为超时熔断导致策略被迫失效而让黑产得手;同时也要持续优化缓存、流式、离线等数据链路,保证数据分析、指标和特征产出、实时查询的稳定性和可靠性,能及时发现异常并且随着数据规模扩大进行快速扩展。这里需要设置引擎服务的服务指标,对各引擎子组件持续优化,如果原来使用的开源引擎不能满足服务能力则必要时进行自研改进,爱奇艺风控的引擎就已经经过了两个大版本的迭代改进,确保服务的可靠稳定和优异性能。

4、实现数据驱动

从实时风控日志、业务服务日志、业务数据、情报数据、前端采集数据、验证数据、客诉数据等多重数据源出发,进行数据清洗、指标统计和特征工程,通过流式和离线的数据统计、分析和可持续训练优化的算法模型推理,产出指标、标签、特征、名单、信誉、图谱关系以及模型,上浮到稳定可靠&大容量的高速缓存,风控引擎从高速缓存中获取数据进行策略判断。企业的大数据平台的能力越强,则对风控系统赋能就越强。此外,需要非常关注数据质量,以及数据的连续产出,例如情报建设是数据建设关键一环,高质量的威胁情报往往可以在对抗中达到事半功倍的效果,又例如各种大数据的任务必须有相应的监控和高可用设计,确保数据的完整可用。

5.云端协同

风控必须和端上的可信任的维度采集以及灵活多变验证能力紧密结合在一起,端上采集设备多维信息形成设备指纹,云上风控基于设备信息进行伪造分析和其他恶意分析,用来进行设备识别与鉴白鉴黑,并提供多种防护能力,大大提升对于黑产的分析识别能力,端上的多种验证能力要将其产品化集成为统一SDK,对业务前端提供一体接入,根据云上风控的风险级别给出灵活验证方式,根据验证行为和其他行为数据采集进行人机识别和是否本人的识别等。这里可以需要和安全团队以及终端应用研发团队一起推动端上能力的实现和落地。

6.联防联控

打通数据和验证能力后,跨业务联防联控成为可能,各业务联合, 在模型,规则,数据等方面进行共享, 联合布控协同防御。例如: 在用户行为链路上实现不同业务场景进行前置场景风险校验和风险累积(例如 进行人机验证,打标签等等),后置场景进行利用前置场景的产出进行阻断,又或者为了不让黑产在某一个业务场景上进行持续升级对抗,可以将对抗引导到更容易处置的前置场景中。

7.智能驱动

风控不能停留在规则决策,一定要要引入算法决策能力,异常检测、异常特征发现、人机识别、(图)关联分析、维度信誉等多类算法,从无监督算法和半监督算法为主,有监督算法为辅助,提高异常及作弊或欺诈特征以及风险因子的发现能力,支持快速响应,并结合案件库支撑样本累积推动有监督算法的训练和优化, 此外要高度关注算法的通用性(尽可能模块化)以及可解释性,能够适应或者快速迁移到不同场景等。

8.可持续运营

一定要逐步培养策略运营相关的人员,风控本质上是支持业务进行风险运营,避免直接由风控开发或者算法来直接对接,导致无法长期跟踪某一个业务和场景的攻防对抗。建议业务团队或者风控团队培养自己的风控策略运营人员,确保策略可以持续迭代优化,另外从运营和产品角度给出更多产品、功能、能力上的需求,帮助风控系统的迭代优化。

9.中台化

随着对接的业务越来越多,业务场景越来越复杂,业务逻辑也越来越新颖或者多变,团队在人力上就会逐步不能支撑那么多的业务和场景以及业务的快速迭代变化,那么风控系统需要逐步中台化,让业务有更多的自助和自主能力,风险运营更加精细化,攻防对抗闭环更加高效:

(1) 标准化流程:标准化业务接入评估,应急预案,策略迭代优化评估,策略上下线和灰度等各种流程。 (2) 业务赋能: 提供自助接入,自助运营,客服对接等能力,让业务和客服等能够参与到风险运营中来,不让风控运营成为瓶颈。 (3) 场景化解决方案: 风控中台应当能复用大量的通用策略、数据、特征和运营支持方案,迁移和定制化的工作会聚焦中业务特定需求上,最大程度的降低业务支持难度。 (4) 内部赋能: 提供策略、数据、模型的全生命周期的管理能力,并且需要做到高效和可持续优化。 (5) 持续监控与快速响应: 要能提供风险预警能力,及时报警,并且预警要能够为策略优化提供依据,快速优化策略。

最后,对于不同企业而言,还需要根据实际企业规模、业务风险场景进行判断与选择。

对业务风险场景单一,体量小的企业来说,将能力建设委托给各种专业第三方风控服务或者开源的风控服务可能有助于更快地提升风险控制能力,而其重心应当是做好集成工作,但要注意的是如果使用第三方服务,一定要在保证用户隐私等前提下做好第三方数据供给,同时注意做好风险预警,并和第三方一起做好策略评价,真正将风险运营纳入到业务运营中来,提高黑产攻击成本和门槛。

对业务规模大的企业,可以整合内部产品、研发、数据、算法、安全、运营多种资源和力量去实现自己全栈安全风控体系并推动风控服务中台化,达到风险中台对外赋能业务实现风险共同运营和自理,对内练好内功,提供更多的场景化解决方案,跨业务协同联控能力,在数据,算法,系统,运营,攻防对抗做到支持更多业务更复杂多变风险场景,也可以在和产业化和技术能力强的黑产的白热化对抗中形成优势。

另外规模大的企业还可以考虑构建业务安全红蓝对抗的能力,模拟黑产对业务攻击进行红蓝演练,只有在实战和演练对抗中磨练下来的风控系统在下一次攻击中才能经受考验。此外,业务风控和基础安全一定要在威胁情报共享、整体安全风险评估、前后端安全加固、对手分析、防护体系协同等多方面进行协同配合,将业务安全依托于整体安全体系建设的基础之上。

*本文为卢明樊本人工作经验总结,FreeBuf仅做整理,转载请注明来自FreeBuf.COM

0 人点赞