微众银行首席人工智能官杨强:可信联邦学习让隐私计算既安全又可用

2022-12-10 10:38:06 浏览数 (2)

近来,微众银行在IJCAI 2022、TPAMI 2022、ACM TIST等顶级学术期刊和顶会上接连发表了联邦学习领域最新进展的前沿论文。究竟哪些理论实践为产业界带来了新的研究和落地视角?为此,我们采访了微众银行首席人工智能官杨强教授,看他是如何带领团队取得这一领域研究的突破性进展。

作者 | 杨阳

出品 | AI科技大本营

当下,各行各业的数字化转型都已进入深水区,数据安全日渐成为关乎国计民生的重要议题。尤其在金融行业,这一问题的有效解决决定着新技术能否成为金融行业降本增效的有力杠杆。

数据的流转率决定了利用率,但因为控制权和使用权的相互分离,导致数据共享和交换面临着无法满足安全共享和开发的困境。为解决这一问题,隐私计算作为结合密码学、人工智能等的融合技术理念,被寄予实现数据安全的厚望,正在成为解决数据安全与开放共享之间矛盾的重要技术路径。

具体来看,隐私计算技术主要分为多方安全计算、可信执行环境,以及联邦学习等。其中,最早提出的是多方安全计算,这一理论在上世纪80年代就由姚期智院士等人提出。可信执行环境是基于独立于系统之上的独立机密空间的构想,最早是在2006年提出的。

至于联邦学习,本质上是机器学中分布式学习的一种,尽管最早在2012年就有这一理论的最早研究,但直到2016年谷歌明确提出这一概念才逐渐被产业界所关注。在国内,概念的普及要到了2018年之后。

作为人工智能技术界被寄予解决隐私计算难题的“新星”,这一领域的论文发表也自然不能少。在今年9月的“2022世界人工智能大会(WAIC 2022)”上,清华大学深圳国际研究生院知识工程研究中心联合其他两家单位共同发布了《2022联邦学习全球研究与应用趋势报告》。

该报告统计了联邦学习高被引论文次数,美国论文被引数量为22959次,中国被引数量达到9418次,排在第二位。在所有被引文章中,香港科技大学计算机科学与工程学系讲席教授、微众银行首席人工智能官杨强作为第一作者,与微众银行AI团队、北京航空航天大学计算机学院的研究人员联合发表的Federated Machine Learning: Concept and Applications 是被引量最高的论文。

作为联邦学习技术研究界的领军人物,杨强先后在加拿大滑铁卢大学、西蒙弗雷泽大学、微软亚洲研究院、香港科技大学任教和从事研究。而在产业界,曾出任华为诺亚方舟实验室创始主任,也是第四范式公司的联合创始人,并于2018年加入微众银行,建立AI团队,担任首席人工智能官。也正是从这个时候开始,在世界各地组织联邦学习相关的研究和实践活动,目前取得了相当进展。

“我们现在可以让多方的数据参与到一个共同建模中,能够在保护隐私、保障安全的前提下把一个全局的模型建好,可以做到数据不动模型动。通过大规模分布式的架构,可以从金融到医疗,再到物联网等各个领域都实现落地应用。这是从2018年到现在,我们在联邦学习上发展的第一阶段。”

而接下来,即将进入的第二个阶段为可信联邦学习。

2022年,杨强教授带领团队接连在IJCAI 2022、TPAMI 2022、ACM TIST等国际人工智能顶级学术期刊和顶级学术会议上发表了多篇论文。其中,《联邦学习中隐私与模型性能没有免费午餐定理》提出了"No-free-lunch安全-收益恒定"定律,利用该定律可实现可信联邦学习的安全、性能、效率三者的协调。《FedCG:利用条件生成对抗网络在联邦学习中保护隐私并保持模型性能》由微众银行和中山大学合作发表,提出“FedCG”,将条件生成对抗网络与分割学习相结合,实现对数据的有效隐私保护。此外,和上海大学合作联合发表了《FedIPR: 联邦学习模型所属权验证》,该论文中提出名为“FedIPR”的联邦学习模型版权保护框架。

那么,目前联邦学习技术在理论和应用上分别面临哪些痛点问题?解决问题的切入角度有哪些,以及与其他隐私计算技术之间如何更好得关联?为解答以上问题,我们采访了杨强教授,看他如何解答。

受访嘉宾简介

杨强,加拿大工程院及加拿大皇家科学院两院院士,香港科技大学计算机与工程系讲席教授和前系主任,微众银行首席人工智能官,AAAI-2021大会主席,国际人工智能联合会(IJCAI)理事会前主席,香港人工智能与机器人学会(HKSAIR)理事长,智能投研技术联盟(ITL)主席和开放群岛开源社区(OI)主席,ACM TIST 和IEEE TRANS on BIG DATA创始主编,CAAI,AAAI,ACM,IEEE,AAAS等多个国际学会Fellow。领衔全球迁移学习和联邦学习研究及应用,著作包括《迁移学习》、《联邦学习》、《隐私计算》和《联邦学习实战》等。

理论前沿:从可信联邦学习到个性化

Q:从您现阶段对联邦学习的技术实践,谈谈三篇论文主要是基于解决哪些问题?包括怎样的逻辑设定?

杨强:计算机学科的发展演进就是从理论到实践,再到理论,再实践。目前我们在联邦学习上走到了第三步,也就是从实践到理论沉淀的阶段。那这个阶段主要解决的问题是什么?就是在联合建模上如何做到安全性和可用性可以同时保障。具体来说,就是准确率高、错误率低,同时训练速度快,要达到这三点的平衡。

为了达成这个目标,我们要做的事情首先是验证为什么需要平衡。那《联邦学习中隐私与模型性能没有免费午餐定理》中就对此进行了解释。接下来,就要看怎么做,是否可能通过一些“聪明”的算法来同时完成以上三点,这样就有了《FedCG:利用条件生成对抗网络在联邦学习中保护隐私并保持模型性能》这篇文章,让参与方都建立镜像模型,通过这些模型实现互通,这样一来就在更大程度上降低了隐私泄露的可能性,而且运行效率和效果可以得到很大提升。

最后,我想要强调的是,联邦学习不仅仅是一个训练,把模型训练完就没事了。而是需要从收集和选择数据开始,到模型的训练,再到模型的治理,在此之后还可能进行模型的交换和综合。这样一来,就形成了全生命周期联邦学习的模型治理。随着模型越来越多,我们也要将模型治理和数据治理提到同样的重要性上,所以模型的所属权验证就成为一个待攻克的难题,《FedIPR: 联邦学习模型所属权验证》就是我们为解决这个难题提出的解决方案,也是第一个提出来的。

Q:您讲到“可信联邦学习是联邦学习的第二个阶段”,在这个阶段中,安全性和可用性(包括准确率高和效率高)又是如何平衡的?

杨强:首先,我们需要证明,在可信联邦学习下安全性和可用性之间是可以有所取舍的,这个很重要。因为两个相反的属性不可能同增,这是违背自然规律的。那之所以提出“FedCG”,就是要在安全性和高性能之间做到平衡。具体来说,就是将条件生成对抗网络与分割学习相结合,实现对数据的有效隐私保护,同时保持有竞争力的模型性能。

当然,任何模型都不能照搬照抄,需要根据不同场景进行场景化的落地和适配。未来会有千万个依照“FedCG”这一理念的不同场景化下的算法被发明出来。比如金融场景、医疗场景、短视频推荐的场景等。

具体的实现方法就是在每个终端建立镜像模型,模型之间的沟通就像有防火墙一样,可以大大减少隐私泄露的可能性,从而提升了安全性。这是其中一个思路,不过还有更多其他思路,大家也不要受到局限。

Q:您认为联邦学习的下一个阶段要更加突出“个性化”,应该怎么理解?为什么看好这一趋势?

杨强:对于“个性化”的理解,我来打个比方。假设有两家医院,一家只有表格类的体检数据,另一家只有图像格式的医疗影像数据,那么这两家医院汇集的数据类型是不一样的。对于这两类完全不一样的数据能否联合建模?如果把针对具体情况的个性化联邦学习结合迁移学习,就可以实现。

不同类型的数据我们称之为“异构数据”,即使数据结构不一样,比如表格和医疗影像,但都可以通过联邦学习的方式来分析。这样做的好处当然是显而易见的,在不交换原始数据,保护病人隐私的前提下,综合两家医院的检查和分析结果更加准确。

应用实践:给“锁”加监控,场景应用需终生学习

Q:从联邦学习理论框架的角度明确了安全性和可用性的难以兼得,面对这样的现实,在应用层又该如何权衡呢?

杨强:一般来说,联邦学习是和AI相关的。做AI的步骤主要分为两步,第一步是用数据训练模型,第二步是Inference,也就是推理,做推理是使用模型。在这两个步骤当中,成本主要在于第一步,安全风险最大的也在这一步。在我们研究可信联邦学习之前,有一些做法极端强调安全性,但这就会让可用性降维,使得整个系统不可用,也不可拓展,给落地实践带来很多困难。

前面谈理论我也说了,相反的属性不可能同增。但现实世界又是纷繁复杂的,在一个环境,或者说一个系统当中理论上不可能实现的事情,当具体的应用场景中引入了外在条件,或者说加入了变量,就可能补足系统的安全性,同时也可以达到高效的目标。

比如说,以前多方安全计算进行密文计算要比明文计算慢上百万倍,所以几乎不可能在软件层进行使用。那如果用到特别的算法,比如我前面说的镜像算法,就可以将速度提升到相差几十倍。从百万倍到几十倍,这就是一个长足的发展,而且安全性上也没有损失。

当然,具体到算法实现层是非常复杂的技术逻辑。一个简单的理解就是,可以将可信联邦学习看做是带有摄像头的“锁”,这个世界上没有打不开的锁,就像没有不可破解的程序一样。给不可撬开的“锁”无限加码是没有尽头的,但如果在“锁”上装一个摄像头,那即使被撬,也是有记录、可追溯的。这是我们当下的一个思路。

Q:好的,您谈到多方安全计算,同为隐私计算的领域分支,多方安全计算、可信执行环境和联邦计算分别有哪些场景?联邦学习相较于前两种技术有哪些优势和性能瓶颈?

杨强:不同的技术代表了隐私计算技术发展的不同阶段,也肯定都有各自的优缺点,关键是看怎么使用。

隐私计算发展第一阶段首先是多方安全计算,作用原理是利用隐藏部分信息来保护隐私,基于各方交换的部分数据来计算正确的结果。这样做的好处是能够满足保护隐私的法律法规,但计算速度相对较慢。之后的第二阶段,出现了利用混淆个体的方式保护隐私的差分隐私技术和利用硬件来保护隐私的集中加密计算技术,它们都有各自的特点和问题。第三阶段的代表是联邦学习,联邦学习是随着AI的发展,利用分布式多方建模的手段对模型作为一个主体进行生产、使用和管理而产生的。

需要注意的是,联邦学习和其它技术都不矛盾,不是替代关系,它们是相辅相成的。联邦学习是综合了各种隐私计算技术模块的整体解决方案,标准化的大规模联邦学习将成为数字经济“新基建”。

在应用场景上,因为我主要是做联邦学习的研究,更多集中在联合风控、营销、反洗钱等多个场景的落地应用探索中。也有一个规范范式可以套用:只要是需要引入多数据源和参与主体来提升建模效果的场景都可以引入联邦学习,可结合多种技术制定综合解决方案解决应用中遇到的实际问题。

Q:金融是联邦学习的重点应用行业,目前联邦学习的应用在这一领域还有哪些痛点需要解决?

杨强:确实,我们一直说金融是联邦学习非常好的应用场景。因为金融离不开大数据,这点很好理解。比如在各类识别机器人的应用场景中,无论是基于视觉的人脸识别、基于语音语义的文本和对话机器人,都不是训练一次就结束了,而是需要终生学习。

要让机器人既做到联邦学习又达成终生学习,这是非常有挑战的科学问题,也是一个痛点问题。这个问题会鼓励我们的科研和产业界发明新的联邦学习的算法,在未来很有可能出现算法,叫做“终生联邦学习算法训练应对大数据的挑战”。

联邦学习框架“分久必合,合久必分”

Q:据了解,微众银行开源了全球首个工业级联邦学习框架FATE。请问联邦学习的框架经历了怎样的发展历程,您如何看待目前的趋势?

杨强:联邦学习的框架,应该就像三国演义中说的那样“分久必合,合久必分”。一开始是框架比较少,那么我们发布了FATE, Google发布了基于TensorFlow的联邦学习框架。这两个框架在2018年到2019年期间应该是世界上独二的。但谷歌的框架主要基于横向联邦学习,聚焦在安卓系统上,利用横向联邦学习的模式来做连接。

那FATE不仅是做横向联邦,而且也做了很多纵向联邦,包括联邦迁移学习等。

2019年之后,研究联邦学习的初创公司,以及大公司的联邦学习团队的建立,都开始增多。其中很多都是基于FATE的内核,这就出现了一个合久必分的局面。

但太多框架系统也造成了“系统孤岛”的现象。就是很多系统之间难以实现真正的沟通,比方说一些数据的拥有方,想把数据通过联邦学习进行赋能,但是却有好多个不同的平台,平台之间的互联互通需要很高的成本,这样就带来了系统孤岛的挑战。

那么,在这个背景下,我们现在又在完成一个新的任务,就是如何能够更加简洁地让不同的系统实现互联互通。能够做一个这样“插座型”的中间件,使得不同系统能够像路由器一样在网络里自由来往。因此,联邦学习系统的重点应该是在互联互通上。

Q:联邦学习作为一个新兴的研究领域,未来还有哪些方向值得探索?

杨强:整个科学和工程的发展也倾向于多领域的交叉,比如人工智能和金融。联邦学习也涉及计算机中的多个领域,包括机器学习、分布式系统、多方安全计算加密系统,以及同态加密、差分隐私等。

当下人工智能的发展也有新的方向开始出现,比如模型预训练。大模型的出现让我们看到了很多曙光,比如通过大模型进行自然语言的文本预训练。基于此,可以通过微调或者迁移学习的方法来将模型在不同领域中进行适配。比如,把视觉领域的大模型扩展到自然语言领域。我们现在也有一些好玩的软件,比如给机器人一幅画,他可以写出一首诗,还有现在很火的文字转图形的软件。

可以说,联邦学习为这些方向提供了下一个前沿。比如,如果数据来自不同利益诉求的属主,而且这些数据都是异构的,那么在这个情况下如何能够持续建立一个好的大模型?这个问题现在学术界还没有关注,我预计在今后几年会被逐渐关注,是大模型的一个发展方向。

第二个发展方向是如何利用迁移学习,尽量减少多参与方之间的通讯。通讯第一是增大了管道带宽的需求,这样就增加了成本;第二是增大了可能泄露隐私的概率。那么,通过迁移学习和大模型尽可能地进行单向传输,同时再加上强化学习的算法来进行反馈,这样可以大大降低沟通成本和沟通风险。

还有其他一些方向,包括联邦学习的可解释性,我们如何把一个联邦学习的模型解释给不同背景的人去理解;如何能够在很多模型的大市场里进行全生命周期的有效管理等等,这也是我现在进行的一些研究。

0 人点赞