联邦学习前路如何?杨强:已到“合久必分”的状态

2022-12-09 08:09:11 浏览数 (1)

衡宇 金磊 发自 凹非寺 量子位 | 公众号 QbitAI

2022年,联邦学习论文数量出现大幅跃升,成为了屡登顶会的香饽饽:

NeurIPS发布联邦学习论文41篇,较前一年有近30%的增长幅度;ICML则在2022年收录联邦学习论文74篇,几乎成倍于2021年。

这个规律同样存在于顶会AAAI、AISTATS、KDD及CVPR中。

联邦学习论文在顶会频现,相应的,相关产业实践也进行得如火如荼。

这个现象的最好解答者,自然是联邦学习领域的国内最知名大牛:香港科技大学计算机与工程系讲座教授和前系主任、中国人工智能学会(CAAI)荣誉副理事长、微众银行首席人工智能官杨强教授。

不仅因为他是CAAI,AAAI,ACM,IEEE,AAAS等多个国际学会Fellow,能够解惑一二。

更能激起求知欲的是,这些联邦学习论文中,有多篇与他带领的团队有关联。

杨强

今年,他在微众银行带领的AI团队,与上海交通大学、中山大学等机构联合撰写了3篇联邦学习领域论文

这3篇论文,以一作身份,被IJCAI 2022、TPAMI 2022、ACM TIST国际人工智能顶级学术期刊和顶级学术会议收录发表。

可信联邦学习,走的是一条怎样的路?

2018年,国内引进了联邦学习(Federated Learning)概念。

为了解决数据割裂、数据孤岛等问题,杨强带领的微众银行AI团队在国内系统性提出联邦学习理论

能够保证各企业在自有数据不出本地,不违规的情况下进行联合建模,提升机器学习建模效果。

而后,又于2019年开源首个工业级联邦学习技术框架FATE,同年6月捐献给Linux基金会。

3年时间,在联邦学习领域探索的公司如雨后春笋。

联邦学习发展空前,已在金融、医疗、互联网等领域落地应用,并延伸出图联邦学习、动态联邦学习、包容性联邦学习等研究分支。

从刚开始的2018年至2019年间,FATE和主攻横向联邦学习的TensorFlow分庭抗礼,到2019年后,众多初创公司或以FATE为内核,或推出新系统。

一路至今,用杨强的话来说,现在的联邦学习已经进入到“合久必分”的状态。

正是在此基础上,联邦学习发展出第二阶段,可信联邦学习

联邦学习的发展和应用,一直伴随着这样的声音:

存不存在为了提高效率和性能,牺牲安全性的可能?

杨强简明扼要地解释道,绝对安全等于绝对低效,绝对高效意味着绝对不安全:“联合建模要结合安全性和可用性一起看。如果是一个极端安全的模型,安全到不能实际使用,这东西也没用。”

对此,论文《联邦学习中隐私与模型性能没有免费午餐定理》通过研究给出的答案是:隐私保护、模型性能、算法效率三者需要平衡,且可以平衡。

在联邦学习过程中,一个半诚实的攻击者,通过观察和了解参与方的数据信息,可能可以推断用户的隐私数据。这种针对隐私的攻击叫做“贝叶斯推断攻击(Bayesian Inference Attack)”。

文章从信息论的角度,为联邦学习中隐私泄露和效用损失的分析提供了一个通用框架

这个理论框架揭示了对于满足“贝叶斯隐私”的多方计算系统而言,都满足“|安全| |效能|≤常数”这一“安全-效益恒定定律”。

无免费午餐定理通过量化隐私和效用之间的约束关系,证明信息的相互泄露和模型效能是互相制约的。

之所以叫“无免费的午餐”,是因为研究表明,一般情况下,隐私和效用的权衡中,必须用一定程度的效用降低来交换隐私的保护,将潜在的隐私损失维持在可接受范围内。

那么,能不能发明一种“聪明”的算法,把安全性、模型效能、准确率同时最大化呢?

微众银行AI团队和中山大学合作发表的另一篇论文——《FedCG:利用条件生成对抗网络在联邦学习中保护隐私并保持模型性能》——正面回答了这个问题。

FedCG,文章提出的一种新的联邦学习方法,利用条件生成对抗网络,以实现高水平的隐私保护,同时保持模型的性能。

具体而言,FedCG将每个联邦学习参与者的本地网络分解成一个私有提取器和一个公共分类器,然后保持提取器的本地性来保护隐私。

FedCG概述图

它结合条件生成对抗网络和分割学习,不是暴露提取器,而是通过与服务器共享客户端的生成器来聚合客户端的共享知识,从而提高本地网络的性能。

实验表明,与联邦学习基线相比,FedCG有更好的隐私保护能力,同时在模型性能上也具有竞争力

另外,考虑到联邦学习不是一次性的训练,它涉及数据的收集、选择,模型的训练、推断甚至交换,整个过程可能面临非法复制、重新分发、滥用的风险。

针对于此,结合对模型知识产权保护的思考,微众银行AI团队进行了一项工作:提出一种联邦深度神经网络(FedDNN)所有权验证方案,称为FedIPR。

《FedIPR:联邦学习模型所属权验证》一文详细介绍道,FedIPR方案允许嵌入和验证私有水印,来申明FedDNN模型的所有权。

有了这个方案,模型由谁做出、有谁用过、谁进行过模型交易,以及模型的危险性、特别性等,都会得到很好的检测。

如此这般,方便了对联邦学习模型进行全生命周期管理,也对模型知识产权起到保护作用。

模型的归属权验证一直是业界致力于解决的难题,微众银行AI团队是首个在联邦学习中融入这项工作的团队。长远来看,这项工作有利于数据和模型市场的建立和规范。

综合看来,此次陆续发表的3篇联邦学习论文,分别从理论、实践、规模化、工程化等不同的角度,对可信联邦学习进行了全面探索。

可信联邦学习的提出,通过提出端到端安全生命周期的管理、FedCG这种防火墙式的安全方法等一系列技术上的提升,再加入许多软件工程的管理,譬如软件治理、模型追踪等,将联邦学习领域的发展推进了一步。

至此,联邦学习为何能够成为顶会们的香饽饽,也就有了清晰的眉目。

而且对于联邦学习的火热,杨强还这样评价道:

联邦学习的第二阶段,也就是可信联邦学习,从全世界范围来看都是刚刚起步,到处都有学者响应。

但正所谓能用起来的技术才是好技术,那么接下来的一个问题便是:

顶会们的“香饽饽”,正如何改变我们的生活?

正如我们刚才提到的,可信联邦学习需要处理的那些数据,一般都具备较强的独立性、隐私性、安全性

因此,金融、医疗、物流、政务等场景便成为了联邦学习发挥其实力极佳的“试验田”;尤其是在金融场景中,联邦学习涉足较早。

联邦学习现在应用上的发展态势,用“百花齐放”来形容不足为过。

例如全球科技巨头谷歌,国内外学术机构如卡内基梅隆大学(CMU)、北京邮电大学等名校也在致力于研究联邦学习;在论文全球高被引方面,国外机构谷歌排名第一,而国内机构则是杨强所在的微众银行。

而且与之相关的开源框架也是陆续被提出,例如OpenMined推出的Pysyft、微众银行的FATE和谷歌的TFF框架等等。

从大方向上来看,现在微众银行所使用的可信联邦学习,不单单是能够完成一个项目那么简单,更是能够对项目做一个分析和认证

在此能力的背后,微众银行所依托的便是全球首个开源的工业级联邦学习框架——FATE(Federated AI Technology Enabler)。

而自2019年开源以来,这个框架也在不断的提升自己的能力。

像刚才我们提到入围的几篇论文,都已经被涵盖了进来,目前已经步入2.0阶段。

具体到实际案例,可信联邦学习在金融行业反欺诈上便起到了很好的作用。

因为在这个过程中所涉及到的数据着实纷繁复杂,包括银行机构、电商、运营商、政务等等。

各方都需要保障自己数据的安全、隐私以及所有权,但交易过程中相互之间又有所交织。

而可信联邦学习就能在保障这个大前提之下,还能做到挖掘金融行为、消费行为、通信行为、社交行为等众多特征。

以及再针对不同细分金融反欺诈业务场景构建专有模型,从而提升金融行业的整体反欺诈能力。

再如信贷风控,亦是如此。

以往中小微企业在信贷风控上所面临的老大难问题,便是信贷评审数据稀缺、不全面、历史信息沉淀不足等。

但有了可信联邦学习之后,就能在确保数据提供方数据安全以及隐私保护的情况下,让银行融汇企业经营数据、税务数据、工商数据、支付数据等多源信息,丰富建模特征体系,提升模型的有效性。

由此可见,联邦学习能够成为顶会、顶刊们的香饽饽,不仅是因为在科研领域中所具备的前沿性,更是因为它在现实场景中正在发挥着不可替代的作用。

那么对于被顶会、顶刊们pick的联邦学习,以及它玩转数据的这套打法,你怎么看?

FATE框架地址:

https://github.com/FederatedAI/FATE/blob/master/README_zh.md

参考链接:

[1]https://arxiv.org/pdf/2203.05816.pdf

[2]https://www.ijcai.org/proceedings/2022/324

[3]https://ieeexplore.ieee.org/abstract/document/9847383/

0 人点赞