题图摄于北京奥林匹克森林公园
相关文章:
联邦学习:人工智能的最后一公里
KubeFATE: 用云原生技术赋能联邦学习(一)
用FATE进行图片识别的联邦学习
(本文经授权转发自FATE开源社区公众号,略有删节)
近日,微众银行首席人工智能官杨强教授结合最新发布的《联邦学习白皮书v2.0》,对联邦学习研究与应用价值展开了最前沿的讨论和分享。
联邦学习作为当前人工智能尤其是AI金融领域,最受工业界和学术界关注的研究方向之一,有哪些前沿研究与应用?欢迎戳下方视频回顾精彩回放,同时直播PPT内容也上传到了公众号【FATE开源社区】(查看PPT课件)
(视频较大,点击后请稍等片刻)
以下是直播期间精选问答内容
或许能帮助你解决疑惑
【01】联邦学习和分布式机器学习最能区分的点是什么?
首先是数据分布特点。分布式机器学习中数据一般被均匀(iid)的分布至各参与计算节点,目标是通过并行计算提升效率。联邦学习中数据天然的存在于不同领域、机构的数据孤岛中,数据分布差异大,不均匀(Non-iid)。另外分布式学习更关注效率,往往在数据中心进行,数据拥有方是同一个体。联邦学习更关注安全,数据拥有方是多个个体。
【02】联邦学习、安全计算是什么关系?另外能不能也介绍一下在国外相关的实践?
安全计算是联邦学习的重要组成部分。联邦学习通过安全计算原理来保证参与联邦学习的各方数据安全不泄露。相关内容可以参考我们近期出版的《联邦学习》一书。
【03】现在业界有哪些同态加密(HE)的应用案例?
微众银行的FATE开源项目:
https://github.com/FederatedAI/FATE
IBM也应用HE在金融领域:
https://www.waterstechnology.com/data-management/4608736/ibm-uses-homomorphic-encryption-on-real-financial-data
【04】现在有公司在做区块链跟MPC(例如联邦学习,同态加密)的结合,您怎么看?
区块链与联邦学习可以很好的结合互补。联邦学习可以用区块链的分布式记账等功能实现参与各方价值互换和有效激励,也可以用区块链去中心化的属性来实现参与联邦学习计算的中心节点的替代。区块链与联邦学习不同, 区块链把数据重复复制在各个节点实现共识机制,所有上链数据是公开的,而参与联邦学习的各方数据不同且是私密的。
【05】纵向联邦学习当前只涉及到A、B双方吗?可以允许多方进行纵向联邦学习吗?
可以允许。
【06】联邦学习训练后的模型是一个公共的模型,而各个客户端的数据经常是Non-iid的,不知老师对此有何见解?
(横向)联邦学习的效果提升主要来源于各方样本量的聚合,训练的目标是得到一个在所有参与方数据上都适用的有泛化能力的模型。各方数据分布Non-idd的情况可以通过联邦学习加元学习、多任务学习来解决。
【07】如果是风险控制的数据,用平均值会把极端风险磨平了。这样是不是不合适?
同上。如果不用联邦学习,一方数据太小,容易过拟合。
【08】哪个企业先算,哪个企业后算,结果会一样吗?第一个先选的企业所选择的模型不同会有不同的效果吧?
因为各方训练同一模型,不管用什么顺序不会有不同的效果。
【09】请问如何保证各个部分数据的质量?比如说医疗影像数据标注的质量参差不齐。
在实际生产上,可以通过在各方节点上部署检验机制的方法来为参与训练的样本的数据质量进行阈值淘汰,也可以通过结合一些机器学习技术,比如GAN,来模拟生成训练样本进行检验。另外训练时多采用cross-validation等数据验证方法也可以有效控制数据质量问题。
【10】联邦学习中,不同数据孤岛在联邦学习过程中是否有隐含权重(即算法模型中本身没有设计权重,但实际学习中形成了不同权重),如何解决?
联邦学习算法本身按数据量的大小来分配权重,假设数据是分布均匀的。实际上,也可以通过分析数据源与目标数据源的相似性等方法来设计权重。
【11】联邦学习对数据污染的鲁棒性如何?理论上是否存在“胡克盲点”式攻击可能(即通过少量针对性数据污染攻击,导致算法模型直接被污染至不可用状态)?
存在。目前机器学习模型对于数据污染的鲁棒性是一个共性问题。解决和防御方式也类似。但是联邦学习的联邦平均削弱了单个参与方的影响。
【12】想问一下联邦学习可以和函数加密(functional encryption FE)联系起来吗?看到有paper提到这种概念,联邦应用同态加密(HE)可以理解,但不太理解怎么和(FE)联系起来。
函数加密与全同态加密有类似之处,可以用于任何函数的加密计算。其和联邦学习结合的技术成熟度有待研究。
【13】怎么看待联邦学习对云计算行业的影响,尤其是公共云行业,联邦学习是否可以由于自身的加密机制推动公共云?
实际业务中,很多数据不便上公有云。联邦学习为对云计算有顾虑的企业提供了一个可行方案。同时联邦学习也可以推动云计算的发展,对于云上的数据孤岛问题提出了有效解决方案。
【14】请问联邦学习里,非凸优化的联邦平均(Federated averaging)是怎么做的呢?也就是说,当模型的参数被平均的时候,是否模型表现会变的更差?
FedAvg 的表现效果与数据分布情况、learning rate(lr)等紧密相关,可以参考联邦学习相关论文。
【15】联邦学习落地首要考虑的一点是怎么说服客户认可联邦学习框架不会出现隐私泄露,万一出现了隐私泄露怎么办;其次才是一些技术实现上的难点。
可以依靠代码开源,公开检测验证等方式。微众银行的FATE开源框架就是采用这一方式。
【16】这个环节同态加密的效率怎样?
效率与数据量、参与方数量和系统架构设计有紧密联系。需要具体case具体分析。
【17】数据有没有跨境领域的尝试?
如果是跨国境,需要依靠相关跨境数据的法律法规,比如GDPR,任何技术都要得到相关法律认可。
【18】如果参数模型比较大,网络传输慢怎么办?
可以应用参数压缩等方法。
【19】老师提到联邦学习可以解决很多小样本场景的问题,小样本学习中也涉及很多迁移学习,元学习相关算法,老师觉得小样本学习是否还有研究空间?
联邦学习跟迁移学习、元学习相结合是解决小样本场景的有效思路,我们提出的联邦迁移学习就是为了解决这类问题,基于此方向的研究还有很大的空间。
【20】如何衡量不同机构在FL中的贡献?
在激励机制的研究中提出了很多研究这类贡献度的方法,比如著名的Shapley分配原则,也可以根据各方regret和联邦的稳定的原则进行分配。
【21】能否分享下FL在医学影像/医学部署上的案例?
微众银行联合腾讯天衍实验室共同研发了医疗联邦学习技术,应用于脑卒中等疾病预测准确率达80%。详情可以参考:https://tech.qq.com/a/20200413/006866.htm
【22】谈谈未来在医疗方向的趋势?
人工智能在医疗方向还处于起步阶段。在医疗很多场景中,获得高质量数据尤其是标签的成本高,需要很多专家经验,同时病人的数据是高度隐私的。另一方面,不同医院采用的医疗设备和程序不同,造成数据异构和领域迁移。所以在保护数据隐私的前提下打通医疗数据孤岛的联邦迁移学习是未来的一个医疗方向。
【23】各方的模型可以是不同结构的模型吗?
联邦学习的目标是各方共同训练一个模型,所以要求模型的网络结构相同。
【24】FATE框架和Tensorflow FederatedFramework框架各有什么优缺点?
FATE框架是第一个工业级FL框架,从业界应用出发,支持横向、纵向和迁移联邦学习等学习框架和各种安全计算组件。TensorflowTF目前只支持横向联邦,多适用于学术研究,相对简洁,容易上手。
【25】同态加密是计算intensive的,对于图像视频等数据计算量很大,性价比是否可行?
对于图像等数据计算量很大的应用同态加密是有挑战的。可以通过数据压缩等方法减少需要的传输量,从而减少同态加密的操作。也可以通过并行计算和高性能计算的方法来提高效率。另外算法上面的优化和提升也可以帮助提高效率。
【26】Semi-honestassumption保证的安全性足够实用了吗?被攻击了怎么办?
Semi-honest假设参与各方都是诚实的,兼顾公平和效率,适合一些成员稳定性高、可溯源的场景。针对有恶意方参与的更高级别的安全方案也可以应用在FL上。
【27】请问联邦学习如何应用到教育大数据领域?
联邦学习可以帮助实现定制化教育。教育机构可以基于存储在学生个人移动设备(如智能手机和笔记本电脑)中的数据,协作地构建一个通用学习计划模型。在此模型基础上,还可根据每一个学生的特长、需求、技能和兴趣,构建定制化、个性化的学习指导模型。
【28】为什么要给模型参数加密?是为了防谁?
参与者互相防止数据泄露。
【29】请问联邦学习能与图计算相结合吗?
可以。图计算中经常存在边数据缺失和网络节点属主不同的特点,比如社交网络图谱和知识产权图谱等,可以通过联邦学习结合,保护数据在图边缘跨领域传输。
【30】联邦学习对RPA部署及数据中台部署的影响?
联邦学习可以作为RPA中采用AI技术的一个组件。RPA多面临非标性、数据分隔等挑战,RPA部署系统可以通过联邦学习的方式提高产品效果。
【31】FL对medical有哪些前景可以展望呢?
为了打破医疗普遍存在的数据孤岛和数据隐私瓶颈,各医疗机构可以联合起来,按照隐私保护条例共享各自的数据,得到一个足够大的数据集来训练一个模型,该模型的性能比在单一医疗机构的数据上训练得到的模型要好得多。将联邦学习和迁移学习相结合是实现该目标的一个很有前途的解决方案。
【32】如何看待差分隐私在联邦学习中的应用?
差分隐私可以在数据层和梯度层分别应用在联邦学习中,保护用户隐私安全。但是单独用差分隐私往往会影响训练模型的效果,在安全和模型效果中不能两全。
【33】请问老师聚合算法的通信压缩机制对于安全性的影响?如果有帮助不做参数加密是否可行?以及杨老师可否推荐Non-iid数据的有效解决策略?
压缩是保护数据的一种方法,但是往往不能保证数据完全不泄露。可以和加密结合起来。
【34】给模型加密会影响最终模型的性能吗?
一般不会,但是如果采用同态加密进行非线性计算,模型会受到多项式拟合带来的差异的影响。
【35】选择哪个企业开始计算第一个参数很重要吧?因为第一个企业的模型选择很关键,那怎么确定计算的次序?谁有权利确定第一个模型或者公共模型?
一般选用有相对成熟的初始模型的企业开始,这样可以减少联邦学习的训练开销。
【36】对新入门的研究生,有没有什么学习方法?比如要先了解什么基础知识?
可以参考我们的新书《联邦学习》,比较适合帮助学生入门。
相关文章:
联邦学习:人工智能的最后一公里
KubeFATE: 用云原生技术赋能联邦学习(一)
用FATE进行图片识别的联邦学习
《联邦学习FATE入门与应用实战》Docker部署直播回顾及ppt
《联邦学习FATE入门与应用实战》K8s部署直播回顾及ppt
如果你对联邦学习感兴趣,可申请加入“KubeFATE开源社区群”交流,入群需要真实身份,并改昵称:姓名@单位。请先关注“亨利笔记”公众号,在公众号后台发送"FATE"信息即可。