作为隐私计算体系的重要技术之一,联邦学习(Federated Learning,FL)是一种使用中央服务器训练共享全局模型的机制,同时将所有敏感数据保存在数据所属的本地机构中,为连接分散的医疗数据源和保护隐私提供了巨大前景。
来自美国的研究团队在《Journal of Healthcare Informatics Research》发表综述文章,对联邦学习进行概述并通过成功研究说明了联邦学习方法在医疗领域的应用潜力,还讨论了未来其在医疗领域应用的主要机遇和开放性问题。
什么是联邦学习?
联邦学习是一个用中央服务器从分散在大量不同客户端的数据中训练一个高质量的共享全局模型的问题。
从数学角度来说:
假设数据所在的位置有K个激活的客户端(客户端可以是手机、可穿戴设备或临床机构数据仓库等);
Dk表示与客户端k相关的数据分布,nk表示该客户端可用的样本数量;
总样本量为:
联邦学习问题可以归结为解决一个经验风险最小化问题的形式,其中w为要学习的模型参数:
联邦学习框架示意图
联邦学习算法面临的挑战及其解决方案
联邦学习算法主要面临三大挑战:1. 统计方面。所有客户端的数据分布差异很大,任何本地可用的数据点都远不能作为整体分布的代表性抽样;2. 通讯效率。客户端数量K很大,远大于激活客户端中存储的平均训练样本数量;3. 隐私和安全。对于不可靠的参与客户,需要额外的隐私保护。 不可能确保所有客户都同样可靠。
在统计方面,解决的简单方法为联邦平均(FedAvg)。由于权重发散,用FedAvg算法训练的卷积神经网络的性能会大大降低。现有关于处理联邦学习统计挑战的研究可以归纳为两个领域,即共识解决方案(如agnostic federated learning、q-Fair Federated Learning等)和多元解决方案(如Multi-task learning、VIRTUAL等)。
在联邦学习环境中,训练数据仍然分布在大量的客户端上,每个客户端都有不可靠性和相对缓慢的网络连接。可以考虑三种降低通讯成本的方法,即减少客户端的数量、减少每次更新通讯的比特数、减少训练过程所需的更新数。
四种应对联邦学习通讯挑战的方法:模型压缩、客户端选择、减少更新、P2P学习
为了避免恶意的客户端从模型训练过程中学习推测出其他客户端的数据、保护模型构建者及数据提供方的隐私,有两种常用的理论框架:多方安全计算(Secure Multi-party Computation)和差分隐私(Differential Privacy)。
隐私保护方案
联邦学习的应用
医疗领域
医疗领域联邦学习近期案例总结
电子病历(EHR)已经成为现实世界医疗数据的一个重要来源,被用于重要的生物医学研究,包括机器学习研究。联邦学习可能是实现EHR数据大规模代表性机器学习的工具。
联邦学习是连接医疗机构EHR数据的可行方法,允许医疗机构在保证隐私的情况下分享经验,而不是数据。在这些场景中,通过对大型和多样化的医疗数据集的反复改进学习,机器学习模型的性能将得到显著提高。已经有一些任务在医疗领域的联邦学习环境中得到了研究,例如跨机构的病人相似性学习、病人表征学习、SplitNN和预测性建模等。联邦学习还实现了基于不同来源的预测性建模,这可以为临床医生提供更多关于早期治疗患者的风险和益处的见解。例如相关研究正在使用联邦学习来预测患者对某些治疗和药物的抵抗力,以及他们对某些疾病的生存率;另一项研究测试了一个保护隐私的框架,用于预测入住重症监护室(ICU)病人的院内死亡情况。
其他
联邦学习的一个重要应用是用于自然语言处理(NLP)任务,例如虚拟键盘预测;其他应用包括智能零售和金融。随着联邦学习的成长和发展,有许多公司或研究团队开发了各种面向科学研究和产品开发的工具。
联邦学习研究的流行工具
机遇和开放性问题
数据质量。联邦学习有可能将所有孤立的医疗机构、医院或设备连接起来,使它们在保证隐私的情况下分享经验。然而,大多数卫生系统都存在数据混乱和效率问题。从多个来源收集的数据质量参差不齐,没有统一的数据标准。而使用包含大量错误标签的数据,会使预测模型毫无价值。因此,无论我们是否处理联邦学习场景,如何清理、更正和完善数据并相应地确保数据质量是改进机器学习模型的关键。
结合专家知识。2016年,IBM推出了Watson for Oncology,该工具使用自然语言处理系统汇总患者的电子健康记录,并搜索其背后强大的数据库,为医生提供治疗建议。然而一些肿瘤学家表示他们更相信自己的判断。因此,希望医生能参与训练过程。由于这里收集的每个数据集都不可能是高质量的,因此引入循证机器的标准将非常有帮助,医生也将看到人工智能的诊断标准。如果错误,医生将进一步指导人工智能,在训练过程中提高机器学习模型的准确性。
激励机制。随着物联网和各种第三方门户网站的出现,越来越多的智能手机医疗保健应用程序与可穿戴设备兼容。除了在医院或医疗中心积累的数据外,另一种非常有价值的数据来自可穿戴设备,不仅对研究人员如此,更重要的是对用户。然而,在联邦模型训练过程中,客户端在通信和计算方面承受着相当大的成本。如何设计一种有效的激励机制来吸引具有高质量数据的设备加入联邦学习是另一个重要问题。
个性化。可穿戴设备更注重公共健康,这意味着其可以帮助健康人改善健康(如帮助他们锻炼、练习冥想和提高睡眠质量)。如何帮助患者进行科学设计的个性化健康管理,通过检查指标纠正功能性病理状态,中断病理变化过程,也是非常重要的。合理的慢性病管理可以避免急诊和住院,减少就诊次数,节省成本和劳动力。虽然有一些关于联邦学习个性化的一般性工作,但对于医疗信息学来说,如何结合医学领域知识,使全球模型针对每个医疗机构或可穿戴设备进行个性化是另一个开放的问题。
模型精度。Federated试图让孤立的机构或设备共享他们的经验,形成的大型医学数据集将显著提高机器学习模型的性能。然而,预测任务目前受到限制且相对简单。医疗本身是一个非常专业和精确的领域。与可穿戴设备相比,医院中的医疗设备具有无可比拟的优势。而Doc.ai的模型可以根据一个人的自拍(如身高、体重、年龄、性别和体重指数)预测其生物特征数据的表型收集。如何改进预测模型来预测未来的健康状况,是值得探索的。
补充阅读:首个联邦学习国际标准正式发布!国家基因库参与标准制定
参考文献
Xu, J., Glicksberg, B.S., Su, C. et al. Federated Learning for Healthcare Informatics. J Healthc Inform Res 5, 1–19 (2021). https://doi.org/10.1007/s41666-020-00082-4
图片均来源于参考文献,部分信息来源于“集智俱乐部”公众号,如有侵权请联系删除。