揭秘京东超大规模联邦学习平台,如何打破信息孤岛、实现安全共建!

2021-04-22 10:06:09 浏览数 (1)

Tech

前言

数据是AI的石油,加速了AI的高速发展,但是同时多维度高质量的数据是制约其进一步发展的瓶颈。由于用户隐私、商业机密、法律法规监管等原因,造成大量信息孤岛,导致各个组织与机构无法将原始数据整合在一起,进而联合训练出一个效果更好、信息密度更大、能力更强的大模型,严重制约了AI的发展。联邦学习是新的机器学习模式,它让多个参与者可以在不泄露明文数据的前提下,用多方的数据共同训练模型,实现数据可用不可见,开拓新的业务模式与场景,提升整体AI水准。9N-FL作为超大规模的工业化联邦学习的代表,将在未来推动联邦学习的蓬勃发展。 本文分享的是京东零售-技术与数据中心的联邦学习9N-FL项目在电商营销领域的实践,分享共分为六个部分:联邦学习背景、联邦学习简介、应用场景、9N-FL、隐私保护、规划总结。希望通过对9N-FL项目中联邦学习这一新的机器学习模式的分享,在未来隐私管控更加严格的场景下,发挥其重要的作用。联邦学习也将通过安全多方数据建模,开拓了新的业务模式与场景,给广大算法从业者提供了更加广阔的应用场景,促进大数据与AI的蓬勃发展与业务的突破。

01 联邦学习背景

数据是AI的石油,加速了AI的高速发展,但是同时多维度高质量的数据是制约其进一步发展的瓶颈。由于用户隐私、商业机密、法律法规监管等原因,造成大量信息孤岛,导致各个组织与机构无法将原始数据整合在一起,进而联合训练出一个效果更好的、信息密度更大、能力更强的大模型,严重制约了AI的发展。

图1 数据孤岛图1 数据孤岛

02 联邦学习简介

基于上述背景,联邦学习应运而生,联邦学习(Federated Learning)是一种新的机器学习模式,它让多个参与者可以在不泄露明文数据的前提下,用多方的数据共同训练模型,实现数据可用不可见。

联邦学习的本质就是为了解决数据孤岛问题而提出的机器学习模式与算法。它的目标是在保障数据私有的同时,实现模型的共享。例如,现在有多个参与方,每个参与方拥有一套私有集群和数据,这些参与方想共同训练一个模型,但是传统的机器学习算法无法解决这个难题,这个时候就需要联邦学习来解决。

03 联邦学习的特征

联邦学习有以下四个特征:

参与方:

两个或两个以上参与方,多方数据有一定的互补性,共同构建机器学习模型。

训练模式:

数据不出域:在模型训练过程中,每个参与方的数据都不会离开本地,即各自的原始样本不会离开本地。

平台跨域部署:联邦学习分布式平台的计算资源独立部署到各个参与方的机房里,不需要把各方数据集中放到一个地方进行联合训练,这和以往的模式有很大的不同。

安全加密:

模型的相关信息以加密方式传输。因为在模型训练的时候,需要传递梯度这些中间结果,所有的中间结果是通过加密的方式进行传输。

并且保证任何参与方都不能推断出其他方的原始数据。

模型性能:

联邦学习模型的性能要充分逼近理想模型的性能,即将各方数据集中在一起搭建的模型和联邦学习这种跨域进行训练的模型的性能是比较接近的,即:

N个参与方

通过使用各自数据

协作训练出机器学习模型。如果,

那么,联邦学习模型具有δ-accuracy损失(δ为非负实数)。

其中:

VFED,代表联邦学习模型的精度

VSUM,代表理想模型的精度

04 联邦学习的分类

联邦学习主要分为三大类:

横向联邦学习、纵向联邦学习、联邦迁移学习等。

横向联邦学习:

谷歌输入法案例,就是一个比较典型的横向联邦学习的案例。它的特点是各个参与方数据的特征维度是相同的,但是样本ID不同。适用于银行之间以及手机终端边缘计算等同质数据场景。

纵向联邦学习:

它的特点是数据样本ID基本相同,特征不同。比如两个数据集的用户大规模重叠,但它们的特征不一样。

05 联邦学习的架构

如图是联邦学习的架构,主要简单介绍了横向联邦学习架构和纵向联邦学习架构。

06 应用场景

站外营销流程

在站外广告投放场景下,用户在媒体侧发起请求,媒体侧对广告主发起竞价请求,广告主通过模型预测返回广告信息,媒体侧通过模型预测用户最可能感兴趣的广告,并将它展示给用户。如果用户点击该广告,就会跳到一个广告主的落地页,后续的深度转化行为会在广告主侧进行体现。

站外营销的深度转化广告投放领域的应用参考下图。

在这个过程中,深度事件为用户是否转化。以电商行业为例,用户转化指的是用户购买,而用户未转化就是指用户没有购买行为(可能会有一定的延迟,有个是否购买的决策时间)。广告主会将转化事件记录到数据库里面,媒体侧也会把这些信息记录到数据库里面,同时双方也保存串联两侧的ID。在该领域的传统做法是广告主将标签返回到媒体,然后媒体使用ID组合数据和标签用以训练模型,优化投放效果。

场景数据分析

在京东广告投放的业务场景中,我们在与媒体进行合作,实现了9N-FL的成功落地。媒体侧有大量的用户媒体兴趣标签以及行为特征,京东侧有大量的用户商业兴趣及商品标签数据,同时还有最重要的深度转化相关的标签特征,基于双方数据的互补性,进行联合建模,优化效果。

联合建模

首先,在媒体侧用户的每个请求需要附加 Session ID来唯一标识,并且传递给京东侧,用来唯一标记这一次请求。广告主和媒体分别将Session ID协同样本信息存到数据库中。离线训练时,双方使用同一个SessionID的数据进行训练,计算正向传播的结果,然后计算Loss,再反向传播计算出梯度,最后将梯度发回媒体侧,两边分别用该梯度来更新模型,完成模型的构建。

业务效果

使用联邦学习平台联合建模,优化广告的触发召回、CTR/CVR模型等多个模块,并成功上线,取得15% 的收入提升。

06 9N-FL策略与算法景

9N-FL创新技术点

介绍完联邦学习应用场景,我们再来重点讲解京东自研的联邦学习平台:九数联邦学习平台(9N-FL)。

基于业务需要,京东商业提升事业部于2019年下半年开始设计与开发9N-FL,历时半年完成了平台的落地,并且在营销业务端完成上线,在取得了较好业务成绩的同时,也经受住了业务大数据、大算力的考验。9N-FL技术创新主要有以下四点:

业界前沿技术自主研发:

从0到1设计与开发,实现了从样本匹配到模型训练/预测的完整解决方案;

营销推荐领域技术落地:

支持百亿级规模样本、百T级容量数据,首次在电商推荐领域实现线上业务落地,并且取得收入15% 的提升;

复杂场景下平台演进:

实现分布式异步框架、Failover、拥塞控制等多种机制,保障了平台在跨域跨网的复杂场景下的高可用;独立编排自适应网络多路优先级调度策略协议算法保障了平台的高性能。

隐私计算能力:

超大规模的基于并行流水线技术的隐私PSI与超大规模隐私保护下的动态扰动复杂模型加密保障样本数据安全。

9N-FL是基于京东商业提升事业部9N机器学习平台进行的开发,9N平台拥有离线训练与评估、模型发版、线上Inference等功能。整个平台的内核基于TensorFlow,并根据业务进行了性能优化,调度则基于k8s。

9N-FL站在9N巨人肩膀上又做了进一步拓展,增加了多任务跨域调度、跨域高性能网络、大规模样本匹配、大规模跨域联合训练、模型分层级加密等功能。整个平台可以支持百亿级/百T级超大规模的样本匹配、联合训练,并且针对跨域与跨公网的复杂环境,对可用性与容灾设计了一系列的机制与策略,保障整个系统的高吞吐、高可用、高性能。

9N-FL模型算法

9N-FL联邦学习平台对于目前的算法具有非常好的支持,即支持LR、树等经典的机器学习算法,又支持神经网络算法,对于业务有良好的用户体验。

树模型:

支持加密的树模型算法,用于支持银行等对于隐私性要求较高,并且训练数据与特征相对较少的场景。

神经网络模式:

支持百亿级别样本的神经网络训练,模型结构不受限,全面支持NN网络。

07 隐私保护

隐私PSI求交 在联邦学习过程中,一条样本分布存储在联合建模的各方,双方都有可能出现数据丢失、并且存储顺序不一致的情况,所以在联合训练前需要进行对齐。

另外基于某些场景,比如金融等需要基于身份证、手机号等的对齐,这些信息属于敏感信息,所以不能进行明文的交互,基于此设计基于流水线的隐私计算PSI方案,实现百亿样本规模以上的实时调度。在保障隐私的同时,计算速度基本没有降低。

加密训练

联邦学习过程中需要用到加密相关的技术,目前安全计算的主流的加密方案如下:

  • 同态加密 Homomorphic Encryption
  • 秘密分享 Secret Sharing
  • 混淆电路Garbled Circuit
  • 差分隐私Differential Privacy

下面主要介绍下同态加密技术。

同态加密:

满足密文同态运算性质的加密算法,即数据经过同态加密之后,对密文进行特定的计算,得到的密文计算结果在进行对应的同态解密后的明文等同于对明文数据直接进行相同的计算,实现数据的“可用不可见”。

同态加密原理

如图所示,假如有两个整数A和B,要计算A B的和C是多少。假设两个数据对别人是不可见的,将这两个数据拿给第三方计算,算之前同时先对A和B进行加密,再对密文计算结果,在整个计算过程中,原始数据A和B没有暴露,得到密文结果后,再用同态解密的方式将密文解掉,最后得到上下两路的计算结果是相同的。

下面结合线性回归模型基于同态加密的模型训练的流程进行介绍。

训练步骤:例子是基于第三方C的方式,第三方C持有私钥,他会把公钥发给A和B,公钥进行加密,私钥进行解密。计算loss和算梯度的整个过程是加密的,流程如下图。

线性回归模型的训练流程

对于LR模型和树模型都有相应的加密解决方案,但是目前的业界方案计算速度偏慢,无法用于在线。京东在对神经网络加密的高性能方案的进行探索,目前已经在验证阶段,后续会有可用于实时的方案。

08 规划总结

联邦学习作为安全计算的解决方案,打破数据孤岛,实现了多方在数据的隐私保护与安全合规的前提下的紧密合作,将会成为AI发展的一大基石,在未来发挥更加重要的作用。热烈欢迎感兴趣的同学一起参与到9N-FL平台的建设中来,多提宝贵意见。

9N-FL由京东零售数据与智能部荣誉出品,核心研发团队注重技术沉淀及行业影响,积极参与学术交流,鼓励前瞻性项目探索,勇于挑战业界难题。

欢迎有志之士加入我们,一起做有意义有前景的事情。有意者请与dubaokun@jd.com联系。在此也非常感谢京东零售数据算法通道给予的支持。

0 人点赞