机器之心发布
机器之心编辑部
仅从一个人的抖音、快手、腾讯视频的观看记录里,我们能发现什么?近日,腾讯看点研发团队、Google London 和中科大的研究工作首次证实,仅依靠用户视频新闻观看记录,就可以精确地推测出用户的各种个人信息信息,包括但不限于用户年龄段、性别、喜好、人生状况(例如单身/已婚/怀孕等)、职业、学历等信息,甚至是否有心理抑郁暴力倾向。目前,这篇论文已经被信息检索领域顶级国际会议 SIGIR 接受为长文章。
推导迁移学习对计算机视觉和 NLP 领域产生了重大影响,但尚未在推荐系统广泛使用。虽然大量的研究根据建模的用户-物品交互序列生成推荐,但很少有研究尝试表征和迁移这些模型从而用于下游任务(数据样本通常非常有限)。
在本文中,研究者深入研究了通过学习单一用户表征各种不同的下游任务,包括跨域推荐和用户画像预测。优化一个大型预训练网络并将其适配到下游任务是解决此类问题的有效方法。但是,微调通常要重新训练整个网络,并优化大量的模型参数,因此从参数量角度微调是非常低效的。为了克服这个问题,研究者开发了一种参数高效的迁移学习架构「PeterRec」。
论文链接:https://arxiv.org/pdf/2001.04253.pdf
PeterRec 可以快速动态地配置成各种下游任务。具体来说,PeterRec 通过注入一些小型但是极具表达力的神经网络,使得预训练参数在微调过程中保持不变。研究者进行了大量的实验和对比测试,展示学习到的用户表征在五个下游任务中是有效的。此外,PeterRec 在多个领域进行高效的迁移学习时,可与微调所有参数时所呈现的性能相当,甚至更好。
这一客观发现和研究方法将有利于改进现有的一些公共服务质量,提供相关辅助依据实现更为精准的政府决策,也可以为商家和广告商等带来更大的利润,同时也会进一步推动隐私保护的相关研究和相关法案(可以想像以抖音快手这种短视频 APP 为例,每天每个常规用户可以产生数百乃至数千的点击记录,如此巨大的用户行为数据潜在地包含了我们无法想象的个人隐私数据)。
从数据收集到用户推荐
在过去的十年中,社交媒体平台和电子商务系统(例如抖音、Amazon 或 Netflix)在人们生活中的使用频率变得越来越高。因此这些系统中也产生了大量的点击、购买互动以及其他用户反馈。以抖音为例,常规用户在每个周可能观看成百上千个短视频。与此同时,大量的研究表明这些用户交互行为可以用来建模用户对于物品的喜好。比较有代表性的深度学习模型,例如 GRU4Rec 和 NextItNet 在时序推荐系统任务中都取得了较大的成功。然而绝大多数已有工作仅仅研究推荐任务在同一平台的场景,很少的工作尝试学习一个通用用户表征,并且将该用户表征应用到下游任务中,例如冷启动用户场景和用户画像预测等。
为了解决这个挑战,本文尝试以一种无监督训练方式预训练一个神经网络,然后将此神经网络迁移到下游任务中。为此,论文需要至少解决三个问题:
- 构造一个有效的预训练模型,能够建模超长用户点击序列;
- 设计一种微调策略,能够将预训练网络适配到下游任务。目前为止,没有相关文献证实这种无监督学习的用户表征是否对其他场景有帮助;
- 设计一个适配方法,能够使得不同任务都能充分利用预训练网络参数,从而不需要微调整个网络,达到更加高效的迁移学习方式。
图 1: PeterRec 进行用户画像预测示意图。注意:PeterRec 不需要借助于任何图像和文本特征,仅需要用户点击物品 ID 即可。中间网络为大量堆叠的空洞卷积网络。
为了达到以上目标,研究者提出采用空洞卷积神经网络构建大型的预训练模型,采用一定空洞率设置的多层卷积网络可以实现可视域指数级增长,从而捕获和建模超长的用户点击行为,这一优势是目前很多时序网络难以达到的,例如经典的 RNN 网络建模长序列时通常会遇到梯度消失和爆炸问题,并且并行训练低效,Transformer 等知名 NLP 网络对显存需求和复杂度也会随着序列长度以二次方的级别增加。同时为了实现对预训练网络参数的最大化共享,论文提出了一种模型补丁方式,类似于植物嫁接技术,只需要在预训练网络插入数个的模型补丁网络,既可以实现预训练网络的快速迁移,效果甚至好于对整个模型全部微调。
这篇论文值得关注的研究贡献有:
- 提出了一种通用用户表征学习架构,首次证实采用无监督或者自监督的预训练网路学习用户点击行为可以内用来推测用户的属性信息。这一发现将有望改进很多公共服务,带来更大的商业利润,同时也会引发甚至推动对于隐私保护的相关问题的研究;
- 提出了一种非常有效的模型补丁网络,网络相对于原来的空洞卷积层参数量更小,但是具有同等表达能力;
- 提出了两种模型补丁的插入方式,并行插入和串行插入;
- 提出了很多趋势洞察,可能会成为该领域未来的一些研究方向;
- 后续将会开源代码和一些高质量的数据集,从而推动推荐系统领域迁移学习的研究,建立相关基准。
方法介绍
图 1: PeterRec 预训练网络(a)和微调网络(b)的参数分布。
本研究预训练网络采用空洞卷积网络,每层空洞因子以 2^n 增加,通过叠加空洞卷积层达到可视域指数级的增加,这一设计主要遵循时序模型 NextItNet [1],如图 1 所示。在预训练优化方式上,本文采用了两种自监督方式,分别是单向自回归方式 [1] 以及双向遮掩法 [2],分别对应因果卷积和非因果卷积网络,如图 2 所示。
图 2: 采用空洞卷积网络的几种微调策略。(a)(b) 为因果卷机,(c)(d) 为非因果卷积。
本文的微调方式非常简单,采用直接移除预训练 softmax 层,然后添加新任务的分类层,另外,本文的主要贡献是在预训练的残差块(图 3(a))插入了模型补丁网络,每个模型补丁有一个瓶颈结构的残差块构成,如图 3(f)所示。本研究提出了几种可选择的插入方式,如图 3(b)(c)(d)。注意(e)的设计效果非常差,文章分析很可能是因为模型补丁的和操作,并行插入的和操作与原始残差网络的和操作夹杂在一起,影响最终优化效果。另外文中给出分析,通常模型补丁的参数量仅有原始空洞卷积的不到十分之一,但是可以达到与所有参数一起优化类似或者更好的效果。
图 3:(a)为原始残差块;(b)(c)(d)(e)为插入模型补丁后的微调残差块;(f)为模型补丁。
实验
这项研究包含了大量的实验,代码和相关脱敏后的数据集后续将会开源。
实验 1
论文首次证实采用无监督预训练方式非常有效,论文对比 PeterRec 的两种设置,有无预训练下的实验效果,如图 4 中所示 PeterRec 大幅度超越 PeterZero,证实了本研究预训练的有效性。
(a)冷用户推荐对比(b)人生状态预测
图 4 PeterRec 在有无预训练下的预测效果。PeterZero 为无预训练初始化的 PeterRec
实验 2
以下是几种微调方式比较,如图 5 所示。图中证实 PeterRec 仅仅微调模型补丁和 softmax 层参数达到了跟微调所有参数一样的效果,但是由于仅有少数参数参与优化,可以很好的抗过拟合现象。
(a)冷用户推荐对比(b)年龄状态预测
图 5 各种微调方式。FineAll 微调所有参数,FineCLS 只微调最后 softmax 层,FineLast1 微调最后一个空洞卷积层,FineLast2 微调最后两个空洞卷积层。
实验 3
这一实验将 PeterRec 与常规的比较知名的 baseline 进行比较,包括冷启动推荐效果和用户画像预测效果。具体分析可参见原文分析。
实验 4
在少量标签有效的情况下 PeterRec 效果。可以发现 PeterRec 不仅超过 FineAll,而且相对于 FineAll 微调过程几乎不会出现过拟合现象。
图 6:少量 target 数据标签下 PeterRec vs. FineAll
研究团队同时也提到,PeterRec 不仅可用于户论文中的实验,还能应用在很多领域,比如用来提前感知青少年心理健康。举个例子,通过 PeterRec,仅需要知道少量青少年每天观看浏览视频的标签数据,就可以预测出该少年是否心理健康,是否存在暴力倾向阴郁等问题,从而提前告知父母以便提前采取措施。
参考链接:
[1] A simple convolutional generative network for next item recommendation. Yuan, Fajie and Karatzoglou, Alexandros and Arapakis, Ioannis and Jose, Joemon M and He, Xiangnan, WSDM2019. [2] Future Data Helps Training: Modeling Future Contexts for Session-based Recommendation. Yuan, Fajie and He, Xiangnan and Jiang, Haochuan and Guo, Guibing and Xiong, Jian and Xu, Zhezhao and Xiong, Yilin. WWW2020