一文梳理冷启动推荐算法模型进展

| 作者：朱勇椿

| 单位：中国科学院大学

| 研究方向：跨域推荐、多任务学习

如何给新加入的用户推荐可能感兴趣的物品？如何将新上架的物品推荐给潜在的用户？这两个问题分别是用户冷启动和物品冷启动，统称为冷启动推荐。冷启动问题是推荐系统中极具挑战的一个问题，也是一个业界学术界同时高度关注的问题，本期为大家分享一些冷启动推荐算法层面的思路。

冷启动推荐特指如何给新用户或者新物品进行推荐。“新”也就意味着交互数据少，因此很难抓获冷启动用户兴趣偏好，以及冷启动物品的特质。如何进行好的冷启动推荐，主要可以从以下几个方面着手：

高效地利用side information
高效地利用有限的交互数据
Explore & exploit

除了常见的用户和物品冷启动推荐以外，还有一些其他场景的冷启动问题，本文也会简单进行介绍。

一、高效地利用side information

我们把除了id信息以外的别的信息统称为side information，比如属性特征，用户性别、年龄特征，物品的类别、价格，额外的补充信息比如知识图谱，辅助领域等等。现有的推荐模型已经将用户、物品属性用到模型中，但是针对冷启动问题，这些辅助信息还可以有更加高效的使用方法。

1、高效利用属性特征

1.1 DropoutNet[1]

这篇文章改变了模型训练方式，在训练过程中加入dropout的机制，使得模型不过度依赖于ID embedding，而是其他内容特征。从而使得冷启动推荐主要是根据内容特征来进行推荐，减小了不好的ID embedding的影响。

1.2 MetaEmbedding[2]

冷启动推荐效果不佳，主要原因在于交互数量少，ID embedding学不好。那么为了更好地学习ID embedding，应该给ID embedding一个不错的初始化值。MetaEmbedding提出使用物品（广告）其他特征，通过一个生成器来输出一个ID embedding的初始化值。该方法通过使用已有的物品来模拟冷启动的过程来学习这个生成器，对于每一个新加入的物品，都是用这个生成器预测ID embedding的初始化值，基于这个初始化值再做后续的训练及预测。

1.3 Meta Warm Up Framework (MWUF)[3]

冷启动物品的ID embedding和非冷启动物品的ID embedding的分布不相同，而深度推荐模型的深度模块更适合非冷启动物品（大量数据都是在非冷启动物品上产生）。换句话说冷启动的ID embedding和深度模型之间存在一个gap。MWUF提出通过一个元拉伸网络从物品特征中预测一个拉伸函数，对冷启动ID embedding进行一个特征变换，将其变换到一个更好的特征空间中。另外MWUF还使用一个元偏移网络利用所有的交互过的用户的表示，来输出一个偏移向量，巩固ID embedding的表示（高效利用有限的交互数据）。

2、利用知识图谱[4]

现在有很多知识图谱可以直接使用，比如电影图谱、书籍图谱等等。知识图谱蕴含丰富的结构性知识，虽然冷启动的物品只有有限的交互数据，但是通过知识图谱可以挖掘到更多的信息，比如这个电影的演员、导演等等，通过这些关联的信息，也可以推断出哪些用户可能对这个电影感兴趣。

3、跨领域推荐

冷启动的用户或者物品在目标领域没有交互，但是他们在另外一些领域可能存在一些交互数据。跨领域推荐旨在使用辅助领域的数据来帮助目标领域上的推荐，是一种有效的解决冷启动推荐的方法。

基于映射的方法是一种高效的解决冷启动推荐的方法[5]。这类方法通过学习一个从源领域到目标领域的映射函数，将用户或者物品在源领域的embedding映射到目标领域，来作为目标领域的初始化。但是现有的这类方法在冷启动物品或者用户上泛化能力不足，TMCDR[6]提出了一种新的框架，来提升这类方法在冷启动上的泛化能力。

4、多行为推荐

一个用户可能只有很少的购买行为，在购买这个目标上，该用户是冷启动用户，但是该用户可能有很多其他行为，比如点击、加购物车等等。通过利用这些辅助行为也可以帮助目标行为上用户冷启动推荐[7,8]。

二、高效地利用有限的交互数据

对于没有交互数据的冷启动，只能尝试使用side information来提升效果，但有的冷启动场景是存在少量交互数据，因此如何高效地利用这有限的交互数据变得尤为重要。

1、Twitter recommendation[9]

针对推特上的冷启动物品推荐，使用用户交互过的物品，来预测一个分类器，然后使用该生成的分类器判断用户是否对冷启动的物品感兴趣，这个思想和metric-based meta learning很相似。

2、MeLU[10]

MeLU采用一种基于梯度的元学习算法MAML来学习一个深度推荐模型公共的初始化参数，然后针对每一个冷启动用户，使用有限的交互数据来对这个初始化模型进行微调，得到用户定制化的模型进行推荐。

3、MetaHIN[11]

异构图通常也含有大量额外的信息。MetaHIN在Melu的基础上引入异构信息网络，进一步提升了冷启动的效果。

三、Explore & Exploit

还有一大类冷启动方法集中在探索和利用上，主要思想是在冷启动的过程中，什么时候应该去探索用户额外的兴趣偏好，什么时候应该基于现有的兴趣偏好进行推荐。针对物品侧也是同理，什么时候应该尝试进行推广。这一块编者了解不多，想继续深入了解可参考[12,13]

四、其他场景的冷启动问题

1、冷启动场景

在推荐系统中有时会有新的场景出现，比如亚马逊电商推荐，增加一个母婴场景，新的场景通常只有少量交互数据，如何利用其他场景帮助冷启动场景进行推荐。S^2meta[14]提出了一种基于元学习的方法，思想和少样本学习类似。

2.冷启动市场营销任务

在推荐系统中每天会有大量新的市场营销任务来推广各种内容、广告等等。这些新的市场营销任务通常只会给有限的种子用户（对定向内容感兴趣的用户，可以理解为交互数据），如何根据少量种子用户进行更大规模的推广。MetaHeac[15]提出了一种基于元学习的方法，该方法同时可以建模多个市场营销任务之间的关系。

五、总结

本文主要介绍了算法层面的冷启动问题的解决方案。实际上解决冷启动问题仅仅依赖算法是不够的，还有很多其他途径来解决冷启动问题。比如产品可以制定一些产品策略，新用户加入时填表；up主上传视频时勾选合适的标签；模型的天级更新改为实时更新等等。最后，冷启动推荐需要高效地利用side information、有限的交互数据、Explore & Exploit。

参考文献

[1] DropoutNet: Addressing Cold Start in Recommender Systems. NeurIPS2017.

[2] Warm Up Cold-start Advertisements: Improving CTR Predictions via Learning to Learn ID Embeddings. SIGIR2019.

[3] Learning to Warm Up Cold Item Embeddings for Cold-start Recommendation with Meta Scaling and Shifting Networks. SIGIR2021.

[4] Knowledge-aware Graph Neural Networks with Label Smoothness Regularization for Recommender Systems. KDD2019.

[5] Cross-Domain Recommendation: An Embedding and Mapping Approach. IJCAI2017.

[6] Transfer-Meta Framework for Cross-domain Recommendation to Cold-Start Users. SIGIR2021.

[7] Multi-behavior Recommendation with Graph Convolutional Networks. SIGIR2020.

[8] Modeling the Sequential Dependence among Audience Multi-step Conversions with Multi-task Learning in Targeted Display Advertising. KDD2021.

[9] A Meta-Learning Perspective on Cold-Start Recommendations for Items. NeurIPS2017.

[10] MeLU: Meta-Learned User Preference Estimator for Cold-Start Recommendation. KDD2019.

[11] Meta-learning on Heterogeneous Information Networks for Cold-start Recommendation. KDD2020.

[12] A Contextual-Bandit Approach to Personalized News Article Recommendation. WWW2010.

[13] Policy Gradients for Contextual Recommendations. WWW2019.

[14] Sequential Scenario-Specific Meta Learner for Online Recommendation. KDD2019.

[15] Learning to Expand Audience via Meta Hybrid Experts and Critics for Recommendation and Advertising. KDD2021.

ide html python 推荐系统知识图谱

0 人点赞