作者 | 上杉翔二 悠闲会 · 信息检索 整理 | NewBeeNLP
关于多模态和推荐系统融合的文章,我们之前有分享过一期:BOOM!推荐系统遇上多模态信息。
本期博文主要整理一下2021有意思的几篇文章。
MNDIN
- 论文:[CIKM2021] MultiHead MultiModal Deep Interest Recommendation Network
- 地址:https://arxiv.org/abs/2110.10205
首先是来自CIKM2021的文章,基于DIN模型的多模态信息优化。有关DIN模型不做赘述,传送门:注意力机制用于推荐系统问题(DIN,DIEN,BERT4Rec,PRM)。其主要是一种基于Attention的模型。
本篇文章的作者认为现有的推荐系统技术对模型网络结构的优化较多,但对丰富推荐模型特征的研究较少,即不能很好的利用多模态信息。因此作者基于DIN,提出了multi-head multi-modal deep interest recommendation network (MMDIN)网络,即增加了多头模态和多模态模块。
这样做即可以丰富模型可以使用的特征集,同时增强模型的交叉组合和拟合能力。模型结构如下图:
MMDIN模型主要包括三个关键模块。
- 多模态模块(图中的红色虚线框)。主要负责提取海报的颜色特征,如提取电影海报图片的饱和度、亮度、色度、空间频率、RGB值等的均值和标准差特征(注作者主要使用MovieLens dataset)。然后进行one-hot嵌入,再分别连接到电影特征和用户特征即可。
- 注意力模块(图中的黄色虚线框)。与DIN模型基本相同,输入主要分为两部分:一部分是用户最近评分的电影,另一部分是候选电影。注意力的计算主要是针对于历史的Movies和候选Movies进行外积来得到。
- Multi-Head ResNet 模块(图中的紫色虚线框的部分)。将用户特征、候选电影特征、加权和合并用户历史评分特征和场景特征连接并扁平,然后输入多头ResNet模块,进行最终的电影评分预测。
HyperCTR
- 论文:[CIKM2021] Click-Through Rate Prediction with Multi-Modal Hypergraphs
- 地址:https://arxiv.org/abs/2109.02398
来自CIKM2021的点击率预测的文章,博主个人觉得做的比较复杂。这篇文章与多模态信息的结合点是,现有的CTR预测工作只关注于从单模态特征进行的两两交互建模,但很少有人去利用广泛可用的多模态特性,一般来说多模态信息可以为模型提供更多的补充信息,而这是无法单独通过单模态建模获得的。
但挑战在于,CTR预测中的用户和项目交互很稀疏,那么在考虑多模态的时候,如item的视觉、声学和文本特征时,数据集的稀疏性会增加三倍。因此,如何在不影响多模态特征性能的情况下,有效地缓解多模态特征所引入的稀疏性问题是解决该问题的关键。因此作者提出的解决方案会很有意思,利用Hypergraph超图来解决这一问题。
超图作为一种特殊的Graph,它可以连接两个以上的节点,通过该模型可以缓解各模态下用户与项之间的稀疏性问题。如上图的示意图,展示了modality-originated hypergraph的构建,即用户