嘿,记得给“机器学习与推荐算法”添加星标
前言
文章于2020年发表在SIGIR上,提出了一个内容感知的神经哈希协同过滤方法(NeuHash-CF模型)。论文主要对DCMF[1]和DDL[2]两个模型进行了对比,DCMF和DDL这两个模型尽管在标准的推荐设置和冷启动设置下都获得了较好的性能提升,但是这两个模型在为冷物品生成哈希码时所用方式与非冷物品所用方式不同。换句话说,这两个模型均不是学习在冷启动设置下的哈希码,而是将其作为一个子目标。在冷启动设置下,如何将内容特征映射到哈希码中,这样一种方式极大地限制了哈希码在冷启动设置下的泛化能力。因此,作者基于这两个模型的不足,提出了NeuHash-CF模型。
论文:https://arxiv.org/pdf/2006.00617.pdf
代码:https://github.com/casperhansen/NeuHash-CF
模型
图1是模型的整体框架,模型由两个联合组件构成,分别用来学习用户和物品的哈希码:
用户侧编码:
用户哈希组件直接从用户ID中学习用户哈希码。
其中 为学到的用户特征,为用户特征维度,为用户的one-hot编码,因此,根据得到用户的每一位哈希码:
其中为0.5. 先前有关语义哈希的工作表明,在解码之前将随机噪声注入哈希码可提高鲁棒性,并导致更通用的哈希码。
物品侧编码:
根据物品的内容信息对物品进行编码得到物品的哈希码:
其中为sigmoid函数,和是学习的权重和偏置,为elementwise multiplication,用于归一化内容单词的重要性权重。基于得到物品的每一位哈希码:
用户物品评分解码:
旨在重构原始用户物品评分,这对应于计算公式(9)中的条件对数似然,即:
其中KL散度等价于正则项。
作者假设用户对物品的评分均值服从高斯分布,因此:
极大化上述公式等价于极小化均值平方误差(MSE),即最小化。
其中为归一化后的评分值:
物品内容解码:
旨在给定公式(10)中生成的物品哈希码时,重构物品的内容特征,即。
其中:
NeuHash-CF模型通过极大化公式(9)和(10)的下限值的组合来以端到端的方式进行训练。
其中对应于公式(9)的下限,对应于公式(10)的下限,为可调的超参数。
实验
数据集
论文中所提到的物品内容信息为评论信息。
实验设计
- In-matrix regression:不存在冷物品问题,训练集:测试集=5:5,从训练集中挑出15%作为验证集。
- Out-of-matrix regression:冷启动设置,按照被评过分的数量将物品从大到小排列,按照5:5的比例划分为训练集和测试集,同样从训练集中挑出15%的物品组成验证集。
评测指标
- Normalized Discounted Cumulative Gain(NDCG)
- Mean Reciprocal Rank(MRR)
对比方法
- DCMF[1]
- DDL[2]
- DCF[3]
- NeuHash-CF/no.C:不包含内容信息的NeuHash-CF模型,学习物品的哈希码时与学习用户的哈希码类似,仅利用物品ID信息。
- FM[4]:级联用户ID one-hot编码,物品ID one-hot编码和内容特征。
- MF[5]
实验结果
从表2和表3中可以看出,不论是标准设置下还是冷启动设置下,论文所提模型的性能在基于哈希学习的协同过滤模型中均为最优,并且与实值模型FM和MF之间的性能gap也较小。
表4为在冷启动设置下更改参与训练的物品数比例,当参与训练的物品数目越多,模型的性能也越好。
图2展现出了基于哈希模型的效率优势。
接下来是我觉得论文相较于之前的哈希协同过滤模型最有意思的两个发现:
图3研究了每个用户平均物品流行度对模型性能的影响。作者计算每个用户评过分的物品的流行度进行升序排序,通过图3发现由于流行度高的物品经常出现在训练集中,因此这些物品有着更好的表示能力。相较于实值模型,基于哈希的方法在较低流行度的用户上有较大的性能gap,这是因为平均物品受欢迎程度较低的用户具有更专业的偏好,从而从实值表示形式的更高表示能力中受益更多。
图4研究了每个用户评分过的物品的数量对模型性能的影响。作者按照用户评过分的物品数目进行排序,通过图4发现在评过许多物品的用户上,基于哈希的方法与实值模型有较大的性能gap,这是因为评过许多物品的用户拥有着更加广泛的兴趣爱好,哈希码不足以充分表示用户的偏好,因此在这些用户上基于哈希的方法性能较差。
参考文献
[1] Defu Lian, Rui Liu, Yong Ge, Kai Zheng, Xing Xie, and Longbing Cao. 2017. Discrete Content-aware Matrix Factorization. In ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. 325–334.
[2] Yan Zhang, Hongzhi Yin, Zi Huang, Xingzhong Du, Guowu Yang, and Defu Lian. 2018. Discrete Deep Learning for Fast Content-Aware Recommendation. In ACM International Conference on Web Search and Data Mining. 717–726.
[3] Hanwang Zhang, Fumin Shen, Wei Liu, Xiangnan He, Huanbo Luan, and Tat- Seng Chua. 2016. Discrete collaborative filtering. In International ACM SIGIR Conference on Research and Development in Information Retrieval. 325–334.
[4] Steffen Rendle. 2010. Factorization machines. In International Conference on Data Mining. IEEE, 995–1000.
[5] Yehuda Koren, Robert Bell, and Chris Volinsky. 2009. Matrix Factorization Techniques for Recommender Systems. Computer 42, 8 (Aug. 2009), 30–37.