工业中常用的推荐算法其实并不像论文中那么复杂,大多数的时候是稳定的模型、充分的特征工程和各种精妙的业务策略等。当然,如果你想,也可以做的很复杂....大部分时间读论文是在拓展思路并结合自身面临的问题去复现或者再创造,本文盘一盘在思路枯竭的时候,还有哪些论文可以值得一读。当然,本文是个人经验和阅读偏好的一些总结,没出现的也不代表不值得一读,如果有分享的论文,可以在评论区贴出来,大家一起学习哦~
01
Collaborative Filtering
Recommender Systems
关于协同过滤最经典的综述,近20年引用量超过1000的经典论文。
02
The Wisdom of The Few
看到这么个有吸引力的名字,你不会觉得它是一篇学术论文,但实际上,它是的。这是2009年Amatriain等人发表在ACM的一篇关于推荐系统的文章。所谓少数人的智慧,实际指是的作者提出的基于专家的协同过滤在某些方面要优胜于传统的CF算法。
之所以要提出专家CF的算法取代传统的CF,是基于传统CF的一些弊病,比如数据的稀疏性,数据噪声以及计算量的庞大等等,而正是这些数据上的原因导致传统 CF算法推荐多样性不足、推荐不准确以及推荐可扩展性不良好等种种问题。具体的可以读一下阿稳的文章[参考资料1],解析的很详细。
03
Item-Based
Collaborative Filtering
Recommendation Algorithms
Iterm-based的基本思想是预先根据所有用户的历史偏好数据计算物品之间的相似性,然后把与用户喜欢的物品相类似的物品推荐给用户。还是以之前的例子为例,可以知道物品a和c非常相似,因为喜欢a的用户同时也喜欢c,而用户A喜欢a,所以把c推荐给用户A。
04
Restricted Boltzmann Machines
for Collaborative Filtering
大多数现有的协同过滤方法无法处理非常大的数据集。在本文中,我们展示了如何使用一种称为受限玻尔兹曼机器(RBM)的两层无向图形模型来对表格数据(tabular data)进行建模,如用户对电影的评分。目前Netflix使用的主要推荐算法之一。
在本文中,作者使用了一中两层无向图形模型,将受限玻尔兹曼机器延伸到为表格或计数数据进行建模。在这些模型中使用最大似然进行学习是很困难的,但是论文的研究表明,学习可以通过跟踪一个称为“对比分歧”(Contrastive Divergence)的不同目标函数的梯度的近似来实现。
05
LFM
Factorization Meets the Neighborhood: a Multifaceted Collaborative Filtering Model ,LFM算法是属于隐含语义模型的算法,不同于基于邻域的推荐算法。它将评分矩阵分解为 item-feature 和 user-feature矩阵,feature数量事先人工确定,但是这两个矩阵参数未知,首先随机选取参数,再以此梯度下降迭代即可得到。
06
ConvMF
Convolutional Matrix Factorization for Document Context-Aware Recommendation,一种文档上下文环境设置推荐模型,卷积矩阵因式分解(ConvMF),通过利用卷积神经网络(CNN)捕获项目描述文档的上下文信息,进一步提高了评分预测精度。ConvMF正是将CNN无缝集成到PMF中,而PMF通常用于推荐任务。综合模式遵循推荐目标,最终有效地利用协作信息和上下文信息。因此,即使评分数据非常稀疏,ConvMF也能准确地预测未知的评分。
07
Personalized Tag Recommendation
Pairwise Interaction Tensor Factorization for Personalized Tag Recommendation,个性化标签推荐是向用户推荐标签列表以注释(例如描述)项的任务。一个例子是音乐网站,用户想要标记一首歌,系统推荐他一个关键字列表,用户可以使用这个歌曲。为了推断推荐列表,个性化标签推荐器可以使用系统的历史数据,即过去的标记行为。例如,推荐者可以利用该用户过去给其他(类似)项目的标签,或者类似用户对类似项目所给予的相似标签。
08
Recommendations
Item-to-Item
Collaborative Filtering
亚马逊的经典论文,其他的论文其实都是在这基础上建立起来的。在Amazon,工程师们利用推荐算法以其在电子商务网站的用途而著称,它们利用有关一个顾客的兴趣作为输入,来产生一个推荐商品的列表。很多应用仅仅使用顾客购买并明确表示代表其兴趣的商品,但它们也可以利用其他属性,包括已浏览的商品、人口统计特征数据、主题兴趣,以及偏爱的艺术家。
大多数推荐算法,都始于先找出一个顾客集合,他们买过和评级过的商品,与当前用户买过和评级过的商品有重叠。算法把来自这些相似顾客的商品聚集起来,排除该用户已经购买过或评级过的商品,并向该用户推荐其余的商品。
09
Matrix Factorization
Techniques for RS
Matrix Factorization Techniques for Recommender Systems 一文是一篇在推荐系统领域里非常经典、频繁被引用的论文。该论文于2009年发表在IEEE下的“COMPUTER”期刊上,是推荐系统领域第一篇比较正式、全面介绍融合了机器学习技术的矩阵分解算法,对于近几年基于矩阵分解的推荐算法的研究起到了非常大的影响,一作是雅虎的研究人员Y.Koren。虽然该篇论文在推荐系统领域有着很重大的影响,但是论文所介绍的核心算法无论是在理论理解还是编程实现上都是比较容易的,这也符合“一个好的数学模型一定是简单的”的原则。
参考资料
- https://zhuanlan.zhihu.com/p/27918429
- https://www.cin.ufpe.br/~idal/rs/Amazon-Recommendations.pdf
- https://datajobs.com/data-science-repo/Recommender-Systems-[Netflix].pdf