推荐系统遇上深度强化学习，会有怎样的火花？

【深度强化学习实验室】& 【小小挖掘机】联合打造

编辑：DeepRL

推荐系统是我们日常生活中使用最频繁的工具之一，以内容推荐著称的今日头条等都在广泛研究，然而推荐系统的难度却非常大，精准推荐一直是一个非常棘手的问题，目前有很多解决方法，今天为大家介绍的是将强化学习应用于新闻推荐中的应用。

由于新闻功能和用户偏好的动态性质，在线个性化新闻推荐是一个极具挑战性的问题。作者提出了一个基于深度Q学习的推荐框架，该框架可以显式地模拟未来的奖励。考虑将用户返回模式作为单击/不单击标签的补充，以捕获更多用户反馈信息。主要贡献了：

提出了一个强化学习框架来进行在线个性化新闻推荐。与以前的研究不同，此框架采用DQN结构，可以照顾到立即和将来的回报。尽管我们专注于新闻推荐，但是我们的框架可以推广到许多其他推荐问题。
应用了更有效的探索方法“Dueling Bandit Gradient Descent”，避免了经典探索方法（例如ϵ-贪婪和上置信界）引起的推荐准确性下降。
系统已在线部署在商业新闻推荐应用程序中。

具体的模型结构如如下：

为了预测用户是否会单击一条特定的新闻，我们构建了四类功能：

新闻功能，包括417维第一热点功能，用于描述此新闻中是否出现某些属性，包括标题，提供者，排名，实体名称，类别，主题类别以及最近1小时，6小时，24小时的点击次数，分别为1周和1年。
用户功能，主要描述用户分别在1小时，6小时，24小时，1周和1年内单击的新闻的功能（即标题，提供者，排名，实体名称，类别和主题类别）。每个时间粒度也有一个总点击计数。因此，总共将有413×5 = 2065个尺寸。
用户新闻功能。这25个维度的特征描述了用户与某则新闻之间的互动，即实体（也包括类别，主题类别和提供者）出现在用户阅读历史中的频率。
上下文功能。这些32维特征描述新闻请求发生时的上下文，包括时间，工作日和新闻的新鲜度（请求时间与新闻发布时间之间的时间差）。

推荐系统的评估方法：

公众部分内容列表如下：

第35篇：α-Rank算法之DeepMind及Huawei的改进

第34篇：DeepMind-102页深度强化学习PPT(2019）

第33篇：全网首发|| 最全深度强化学习资料(永久更新)

第32篇：腾讯AI Lab强化学习招聘(正式/实习)

第31篇：强化学习，路在何方？

第30篇：强化学习的三种范例

第29篇：框架ES-MAML：进化策略的元学习方法

第28篇：138页“策略优化”PPT--Pieter Abbeel

第27篇：迁移学习在强化学习中的应用及最新进展

第26篇：深入理解Hindsight Experience Replay

第25篇：10项【深度强化学习】赛事汇总

第24篇：DRL实验中到底需要多少个随机种子？

第23篇：142页"ICML会议"强化学习笔记

第22篇：通过深度强化学习实现通用量子控制

第21篇：《深度强化学习》面试题汇总

第20篇：《深度强化学习》招聘汇总(13家企业）

第19篇：解决反馈稀疏问题之HER原理与代码实现

第18篇："DeepRacer" —顶级深度强化学习挑战赛

第17篇：AI Paper | 几个实用工具推荐

第16篇：AI领域：如何做优秀研究并写高水平论文？

第15篇：DeepMind开源三大新框架！

第14篇：61篇NIPS2019深度强化学习论文及部分解读

第13篇：OpenSpiel(28种DRL环境 24种DRL算法)

第12篇：模块化和快速原型设计的Huskarl DRL框架

第11篇：DRL在Unity自行车环境中配置与实践

第10篇：解读72篇DeepMind深度强化学习论文

第9篇：《AutoML》：一份自动化调参的指导

第8篇：ReinforceJS库（动态展示DP、TD、DQN）

第7篇：10年NIPS顶会DRL论文(100多篇)汇总

第6篇：ICML2019-深度强化学习文章汇总

第5篇：深度强化学习在阿里巴巴的技术演进

第4篇：深度强化学习十大原则

.......

........

第8期论文：2019-11-18(5篇)

第7期论文：2019-11-15(6篇)

第6期论文：2019-11-08(2篇)

第5期论文：2019-11-07(5篇，一篇DeepMind发表)

第4期论文：2019-11-05(4篇)

第3期论文：2019-11-04(6篇)

第2期论文：2019-11-03(3篇)

第1期论文：2019-11-02(5篇)

强化学习推荐系统

0 人点赞