推荐系统遇上深度强化学习,会有怎样的火花?

2019-12-04 11:42:55 浏览数 (1)

【深度强化学习实验室】& 【小小挖掘机】联合打造

编辑:DeepRL

推荐系统是我们日常生活中使用最频繁的工具之一,以内容推荐著称的今日头条等都在广泛研究,然而推荐系统的难度却非常大,精准推荐一直是一个非常棘手的问题,目前有很多解决方法,今天为大家介绍的是将强化学习应用于新闻推荐中的应用。

由于新闻功能和用户偏好的动态性质,在线个性化新闻推荐是一个极具挑战性的问题。作者提出了一个基于深度Q学习的推荐框架,该框架可以显式地模拟未来的奖励。考虑将用户返回模式作为单击/不单击标签的补充,以捕获更多用户反馈信息。主要贡献了:

  • 提出了一个强化学习框架来进行在线个性化新闻推荐。与以前的研究不同,此框架采用DQN结构,可以照顾到立即和将来的回报。尽管我们专注于新闻推荐,但是我们的框架可以推广到许多其他推荐问题。
  • 应用了更有效的探索方法“Dueling Bandit Gradient Descent”,避免了经典探索方法(例如ϵ-贪婪和上置信界)引起的推荐准确性下降。
  • 系统已在线部署在商业新闻推荐应用程序中。

具体的模型结构如如下:

为了预测用户是否会单击一条特定的新闻,我们构建了四类功能:

  • 新闻功能,包括417维第一热点功能,用于描述此新闻中是否出现某些属性,包括标题,提供者,排名,实体名称,类别,主题类别以及最近1小时,6小时,24小时的点击次数,分别为1周和1年。
  • 用户功能,主要描述用户分别在1小时,6小时,24小时,1周和1年内单击的新闻的功能(即标题,提供者,排名,实体名称,类别和主题类别)。每个时间粒度也有一个总点击计数。因此,总共将有413×5 = 2065个尺寸。
  • 用户新闻功能。这25个维度的特征描述了用户与某则新闻之间的互动,即实体(也包括类别,主题类别和提供者)出现在用户阅读历史中的频率。
  • 上下文功能。这些32维特征描述新闻请求发生时的上下文,包括时间,工作日和新闻的新鲜度(请求时间与新闻发布时间之间的时间差)。

推荐系统的评估方法:

公众部分内容列表如下:

第35篇:α-Rank算法之DeepMind及Huawei的改进

第34篇:DeepMind-102页深度强化学习PPT(2019)

第33篇:全网首发|| 最全深度强化学习资料(永久更新)

第32篇:腾讯AI Lab强化学习招聘(正式/实习)

第31篇:强化学习,路在何方?

第30篇:强化学习的三种范例

第29篇:框架ES-MAML:进化策略的元学习方法

第28篇:138页“策略优化”PPT--Pieter Abbeel

第27篇:迁移学习在强化学习中的应用及最新进展

第26篇:深入理解Hindsight Experience Replay

第25篇:10项【深度强化学习】赛事汇总

第24篇:DRL实验中到底需要多少个随机种子?

第23篇:142页"ICML会议"强化学习笔记

第22篇:通过深度强化学习实现通用量子控制

第21篇:《深度强化学习》面试题汇总

第20篇:《深度强化学习》招聘汇总(13家企业)

第19篇:解决反馈稀疏问题之HER原理与代码实现

第18篇:"DeepRacer" —顶级深度强化学习挑战赛

第17篇:AI Paper | 几个实用工具推荐

第16篇:AI领域:如何做优秀研究并写高水平论文?

第15篇:DeepMind开源三大新框架!

第14篇:61篇NIPS2019深度强化学习论文及部分解读

第13篇:OpenSpiel(28种DRL环境 24种DRL算法)

第12篇:模块化和快速原型设计的Huskarl DRL框架

第11篇:DRL在Unity自行车环境中配置与实践

第10篇:解读72篇DeepMind深度强化学习论文

第9篇:《AutoML》:一份自动化调参的指导

第8篇:ReinforceJS库(动态展示DP、TD、DQN)

第7篇:10年NIPS顶会DRL论文(100多篇)汇总

第6篇:ICML2019-深度强化学习文章汇总

第5篇:深度强化学习在阿里巴巴的技术演进

第4篇:深度强化学习十大原则

.......

........

第8期论文:2019-11-18(5篇)

第7期论文:2019-11-15(6篇)

第6期论文:2019-11-08(2篇)

第5期论文:2019-11-07(5篇,一篇DeepMind发表)

第4期论文:2019-11-05(4篇)

第3期论文:2019-11-04(6篇)

第2期论文:2019-11-03(3篇)

第1期论文:2019-11-02(5篇)

0 人点赞