【深度强化学习实验室】& 【小小挖掘机】联合打造
编辑:DeepRL
推荐系统是我们日常生活中使用最频繁的工具之一,以内容推荐著称的今日头条等都在广泛研究,然而推荐系统的难度却非常大,精准推荐一直是一个非常棘手的问题,目前有很多解决方法,今天为大家介绍的是将强化学习应用于新闻推荐中的应用。
由于新闻功能和用户偏好的动态性质,在线个性化新闻推荐是一个极具挑战性的问题。作者提出了一个基于深度Q学习的推荐框架,该框架可以显式地模拟未来的奖励。考虑将用户返回模式作为单击/不单击标签的补充,以捕获更多用户反馈信息。主要贡献了:
- 提出了一个强化学习框架来进行在线个性化新闻推荐。与以前的研究不同,此框架采用DQN结构,可以照顾到立即和将来的回报。尽管我们专注于新闻推荐,但是我们的框架可以推广到许多其他推荐问题。
- 应用了更有效的探索方法“Dueling Bandit Gradient Descent”,避免了经典探索方法(例如ϵ-贪婪和上置信界)引起的推荐准确性下降。
- 系统已在线部署在商业新闻推荐应用程序中。
具体的模型结构如如下:
为了预测用户是否会单击一条特定的新闻,我们构建了四类功能:
- 新闻功能,包括417维第一热点功能,用于描述此新闻中是否出现某些属性,包括标题,提供者,排名,实体名称,类别,主题类别以及最近1小时,6小时,24小时的点击次数,分别为1周和1年。
- 用户功能,主要描述用户分别在1小时,6小时,24小时,1周和1年内单击的新闻的功能(即标题,提供者,排名,实体名称,类别和主题类别)。每个时间粒度也有一个总点击计数。因此,总共将有413×5 = 2065个尺寸。
- 用户新闻功能。这25个维度的特征描述了用户与某则新闻之间的互动,即实体(也包括类别,主题类别和提供者)出现在用户阅读历史中的频率。
- 上下文功能。这些32维特征描述新闻请求发生时的上下文,包括时间,工作日和新闻的新鲜度(请求时间与新闻发布时间之间的时间差)。
推荐系统的评估方法:
公众部分内容列表如下:
第35篇:α-Rank算法之DeepMind及Huawei的改进
第34篇:DeepMind-102页深度强化学习PPT(2019)
第33篇:全网首发|| 最全深度强化学习资料(永久更新)
第32篇:腾讯AI Lab强化学习招聘(正式/实习)
第31篇:强化学习,路在何方?
第30篇:强化学习的三种范例
第29篇:框架ES-MAML:进化策略的元学习方法
第28篇:138页“策略优化”PPT--Pieter Abbeel
第27篇:迁移学习在强化学习中的应用及最新进展
第26篇:深入理解Hindsight Experience Replay
第25篇:10项【深度强化学习】赛事汇总
第24篇:DRL实验中到底需要多少个随机种子?
第23篇:142页"ICML会议"强化学习笔记
第22篇:通过深度强化学习实现通用量子控制
第21篇:《深度强化学习》面试题汇总
第20篇:《深度强化学习》招聘汇总(13家企业)
第19篇:解决反馈稀疏问题之HER原理与代码实现
第18篇:"DeepRacer" —顶级深度强化学习挑战赛
第17篇:AI Paper | 几个实用工具推荐
第16篇:AI领域:如何做优秀研究并写高水平论文?
第15篇:DeepMind开源三大新框架!
第14篇:61篇NIPS2019深度强化学习论文及部分解读
第13篇:OpenSpiel(28种DRL环境 24种DRL算法)
第12篇:模块化和快速原型设计的Huskarl DRL框架
第11篇:DRL在Unity自行车环境中配置与实践
第10篇:解读72篇DeepMind深度强化学习论文
第9篇:《AutoML》:一份自动化调参的指导
第8篇:ReinforceJS库(动态展示DP、TD、DQN)
第7篇:10年NIPS顶会DRL论文(100多篇)汇总
第6篇:ICML2019-深度强化学习文章汇总
第5篇:深度强化学习在阿里巴巴的技术演进
第4篇:深度强化学习十大原则
.......
........
第8期论文:2019-11-18(5篇)
第7期论文:2019-11-15(6篇)
第6期论文:2019-11-08(2篇)
第5期论文:2019-11-07(5篇,一篇DeepMind发表)
第4期论文:2019-11-05(4篇)
第3期论文:2019-11-04(6篇)
第2期论文:2019-11-03(3篇)
第1期论文:2019-11-02(5篇)