论文阅读2-----基于强化学习的推荐系统

2021-01-14 18:07:38 浏览数 (1)

AAAI

强化学习应用到推荐系统的三个主要问题：

1.massive state and action spaces.

特别多的状态和动作空间会造成较低的credit assignment problem and low quality reward signal.

文中的解决方法：

采用类似world model的方法去了解environment，从而更好的了解动作和状态，从而减轻massive state和massive action带来的问题。

2.High-variance environment

不想游戏中environment比较固定，推荐系统的环境更加的难以观察，并且reward来源于human更难得打分。

文中的解决方法：

把传统的state输入net得到value，文中采用先设定一个状态转移概率，在通过net得到value。这样消除了状态转移的不确定性，减轻了High-variance environment的影响。

3.unspecific reward setting in recommendation:

不像GYM中reward已经由环境设定好了，推荐系统中的reward来源于human的评分。如何通过一个设定的评分来最大化用户的满意度成为了问题。

文中的解决方法：

借鉴强化学习中的goal based RL来解决也这个问题。感觉reward有很多因素形成，那就弄很多歌goal就是。采用universial vaue function(可以学到其它goal形成的experience)

0 人点赞