论文阅读2-----基于强化学习的推荐系统

2021-01-14 18:07:38 浏览数 (1)

Reinforcement Learning with a Disentangled Universal Value Function for Item Recommendation

AAAI

强化学习应用到推荐系统的三个主要问题:

1.massive state and action spaces.

特别多的状态和动作空间会造成较低的credit assignment problem and low quality reward signal.

文中的解决方法:

采用类似world model的方法去了解environment,从而更好的了解动作和状态,从而减轻massive state和massive action带来的问题。

2.High-variance environment

不想游戏中environment比较固定,推荐系统的环境更加的难以观察,并且reward来源于human更难得打分。

文中的解决方法:

把传统的state输入net得到value,文中采用先设定一个状态转移概率,在通过net得到value。这样消除了状态转移的不确定性,减轻了High-variance environment的影响。

3.unspecific reward setting in recommendation:

不像GYM中reward已经由环境设定好了,推荐系统中的reward来源于human的评分。如何通过一个设定的评分来最大化用户的满意度成为了问题。

文中的解决方法:

借鉴强化学习中的goal based RL来解决也这个问题。感觉reward有很多因素形成,那就弄很多歌goal就是。采用universial vaue function(可以学到其它goal形成的experience)

background

universial vaue functionuniversial vaue function

proposed approach

0 人点赞