Reinforcement Learning with a Disentangled Universal Value Function for Item Recommendation
AAAI
强化学习应用到推荐系统的三个主要问题:
1.massive state and action spaces.
特别多的状态和动作空间会造成较低的credit assignment problem and low quality reward signal.
文中的解决方法:
采用类似world model的方法去了解environment,从而更好的了解动作和状态,从而减轻massive state和massive action带来的问题。
2.High-variance environment
不想游戏中environment比较固定,推荐系统的环境更加的难以观察,并且reward来源于human更难得打分。
文中的解决方法:
把传统的state输入net得到value,文中采用先设定一个状态转移概率,在通过net得到value。这样消除了状态转移的不确定性,减轻了High-variance environment的影响。
3.unspecific reward setting in recommendation:
不像GYM中reward已经由环境设定好了,推荐系统中的reward来源于human的评分。如何通过一个设定的评分来最大化用户的满意度成为了问题。
文中的解决方法:
借鉴强化学习中的goal based RL来解决也这个问题。感觉reward有很多因素形成,那就弄很多歌goal就是。采用universial vaue function(可以学到其它goal形成的experience)