Reinforcement Learning to Optimize Long-term User Engagement in Recommender Systems
看这篇文章主要是在知乎和腾讯云上看的,主要是文章发在KDD2019上没有下载渠道。这篇文章主要的亮点在于对feedback,dwellingtime,return backtime等的考虑来提高用用户的长期喜爱度。
首先利用log_data训练一个模拟器S-NET(采用监督学习,使其能够在未发生数据上有一个不错的generation),S-NET的主要功能是模拟对未有数据的输出,for example:强化学习在收集数据时会产生很多没有发生过的数据S ,S--input--》S-NET 得到feedback,dwellingtime,return back time等需要的参数。
offline--training:
state
F,D,BT,IS_LIKE=S-NET(state)
update state
store-transition(state,return,done,state_next)
sample data from store-transition
training-DQN
sample data from stor-transition
trianing-S-NET