论文阅读-----强化学习在推荐系统中的应用

2021-01-14 17:49:08 浏览数 (1)

Reinforcement Learning to Optimize Long-term User Engagement in Recommender Systems

看这篇文章主要是在知乎和腾讯云上看的,主要是文章发在KDD2019上没有下载渠道。这篇文章主要的亮点在于对feedback,dwellingtime,return backtime等的考虑来提高用用户的长期喜爱度。

首先利用log_data训练一个模拟器S-NET(采用监督学习,使其能够在未发生数据上有一个不错的generation),S-NET的主要功能是模拟对未有数据的输出,for example:强化学习在收集数据时会产生很多没有发生过的数据S ,S--input--》S-NET 得到feedback,dwellingtime,return back time等需要的参数。

offline--training:

state

F,D,BT,IS_LIKE=S-NET(state)

update state

store-transition(state,return,done,state_next)

sample data from store-transition

training-DQN

sample data from stor-transition

trianing-S-NET

0 人点赞