论文阅读9-----基于强化学习的推荐系统

2021-01-19 10:31:38 浏览数 (1)

Simulating User Feedback for Reinforcement Learning Based Recommendations

Abstract

With the recent advances in Reinforcement Learning (RL),there have been tremendous interests in employing RL fo recommender systems. However, directly training and evaluating a new RL-based recommendation algorithm needs to

collect users’ real-time feedback in the real system, which is time and efforts consuming and could negatively impact

on users’ experiences.

日常abstract操作,RL用于推荐系统很受欢迎,但是直接用RL推荐系统做线上测试和训练会伤害用户。

Thus, it calls for a user simulator that can mimic real users’ behaviors where we can pre-train and evaluate new recommendation algorithms. Simulating users’ behaviors in a dynamic system faces immense challenges –

所以我们来解决这个问题了,模拟有这些问题。

(i) the underlining item distribution is complex, and

item的分布十分复杂。

(ii) historical logs for each user are limited.

历史日志很有限。

In this paper, we develop a user simulator base on Generative Adversarial Net-

work (GAN).

所以我们开发了一个模拟器保证让你神魂颠倒。

To be specific, the generator captures the underlining distribution of users’ historical logs and generates realistic logs that can be considered as augmentations of real logs;

我们的模拟器可强了,generator可以使用历史数据生成真实数据(跟监督学习预测未发生的一样一样的)用于增加数据。

while the discriminator not only distinguishes real and fake logs but also predicts users’ behaviors.

discriminator也挺厉害的,不仅可以区分真的或是假的数据也可以用来预测用户行为。

The experimental results based on real-world e-commerce data demonstrate the effectiveness of the proposed simulator

实验证明了我们很厉害。

RL用于推荐系统,simulator用于模拟环境(说白了就是给推荐系统推荐的物品进行打分)RL用于推荐系统,simulator用于模拟环境(说白了就是给推荐系统推荐的物品进行打分)

introduction

一般introduction,1.都是什么事物在发展,是必须有前途的那种事物,2.好了这个事物出现了一个问题,这个这个问题会给这个事物带去什么害处,反正就是不解决就晚了,3.有的有,有的没有(开创性事物可能没有),但是说他们并不是说这个已经有的ideal的好处,而是它们有一大堆缺点4.好了,我们来了,我们的ideal既能解决问题,还没有那些副作用或是改进。

contributions:

日常吹比时间

1.我们提出了方法可以根据离线数据生成真实数据。(我们解决了问题)

2.提出基于那个方法的模型可以用于问题的解决。(有些不会这样写,单都基本一样,至少要三个contributions)

3.实验证明了我们的确很溜。(这个基本每一篇文章都有)

problem statement

这件非做不可的事有什么问题,拿几个符号表示一下就OK了

基本上就是我来了(state,action)我的奖励在哪儿呢,在哪儿呢,在哪儿呢基本上就是我来了(state,action)我的奖励在哪儿呢,在哪儿呢,在哪儿呢

proposed simulator

作者提出用GAN来弄一个模拟器,我先把模型图解释一通。

generator生成假的action(要很接近)形成很多(state,action)对用于discriminator的训练(尽力去区分真假美猴王,但是也必要输出最后的预测reward)E是item,而F是feedbackgenerator生成假的action(要很接近)形成很多(state,action)对用于discriminator的训练(尽力去区分真假美猴王,但是也必要输出最后的预测reward)E是item,而F是feedback

GENERATOR

计算I的公式计算I的公式

DISCRIMINATOR

每一个(state,action)的reward表示每一个(state,action)的reward表示
真的就是真的假的就是假的真的就是真的假的就是假的
这个是想要更加细分,细分到正,负或是无视反馈这个是想要更加细分,细分到正,负或是无视反馈
alpha控制一个度alpha控制一个度
我们希望我们弄的假的(state,action)不被判为假的,然后就是尽可能逼近真正的action我们希望我们弄的假的(state,action)不被判为假的,然后就是尽可能逼近真正的action
先训练generator监督学习那一块,再是distcriminator监督学习那一块,都搞好了就要生成假的数据了,真假美猴王大战先训练generator监督学习那一块,再是distcriminator监督学习那一块,都搞好了就要生成假的数据了,真假美猴王大战

好了好了又想学习推荐系统科研的小可爱们,但又不知道该怎样写代码的可以可我的github主页或是由中国人民大学出品的RecBole

https://github.com/xingkongxiaxia/Sequential_Recommendation_System 基于ptyorch的当今主流推荐算法

https://github.com/xingkongxiaxia/tensorflow_recommend_system 我还有基于tensorflow的代码

https://github.com/RUCAIBox/RecBole RecBole(各种类型的,超过60种推荐算法)

欢迎大家点小星星

0 人点赞