WWW'22「微软」FeedRec:基于多反馈的新闻Feed推荐

2022-09-19 10:52:44 浏览数 (2)

关注我们,一起学习~

title:FeedRec: News Feed Recommendation with Various User Feedbacks link:https://arxiv.org/pdf/2102.04903.pdf code:https://github.com/wuch15/FeedRec from:WWW 2022

1. 导读

大多数现有的新闻推荐方法都依赖于隐式反馈,如点击来推断用户兴趣和模型训练。然而,点击行为通常包含大量噪音(误点击),无法帮助推断出复杂的用户兴趣,例如不喜欢。仅针对点击行为训练的feed推荐模型无法优化其他目标,例如用户参与度。

本文提出了一种新闻feed推荐方法,该方法可以利用各种用户反馈来增强用户兴趣建模和模型训练。

  • 设计了一个统一的用户建模框架,以结合各种显式和隐式用户反馈来推断积极和消极的用户兴趣。
  • 提出了一个从强到弱的注意力网络,它使用强反馈的表征从隐式弱反馈中提取正面和负面的用户兴趣,以实现准确的用户兴趣建模。
  • 提出了一个多反馈模型训练框架来学习参与感知的feed推荐模型。

2. 方法

2.1 用户建模

如图所示为FeedRec整理架构,该方法从用户的隐式和显式反馈中提取正向和负向的兴趣,从而进行后续feed信息的推荐。该方法考虑六种反馈:点击,跳过,分享,不喜欢,完成和快速关闭(对于停留页面时间短于T秒的行为归为这一类反馈),具体形式可以参考下图(论文中有具体例子)。

令反馈序列为其中N为序列长度,通过共享的编码器对行为进行编码得到对应的embedding为。然后通过transformer来捕获不同行为之间的关系,以序列表征E作为输入,输出,为了分别对不同的行为进行用户建模,这里将用户的行为序列按照行为类型进行分组,以“分享”为例表示为,同理可得(完成),(点击),(跳过),(快速关闭),(不喜欢)。

然后,将分组后的表征分别经过各自对应的transformer,发掘相同类型行为之间的关系,因为不同类型的行为序列的稀疏程度,嘈杂程度,重要程度都不同,所以需要分开编码。编码后用的embedding序列用R表示,以“分享”为例。基于每种反馈的表征序列,本节根据隐式弱反馈(例如点击)与更强的反馈(例如,分享和完成)提出了一个从强到弱的注意力网络。由于像分享和不喜欢这样的显式反馈通常是可靠的,可以直接将它们分别视为纯正反馈和负反馈。对它们应用两个独立的注意力网络来学习一个显式的正反馈表征 和一个显式的负反馈表征,公式如下:

然后使用显式正反馈来选择信息丰富的“完成”反馈,并构建隐式强正反馈的表示,公式如下:

同理用显式负反馈表征来构建隐式强负反馈“快速关闭”的表征,公式如下,

点击和跳过反馈通常是嘈杂的,这是因为点击不一定意味着喜欢或满意,那些看过但跳过的新闻也可能与用户兴趣相关。因此,需要从中提炼出真正的积极和消极的用户兴趣。根据它们与强反馈的相关性来选择点击和跳过反馈中的信息,以学习积极和消极的用户兴趣表征。使用 和的总和作为提取基于点击和跳过的弱积极兴趣的注意力查询(对于负向兴趣可同理使用,计算得到和),计算如下:

最后,是聚合层,先将显式正反馈聚合,公式如下,其中v是可学习参数,σ是sigmoid函数。

同理可以聚合显式负反馈,公式如下,同样根据上面的方法可以聚合隐式反馈(点击和跳过)的正负表征,用,表示。从而得到最终的表征为下式,表征前面的是对应的可学习参数。

2.2 新闻建模

本节主要是对FeedRec的新闻编码器(news encoder)进行介绍,这里对每一种反馈计算五中embedding

  • text embedding:利用transformer编码新闻的标题捕获其中的语义信息;
  • position embedding:对反馈所处位置进行编码;
  • feedback embedding:对反馈类型进行编码;
  • dwell time embedding:停留时间编码,使用量化函数 将实值停留时间

    0 人点赞