关注我们,一起学习~
标题:Evolution of Popularity Bias: Empirical Study and Debiasing 链接:https://arxiv.org/pdf/2207.03372.pdf 代码:https://github.com/Zziwei/Popularity-Bias-inDynamic-Recommendation 会议:KDD 2022 workshop 公司/学校:乔治梅森大学,facebook,amazon
1. 导读
本文主要针对流行度偏差问题而提出的相关方法,大多数现有工作将这个问题置于静态设置中,仅针对带有记录数据的单轮推荐分析偏差。这些工作没有考虑到现实世界推荐过程的动态特性,留下了几个重要的研究问题没有得到解答:
- 流行度偏差如何在动态场景中演变?
- 动态推荐过程中的独特因素对偏差有何影响?
- 如何在这个长期的动态过程中去偏?
本文通过模拟实验进行实证研究,分析动态场景中的流行度偏差,并提出一种动态去偏策略和一种利用假阳性信号去偏的新型假阳性校正 False Positive Correction (FPC) 方法。
2. 问题定义
2.1 推荐系统的动态过程
用户集合
和项目集合
,每个用户都有一个用户喜欢的商品子集(系统未知),将喜欢的商品 i 的匹配用户的总数定义为 i 的受众规模,表示为
。在开始时,对于每个用户,系统随机曝光K个商品以引导用户,从而收集初始用户-商品点击样本 D。基于初始数据 D,可以第一个推荐模型
。然后,随着用户不断来到系统,系统使用最新模型提供 K个排序后的商品作为推荐并收集新的用户商品点击。之后,系统会重新训练推荐模型,并收集到现在为止的所有点击次数。
2.2 流行度偏差
采用最近提出的流行度-机会偏差,它评估流行和不受欢迎的商品是否收到与其真实受众规模成比例的点击。受欢迎和不受欢迎的商品是否会获得相似的真阳性率?在第t轮迭代后的动态推荐过程,为了量化流行度偏差,需要首先计算每个商品的真阳性率。假设商品i从开始到迭代t总共收到了
次点击,i的真实阳性率为
。然后,可以使用基尼系数来衡量与迭代时商品流行度相对应的真阳性率,公式如下,其中商品索引从 1 到 M 按受众人数非降序排列 (
)。使用
来量化流行度偏差,一个小的
表示低偏差;
表示真阳性率与物品受众规模正相关;
2.3 流行度偏差的影响因素
2.3.1 固有的受众规模不平衡
商品本质上具有不同的受众规模,这种不平衡可能会导致流行度偏差。商品的受众规模通常遵循长尾分布,这意味着少数商品的受众规模非常大,而大多数商品的受众规模较小。这种固有的不平衡将导致参与数据不平衡(如点击),即使每个商品都被无偏见随机推荐者同等推荐。
2.3.2 模型偏差
推荐模型倾向于将训练数据中点击次数较多的商品排名高于点击次数较少的商品,即使用户同样喜欢它们。这是基于协同过滤的算法的普遍缺陷,如果训练数据不平衡,会直接导致流行度偏差。
2.3.3 闭环反馈
未来模型是通过从先前模型的推荐中收集的点击数据来训练的。这样,过去产生的流行度偏差就会累积,随着反馈循环的继续,导致后续模型中的偏差更多。
3. 分析
3.1 流行度变差的演变
探究随着轮次的不断增加,流行度偏差将如何演变,分别采用MF,随机推荐,按照流行度进行排序,累积点击次数和Gini系数的结果如下图所示,MF 的效用明显高于流行和随机方法。此外,根据流行度排序的方法的累积点击次数先增加后收敛,经过一些迭代后,随机方法甚至可以优于流行度方法,这说明了流行度偏差的危害。其次,在右图中:(i)随机方法产生接近零的偏差;(ii) 流行方法在整个实验中产生高 Gini 值;(iii) MF 一开始使Gini 快速增加,然后将这个高 Gini 值保持到实验结束。
3.2 三个因素的影响
作者通过实验模拟上述三个因素对推荐系统的影响。固有的受众规模不平衡和模型偏差是流行偏差的主要来源;而当存在固有的受众规模不平衡和模型偏差时,闭环反馈循环会加剧偏差。此外,更高的训练数据密度和更大的不平衡会增加模型偏差的影响。具体实验设置和实验结果可前往论文第4节。
4. 方法
现有工作通过减少模型偏差来减少流行度偏差,如对用户-商品对的预测分数重新缩放得到下式,
个去偏强度超参数 α 是一个常数。然而,模型偏差与训练数据密度和不平衡成正比。因此,本文提出通过动态推荐过程从 0 逐渐增加 α,增加步长为
。大多数现有的流行度去偏方法都包括这样的去偏强度权重α。
同时,对于高偏差的情况,热门商品会过度推荐给不匹配的用户产生假阳性信号,如果我们可以根据这些假阳性信号来纠正推荐,就可以降低流行度偏差。因此,作者提出了 False Positive Correction(FPC)方法,以概率的方式根据误报信号来校正预测分数。假设我们要预测用户 u 和项目 i 之间的相关性
,并且已经从模型中预测了分数
。假设物品i之前被推荐给u用户F次并且从未被点击过,将这些F次推荐的排名位置记录为
。因此,假阳性信号可以表示为
,其中
表示用户u是否点击了排名在位置k的项目i。进一步将u喜欢i的概率表示为
,它是需要估计得到的,这里可以采用模型预测分数
当然也可以使用去偏后的预估值
。
流行度偏差建模,然后,给定假阳性信号,可以计算u喜欢i的条件概率为下式,
5. 结果
右图显示,与 MF 相比,Scale 和 DScale 都减少了偏差。但是,它们显示出非常不同的模式:DScale 在开始时增加了偏差,然后不断减小偏差;而Scale不断增加偏差,最终超过了DScale。这是因为随着实验的继续,训练数据的密度和不平衡性会增加,从而导致更高的模型偏差和需要更多的去偏强度。因此,随着偏置的增加而动态增加去偏置强度可以产生更好的结果。
右图显示 FPC 在开始时增加了偏差,但随后不断降低流行度偏差。偏差的减少很显着。另一方面,左图显示,与MF相比,FPC甚至可以增加实验期间的点击次数。这是因为通过缓解流行度偏差,可以防止热门商品被过度推荐给不匹配的用户,并且可以准确推荐更多不受欢迎的商品并获得点击。因此,这是一个双赢的局面,用户和项目提供者都可以从中受益。
交流群:点击“联系作者”--备注“研究方向-公司或学校”