作者:九羽
在清洗数据构造正负样本时,由于日志的延迟上报问题,在点击事件的问题中构造样本时,往往会出现将曝光未点击数据误以为是负样本的情况,可真实的负样本真的是这样吗?
Facebook Embedding召回中的负样本
在Facebook的《Embedding based Retrieval in Facebook Search》论文中,
在训练练数据挖掘方面,Facebook基于召回指标验证召回流程中不同正负样本的选择策略。
针对以用户点击为正样本时的负样本选择:
- 从文档池随机选取作为负样本,即easy case;
- 同一次会话中的曝光未点击文档作为负样本,即hard case。
结果表明,曝光未点击作为负样本的召回率远低于随机负样本,约55%的召回率退化。作者认为原因在于全部以hard case做负样本的训练数据和实际召回任务面对的数据分布不一致,实际索引中大多数是和用户query差别很大的easy case。
针对正样本的选择策略:
- 用户点击为正样本
- 曝光即为正样本
实验表明,用户点击和曝光分别作为正样本的召回指标相差不多,添加曝光数据并不能增加额外价值,增大训练数据规模也不能。
时间延迟建模中的负样本
IJCAI20关于CVR预估标签延迟的论文《An Attention-based Model for CVR with Delayed Feedback via Post-Click Calibration》,讨论了搜索推荐系统中延迟反馈的的负样本问题。
在推荐搜索的建模中,我们经常会使用D 1天的数据作为label,从1~D天的数据中的进行特征抽取等工作,和我们时间序列问题建模类似,但和很多其他的时间序列问题建模不一样的地方在于,我们的label不一定可靠,比如在传统的时间序列回归中,D 1天的销量是多少就是多少,我们没有太多的犹豫,因为不大会有其他的情况。但是在电商的问题中,就存在下面这种情况:
D 1天未购买可能并不一定是真正意义上的未购买,而可能是加入购物车或者意愿清单了, 只是没有在当天下单, 而是过了一天在D 2天的时候下了单, 而这样的标签如果我们直接默认其为负样本就会有较大的问题,因为它并不是真正意义上的负样本,只是反馈延迟了。
这在搜索推荐系统中,我们称之为延迟反馈的问题。
时间延迟建模
本文的模型框架主要分为左右两个模块,左侧的转化模型以及右侧的时间延迟模型。
1.左侧转化模型:
转化模型的目的是为了预估,注意此处的
- :表示最终是否会被转化;
- :表示Item的特征;
- :用户的历史点击信息;
可以用文中设计的网络结构来构建自己的转化模型.
2.时间延迟模型
关系梳理
和《Modeling Delayed Feedback in Display Advertising》论文中类似,我们还需要得到的表示,那么本文是如何得到的呢?和Survival Analysis中类似,我们用:
- :表示事件在时间时刻发生;
- :表示事件会在时刻之后发生的概率;
- :hazard function,表示存活时间后瞬时死亡的概率,其中, 此外我们还可以得到:
我们将转换的延迟时间全部转化为天的粒度, 在Survival Analysis中我们知道, 只要得到其中任意一个的表示,就可以得到其他的表示,也就是说我们对或者进行假设之后,就可以推导得到,以及三者的表示.
广告推荐中的负样本
这个问题较早在2014文章《Modelling Delayed Feedback in Display Advertising》中被提出,当时神经网络等还没那么流行,但是解决的思路非常值得借鉴。在广告推荐中,有一个指标价值是非常大的:
eCPM=CPA∗P(conversion,click)=CPA∗P(click)∗P(conversion|click),
CPA: Cost per conversion, 广告商愿意为每个转化支付的金额, 如果eCPM高的话,意味着我们可能获得更多的钱。
从上面这点可以看出,我们希望能很好地预估某个广告的转化概率(最终转化即可,对应到下文P(C=1|X=x).
问题建模
我们先定义五个变量,
- :特征集合
- , 表示转化是否已经发生;
- , 表示转化最终是否会发生;
- : 表示点击和转化之间的延迟时间;
- : 表示从点击到当前的时间。
问题转化
定义完变量,下面就是把该问题转化为我们能理解的形式,回想一下,如果不考虑延迟转化,我们平时一般怎么建模,我们可能直接将该问题转化为一个简单的二分类问题,我们的问题就是求,有时就是直接默认为,那么此时我们得到,我们最终的损失函数就是。
那么现在呢?我们已经知道了延迟的问题,所以我们需要尽可能将时间信息加入,并重新构建以及。本文选择用一个模型用来预估是否转化,另一个模型来捕获点击到转化的期望延迟时间的解决方案。
曝光偏差问题中的负样本
曝光Bias:暴露偏差的发生是因为用户只接触到特定项目的一部分,因此未观察到的交互并不总是代表消极偏好。
特殊地,用户和商品之间未被观察到的交互可以归因于两大原因:1)商品与用户兴趣不匹配;2)用户不知道该商品。因此,在解释未观察到的相互作用时会产生歧义。无法区分真正的消极互动(如暴露但不感兴趣)和潜在的积极互动(如未暴露)将导致严重的Bias。以前的研究已经调查了数据暴露的几个方面:
1)暴露受先前推荐系统的策略的影响,这些策略控制要显示哪些商品。
最近的一些工作也将这种“曝光偏差”(exposure bias)称为“前一模式偏差”(previous mode bias)。
2) 因为用户可以主动搜索和查找自己感兴趣的商品,这样会导致相关的商品更大概率的被曝光。在这种情况下,exposure bias也被称作为是selection bias;
3)用户的背景是商品曝光的另一个因素,例如社交朋友、他们所属的社区和地理位置等;
4)流行的商品有更大的概率被曝光(popularity bias)。我们认为流行度bias也是Exposure Bias的一种。
曝光偏差会误导模型的训练和评估。
曝光偏差下的负样本修正
1. 评估的Debiasing
目前处理该问题的策略主要还是使用inverse propersity score。为了解决这个问题,类似于外显反馈数据中的选择偏差处理,Yang等人建议用隐式反馈数据倾向的倒数来加权每个观测值。intuition是把经常观察到的交互降权,而对少的样本进行升权;
2. 模型训练的Debiasing
为了解决曝光偏差的问题,传统的策略就是将所有被观测的交互作为负例并且明确它们的交互。confidence weight可以被分为三类:
1.Heuristic:典型的例子是加权的矩阵分解以及动态MF,未观测到的交互被赋予较低的权重。还有很多工作则基于用户的活跃度指定置信度等;但是赋予准确的置信权重是非常有挑战的,所以这块依然处理的不是非常好。
2.Sampling: 另一种解决曝光bias的方式就是采样,经常采用的采样策略有均匀的负采样,对于流行的负样本过采样,但是这些策略却较难捕捉到真实的负样本。
3.Exposure-based model:另外一个策略是开发基于曝光的模型,这样可以知道一个商品被曝光到某个用户的可能性等。
4.Others:例如考虑用户的序列行为等,对应的设计inverse propensity的模型等。
参考资料
- https://arxiv.org/pdf/2006.11632.pdf
- https://zhuanlan.zhihu.com/p/222860582
- https://www.zhihu.com/people/yuconan
- 推荐系统Bias大全
- CVR预估之延迟反馈问题
- 你一直在使用错误的标签,CVR预估时间延迟问题
关注我们