多任务学习——【SIGIR 2018】ESMM

2021-09-10 11:33:34 浏览数 (2)

CVR预估面临两个关键问题:

  • Sample Selection Bias (SSB) 转化是在点击之后才“有可能”发生的动作,传统CVR模型通常以点击数据为训练集,其中点击未转化为负例,点击并转化为正例。但是训练好的模型实际使用时,则是对整个空间的样本进行预估,而非只对点击样本进行预估。即是说,训练数据与实际要预测的数据来自不同分布,这个偏差对模型的泛化能力构成了很大挑战。
  • Data Sparsity (DS) 作为CVR训练数据的点击样本远小于CTR预估训练使用的曝光样本。

点击—>转化,本身是两个强相关的连续行为,作者希望在模型结构中显示考虑这种“行为链关系”,从而可以在整个空间上进行训练及预测。这涉及到CTR与CVR两个任务:

可以看到左侧就是我们要求解的目标pCVR,通过引入右侧的两个辅助任务pCTCVR和pCTR:

将乘法转化为除法,我们可以得到pCVR的计算:

  • 在整个样本空间建模,而不像传统CVR预估模型那样只在点击样本空间建模
  • 共享特征表示。由于CTR任务的训练样本量要大大超过CVR任务的训练样本量,ESMM模型中特征表示共享的机制能够使得CVR子任务也能够从只有展现没有点击的样本中学习,从而能够极大地有利于缓解训练数据稀疏性问题
  • 损失函数由两部分组成,即pCTCVR和pCTR输出的交叉熵:

0 人点赞