标题:Contrastive Multi-view Framework for Customer Lifetime Value Prediction 地址:https://arxiv.org/pdf/2306.14400.pdf 公司:华为
1 引言
本文是华为提出用于客户生命价值预测(LTV)的对比学习多视角网络(CMLTV),主要针对目前存在的LTV预估方法采用单视角建模导致准确度低和知识提取存在偏差的问题。本文提出的多视角网络优点在于:1.即插即用的模块,兼容大部分基准网络;2.集成多个具有互补知识的异构LTV回归器,以提高模型的鲁棒性;3.通过对比学习捕捉样本之间的相关性,减轻对数据丰富性的依赖
2 方法
2.1 问题定义
用u和i分别表示用户和特定产品/服务,给定u和i的特征,LTV预估的目标是估计特定时间跨度T内(例如30天)u对i支付的金额。如果用户u在T内没有购买i,相对应的周期内LTV标签为0;如果T内有过多次购买行为,则相对应的LTV值则为价值总和。模型对历史交易数据进行学习后,预测未来的LTV值,作为下一步行动(例如投放广告)的决策和参考
2.2 CMLTV框架
整体的GMLTV框架如下图所示,当每个batch的训练样本到达时,首先使用多视角LTV预估模型得到用户的购买概率和多个LTV回归结果,接着对batch中的样本应用混合对比学习策略,捕获样本间的内在相关性
2.2.1 多视角LTV预估
多视角LTV预估模块使用不同特征的异构回归器来从多个方面来分析输入样本,定义样本的特征为x,首先,通过基础的特征表征模型来学习输入特征的交互得到隐式特征表征h,注意到此框架并不限制基础特征模型,可以使用各种现成的结构来实现,例如 MLP、DeepFM、DCN 和 DCNv2等。接着使用分类器得到用户的购买概率:
由于是个二分类任务,因此使用交叉熵损失
然后以多视图的方式估计每个样本的支付金额。框架中包含三种不同类型的回归器。第一个是基于分布的回归器,旨在通过精心设计的概率模型来近似真实的 LTV 分布。尽管可以用任何概率分布来近似,不过作者根据实际效果,推荐对数正态分布和伽马分布。定义标准化概率密度函数f(x),由变量参数
决定,变量参数由显示特征h学习得到
分布回归器的损失是由f(x)给出的概率密度的负对数似然,公式如下
其中y是样本的LTV标签,这个损失函数的优化过程是让模型找到更好的
来参数化f(x),从而最大化训练样本的LTV概率密度。在测试阶段,使用从每个样本获得的
参数化的分布f(x)的期望作为预测。本文使用伽马分布来实例化函数f(x)。因此,变量
是一个包含形状参数和速率参数两个元素的向量,预测的LTV分数是它们相除的结果。
第二个是基于对数的回归器,旨在对数尺度上预估LTV分数,LTV原始值可以从0到百万级别,但是取对数后差异很小,更适合神经网络来处理,此回归器的输出为:
损失函数使用的是MSE,标签加1的处理是为了保证非负性
第三个是基于分类的回归器,它首先将回归任务转换为分类问题,然后根据每个的类概率重建实值分数作为最终预测。由于 LTV 分布通常是长尾的,因此可以使用对数运算将整个范围分为几个分类桶。为保留更细粒度的数值信息,本文使用以2为底的对数而不是更大的底数进行分箱。具体而言,LTV 标签y对应的类标签c获取如下:
类别向量
的预测如下
多分类损失使用的是多分类交叉熵函数
此回归器输出的最终LTV预测值为
这样将期望值作为LTV预测结果,其中每个分桶的中心用于表示其期望的LTV值
2.2.2 混合对比学习
混合对比学习机制旨在在同一个批次的样本之间建立有机联系,以更好地挖掘出有限训练数据的信息。假设一个批次中有k个样本。它们预测的购买概率和三种类型的LTV分数分别表示为
受到BPR损失的启发,通常假定正样本的购买概率大于负样本。然而直接比较每对样本是不可行的,因为噪声样本可能会误导模型生成低质量的对比组合,这对模型优化是不利的。但平均而言正样本应该比负样本具有更高的购买倾向。因此首先计算正样本和负样本的平均购买概率,分别表示
和
。本文设计了一个分类对比损失来对比正负样本的平均购买概率:
其中
表示sigmoid函数的逆函数。受到先前工作的启发,假设具有更高LTV的用户可能也具有更高的购买概率。提出了一种回归对比学习方法来规范回归结果,使其与预测的购买概率正相关。以基于分布的回归器输出的分数为例来详细说明这个过程。其对应的回归对比损失:
这里使用以10为底的对数来控制对比损失的规模。类似地可计算得到另外两个回归器的对比损失
和
。通过这种方式,同一个批次中不同样本之间的相关性被明确地编码到模型学习中,同时分类和回归部分通过这些损失自然地连接起来,以便它们编码的知识可以交换和共享。
2.3 模型训练和预测
训练过程中,最终的损失为各部分损失的组合
其中二元分类损失和对比损失是在所有样本上计算的,而回归损失仅在正样本上计算。这是因为严重的数据不平衡会损害回归模型的准确性。模型收敛之后,使用多视角LTV预估的每个部分组合得到最终结果
其中,
和
为超参,根据业务规则选择