标题:Towards Deeper, Lighter and Interpretable Cross Network for CTR Prediction 地址:https://arxiv.org/pdf/2311.04635.pdf 会议:CIKM 23 代码:https://github.com/anonctr/GDCN 学校,公司:复旦,微软
1.导读
本文主要是针对ctr预估中特征交互方面提出的相关方法,是对DCNv2的改进。DCN和DCNv2可以参考https://zhuanlan.zhihu.com/p/433086709,这里就不赘述了。 现有方法存在三个问题:
- 虽然大多数方法可以自动捕捉高阶特征交互,但它们的性能往往会随着特征交互顺序的增加而降低。
- 现有的方法缺乏可解释性,尤其是对于高阶特征交互,这限制了其预测的可信度。
- 许多方法都存在冗余参数,特别是在嵌入层中。
本文提出了一种门控深度交叉网络(GDCN)的和一种场级(field-level)维度优化(FDO)方法来应对这些问题。其中门控交叉网络(GCN)捕获显式的高阶特征交互,并按每个阶层(这里的阶是指特征交互的层次深度,就是通常说的高阶交互,低阶交互等)动态过滤重要交互。FDO根据每个field中包含的信息来学习压缩维度。
2.方法
GDCN由嵌入层、门控交叉网络(GCN)和深度网络(DNN)组成。GCN用于捕捉显式特征交互,有一个信息门控来识别重要的交叉特征。然后,将DNN集成到隐式特征交叉模型中。GDCN通过引入信息门自适应地过滤交叉特征,而不是直接聚合所有特征。这使GDCN能够真正利用更深层次的高阶交叉信息,而不会出现性能下降,并使GDCN具有可解释性。
我们都知道DCNv2主要有两部分组成,交叉网络和DNN部分,本文是在该基础上改进型的,所以结构也是类似的,结合交叉网络和DNN有两种方式堆叠和平行,如上图所示。
2.1 门控交叉网络(GCN)
作为GDCN的核心结构,GCN对带有信息门的显式特征交叉进行建模。 GCN的第
层门控交叉层表示为下式,其中
为经过emb层后进入交叉网络的基础输入,
表示经过第
层的特征交互后的输出。计算过程如图2所示。
在每个门控交叉层中,有两个核心组件:特征交叉和信息门。
- 特征交叉组件计算一阶特征
和第
阶特征
之间的特征交互,从而得到第
阶的特征。
- 矩阵W为交叉矩阵,表示不同field在特征交互时的重要性。然而,并非所有
阶特征对预测都有正向作用。随着交叉深度的增加,交叉特征表现出指数增长,引入了可能导致次优性能的交叉噪声。
- 为了解决上述问题,本节引入了信息门控组件,自适应地学习第
阶特征的重要性。通过sigmoid函数得到门控权重也就是上式中的
。
- 该过程可以放大重要特征,减轻不重要特征的影响。随着交叉层数量的增加,每个交叉层的信息门过滤下一阶交叉特征,并有效地控制信息流。
2.2 Field level的维度优化
嵌入维度通常决定对信息进行编码的能力。但为所有field分配相同的维度会忽略不同字段中的信息容量。如,性别的值的数量远小于itemid。本文使用后验场级维度优化(FDO)方法,该方法基于每个场(field)在特定数据集中的内在重要性来学习其维度。
- 首先,训练一个固定场维度为16的完整模型,为每个字段生成一个信息嵌入表。
- 使用PCA为每个字段的嵌入表计算一组奇异值,按大小降序排列。通过评估信息利用率(即信息比率),可以通过识别对总体信息贡献最大的k个奇异值。为每个字段选择合适的压缩维度。
- 最后,用上一步中学习到的场维度来训练一个新的模型。
3.结果
随着深度增加,模型性能变化