GDCN:Deeper, Lighter, Interpretable的CTR预测网络

2023-11-27 18:33:31 浏览数 (1)

标题:Towards Deeper, Lighter and Interpretable Cross Network for CTR Prediction 地址:https://arxiv.org/pdf/2311.04635.pdf 会议:CIKM 23 代码:https://github.com/anonctr/GDCN 学校,公司:复旦,微软

1.导读

本文主要是针对ctr预估特征交互方面提出的相关方法,是对DCNv2的改进。DCN和DCNv2可以参考https://zhuanlan.zhihu.com/p/433086709,这里就不赘述了。 现有方法存在三个问题:

  • 虽然大多数方法可以自动捕捉高阶特征交互,但它们的性能往往会随着特征交互顺序的增加而降低。
  • 现有的方法缺乏可解释性,尤其是对于高阶特征交互,这限制了其预测的可信度。
  • 许多方法都存在冗余参数,特别是在嵌入层中。

本文提出了一种门控深度交叉网络(GDCN)的和一种场级(field-level)维度优化(FDO)方法来应对这些问题。其中门控交叉网络(GCN)捕获显式的高阶特征交互,并按每个阶层(这里的阶是指特征交互的层次深度,就是通常说的高阶交互,低阶交互等)动态过滤重要交互。FDO根据每个field中包含的信息来学习压缩维度。

2.方法

GDCN由嵌入层、门控交叉网络(GCN)和深度网络(DNN)组成。GCN用于捕捉显式特征交互,有一个信息门控来识别重要的交叉特征。然后,将DNN集成到隐式特征交叉模型中。GDCN通过引入信息门自适应地过滤交叉特征,而不是直接聚合所有特征。这使GDCN能够真正利用更深层次的高阶交叉信息,而不会出现性能下降,并使GDCN具有可解释性。

我们都知道DCNv2主要有两部分组成,交叉网络和DNN部分,本文是在该基础上改进型的,所以结构也是类似的,结合交叉网络和DNN有两种方式堆叠和平行,如上图所示。

2.1 门控交叉网络(GCN)

作为GDCN的核心结构,GCN对带有信息门的显式特征交叉进行建模。 GCN的第

l 1

层门控交叉层表示为下式,其中

c_0

为经过emb层后进入交叉网络的基础输入,

c_l

表示经过第

l

层的特征交互后的输出。计算过程如图2所示。

mathbf{c}_{l 1}=underbrace{mathbf{c}_{0} odotleft(mathbf{W}_{l}^{(c)} times mathbf{c}_{l} mathbf{b}_{l}right)}_{text {Feature Crossing }} odot underbrace{sigmaleft(mathbf{W}_{l}^{(g)} times mathbf{c}_{l}right)}_{text {Information Gate }} mathbf{c}_{l},

在每个门控交叉层中,有两个核心组件:特征交叉和信息门。

  • 特征交叉组件计算一阶特征
c_0

和第

l 1

阶特征

c_l

之间的特征交互,从而得到第

l 2

阶的特征。

  • 矩阵W为交叉矩阵,表示不同field在特征交互时的重要性。然而,并非所有
l 2

阶特征对预测都有正向作用。随着交叉深度的增加,交叉特征表现出指数增长,引入了可能导致次优性能的交叉噪声。

  • 为了解决上述问题,本节引入了信息门控组件,自适应地学习第
l 2

阶特征的重要性。通过sigmoid函数得到门控权重也就是上式中的

W_{l}^{(g)}

  • 该过程可以放大重要特征,减轻不重要特征的影响。随着交叉层数量的增加,每个交叉层的信息门过滤下一阶交叉特征,并有效地控制信息流。

2.2 Field level的维度优化

嵌入维度通常决定对信息进行编码的能力。但为所有field分配相同的维度会忽略不同字段中的信息容量。如,性别的值的数量远小于itemid。本文使用后验场级维度优化(FDO)方法,该方法基于每个场(field)在特定数据集中的内在重要性来学习其维度。

  • 首先,训练一个固定场维度为16的完整模型,为每个字段生成一个信息嵌入表。
  • 使用PCA为每个字段的嵌入表计算一组奇异值,按大小降序排列。通过评估信息利用率(即信息比率),可以通过识别对总体信息贡献最大的k个奇异值。为每个字段选择合适的压缩维度。
  • 最后,用上一步中学习到的场维度来训练一个新的模型。

3.结果

随着深度增加,模型性能变化

0 人点赞