西湖大学、中科院、谷歌:对等协同学习在推荐系统中的应用

2022-09-19 10:18:52 浏览数 (1)

关注我们,一起学习~

title:Enhancing Top-N Item Recommendations by Peer Collaboration link:https://arxiv.org/pdf/2111.00429v3.pdf from:SIGIR 2022

1. 导读

peer collaboration learning:对等协同学习

基于DNN的推荐系统通常需要大量参数,而这多多少少会带来一些冗余的神经元和权重,这种现象被称为过度参数化。本文提出一个topN商品推荐框架PCRec方法,利用这种冗余现象来提高 RS 的性能。

PCRec协同训练两个具有相同网络结构的DNN推荐模型,这称为对等协同。PCRec可以在训练过程中重新激活和加强不重要(冗余)的权重,从而实现更高的预测精度,保持其原有的推理效率。

  • 首先,引入两个指标来识别给定推荐模型的权重的重要性。
  • 然后,通过从其对等网络移植外部信息(即权重)来恢复不重要的权重。
  • 经过这样的操作和再训练,增强模型的表征能力。

2. 懒人阅读

本文采用对等协同学习来加强对DNN中冗余神经元(权重)的利用。利用两个相同网络结构的DNN推荐模型进行训练,采用L1-norm或熵来衡量神经元的重要性,选取对等网络中相应位置的神经元对当前网络中不重要的神经元进行补充,增强模型的泛化能力。

3. 方法

3.1 指标

3.1.1 L1-norm

W_i in mathbb{R}^{d_{i-1}times d_i}

表示为模型中第i层的权重矩阵。可以从两个角度来识别权重的重要性:单权重视角和全层视角

  • 单个权重的重要性直接由其绝对值(L1-norm)决定,绝对值越高,越重要。可以用阈值来区分重要和不重要的权重。
  • 从整个层的角度来看,我们可以通过使用神经网络层作为度量单元来识别所有权重的重要性。

衡量一个层的重要性可以尽可能地保持层的一致性,这将有利于后面提到的信息移植过程,公式如下,

left|W_{i}right|=sum_{m=1}^{d_{i-1}} sum_{n=1}^{d_{i}}left|W_{i, m, n}right|

W_i^1

W_i^2

为两个协同推荐模型的第i层的L1范数。令

H(W_i^k)

表示层的相关信息,公式如下,其中%是取模运算,k是模型ID。

mathrm{H}left(W_{i}^{k}right)=frac{left|W_{i}^{k}right|}{left|W_{i}^{k}right| left|W_{i}^{k % 2 1}right|}, quad k=1,2

3.1.2 熵

L1只关心权重的大小,而忽略了权重的变化,这里采用熵的方式来度量每一层权重的变化。熵通常用于评估系统中的混乱程度。将权重矩阵转换为向量,并将向量离散化为m个桶。然后可以计算每个桶的概率。首先根据向量的实际值对向量中的权重进行排序,然后将向量划分为具有相等数值区间的m个桶(

frac{max-min}{m}

) .第j个桶的概率以下式计算,N为权重向量的参数大小,nj为第j个桶的参数大小

p_j=frac{n_j}{N}

然后计算权重矩阵

W_i

的熵,公式如下,

H(W_i)=-sum_{k=1}^{m}{p_klog p_k}

3.2 PCRec方法

PCRec 框架如图3所示。假设两个模型都有N层。将

W^1_i

W_i^2

表示为两个模型的第i层的权重矩阵。PCRec的核心思想是利用两个网络对应的权重信息,生成更具表现力的权重

hat{W}_i

,公式如下,权重

W^1_i

W_i^2

是明显不同,因为它们使用不同的超参数和初始化进行了优化。即一个层的不重要权重可能对应于他对等层中同一层的重要权重,反之亦然。

hat{W}_i=f(W_i^1,W_i^2)

3.2.1 逐参数(PW)协同

如图2所示,这部分采用L1正则的方式。首先定义一个正阈值γ,然后如果它们的绝对值小于

0 人点赞