KDD2020 | 半监督迁移协同过滤推荐

2020-10-30 11:20:37 浏览数 (1)

嘿,记得给“机器学习与推荐算法”添加星标


协同过滤是推荐系统恒久不变的主题。随着时间的推移,它也不再是那个经典的、苍老的协同过滤,反而在各大顶会中洗练出了更花哨的光华,例如:

利用高阶连通性的NGCF:Neural graph collaborative filtering [SIGIR 2019]

利用双线性形式的HybridSVD:HybridSVD: When Collaborative Information is Not Enough [RecSys2019]

同时利用分类/连续特征的CB2CF:CB2CF: A Neural Multiview Content-to-Collaborative Filtering Model for Completely Cold Item Recommendations [RecSys2019]

异质的不负采样的CF:Efficient Heterogeneous Collaborative Filtering without Negative Sampling for Recommendation [AAAI2020]

让我们喊出口号:协同过滤永不过时!

本文所介绍的推荐系统论文,虽然已经是老话题的协同过滤,究竟作者会做了哪些令人叹为观止的亮点呢?

毕竟KDD,必出精品不是?

Paper:Semi-supervised Collaborative Filtering by Text-enhanced Domain Adaptation

推荐系统的数据稀疏性是一个固有的挑战,因为推荐系统的大部分数据都来自于用户的隐式反馈。这就带来了两个困难:

  • 一是大部分用户与系统的交互很少,没有足够的数据进行学习;
  • 二是隐式反馈中不存在负样本。通常采用负样本的方法来产生负样本。

然而,这导致了许多潜在的正样本被误标记为负样本,数据的稀疏性会加剧误标记问题。这是容易解释的,因为:用户购买了某一商品,你可以说他喜欢这一商品;但是用户如果没有买的那些商品,你没有办法说他就不喜欢。为了解决这些困难,作者没有像其他的做法一样,而是将稀疏隐式反馈的推荐问题作为半监督学习任务,并探索领域适应(Domain Adaptation)来解决这个问题。具体地,是将从密集数据中学习到的知识转移到稀疏数据中,并专注于最具挑战性的没有用户或项目重叠的情况。

在这种极端情况下,直接对齐两个数据集的嵌入并不理想,因为这两个潜在空间编码的信息非常不同。因此,作者采用领域不变(domain-invariant)的文本特性作为锚点来对齐潜在空间。为了对齐嵌入,我们为每个用户和项提取文本特性,并将它们与用户和物品的嵌入一起提供给域分类器。训练嵌入来迷惑分类器,并将文本特征固定为锚点。通过域适应,将源域内的分布模式转移到目标域。由于目标部分可以通过区域自适应来监督,因此我们在目标数据集中放弃了负采样以避免标签噪声。


本文的策略与DANN非常相似,DANN是一种用于图像分类任务的算法,它在视觉空间中对齐高级图像表示。由于两个域使用相同的特征提取器,因此将两个域的图像映射到相同的空间中,从而将语义相似的图像分布在空间的相似位置。通过领域适应,语义相似的聚类被对齐在一起,并转移分布模式来细化目标领域上的表示。听上去还挺复杂,但是简单地说,就是将老虎和猫投影到同一空间时,会有一些特征是非常相近/几乎一样的。

这个道理拿到推荐系统中也说得通,毕竟推荐过程也是通过找物品和用户之间的相似性来进行推荐。但是,在基本的CF模型中,没有具有特定语义的数据(如图像和文本),因此,作者通过将用户和项目嵌入到潜在空间中来提取高级密集特征。通过这种方式,我们将来自不同领域的用户和项目映射到不同的潜在空间。

回到了之前说的困难,就是“对齐问题”。以图(b)中的电影为例,实线和虚线分别表示恐怖片和喜剧片。

从图中可以看到,直接对齐嵌入可能会导致橙色域的恐怖电影被误导,蓝色域的喜剧被采集,分布格局被转移错误。原因是这些嵌入被映射到橙色区域的不同的潜在空间,正负半轴分别编码恐怖和有趣,而在蓝色区域面临相反的情况。

为了解决这一差距,我们需要在同一空间中进行域适应,即对空间进行对齐,对嵌入进行对齐。

为了对齐潜在空间,我们将领域不变特性作为锚点进行探索。在本文中,我们利用了可以从用户评论中轻松提取的文本特性,如下图(c)所示。

我们将文本特征与嵌入连接起来,从而将空间扩展为文本潜在空间(横轴表示潜在空间,纵轴表示文本空间)。可以看到,在图(b)所示的潜在空间中,不同的类别是不可分离的。而在图(c)中,不同的类别通过扩展文本维度是可分离的。

对于域适应,我们使用连接的嵌入和文本特征作为域分类器的输入。在固定文本特征的同时,使用分类器对嵌入进行反向训练。

因此,如果对类别这样操作的话,文本特性应该是域不变的。也就是说,来自所有域的恐怖电影都映射到文本空间的负半轴上。

为了弥补这一差距,我们首先提出了一种称为文本记忆网络(TMN)的记忆结构,通过将每个用户和物品映射到单词语义空间来提取文本特征。然后,我们将特征注入协同过滤(CF)模型来生成预测。由文本特性和CF模块组成的模型称为文本协同过滤(TCF)模型。最后,在源域和目标域上同步训练两种TCF模型,并通过自适应网将它们连接起来。

这种迁移学习模型被称为文本增强领域适应推荐(TDAR)方法。


总结

Highlight 1:本文提出了一种域自适应推荐方法(TDAR),将嵌入内容对齐到相同的潜在空间中,极大地提高了稀疏数据集上的性能。在对齐空间和嵌入的工作上使用文本特性作为锚点。

Highlight 2:作为TDAR中的一个重要模块,我们设计了一个提取领域不变文本特征的记忆网络,并将这些特征注入到CF模型中,提出了一个基于文本的协同过滤模型。

Highlight 3:作者开源了。有兴趣了解迁移学习 评论 协同过滤的兄弟们可以移步:开源代码[https://github.com/Wenhui-Yu/TDAR]。

0 人点赞