NeurlPS'22 推荐系统论文梳理

2022-12-17 16:59:36 浏览数 (2)

本文对NeurlPS'22推荐系统相关论文进行梳理,后续选择感兴趣的论文进行单独解读,相关论文可在公众号后台回复NeurlPS2022-RecSys-Papers获取,我也会更新到Github-Currently_Awesome-RecSys-Papers中 (部分未公开的论文后面再补充,欢迎关注/Star)。

1. 概述

经过两个月的速读,之前把2022年已公布的推荐系统相关顶会梳理一遍 ,历史推荐系统顶会论文梳理系列文章可以参考公众号或知乎,快捷合辑详见2022推荐系统顶会论文梳理系列。

最近忙于改投论文,CIKM/NeurlPS‘22等也已公布录用结果,其中NeurlPS'22共收到投稿10411篇,录用率为25.6%(该数字参考张小磊大佬NeurlPS2022推荐系统论文集锦),完整录用论文列表见NeurlPS'22 Accepted Papers。

本文对NeurlPS'22推荐系统相关论文进行梳理,后续选择感兴趣的论文进行单独解读,相关论文可在公众号后台回复NeurlPS2022-RecSys-Papers获取,我也会更新到Github-Currently_Awesome-RecSys-Papers中 (部分未公开的论文后面再补充,欢迎关注/Star)。

2. 推荐系统相关论文

2.1 Infinite Recommendation Networks: A Data-Centric Approach

本文出自加州大学圣地亚哥分校和Meta,主要是蒸馏和AE方面的工作。

在这项工作中,我们提出了两个互补的想法:∞-AE,一种用于建模推荐数据的无限宽度自动编码器,以及 DISTILL-CF,用于为后续模型训练创建大量数据集的微小、高保真数据摘要。据我们所知,我们的工作是第一个采用并证明无限宽度神经网络可以在推荐任务上击败复杂的 SoTA 模型的工作。此外,通过 DISTILL-CF 合成的数据摘要优于通用采样器,并展示了 ∞-AE 以及有限宽度 SoTA 模型的进一步性能提升,尽管其训练的数据数量级更少。

我们提出的两种方法彼此密切相关:∞-AE 的闭环公式对于 DISTILL-CF 的实用性尤其重要,而 DISTILL-CF 将整个数据集的知识提炼成小摘要的能力有助于 ∞-AE 扩展到大型数据集。此外,Gumbel 采样技巧使我们能够将针对连续、实值、密集域设计的数据蒸馏技术应用于异构、半结构化和稀疏域,如推荐系统和图。我们还探索了使用 DISTILL-CF 观察到的强去噪效果,并指出在噪声数据的情况下,在由 DISTILL-CF 合成的数据少得多的数据上训练的模型比在整个原始数据集上训练的相同模型表现得更好。这些观察让我们思考一个更大的、迫在眉睫的问题:你需要更多的数据来推荐吗?

2.2 Recommender Forest for Efficient Retrieval

本文出自中科大陈恩红老师团队,主要是针对ANN问题的改进。

推荐系统 (RS) 需要从大量项目集中选择前 N 个项目。为了高效推荐,RS 通常将用户和项目表示为潜在嵌入,并依靠近似最近邻搜索 (ANN) 来检索推荐结果。尽管减少了运行时间,但表示学习独立于 ANN 索引构建;因此,这两种操作可能不兼容,从而导致推荐准确性的潜在损失。为了克服上述问题,我们提出了推荐森林(也称为 RecForest),它联合学习潜在嵌入和索引以实现高效和高保真推荐。RecForest 由多个k叉树组成,每个树都是通过层次平衡聚类的项目集的一个分区,这样每个项目都由从根到叶的路径唯一地表示。给定这样的数据结构,开发了基于encoder-decoder的路由网络:它首先将上下文(即用户信息)编码为隐状态;然后,利用基于transformer的解码器,它通过beam search识别前 N 个项目。与现有方法相比,RecForest 具有以下优点:1)通过使用多棵树可以有效缓解边界项的错误划分;2) 强大的ransformer decoder使路由操作变得更加准确;3)树参数在不同的树级别之间共享,使索引非常节省内存。

2.3 The trade-offs of model size in large recommendation models : A 10000 ×× compressed criteo-tb DLRM model (100 GB parameters to mere 10MB)

本文出自莱斯大学,主要是模型压缩,方便部署。

当今深度学习中的主流思想是stochastic iterative learning的过参数化模型。虽然这种范式在深度学习中取得了成功,但其可持续性是一个严峻的问题。我们评估了 DLRM 模型中基于嵌入的过度参数的价值,得出结论,压缩的 DLRM 模型更适合快速推理,并且易于按预期训练和部署。更重要的是,尽管收敛速度较慢,但它们也可以在相同的总时间内进行训练。关键的观察是压缩模型享有他们可以利用的系统优势,这减少了每次迭代的时间。该论文还强调,比较大小差异很大的模型质量的正确方法是让模型运行相同的时间,而不是相同的迭代。

2.4 Tenrec: A Large-scale Multipurpose Benchmark Dataset for Recommender Systems

本文出自腾讯、西湖大学等,构建一个更实用的推荐系统数据集。

推荐系统 (RS) 的现有基准数据集要么是小规模创建的,要么涉及非常有限的用户反馈形式。在此类数据集上评估的 RS 模型通常缺乏大规模实际应用的实用价值。在本文中,我们描述了 Tenrec,这是一种用于 RS 的新颖且公开可用的数据集,它记录来自四种不同推荐场景的各种用户反馈。具体来说,Tenrec 具有以下五个特点:(1)规模大,用户约 500 万,互动量约 1.4 亿;(2)它不仅有正面的用户反馈,还有真正的负面反馈(相对于一类推荐);(3) 它包含跨越四种不同场景的重叠用户和项目;(4) 包含各种类型的用户正面反馈,包括点击、点赞、分享、关注等形式;(5) 它包含除用户 ID 和项目 ID 之外的附加功能。

2.5 Generalized Delayed Feedback Model with Post-Click Information in Recommender Systems

本文出自南大lamda实验室,延迟反馈方面的工作。

预估转化率(例如,用户购买商品的概率)是基于机器学习的推荐系统中的一个基本问题。然而,准确的转换标签会在很长一段时间后显示出来,这会损害推荐系统的时效性。以前的文献集中于利用早期转换来缓解这种延迟反馈问题。在本文中,我们展示了点击后的用户行为也可以为转化率预测提供信息,并可用于提高及时性。我们提出了一种广义延迟反馈模型(GDFM),将点击后行为和早期转换统一为随机点击后信息,可用于以流式方式有效地训练 GDFM。基于GDFM,我们进一步建立了一个新的观点,即延迟反馈引入的性能差距可以归因于时间差距和采样差距。受我们分析的启发,我们建议结合时间距离和样本复杂度来衡量点击后信息的质量。训练目标会相应地重加权,以突出信息丰富且及时的信号。

2.6 Graph Convolution Network based Recommender Systems: Learning Guarantee and Item Mixture Powered Strategy

本文也是出自中科大陈恩红老师团队,主要是对图网络在推荐系统中泛化特性等的理论探索。

在本文中,我们迈出了在归纳和转导学习下为基于 GCN 的推荐模型建立泛化保证的第一步。我们主要研究图归一化和非线性激活的作用,提供一些理论理解,并构建大量实验以进一步验证这些发现。此外,基于经过验证的泛化界限和现有模型在离散数据学习中的挑战,我们提出了项目混合(IMix)来增强推荐。它通过混合正负项对的嵌入以连续方式对离散空间进行建模,其有效性可以从经验和理论方面得到严格保证。

2.7 Diversified Recommendations for Agents with Adaptive Preferences

本文出自哥伦比亚大学,多样性bandit方面的工作。

将推荐系统和用户之间的动态交互定义为对抗bandit问题,在每一步,推荐系统向用户呈现一个包含n 个中的k个项目作为候选,用户根据他们未知的偏好模型选择一个项目,该模型将他们过去项目的历史映射到相对选择概率;然后,Recommender 会观察 用户选定的项目,并接收该项目(对抗性)奖励的bandit反馈。除了在每一步优化所选项目的奖励外,推荐器还必须确保所选项目的总分布具有足够高的熵。我们定义了一类局部可学习的偏好模型,即整个域的行为可以通过仅观察小区域的行为来估计;这包括由有界多项式表示的模型以及具有稀疏傅立叶基的函数。对于这个类,我们给出了一种推荐器算法,它对满足两个条件的所有项目分布获得 ̃O(T3/4) regret:它们足够多样化,并且它们可以通过候选上的某些分布在任何历史上瞬时实现。我们表明这些条件是密切相关的:所有足够高的熵分布都可以在所选项目的任何历史记录中瞬间实现。我们还给出了一组否定结果来证明我们的假设是正确的,其形式是非局部学习的运行时下限和替代基准的线性regret下限。

2.8 DreamShard: Generalizable Embedding Table Placement for Recommender Systems

本文出自莱斯大学及Meta,主要是使用强化学习研究embedding table placement问题。

我们研究了分布式推荐系统的嵌入表放置,旨在将表分区并放置在多个硬件设备(例如 GPU)上,以平衡计算和通信成本。尽管先前的工作已经探索了基于学习的方法来放置计算图的设备,但嵌入表的放置仍然是一个具有挑战性的问题,因为 1)嵌入表的操作融合,以及 2)对不同数量的未见放置任务的泛化性要求表和/或设备。为此,我们提出了 DreamShard,这是一种用于嵌入表放置的强化学习 (RL) 方法。DreamShard 通过 1) 一个成本网络来直接预测融合操作的成本,以及 2) 一个在估计的马尔可夫决策过程 (MDP) 上进行有效训练的策略网络,而无需真正的 GPU 执行,从而实现了操作融合和泛化的推理,其中使用成本网络估计状态和奖励。sum和max表示减少,这两个网络可以直接推广到具有不同数量的表和/或设备的任何任务,而无需微调。

2.9 Cache-Augmented Inbatch Importance Resampling for Training Recommender Retriever

本文出自电子科大及中科大陈恩红老师团队,主要研究采样偏差。

现有的基于inbatch sampling的策略只是用项目频率来纠正inbatch items的采样偏差,无法区分小批量内的用户查询,并且仍然会导致与 softmax 的显著偏差。在本文中,我们提出了Cache-Augmented Inbatch Importance Resampling (XIR)用于训练推荐模型,它不仅为具有批量项目的用户查询提供不同的负样本,而且自适应地实现了对 softmax 分布的更准确估计。具体来说,XIR 基于特定概率对给定的小批量训练对重新采样项目,其中采用具有更频繁采样项目的缓存来扩充候选项目集,目的是重用信息丰富的历史样本。XIR 能够基于批量项目对查询相关的负样本进行采样,并捕获模型训练的动态变化,从而更好地逼近 softmax,并进一步有助于更好的收敛。

2.10 GBA: A Tuning-free Approach to Switch between Synchronous and Asynchronous Training for Recommendation Models

本文出自阿里妈妈郑波老师团队,主要是同步和异步分布式训练的动态切换问题。

基于参数服务器(PS)架构的高并发异步训练和基于all-reduce(AR)架构的高性能同步训练是推荐模型最常用的分布式训练模式。虽然同步 AR 训练旨在提高训练效率,但当共享集群中有落后者时,尤其是在计算资源有限的情况下,异步 PS 训练将是更好的训练速度选择。充分利用这两种训练模式的理想方法是根据集群状态在它们之间切换。然而,切换训练模式通常需要调整超参数,这非常耗时且耗费资源。我们发现无调整方法的两个障碍:梯度值的不同分布和落后者的陈旧梯度。本文提出了基于 PS 的全局批量梯度聚合(GBA,Global Batch gradients Aggregation),它聚合并应用与同步训练具有相同全局批量大小的梯度,通过令牌控制过程来组装梯度并以严重的陈旧性衰减梯度。我们提供了收敛分析,以揭示 GBA 具有与同步训练相当的收敛特性,并证明了 GBA 推荐模型对梯度陈旧的鲁棒性。对三个工业规模推荐任务的实验表明,GBA 是一种有效的免调优切换方法。与最先进的衍生异步训练相比,GBA 在 AUC 指标上实现了高达 0.2% 的改进,这对于推荐模型来说意义重大。同时,在硬件资源紧张的情况下,GBA 与同步训练相比,速度至少提高了 2.4 倍。

2.11 Debiased, Longitudinal and Coordinated Drug Recommendation through Multi-Visit Clinic Records

本文出自人大高瓴文继荣,严睿老师团队,基于因果推理的药物推荐模型,这里直接引用其官网介绍。

人工智能赋能的药物推荐已成为医疗保健研究领域的一项重要任务,它为帮助人类医生提供更准确、更高效的药物处方提供了额外的视角。通常,药物推荐是基于患者在电子健康记录中的诊断结果。我们假设在药物推荐中需要解决三个关键因素:(1)消除由于可观察信息的限制导致的推荐偏倚,(2)更好地利用历史健康状况和(3)协调多种药物以控制安全性。为此,我们提出了 DrugRec,一种基于因果推理的药物推荐模型。该因果图模型可以通过前门调整来识别和消除推荐偏差。同时,我们在因果图中对多次就诊进行建模,以表征患者的历史健康状况。最后,我们将药物-药物相互作用 (DDI) 建模为可满足性 (SAT) 问题,解决该 SAT 问题有助于更好地协调推荐。

2.12 RecZilla: Algorithm Selection for Recommender Systems

本文出自Abacus和马里兰大学,该研究旨在让更多推荐算法工程师失业。。

虽然机器学习的其他领域已经看到越来越多的自动化,但设计一个高性能的推荐系统仍然需要大量的人力。此外,最近的工作表明,现代推荐系统算法并不总是比调整好的基线有所改进。一个自然的后续问题是,“我们如何为新的数据集和性能指标选择正确的算法?”在这项工作中,我们首先通过比较 85 个数据集和 315 个指标的 18 种算法和 100 组超参数,对推荐系统方法进行了第一次大规模研究。我们发现最好的算法和超参数高度依赖于数据集和性能指标,然而,每种算法的性能与数据集的各种元特征之间也存在很强的相关性。受这些发现的启发,我们创建了 RecZilla,这是一种推荐系统的元学习方法,它使用模型来预测新数据集的最佳算法和超参数。通过使用比以前的工作更多的元训练数据,RecZilla 能够在面对新的推荐系统应用程序时大大降低人工参与的水平。

2.13 Revisiting Injective Attacks on Recommender Systems

本文出自港科大,主要研究推荐系统中反作弊/虚假用户攻击问题。

最近的研究表明,推荐系统容易受到注入式攻击 (injective attacks)。在虚假用户预算有限的情况下,攻击者可以将精心设计行为的虚假用户注入开放平台,使推荐系统向更多真实用户推荐目标项目以获取利润。在本文中,我们首先重新审视现有的攻击者,并揭示他们遭受与难度无关和多样性不足的问题。现有的攻击者将他们的努力集中在对目标项目倾向低的困难用户上,从而降低了他们的有效性。此外,他们无法影响目标推荐系统以多种方式向真实用户推荐目标项目,因为他们生成的虚假用户行为由大型社区主导。为了缓解这两个问题,我们提出了一种难度和多样性感知攻击者,即 DADA。我们设计了难度感知和多样性感知目标,以使来自不同社区的简单用户在优化攻击者时贡献更多权重。通过结合这两个目标,所提出的攻击者 DADA 可以专注于简单用户,同时还可以同时影响更广泛的真实用户,从而提高有效性。

2.14 Contrastive Graph Structure Learning via Information Bottleneck for Recommendation

本文出自阿里、康奈尔大学等, 主要研究推荐系统对比图结构学习。

用于推荐的图卷积网络 (GCN) 因其利用高阶邻居的能力而成为一个重要的研究课题。尽管他们取得了成功,但他们中的大多数人都受到了少数活跃用户和热门商品带来的人气偏差的困扰。此外,现实世界的用户-项目二分图包含许多嘈杂的交互,这可能会妨碍敏感的 GCN。图对比学习在解决推荐系统中的上述挑战方面表现出有希望的性能。大多数现有工作通常通过随机丢弃边/节点或依赖预定义规则来执行图增强以创建原始图的多个视图,并且这些增强视图始终通过最大化它们的对应关系作为辅助任务。然而,我们认为从这些普通方法生成的图结构可能不是最优的,最大化它们的对应关系将迫使表示捕获与推荐任务无关的信息。在这里,我们提出了一种通过信息瓶颈(CGI)进行推荐的对比图结构学习,它自适应地学习是否丢弃边或节点,以端到端的方式获得优化的图结构。此外,我们创新地将信息瓶颈引入对比学习过程中,以避免捕获不同视图之间的不相关信息,并有助于丰富推荐的最终表示。

2.15 Incorporating Bias-aware Margins into Contrastive Loss for Collaborative Filtering

本文出自新加坡国立大学,主要研究协同过滤流行度偏差问题。

协同过滤(CF)模型容易受到流行度偏差的影响,这使得推荐偏离用户的实际偏好。然而,当前大多数去偏策略容易在头部和尾部性能之间进行权衡,因此不可避免地会降低整体推荐的准确性。为了减少流行度偏差对 CF 模型的负面影响,我们将 Biasaware margins纳入对比损失中,并提出了一个简单而有效的 BC 损失,其中margin定量地根据每个用户-项目交互的偏差程度进行定制。我们研究了 BC 损失的几何解释,然后进一步可视化并从理论上证明,它通过鼓励相似用户/项目的紧凑性和扩大不同用户/项目的分散性来同时学习更好的头部和尾部表示。在六个基准数据集上,我们使用 BC 损失来优化两个高性能 CF 模型。在各种评估设置(即不平衡/平衡、时间分割、完全观察无偏、尾部/头部测试评估)中,BC 损失优于最先进的去偏和非去偏方法,并有显着改进。考虑到 BC 损失的理论保证和经验上的成功,我们主张不仅将其用作去偏策略,而且将其用作推荐模型中的标准损失。

2.16 APG: Adaptive Parameter Generation Network for Click-Through Rate Prediction

本文出自阿里妈妈郑波老师团队,主要研究ctr模型动态参数生成。

传统的深度 CTR 模型以静态方式学习模式,即所有实例的网络参数都相同。然而,这种方式很难表征可能具有不同基础分布的每个实例,它实际上限制了深度 CTR 模型的表示能力,导致次优结果。在本文中,我们提出了一种高效、有效和通用的模块,称为自适应参数生成网络(APG,Adaptive Parameter Generation network),它可以根据不同的实例动态地为深度 CTR 模型生成参数。

2.17 Simple Mechanisms for Welfare Maximization in Rich Advertising Auctions

本文出自谷歌、特拉维夫大学、普渡大学,主要研究广告拍卖问题。

涉及较多广告术语,直接附英文版摘要。

nternet ad auctions have evolved from a few lines of text to richer informational layouts that include images, sitelinks, videos, etc. Ads in these new formats occupy varying amounts of space, and an advertiser can provide multiple formats, only one of which can be shown. The seller is now faced with a multi-parameter mechanism design problem. Computing an efficient allocation is computationally intractable, and therefore the standard Vickrey-Clarke-Groves (VCG) auction, while truthful and welfare-optimal, is impractical.

In this paper, we tackle a fundamental problem in the design of modern ad auctions. We adopt a ``Myersonian'' approach and study allocation rules that are monotone both in the bid and set of rich ads. We show that such rules can be paired with a payment function to give a truthful auction. Our main technical challenge is designing a monotone rule that yields a good approximation to the optimal welfare. Monotonicity doesn't hold for standard algorithms, e.g. the incremental bang-per-buck order, that give good approximations to ``knapsack-like'' problems such as ours. In fact, we show that no deterministic monotone rule can approximate the optimal welfare within a factor better than 2 (while there is a non-monotone FPTAS). Our main result is a new, simple, greedy and monotone allocation rule that guarantees a 3 approximation.

In ad auctions in practice, monotone allocation rules are often paired with the so-called Generalized Second Price (GSP) payment rule, which charges the minimum threshold price below which the allocation changes. We prove that, even though our monotone allocation rule paired with GSP is not truthful, its Price of Anarchy (PoA) is bounded. Under standard no overbidding assumption, we prove a pure PoA bound of 6 and a Bayes-Nash PoA bound of 6(1−1e). Finally, we experimentally test our algorithms on real-world data.

0 人点赞