推荐系统作为以人为本的人工智能技术的最前沿应用,被广泛部署在网络世界的每个角落,其大大提高了人类的决策效率。然而,尽管推荐系统具有巨大的作用和潜力,但也可能导致对用户、物品、生产者、平台甚至整个社会的不良影响,例如由于不透明的过程而损害用户的信任,对不同的消费者或生产者的不公平待遇,由于大量使用用户的私人敏感数据进行个性化推荐而导致的隐私泄露问题,由于缺乏对用户自身数据的控制而导致推荐重复的内容的回音室效应等等。所有这些都造成了对可信推荐系统的迫切需求,以减轻或避免这种不利影响和风险。
在本文综述中,将介绍与可信和负责任的推荐系统有关的技术,包括但不限于可解释推荐算法、公平性推荐算法、隐私保护的推荐算法、鲁棒推荐算法、用户可控的推荐算法,以及从不同角度讨论了可信和负责任的推荐算法的关系。通过本文综述,希望为读者提供一个对可信推荐系统研究领域的全貌,并引起社会对可信推荐系统的重要性、现有研究成果和未来研究方向的关注。
论文:https://arxiv.org/abs/2207.12515
推荐系统基础
本文首先对推荐算法的基础概念进行了总结,首先概述了推荐算法的输入和输出,然后介绍了推荐系统的代表性算法。
推荐系统的输入基本围绕<用户, 物品, 交互>这个三元组来进行扩展。其中,用户可以是标量的ID号,也可以是具体的用户属性信息,比如性别、年龄等;物品在这里可以有更广的含义,比如购物平台中的商品、音乐平台的歌曲、社交平台上的朋友等;交互在推荐系统场景中大致分为了显式和隐式的数据。
推荐系统的输出通常包括为用户量身定制的个性化推荐列表,以及伴随推荐的解释理由。具体来说,推荐系统的输出一般包含三个阶段,即预测、排序以及解释。其中,预测可以看做是召回阶段,排序就是对上一步的预测结果进行精排,最后对推荐结果给出合理的解释。
本文对推荐系统的代表性方法大致分为了三大类,即浅层模型、深度模型以及大模型。其中,浅层模型侧重于传统的经典方法,比如协同过滤方法和基于内容的方法。
深度模型主要分为了基于深度学习的协同过滤方法和基于深度学习的协同推理方法。其中,深度协同过滤方法又可进一步分为表示学习方法和相似性学习方法,其分别对应如何更好的学习用户和物品的特征表示以及如何学习两者之间的相似程度的问题;而基于深度学习的协同推理则将推荐视为认知推理问题,采用逻辑推理或因果推理进行用户行为预测和推荐,在这里主要是将用户的历史行为建模为序列信息进行推荐。关于本部分更加详细的内容可阅读原论文。
近年来,大型语言模型等基础模型在许多人工智能子领域取得了令人惊讶的表现,其优势在于从模型规模中学习突出的预测能力,基于自我监督学习提取有用信息,基于预训练、微调和提示学习统一下游各种任务,以及推广到zero-shot或者few-shot问题中。像GPT-3,T5这样的大模型已经在语言生成等任务产生了不俗的效果。推荐系统的研究也呈现出类似的趋势,而个性化是推荐系统研究最独特、最重要的特征之一,因此推荐系统社区一直主导着个性化基础模型的研究。一个前沿的例子是P5--NLP模型一统推荐系统?谈新型推荐系统建模范式,它是一种用于推荐系统的预训练、个性化提示和预测范式,其将推荐重新定义为一种基于个性化提示的语言理解和生成任务,并将评分预测、序列推荐、解释生成等多种推荐任务统一起来。
介绍完推荐系统的基本输入输出以及代表方法外,下文将对可信推荐系统的具体内涵,即可解释性、公平性、隐私性、鲁棒性以及可控性进行一一介绍。
可解释性
可解释推荐算法一直是业界和学术界的一个重要领域,它旨在提高推荐系统的透明度、用户满意度和可信度。具体来说,其目标是提供可理解的理由以及推荐的项目,以帮助利益相关者做出更好和可靠的决策,同时提高推荐系统的透明度和可信度。
作为智能决策系统的重要类型,现代推荐系统有望提供高质量的推荐结果,以及个性化、直观的解释和更好的用户粘性,这对电商、社交媒体平台等许多实际应用都具有重要意义。此外,推荐系统对可解释性的要求在以下几个方面表现出特殊的特点,即个性化的解释生成、互动反馈以及主观反应。
考虑到可解释推荐的特殊性和重要性,许多方法被提出和研究。目前对可解释推荐的研究通常考虑按照以下角度进行划分,即解释方法、解释范围、解释形式以及受益的用户等。
在本文中,将根据输入数据类型对现有的可解释推荐进行分类,因为它直接决定了不同类型的方法和继承的输出解释形式。同时,对于方法的每个子集,本文还对它们进行了解释方法和解释范围的标记,以便读者更容易理解分类法的不同维度。具体对基于实体的解释方法、基于文本的解释方法、基于多媒体的解释方法、基于逻辑与神经符号规则的解释方法基于图的解释方法、基于反事实的解释方法以及多轮交互的解释方法进行了详细介绍。
针对于如何评估解释的有效性,根据以往的论文可以根据服务对象分为四类:用户、系统开发者、内容提供商以及监管部门;根据评价解释的方法大致分为三类,即离线评估、用户调研和在线评估。
最后,本部分讨论了可解释性与其他可信维度的关系,比如因果可解释性、可控解释性、无偏可解释性等前沿问题。
公平性
长期以来,推荐系统一直被认为是“仁慈”的智能系统,它可以帮助用户找到相关的物品,并为企业创造价值。然而,近年来,学术界和产业界都对推荐算法的公平性问题产生了相当大的关注。一些研究认为,推荐系统可能在以下几个方面容易受到不公平的影响,比如在电商领域来促进某些生产者的利润最大化,比如在求职领域可能过多地向某些用户群体推荐低薪工作,进而导致种族或性别歧视等不公平现象。因此,为了提高推荐系统中不同利益相关者的满意度,研究推荐中的公平性,建立可信负责的制度是很重要的。
推荐中的不公平主要来源于偏差和歧视。并且对于偏差的分类主要包括数据中的偏差和算法中的偏差。数据中的偏差可能是在数据生成过程、数据收集阶段、数据存储阶段所产生的偏差。
随后本文又介绍了推荐中的公平性的定义,具体包含了公平性的级别(组公平性以及个体公平性)、公平性的对象(生产者与消费者)公平性的关系(因果与关系)以及公平性的状态(动态和静态)等详细内容。关于图数据的公平性总结可参考本文--最新综述 | 图数据挖掘中的算法公平性。
现有的关于推荐公平性的研究主要集中在三个方面:1)公平性量化,在不同的公平性定义下发展量化指标来衡量算法的公平性;2)公平性建模,开发算法或模型来提高输出的公平性;3)公平性诊断,开发可解释的公平性方法来识别模型不公平性的原因,从而解释一个模型为什么公平或不公平。针对公平性建模的数据处理流程,又可分为预处理方法、处理中的方法以及处理后的算法。
最后本文讨论了公平性与其他可信维度的关系,比如其他可信维度的公平性、公平性约束的长期影响、可控公平性等。
隐私性
随着人们对收集和分析个人数据的机器学习方法的日益关注,数据隐私的道德需求已在强制性法规和法律中得到正式承认。因此,近年来保护隐私的机器学习研究得到了长足的发展。人们相信,一个更值得信赖的网络服务应该提供保护隐私的解决方案,以避免系统的任何参与者不希望的信息暴露。在推荐系统和一般的机器学习领域中,都存在多种隐私定义,在大多数情况下,它们都是根据以下维度进行划分的,即隐私信息、所有者、威胁类型以及隐私保护的目标。
在本节讨论了推荐系统领域中的隐私问题。首先解释了推荐系统中不同所有权类型的隐私要求,然后列出主要的隐私威胁和挑战。随后说明了几种主要的隐私保护技术。最后,列举了几个开放性问题。
隐私信息的所有权主要分为了用户隐私以及平台隐私。隐私威胁则主要是从去匿名化、推理攻击以及中毒攻击进行了详细介绍。隐私保护技术则主要介绍了匿名化、系统设计、加密技术、混淆与差分隐私以及对抗机器学习等在推荐系统中的应用。
最后,本节讨论了分布式系统中的隐私--一文梳理联邦学习推荐系统研究进展、可解释人工智能与隐私等开放性问题。
鲁棒性
虽然推荐系统提高了信息搜索的效率,对用户和生产者都有好处,但它也可能使用户在鲁棒性方面受到威胁,这为第三方通过配置文件注入攻击(又称先令攻击)操纵用户的推荐结果留下了空间。这些攻击的动机往往是恶意的,例如个人获得不正当利润、渗透某些商品/品牌的市场,甚至造成系统故障。
针对于攻击类型可以根据攻击时间、攻击意图、攻击规模以及攻击知识来进行划分。
本文对人工特征工程的先令攻击以及基于机器学习的对抗攻击进行了深入调研,并在攻击和防御方面进行了比较全面的总结。
最后本节讨论了理解鲁棒性的原因、精度指标之外的影响以及评分㡯之外的攻击等开放性问题。
可控性
人工智能的可控性是人类面临的最重要的问题之一,它是用户与智能系统交互时必不可少的,在人机交互领域已经研究了20多年。在与人类互动的推荐系统中,可控性的重要性不可忽视。然而,尽管最近推荐性能有了成功的改进,但推荐系统中的可控性问题已经成为一个新的主要问题:目前大多数的推荐系统大多是系统用户不可控的,用户只能被动地接收推荐结果。
更具体地说,在使用非可控推荐系统时,用户只能被动地选择接受或不接受推荐结果,而很难控制自己收到的推荐结果是什么。事实上,可控性是构建值得信赖的推荐系统的一个重要方面。最近的研究表明,即使推荐精度很高,用户也可能不满意,通过增加用户对推荐系统的可控性可以增加用户对推荐结果的满意度和信任度。
在本节中,将介绍现有的用户可控推荐模型的研究,按照干预的两种不同类型,大致可以分为两类: 1)显性可控性; 2)隐性可控性,然后,对未来需要研究的开放性问题,比如可控性的解释、个性化的可控性以及可控性的评估等问题进行了讨论。
总结
本文总结了当前可信推荐系统研究的发展和趋势,旨在促进和推进未来可信推荐系统的研究和实施。本文从技术角度为全面开发值得信赖的推荐系统提供了路线图。首先定义推荐系统的可信性,并通过对可信性原则的分类来说明它们的特点。然后,从可解释性、公平性、隐私性、可控性和鲁棒性等方面介绍和讨论可信推荐系统的最新研究进展。介绍了每个要素的基本思想,详细综述了针对每个要素的现有方法,并从交叉角度对未来的研究方向进行了展望。