KuaiRec | 快手发布首个稠密度高达99%的推荐数据集, 可用于多种推荐系统方向研究

2022-04-08 15:27:37 浏览数 (1)

本周跟大家分享一篇快手公司与中科大合作产出的资源型论文,即发布了一个几乎全是观测值的稠密数据集KuaiRec,该数据集包含了1411个用户对3327个短视频的交互行为,稠密度高达99.6%(一般推荐系统公开数据集的稠密度在1%以下)。该数据集可用于离线的A/B测试,以及可用于无偏推荐、交互式/对话推荐或者是基于强化学习推荐等方向。

论文:https://arxiv.org/abs/2202.10842

数据:https://rec.ustc.edu.cn/share/598635c0-9585-11ec-8259-414ede1f8d4f

代码:http://m6z.cn/5U6xyQ

目前大多数离线评测的推荐系统数据集会存在高度数据稀疏(Highly sparse)与包含多种偏置(Various bias)的问题,因此会严重影响推荐算法的评测性能(关于目前主流推荐系统45种公开数据集的统计分析可阅读WSDM2022 | 数据困境: 我们究竟有多了解推荐系统数据集?)。目前主要的缓解方式是通过随机选择交互物品的方式来收集用户偏好以此来提高数据的质量,比如Yahoo数据集与Coat数据集。然而这些数据集会由于数据稀疏而导致高度偏差的问题,为从根本上缓解以上问题,所以提出了一个全量观测数据集KuaiRec,该数据集是从快手短视频社交分享平台上收集的,是第一个稠密度高度99%的数据集。

该数据集包含两种规模的数据,即Small matrix和Big matrix,其中Small matrix稠密度为99.6%可用于可信的评测,而Big matrix的稠密度为13.4%可用于推荐模型的训练。注意Big matrix与 Small matrix无任何的交集。

对于该数据集的统计信息可见下表,其中Big matrix还包含丰富的边信息,即用户侧的社交网络与物品侧的特征信息。

由于该数据几乎包含用户对所有物品的交互行为,因此不用去处理缺失值的问题(不能简单的把缺失值看做是负样本或者是missing-not-at-random问题)。该数据集可用于高效的离线A/B测试,因此可用于无偏推荐(Unbiased RS)、交互式推荐(Interactive RS)和对话推荐(Conversational RS)等。

另外,通过从Small matrix中抽取部分用户-商品交互(Partially dataset)作为测试集来进行与全量观测数据(Fully-observed dataset)的实验对比,来评估数据稠密度(Data density)与偏置(Bias)的影响。通过在KuaiRec数据集上的实验结果提供了两个关键的发现,这些发现正好说明了全量观测数据集的重要性:

1. 偏差极大地影响了不同模型在评价中的表现和排名。

2. 不同的数据稠密度仍然会导致结果不一致。

由于该数据集的原始版本是显式数据,因此为了转换为隐式反馈数据用于推荐排序等研究,该论文建议将视频观看长度大于视频本身时长的2倍为正样本,即用户至少观看了2次完整的视频才认为是正样本。

随后,该论文以对话推荐系统场景为例,来验证不同的算法在KuaiRec数据集上的性能表现,感兴趣的同学可以仔细阅读原论文的实验设置等细节内容。

最后,作者希望可以把该数据集作为一个测试平台来支持更多的研究工作。首先,可以使用Partially observed data来构建可信的用户模拟器。虽然在实验中验证了在矩阵填充任务上的帮助有限,但是否可以使用部分观测数据正确模拟完全观测数据仍然是一个悬而未决的问题。我们充分观察到的数据可以进一步支持这种探索。第二,Small trix版本的数据集可以作为推荐系统中多个研究方向的基准数据集,例如推荐系统中的偏差、交互式推荐和评估。至少通过发布这些全量观察到的数据,希望鼓励更多的科研人员努力收集具有更丰富属性的更完全的数据集,以此来促进推荐系统社区的发展。

0 人点赞