构建推荐系统:用 Netflix 电影评价数据集练练手

2020-04-27 10:33:48 浏览数 (1)

By 超神经

内容概要:我们每天都在接触视频平台的「猜你喜欢」、「为你推荐」,这背后的算法是怎样获得的,需要用到怎样的数据集?

关键词:Netflix 推荐系统 算法

Netflix:让推荐算法商业化的鼻祖

Netflix 是美国的著名流媒体平台,它从租赁 DVD 起家,当下的主要业务是提供视频流播服务和影片发行制作。

Netflix 视频资源丰富

全美 36% 的家庭已订阅 Netflix

2019 年 Netflix 全球订阅用户数达到 1.58 亿, 其平台的一大特色就是「智能推荐」,即依据用户以往的观看视频类型,借助算法为用户进行视频推荐。

虽然「猜你喜欢」对于现在的很多视频平台来说,早已经算不上新鲜事,但实际上早在 2006 年,Netflix 就已经非常重视推荐算法,并为此举办了奖金高达 100 万美元的 Netflix Prize。

Netflix Prize 副产:电影评价数据集

Netflix Prize 在推荐系统领域具有极其重要的意义,它以极高的奖金额度,吸引了大量 AI 开发者投身于推荐系统相关研究,同时也开辟了「推荐算法」商业化的先河,让这项技术真正从学界进入了商界,并被后来的视频流媒体平台争相模仿。

即使是与当下的数据科学竞赛相比

Netflix Prize 的奖金也极具吸引力

Netflix 电影评价数据集包含来自 48 万用户对 1.7 万部电影的评价数据,评价数超过 100 万条,数据采集的时间段为 1998.10 – 2005.11。

Netflix 电影评价数据集

包含数量:超过100 万条数据

数据格式:TXT

数据大小:665.24 MB

采集时间:1998.10 – 2005.11

发布时间:2006 年

包含内容:用户编号、电影名、评分时间以及评分

下载地址:hyper.ai/datasets/5687

其中评分以 5 分制为基准,用户信息经过脱敏处理,隐去用户姓名,仅保留用户编号、电影名、评分时间以及评分四个维度的数字,不包括任何文本评价的内容。

准确度提高 10%,BPC 团队获百万奖金

根据赛制要求,需要将 Netflix 自己的预测算法 Cinematch 的预测效率提高 10% 以上,才有机会获得最终胜利。

最终 BellKor'Pragmatic Chaos 团队经过不断优化提交了最终验证,在测试子集上获得的 RMSE 为 0.8567 ,与 Cinematch 的表现相比,得分提高了 10.06%,获得了 Netflix 的 100 万美元大奖。

BellKor' Pragmatic Chaos 团队摘得桂冠

Netflix 电影评价数据集对于研究视频流媒体推荐算法具有重要意义,有助于从数字维度了解用户喜好,预测用户可能喜欢的视频类型,并进行推荐。

除此之外,还可以对视频进行评估,先排序后推荐,评估用户感兴趣的程度,然后组成有序列表,进行个性化推荐。

想构建推荐系统、探讨推荐算法的朋友,快下载 Netflix 电影评价数据集开启自己的模型训练吧~

数据集下载传送门→ hyper.ai/datasets/5687

0 人点赞