By 超神经
内容概要:我们每天都在接触视频平台的「猜你喜欢」、「为你推荐」,这背后的算法是怎样获得的,需要用到怎样的数据集?
关键词:Netflix 推荐系统 算法
Netflix:让推荐算法商业化的鼻祖
Netflix 是美国的著名流媒体平台,它从租赁 DVD 起家,当下的主要业务是提供视频流播服务和影片发行制作。
Netflix 视频资源丰富
全美 36% 的家庭已订阅 Netflix
2019 年 Netflix 全球订阅用户数达到 1.58 亿, 其平台的一大特色就是「智能推荐」,即依据用户以往的观看视频类型,借助算法为用户进行视频推荐。
虽然「猜你喜欢」对于现在的很多视频平台来说,早已经算不上新鲜事,但实际上早在 2006 年,Netflix 就已经非常重视推荐算法,并为此举办了奖金高达 100 万美元的 Netflix Prize。
Netflix Prize 副产:电影评价数据集
Netflix Prize 在推荐系统领域具有极其重要的意义,它以极高的奖金额度,吸引了大量 AI 开发者投身于推荐系统相关研究,同时也开辟了「推荐算法」商业化的先河,让这项技术真正从学界进入了商界,并被后来的视频流媒体平台争相模仿。
即使是与当下的数据科学竞赛相比
Netflix Prize 的奖金也极具吸引力
Netflix 电影评价数据集包含来自 48 万用户对 1.7 万部电影的评价数据,评价数超过 100 万条,数据采集的时间段为 1998.10 – 2005.11。
Netflix 电影评价数据集
包含数量:超过100 万条数据
数据格式:TXT
数据大小:665.24 MB
采集时间:1998.10 – 2005.11
发布时间:2006 年
包含内容:用户编号、电影名、评分时间以及评分
下载地址:hyper.ai/datasets/5687
其中评分以 5 分制为基准,用户信息经过脱敏处理,隐去用户姓名,仅保留用户编号、电影名、评分时间以及评分四个维度的数字,不包括任何文本评价的内容。
准确度提高 10%,BPC 团队获百万奖金
根据赛制要求,需要将 Netflix 自己的预测算法 Cinematch 的预测效率提高 10% 以上,才有机会获得最终胜利。
最终 BellKor'Pragmatic Chaos 团队经过不断优化提交了最终验证,在测试子集上获得的 RMSE 为 0.8567 ,与 Cinematch 的表现相比,得分提高了 10.06%,获得了 Netflix 的 100 万美元大奖。
BellKor' Pragmatic Chaos 团队摘得桂冠
Netflix 电影评价数据集对于研究视频流媒体推荐算法具有重要意义,有助于从数字维度了解用户喜好,预测用户可能喜欢的视频类型,并进行推荐。
除此之外,还可以对视频进行评估,先排序后推荐,评估用户感兴趣的程度,然后组成有序列表,进行个性化推荐。
想构建推荐系统、探讨推荐算法的朋友,快下载 Netflix 电影评价数据集开启自己的模型训练吧~
数据集下载传送门→ hyper.ai/datasets/5687