《The YouTube video recommendation system》是一篇详细介绍YouTube视频推荐的论文,在整个系统中没有复杂的算法,使用了一些简单有效的策略,这也符合工业界的应用,在工业界,为了考虑算法复杂度,数据量,可维护性等等一些因素,在工业界中,通常会选择一些简单有效的方法。
以下是论文的核心内容:
目标
帮助用户找到高质量且符合用户兴趣的视频,最终实现的是Top-N推荐。
总的思想
利用用户的互动行为数据,推荐与互动过视频相似的视频。
相似视频的挖掘
1、概念
相似视频指的是:当给定视频v_i 后,用户更有可能观看的视频组成的集合R_i ,公式如下所示:R_i=fleft ( v_i right ) 其中:
- v_i :种子视频
- R_i :与视频v_i 相似的视频的集合
2、方法
关联规则(Association Rule)
计算与给定的种子视频一起被观看的概率,概率越大,相似性越高。
3、相似性的计算
计算的方法:rleft ( v_i,v_j right )=frac{c_{ij}}{fleft ( v_i,v_j right )} 其中,fleft ( v_i,v_j right ) 称为正则化函数,通常可以取为:fleft ( v_i,v_j right )=v_icdot v_j 。
计算出所有的与视频v_i 相似的视频,根据相似性的值rleft ( v_i,v_j right ) 从候选集R_i 中找到Top-N的相似视频。
由left ( v_i,v_j right ) 可以表示成一个有向图,其中,权重为rleft ( v_i,v_j right ) ,如下所示:
生成推荐的候选
1、一级
假设种子集合为S ,由上述的相似性的方法挖掘出一些候选:C_1left ( S right )=bigcup_{v_iin S}R_i
这样的方法容易产生narrow recommendations,即推荐的视频与种子视频相似度极高,这对推荐来说不能满足多样性的要求。
2、二级
以一级产生的候选C_1 作为种子,产生C_2 。
3、多级
上述的结论推广至多级,形成最终的推荐结果为:C_{final}=left ( bigcup_{i=0}^{N}C_i right ) setminus S
Ranking
ranking的指标主要有:
- 视频质量
- 用户特性
其他
- 评价的方法:线上A/B Test
- 评价的指标:CTR
参考文献
- Davidson J, Liebald B, Liu J, et al. The YouTube video recommendation system[C]//Proceedings of the fourth ACM conference on Recommender systems. ACM, 2010: 293-296.