先说说为何改了标题吧,之前使用中文的话,前缀实在太长了,分享到群聊的时候,真正的标题根本不知道是什么。因此从本文开始,我们使用RS Meet DL来替换原来的标题推荐系统遇上深度学习。
本文是推荐系统遇上深度学习系列的第五十一篇文章,来谈谈推荐系统中冷启动的解决吧。
1、冷启动问题的分类
咱都知道,冷启动问题是推荐系统中面临的难题之一。冷启动问题主要分为以下三类:
1)用户冷启动:用户冷启动主要解决如何给新用户做个性化推荐的问题。
2)物品冷启动:物品冷启动主要解决如何将新的物品推荐给可能对它感兴趣的用户这一问题。
3)系统冷启动:系统冷启动主要解决如何在一个新开发的网站上(还没有用户,也没有用户行为,只有一些物品的信息)设计个性化推荐系统。
今天咱们主要来谈谈用户冷启动和物品冷启动问题的解决。最后简要介绍一些深度学习方法的解决方案。
2、用户冷启动的解决方案
2.1 使用热门榜单
当新用户来的时候,把近一周、近一个月比较热门的item推荐给用户。使用热门榜单推荐在某些场景下也能达到很好的推荐效果。举个亲身实践的例子吧,旅游景点的推荐。毕业论文做的这方面的内容,当使用热门景点进行推荐时,其效果是好于协同过滤方法的,这主要是由于景点推荐场景中有着明显的随大流心态,用户会倾向于去大家都去的地方。
2.2 利用用户的注册信息
我们可以有效利用用户以下三种注册信息进行推荐:
人口统计学信息
人口统计学信息包括年龄、性别、职业、民族、学历、居住地等等。不同用户在一个平台上表现出的行为有可能是截然不同的。举个例子(下面的也是我的猜测),在视频推荐中,年轻人可能更偏向青春偶像剧,年纪稍微大一点的可能会喜欢《乡村爱情》之类的剧集。再比如,在外卖平台上,女性点奶茶会明显多于男性。使用这种信息的话,就需要对每种商品的合适人群进行一定的统计,随后再配合热门榜单进行推荐同样可以达到不错的推荐效果。
用户选择的兴趣标签
在某些网站注册时,往往会要求用户选择一些自己感兴趣的标签,如下面网易云音乐注册时,让用户选择喜欢的音乐的语种等等:
用户绑定的其他平台账户信息
现在大多数网站都可以通过第三方平台如微信、QQ、微博进行登录。如在CSDN上,可以选择的登录方式有:
如果用户使用这些账号进行登录,我们可以通过账号信息追溯用户在其他平台上的行为,作为冷启动的参考。我们甚至可以通过其社交网络网络数据来进行推荐。比如两个用户都是通过微博登录的,而他们在微博中是互相关注的状态,那么我们就可以通过其好友的行为来进行推荐。
2.3 利用同平台其他产品中的行为进行推荐
与第三方登录不同。这里说的是使用同平台其他产品中的行为进行推荐。最典型的例子就是腾讯。如对QQ音乐的新用户进行推荐,可以利用其它腾讯平台的数据,比如在QQ空间关注了谁,在腾讯微博关注了谁,更进一步,比如在腾讯视频刚刚看了一部动漫,那么如果QQ音乐推荐了这部动漫里的歌曲,用户会觉得很人性化。
2.4 利用用户手机的IMEI号进行冷启动
IMEI号的全称是国际移动设备识别码(International Mobile Equipment Identity,IMEI),即通常所说的手机序列号。Android手机开放的比较高,在安装自己的手机APP时,可以了解到该手机上还安装了什么其他的app。我们同样可以基于统计的方式判定一个用户的大致画像,比如一个用户安装了美丽说、蘑菇街等应用,基本可以判定该用户是一个女性用户。更进一步,通过IMEI号,用户在手机上的行为也是可以获取的。比如大家在淘宝浏览了某些物品后,今日头条、虎扑等就马上有了相应的广告推荐。
3、物品冷启动的解决方案
3.1 利用物品的内容信息
该方法主要通过物品描述等文字中的语义来计算其相似度,对新闻等对于时效性有很高要求的领域来说比较常用。其基本思路是利用物品的内容信息计算物品的相关程度。比如将物品转换成关键词向量,通过计算向量之间的相似度(例如计算余弦相似度),得到物品的相关程度。 在《推荐系统实践》一书中,给出了一些常见的物品内容信息:
再比如,在电商推荐领域,可以通过一些标签信息来计算物品之间的相似程度。如用户在购买过火箭队球衣之后,可以推荐给其哈登的新球鞋,因为这些物品拥有共同的标签,如哈登、火箭队等等。
3.2 利用专家标注信息
很多系统在建立的时候,既没有用户的行为数据,也没有充足的物品内容信息来计算物品相似度。这种情况下,很多系统都利用专家进行标注。以Pandora电台为例,Pandora雇用了一批音乐人对几万名歌手的歌曲进行各个维度的标注,最终选定了400多个特征。每首歌都可以标识为一个400维的向量,然后通过常见的向量相似度算法计算出歌曲的相似度。
4、基于深度学习的方法
基于深度学习的冷启动方案也有不少了。这里咱们简单谈一谈。在《推荐系统与深度学习》一书中,介绍了两个案例。分别是使用CNN对音频流派进行分类以及人脸魅力值打分在视频推荐中的应用,感兴趣的同学可以看一下原书,这里就不再赘述。
在电商领域的推荐中,常见的召回策略是通过计算物品之间embedding的相似度。对于新加入的物品,可以使用其side-information的embedding来近似代替物品的embedding,从而进行相似度的计算。在阿里的两篇文章《Billion-scale Commodity Embedding for E-commerce Recommendation in Alibaba》和《Learning and Transferring IDs Representation in E-commerce》提出了相应的解决方案,大家可以参考下。
总之,基于深度学习方法的冷启动解决方案,大都集中在解决物品冷启动问题上,其基本的思路是通过深度学习方法来计算新物品和已有物品之间的相似性。这里咱们只是抛砖引玉,感兴趣的同学可以查阅更多的资料。
参考资料
1、项亮《推荐系统实践》 2、《推荐系统与深度学习》 3、https://www.zhihu.com/question/19843390 4、https://www.jianshu.com/p/97e46f933010 5、Billion-scale Commodity Embedding for E-commerce Recommendation in Alibaba 6、Learning and Transferring IDs Representation in E-commerce
高考已经结束了,但你的人生大考,校招马上就要来了!小编准备了一些小经验,后面分享给你!