所谓高维空间的诅咒:在低维空间中是四不像,但随着 Embedding 维度的增加,取平均后的 Item Embedding 会和用户原本的 Embedding 越来越近。所以高维下大概率是“四都像”。
最简单的应用便是:当觉得用户的 User Embedding 不太好时,那可以使用用户最近点击过的 Item Embedding 取平均,从而得到新的 User Embedding。
这个用户的 User Embedding 不太好有多个角度:
- 用户行为太少(冷启、底活),学不好 Embedding;
- 模型产出太慢,User Embedding 学的不够快;
- 模型不太行,捕捉不到用户最近的偏好。
注意:
- Item 和 User 要在同一个隐空间中;
- 可能会太集中于用户短期兴趣,从而产生追打、信息茧房;
最早期有点像 Youtube 2016 年的论文:通过 item embedding 生成 user embedding 的过程。
此外,这里还有一个比较好玩的论文:KDD2020 《PinnerSage: Multi-Modal User Embedding Framework for Recommendations at Pinterest》。大概是说:
- 取用户短期点击的 N 条 Item 会导致太集中短期兴趣;
- 考虑用户长期历史的兴趣不会追打,但 Pooling 会损失信息,且可能会导致”四不像“,如下:
其“取长补短”,其思路也很简单:取用户较长时间段内交互过的 Item embedding,聚成若干类,再拿每类的 Embedding 取召回,融合后返回。
至于如何聚类,聚几类,可以去看论文,这里不过多阐述。