Item embedding 取平均得到 User embedding,是四不像还是四都像

2021-12-02 15:33:34 浏览数 (2)

所谓高维空间的诅咒:在低维空间中是四不像,但随着 Embedding 维度的增加,取平均后的 Item Embedding 会和用户原本的 Embedding 越来越近。所以高维下大概率是“四都像”。

最简单的应用便是:当觉得用户的 User Embedding 不太好时,那可以使用用户最近点击过的 Item Embedding 取平均,从而得到新的 User Embedding。

这个用户的 User Embedding 不太好有多个角度:

  • 用户行为太少(冷启、底活),学不好 Embedding;
  • 模型产出太慢,User Embedding 学的不够快;
  • 模型不太行,捕捉不到用户最近的偏好。

注意:

  • Item 和 User 要在同一个隐空间中;
  • 可能会太集中于用户短期兴趣,从而产生追打、信息茧房;

最早期有点像 Youtube 2016 年的论文:通过 item embedding 生成 user embedding 的过程。

此外,这里还有一个比较好玩的论文:KDD2020 《PinnerSage: Multi-Modal User Embedding Framework for Recommendations at Pinterest》。大概是说:

  • 取用户短期点击的 N 条 Item 会导致太集中短期兴趣;
  • 考虑用户长期历史的兴趣不会追打,但 Pooling 会损失信息,且可能会导致”四不像“,如下:

其“取长补短”,其思路也很简单:取用户较长时间段内交互过的 Item embedding,聚成若干类,再拿每类的 Embedding 取召回,融合后返回。

至于如何聚类,聚几类,可以去看论文,这里不过多阐述。

0 人点赞