RecSys2020推荐系统特征工程汇总

2021-05-14 16:06:03 浏览数 (1)

作者:一元,炼丹笔记小编

RecSys2020推荐系统特征工程汇总

背景

这是RecSys2020大会上由NVIDIA一堆大佬所分享的关于推荐系统中特征工程的Tutorial,此处我们抛开相关的加速等模块,直接深入最核心的也是大家最喜欢的特征工程模块,来看看大厂是如何做推荐系统相关的特征工程的。

这是一份非常通用的特征工程技巧手册, RecSys2020推荐大赛冠军的特征工程基本都包含在下面的技术之中。

特征工程技巧

1. 类别特征(Categorical)

常见的策略有三种:

  1. Target Encoding
  2. Count Encoding
  3. Categorifying

2. 非结构化的列表

常采用的特征工程策略为:

  1. Target Encoding
  2. Count Encoding
  3. Categorifying

3. 数值特征

  1. Normalization (mean/std, min/max, log-based, Gauss Rank)
  2. 幂转化(Power transformer)
  3. 分箱(Binning)

4. 时间戳特征

  1. 抽取月/天/星期/是否周末/小时/分钟/秒等特征;
  2. 对时间间隔进行Target encoding
  3. 对时间间隔进行Count Encoding
  4. 基于实践区进行Normalize

5. 时间序列

  1. 基于上一次时间的时间
  2. 时间之间的差值(lag特征)
  3. 在过去1min/5min/30min发生的事件

6. 文本

  1. 抽取关键词;
  2. TF-IDF;
  3. 语言embedding
  4. 长度/质量/复杂度(Complexity)

7. 图像

  1. 图像Embedding;
  2. 分辨率;
  3. 质量;
  4. 光谱;

8. 社交图

  1. 链接分析

9. 地理位置

  1. 距离POI的距离;
  2. 周边的特征;

汇总

参考文献

  1. Tutorial: Feature Engineering for Recommender Systems:https://dl.acm.org/doi/pdf/10.1145/3383313.3411543

0 人点赞