作者:一元,炼丹笔记小编
RecSys2020推荐系统特征工程汇总
背景
这是RecSys2020大会上由NVIDIA一堆大佬所分享的关于推荐系统中特征工程的Tutorial,此处我们抛开相关的加速等模块,直接深入最核心的也是大家最喜欢的特征工程模块,来看看大厂是如何做推荐系统相关的特征工程的。
这是一份非常通用的特征工程技巧手册, RecSys2020推荐大赛冠军的特征工程基本都包含在下面的技术之中。
特征工程技巧
1. 类别特征(Categorical)
常见的策略有三种:
- Target Encoding
- Count Encoding
- Categorifying
2. 非结构化的列表
常采用的特征工程策略为:
- Target Encoding
- Count Encoding
- Categorifying
3. 数值特征
- Normalization (mean/std, min/max, log-based, Gauss Rank)
- 幂转化(Power transformer)
- 分箱(Binning)
4. 时间戳特征
- 抽取月/天/星期/是否周末/小时/分钟/秒等特征;
- 对时间间隔进行Target encoding
- 对时间间隔进行Count Encoding
- 基于实践区进行Normalize
5. 时间序列
- 基于上一次时间的时间
- 时间之间的差值(lag特征)
- 在过去1min/5min/30min发生的事件
6. 文本
- 抽取关键词;
- TF-IDF;
- 语言embedding
- 长度/质量/复杂度(Complexity)
7. 图像
- 图像Embedding;
- 分辨率;
- 质量;
- 光谱;
8. 社交图
- 链接分析
9. 地理位置
- 距离POI的距离;
- 周边的特征;
汇总
参考文献
- Tutorial: Feature Engineering for Recommender Systems:https://dl.acm.org/doi/pdf/10.1145/3383313.3411543