《百面机器学习》笔记-特征工程相关面试题2

将一阶离散特征两两组合，就可以构成二阶组合特征

例如，特征a有m个取值，特别b 有n个取值，将二者组合就有m*n个组成情况。这时需要学习的参数个数就是 m×n 个

问题：当每个特征都有千万级别，就无法学习 m×n 规模的参数了

解决方案：可以将每个特征分别用 k 维的低维向量表示，需要学习的参数变为 m×k n×k 个，等价于矩阵分解

可以用基于决策树的方法

例如，得到的一棵树有这样四条路径：

（1）“年龄<=30”且“性别=女”。（2）“年龄<=30”且“物品类别=护肤品”。（3）“用户类型=付费”且“物品类型=服饰”。（4）“用户类型=付费”且“年龄<=50”。

那么新的一条样本数据，如果同时满足前两个路径，它的向量表示就是（1，1，0，0）

即每篇文章用一个向量表示，向量的每个位置代表一个单词，每个位置的数值代表这个单词在文章中的权重，经常用 TF-IDF 。

这个向量就像是一个装满单词的袋子，因为它没有考虑单词的顺序。

将每个词都映射成低维空间（通常 K=50～300 维）上的稠密向量

Word2Vec

0 人点赞