我愿称之为史上最全的深度学习面经总结（附答案详解）

作者丨马东什么@知乎（已授权）编辑丨极市平台

来源丨https://zhuanlan.zhihu.com/p/391954665

最近参加社招，面试基本是问项目，然后问项目里的算法所以这里还是按照实际的面试流程展开总结一下,因为做的项目里面对于不同的领域有一些涉及,所以统一整理一下免得临场忘记,当然,主业还是在machine learning上,所以还是以传统机器学习算法为主,时间序列预测,nlp,Graph这些涉及的部分只会总结相关的知识点,就不展开来系统性总结了,没啥太大必要也很麻烦.

之前整理的材料主要是19年10月之前的,这次是整理的几乎能找到的所有的19年之后的面经,扩大了范围包括了cv,推荐,语音等面经中的知识点,同时增加了那三本面经书的内容一些github上一些比较火的项目,大部分问题是重复的,去重之后其实大概也就百道题的样子.

无监督相关（聚类，异常检测等）:

问：熟悉哪些距离度量的方法？写一下距离计算公式？

1.连续数据的距离计算：

闵可夫斯基距离家族：

当p=1时，就是曼哈顿距离；

当p=2时，就是欧氏距离；

当p→∞时，就是切比雪夫距离。

余弦距离：

当向量的模长归一化为1时候，余弦距离和欧式距离可以相互转换。余弦距离不是

2.离散数据的距离计算：

杰卡尔德距离：A，B集合的交集/A,B集合的并集

汉明距离：表示两个等长字符串在对应位置上不同字符的数目

关于距离计算，遇到了我在单独研究，因为也是非常大的一块内容。上述的距离计算公式都是基于样本-样本之间的简单距离计算，当引入了核方法进行映射之后还会有一些相应的更复杂的距离计算方法，除此之外，迁移学习中的样本群体，即不同数据集之间的分布的距离的计算也是一大块儿内容，面试的时候应该不会问的太复杂，这里就暂时不深入展开了。

问：你了解哪些常见的聚类算法？对聚类了解多少？

https://zhuanlan.zhihu.com/p/394909171

简单回答，基于划分，基于密度，基于网格，层次聚类，除此之外聚类和其它领域也有很多的结合形成的交叉领域比如半监督聚类，深度聚类，集成聚类等等；

问：kmeans的原理是什么？

kmeans是一种基于划分的聚类，中心思想很简单，类内距离尽量小，类间距离尽量大，算法过程为：

1.初始化k个质心，作为初始的k个簇的中心点，k为人工设定的超参数；

2.所有样本点n分别计算和k个质心的距离，这里的距离也是人工定义的可以是不同的距离计算方法，每个样本点和k个质心中最近的质心划分为1类簇；

3.重新计算质心，方法是针对簇进行聚合计算，kmeans中使用简单平均的方法进行聚合计算，也可以使用中位数等方式进行计算；

4.重复上述过程直到达到预定的迭代次数或质心不再发生明显变化

问：kmeans的损失函数是什么？

其中，K是聚类数量，p是样本，

m_k

是第k个聚类的中心点。SSE越小，说明样本聚合程度越高。

问：kmeans的初始点怎么选择？不同的初始点选择策略有哪些缺陷？怎么解决？

1.随机初始化：随机选择k个样本点作为初始质心，缺陷在于如果选择到的质心距离很接近落在同一个簇内，则迭代的结果可能会比较差，因为最终迭代出来的质心点会落在簇间，

最理想的状态是k个质心恰好对应k个簇，由于随机初始化的随机性，可以考虑多次进行随机初始化，选择聚合结果最优的一次（这里涉及到聚类的评估方法）；

2.随机分取初始化：即将所有样本点随机赋予1个簇的编号，则所有样本点最后会有k个编号，然后进行组平均，即对于同一个簇的样本进行平均得到初始化质心。相对于随机初始化，初始的质心会更鲁棒一些，但是仍旧存在随机初始化的缺陷，仅仅是缓解；

3.kmeans

kmeans 是一种启发式的初始化策略：

Kmeans 聚类算法原理与实现：https://zhuanlan.zhihu.com/p/152286357

①从数据集

mathcal{X}

中随机（均匀分布）选取一个样本点作为第一个初始聚类中心

c_i

;

②接着计算每个样本与当前已有聚类中心之间的最短距离，用

D(x)

表示；然后计算每个样本点被选为下一个聚类中心的概率

P(x)

，最后选择最大概率值所对应的样本点作为下一个簇中心；

其实就是选择最短距离最大的样本点作为下一个初始化聚类中心点

③重复第②步，直到选择出

个聚类中心；

kmeans 是一种启发式的初始化策略，并没有严格的理论证明，是sklearn中kmeans的默认的初始化策略；

4.其它聚类算法初始化策略：

使用其它聚类算法计算得到k个质心点作为kmeans的初始质心，我挺懵的，这样好像有亿点麻烦。。。

4.kmeans聚的是特征还是样本？特征的距离如何计算？

一般情况下是对样本聚类，如果对特征聚类则处理方式也简单，对原始的输入进行.T ，即转置即可。其目的其实和做相关系数类似，如果两个特征高度相关，例如收入和资产水平，则两个特征的距离相对较小，但是一般不可行，因为转置之后，维度往往是非常高的，例如有100万个样本则有100万的维度，计算上不现实，高维数据的距离度量也是无效的，不如直接计算相关系数；

5.为什么在高维空间中，欧式距离的度量逐渐失效？

《When Is “Nearest Neighbor” Meaningful?》

维度d趋于无穷大时，高维空间中任意两个样本点的最大距离和最小距离趋于相等，距离度量失效；

问.怎么确定聚类数量K（聚类如果不清楚有多少类，有什么方法？）

和评估分类或回归的方式一样，选择某个metric或某些metrics下最好的k，例如sse（其实就是kmeans的损失函数了），轮廓系数，兰德指数，互信息等；

如果聚类本身是为了有监督任务服务的（例如聚类产生features用于下游任务），则可以直接根据下游任务的metrics进行评估更好；

问：k-means如何调优

1.初始化策略调参；

2.k的大小调参，手工方法，手肘法为代表；

3.数据归一化和异常样本的处理；

问：介绍一下手肘法（gap statistic的计算很麻烦，这里就不写了）？

手肘法其实没什么特别的，纵轴是聚类效果的评估指标，根据具体的问题而定，如果聚类是作为单独的任务存在则使用sse或轮廓系数这类无监督的metric作为纵坐标，然后找到metric最好并且k最小的结果对应的k为最终的选择；

手肘法其实也很容易做成自动化，我们计算metric变化的斜率就可以了，具体方法就是计算k=n和k=n 1之间的斜率，当斜率n和斜率n-1，斜率n 1和斜率n，斜率n 2和斜率n 1的差值均小于固定阈值时即可停止，代码实现上的思路和早停基本是一致的；

问：k-means的缺点，怎么解决？

1.对异常样本很敏感，簇心会因为异常样本被拉得很远

注意，这里的异常样本指的仅仅是在某些特征维度上取值特别大或者特别小的样本，是异常检测中定义的异常样本的一个子集，因为欧式距离的计算不考虑不同变量之间的联合分布，默认所有特征是相互独立的，所以kmeans中会对结果产生影响的异常样本特指简单的异常样本，即某些特征维度存在异常值的样本，这类异常样本通过简单的统计就可以得到；

解决方法即做好预处理，将异常样本剔除或修正；

2.k值需要事先指定，有时候难以确定；

解决方法即针对k调参；

3.只能拟合球形簇，对于流形簇等不规则的簇或是存在簇重叠问题的复杂情况等，效果较差

解决方法，换算法；

4.无法处理离散特征，缺失特征，

5.无法保证全局最优

解决方法：矮子里面挑高个，跑多次，取不同的局部最优里最优的

问：dbscan和optics是怎么解决这些缺点的？

dbscan和optics是基于密度的聚类

1.kmeans对异常样本很敏感，簇心会因为异常样本被拉得很远

dbscan和optics定义了密度的计算方式，不涉及到任何的平均这种鲁棒性较差的计算方式，对异常样本不敏感，还能检测异常样本呢；

2.k值需要事先指定，有时候难以确定；

dbscan和optics不需要指定簇的数量；算法迭代过程中自然而然产生最优的k个聚类簇；

3.只能拟合球形簇，对于流形簇等不规则的簇或是存在簇重叠问题的复杂情况等，效果较差

基于密度的聚类可以拟合任意形状的簇，这也归功于密度的计算方式，基于密度的聚类本身不对聚类簇的形状有任何的假设；

4.无法处理离散特征，缺失特征：缺失特征要插补，离散特征可以换离散特征的距离度量方法，基于密度的聚类算法可以灵活搭配各种不同的distance的度量方式；

5.无法保证全局最优：未解决

问：讲一下dbscan和optics的大致思路？

dbscan：单个超球体，病毒式扩散；

optics：两个嵌套的超球体一大一小，先映射为直方图，然后从直方图上生成聚类结果

dbscan和optics：https://zhuanlan.zhihu.com/p/395088759

问：kmeans是否一定可以收敛，为什么？kmeans为什么无法保证全局最优？

收敛性证明就算了吧。。.这也太超纲了。.。

kmeans的损失函数是一个非凸函数，所以无法保证全局最优；

from K Means为什么不能收敛到全局最优点？-SofaSofa：http://sofasofa.io/forum_main_post.php?postid=1002942

kmeans的损失函数，需要记忆一下

这里μk是第k个簇的质心，

为了方便描述，假设x是2维的，取k=1，则我们令：

uk是待求解变量，画出：z=

的函数图像：

可以看到，优化目标z存在(1,1),(-1,1)两个最优解，所以kmeans的损失函数不是一个凸函数而是一个非凸函数，难以保证收敛到全局最优。

问：为什么在一些场景中要使用余弦相似度而不是欧氏距离？

如果A，B两个向量e 的模场均为1，则欧式距离和余弦距离之间满足：

总体来说，欧氏距离体现数值上的绝对差异，而余弦距离体现方向上的相对差异。例如，统计两部剧的用户观看行为，用户A的观看向量为(0,1)，用户B为 (1,0)；此时二者的余弦距离很大，而欧氏距离很小；我们分析两个用户对于不同视频的偏好，更关注相对差异，显然应当使用余弦距离。而当我们分析用户活跃度，以登陆次数(单位：次)和平均观看时长(单位：分钟)作为特征时，余弦距离会认为(1,10)、(10,100)两个用户距离很近；但显然这两个用户活跃度是有着极大差异的。

因此，我们关注向量数值绝对差异，应当使用欧氏距离，如果关心的是向量方向上的相对差异，则应当使用余弦距离。

问：余弦距离是否是一个严格定义的距离? （一个度量标准要满足什么要求才能算是距离）

该题主要考察面试者对距离的定义的理解，以及简单的反证和推导。首先看距离的定义：在一个集合中，如果每一对元素均可唯一确定一个实数，使得三条距离公理（正定性，对称性，三角不等式）成立，则该实数可称为这对元素之间的距离。

余弦距离满足正定性和对称性，但是不满足三角不等式，因此它并不是严格定义的距离。

问：K-means 中我想聚成100类结果发现只能聚成98类，为什么？

迭代的过程中出现空簇，原因在于k太大，实际的簇数量小于k；

初始化策略不会导致空簇的问题，因为即使最简单的随机初始化也是从原始的样本点里选择部分样本作为质心，如果初始质心中存在异常样本，则最终聚类的结果，这个异常点会自成一个簇而不会出现空簇的问题；

https://datascience.stackexchange.com/questions/44897/k-means-clustering-what-to-do-if-a-cluster-has-0-elements

空簇对应的中心点和任意一个样本点的距离都不是该样本点距离其它质心点的距离的最小值。

问：kmeans，GMM，EM之间有什么关系？

kmeans是基于划分的聚类算法，GMM是基于模型的聚类算法，EM是估计GMM的参数使用的优化算法；

1. kmeans可以看作是GMM的一种特例，于协方差为单位矩阵，故kmeans聚类的形状是球形的，而GMM是椭球型的；

2. kmeans使用hard EM求解，GMM使用soft EM求解（kmeans感觉还是从直观上的计算过程上理解比较舒服，通过hard em也是一个解释就是了）;

关于上述的原因，在下一个问题里说明

问：高斯混合模型的核心思想是什么？（GMM和多元高斯有什么区别？，多元高斯函数的期望是什么）

GMM就是多个相关多元高斯分布的加权求和；

理解GMM之前，先回归基本概念：

1.一元高斯分布：

f(x)=frac{1}{sqrt{2pi}*sigma}*e^{-frac{(x-mu)^2}{2sigma^{2}}}

现在我们将高斯分布扩展到多维空间，简单说就是有x1，x2，x3。。。xn等多个维度。当我们假设多维空间的每一个空间之间完全独立，则独立的n元高斯分布为：

f(x)=frac{1}{(sqrt{2pi})^n*|sum_{}^{}{}|^{frac{1}{2}}}*e^{-frac{(x-mu_{x})^T*(x-mu_{x})}{2*sum_{}^{}{}^{}}}

可以看到，是非常类似的，根号2pi部分取n次方，方差用协方差矩阵代替，代数的乘法转化为矩阵乘法；多元高斯分布的期望就是观测样本的（样本向量-所有特征向量的均值构成的均值向量）进行和自身的向量乘计算；

协方差矩阵：

协方差矩阵是一个nXn的矩阵，n代表了多元的大小，对于协方差矩阵中的每一个元素，计算公式如下：

具体展开来看就是：

协方差矩阵和相关系数的关系：

可以看到，相关系数的计算过程中，已经对变量做了均值方差的标准化处理了，所以对两个特征计算相关系数不需要考虑量纲大小的问题；

现实世界中，不同的特征（多个特征=多元）很难完全独立，因此我们也会使用非独立的多元高斯分布，公式写作：

f(x)=frac{1}{(sqrt{2pi})^n*|sum_{}^{}{}|^{frac{1}{2}}}*e^{-frac{(x-mu_{x})^T*(x-mu_{x})}{2*sum_{}^{}{}^{}}}

可以看到，公式层面上，独立多元高斯分布和非独立（相关）多元高斯分布的形式是一样的，只不过协方差矩阵不同：

独立多元高斯分布除对角线之外其它元素的值均为0，相关多元高斯分布则其它元素的值为特征之间的协方差的计算结果；

高斯混合模型：

高斯混合模型GMM是多元高斯分布之上的概念，他认为现实世界的数据是由多个不同参数的相关多元高斯模型以不同的权重累积求和构成的（单元，独立多元高斯模型可以看作相关多元高斯模型的特例）；

其中：

是第

个子模型的相关多元高斯分布，

alpha_{k}

是观测数据属于第

个子模型的概率；因此对于GMM而言，其参数

theta = (tilde{mu_{k}}, tilde{sigma_{k}}, tilde{alpha_{k}})

，即每个子模型的均值向量、协方差矩阵以及在GMM中该子模型的权重；

对于相关多元高斯混合模型，其参数仅包含均值向量和协方差矩阵，可以直接通过极大似然法写出极大似然函数，然后通过求导进行参数估计，具体的通过极大似然法可以直接推导出均值向量和协方差矩阵关于输入向量X的计算公式，带入数据集X可以直接求解；

而GMM的极大似然函数较为复杂：

由于存在

alpha_{k}

（观测数据属于第

个子模型的概率）这个隐变量，无法直接求导得到参数的估计结果，因此通过EM算法来进行迭代式的求解；

问：GMM是如何迭代计算的？为什么kmeans，GMM，EM满足上面描述的方式？（EM算法数学原理）

首先需要了解em算法，em算法和梯度下降法一样，都可以用来优化极大似然函数，当极大似然函数中存在隐变量时，EM算法是一种常用的优化算法；

EM算法是一种迭代优化策略，由于它的计算方法中每一次迭代都分两步，其中一个为期望步（E步），另一个为极大步（M步），所以EM算法被称为EM算法（Expectation-Maximization Algorithm）

jensen不等式：

如果f是凸函数，X是随机变量，那么：

Eleft[ f(X) right]geq f(Eleft[ X right])

。当且仅当X是常量时，该式取等号。其中，E(X)表示X的数学期望。Jensen不等式应用于凹函数时，不等号方向反向。当且仅当x是常量时，该不等式取等号。

如上图，实线f表示凸函数，X是随机变量，有0.5的概率是a，有0.5的概率是b。X的期望值就是a和b的中值，从图中可以看到

Eleft[ f(X) right]geq f(Eleft[ X right])

成立。

问：GMM的损失函数？增大数据量是否会更好？

问：层次聚类原理

问：为什么选择孤立森林？介绍一下iforest？

优点：基于集成异常检测的思路，鲁棒性强；不涉及距离和密度计算，计算速度很快；每棵树独立生成可并行或分布式；

iforest的算法流程：

（1）底层是极限随机树，随机选择一个特征，随机选择部分样本（bagging），每次分裂随机选择一个分裂节点，最大深度是 log2（bagging的样本数量）

（2）整合所有极限随机树的结果，使用score function打分：

h(x) 为样本x 在每棵树的高度（其实就是x在这棵树上分裂了几次），对样本x在所有树上的分裂次数进行平均得到分子项目，c(Ψ) 为给定样本数 Ψ 时路径长度的平均值，用来对样本 x 的路径长度 h(x) 进行标准化处理。

（3）score function的计算结果在0~1之间，

如果异常得分接近 1，那么一定是异常点；

如果异常得分远小于 0.5，那么一定不是异常点；

如果异常得分所有点的得分都在 0.5 左右，那么样本中很可能不存在异常点。

详细的可见：

isolation forest：https://zhuanlan.zhihu.com/p/181378482

isolation forest的score function公式到底是个啥？：https://zhuanlan.zhihu.com/p/181650438

追问：为什么高度为log2（bagging的样本数量）？为什么每次随机仅选择一小部分的样本（默认是min(bagging的样本数量，256)）？

直观上来看，m个特征，我们用m个极限随机树分别进行完全分裂，分裂到叶子节点的样本特征值完全相同，得到n个样本在m个极限随机树上的分裂次数，即得到n个样本在m个特征上的分裂次数，然后取平均就可以满足我们的预测目标了。本质上通过分裂次数代替聚类或密度的计算，分裂越少，则样本在这个特征上的异常程度越高，然后综合考虑样本在多个特征上的异常程度；

但是这么做的问题有：

1.计算复杂度太高了，树的完全分裂的时间复杂度为O(n)，上述做法的总的时间复杂度为O(mn);

2.本质上做的是基于集成学习的无监督学习，鲁棒性强，但是单纯用1个极限随机树分裂1个特征，随机因素影响太大，重新训练的结果差异可能会很大。解决的方法是每个特征用多个极限随机树来拟合，则计算复杂度进一步扩大为O(mnk)，k为树的数量；

3.无监督的核心缺陷，无法自动特征选择，所有特征的重要性一视同仁，则如果存在大量无用特征或者噪声特征，会严重影响计算结果；

iforest针对上述问题做了改进：

1.针对问题1，树的最大深度限制为log2（bagging的样本数量），之所以对树的高度做限制，是因为我们只关心路径长度较短的点，它们更可能是异常点，而并不关心那些路径很长的正常点。之所以使用log2的底数，是为了和score function的公式对应起来，为了计算score fuction上的便利性：

2-log2(2)=1/2,2log2(2)=2（指数和log计算公式）

总结一下， log2（bagging的样本数量）和服务于score function的设计的，计算上提供了便利性，；

2.仍旧是针对问题1，树每次使用的样本默认为 min(采样的样本数，256)，这么做主要避免了太大数量的样本上分裂次数过多计算复杂度高的问题，然后通过集成提高整个模型的鲁棒性。（精度和效率之间的一种折衷，根据论文和实际的应用结果，效果还ok）；

3.针对问题2，仍旧是精度和效率上的折衷，k个极限随机树通过采样，最终一共使用k个特征，每一轮随机选择一个特征生成一棵树；

4.针对问题1和2的不精确分裂的问题（实质上也没有办法做精确分裂），tree分裂上的不精确在实践中可以被认为提高了算法的鲁棒性，类似于lgb直方图；

5.针对问题3，特征的随机采样某些情况下缓解了无效特征的问题（大部分特征有效少部分特征无效的情况），但是本质上没有解决（大部分特征无效，少部分特征有效的情况），最终的特征工程还是要基于业务经验来进行；

追问：iforest的score function，为什么这么设计？

一步一步拆解来看：

1.指数函数形式的设计

我们希望iforest输出的结果能够在一个有限的范围内，例如像auc的取值范围为0.5~1一般，有界的评估指标便于比较（高度必然为正数，因此分子部分可以保证为负数，2**-x必然是大于0小于1的）；

2.分子的设计：

h(x)部分，并不是简单的直接计算样本在tree上的分裂次数，观察上述公式，其中e表示的才是样本在tree上的分裂次数，后面额外多了一项c(T.size)的修正项，T.size表示的样本所在叶子节点中所有样本的数量。

c(n)表示样本数量为n的情况下，生成随机二叉树的期望高度：

3.分母部分的设计：

分母部分使用的仍旧是上述的C(n)的公式，只不过分母部分的n指的是每一棵极限随机树使用的全部样本数量，即bagging得到的样本数量，默认是256个样本。这里的分母也是作为修正项存在的。

追问：为什么这里要引入分子和分母部分的修正项？

1.分子部分的修正项：

主要目的在于将样本落在的叶子节点中的样本数量大小这一因素考虑进来，假设某个样本A落入了叶子节点1，叶子节点1中有5个样本；某个样本B落入了叶子节点2，叶子节点2中有5000个样本，并且假设A和B的树的深度e都是3，则如果我们不引入修正项c(T.size)，计算结果是完全相同的。但实际上很明显，A的异常程度是要高于B的，因为B所在的叶子节点的样本数量很大，其实是可以继续分裂很多次，然而考虑到性能的问题，我们对树的高度做了限制，因此会引发这样的误差。

修正项的引入可以很好的解决这个问题，C(n)代表了给定n个叶子节点，所能生成的随机二叉树的平均高度，显然，叶子节点数量越多，则平均高度越大，则score function的计算结果越小，从而巧妙地缓解了上述存在的问题；

2.分母部分的修正项：

主要目的在于将每个tree所训练的bagging的样本数大小这一因素考虑进来，假设bagging的样本大小为64和256，则根据iforest的设计，max_depth分别为5和8，显然，bagging的样本数量越大则树可以生成的树的深度大概率越深，因此在分母部分引入给定bagging样本数量下，所能生成的随机二叉树的平均高度，显然，bagging样本数越多，平均高度越大，则score function计算的结果越大。

问：KNN算法是否存在损失函数？

无，knn是一种懒惰学习（lazy learning）的算法，对应的有eager learning：

lazy learning：

只存储数据集而不从中学习，不需要模型训练
收到测试数据后开始根据存储数据集对数据进行分类或回归；

eager learning：

1.从收集到的数据中学习，需要模型训练；

2.受到测试数据后直接完成分类或回归

不均衡学习:

问：数据不均衡如何解决，抽样得到的分类准确率如何转换为原准确率？

将采样后的预测的类别按照采样比例进行相应的增大或减少，例如对类别A下采样了50%，则预测结果中类别A的预测数量为m，令m=m/0.5=2m，然后计算分类准确率；

这种处理方式是不准确的，合理的方式应该是直接对原始数据进行评估指标的计算；

问：解决难样本问题的方法（hard sample problem），ohem与focal loss的相同点和不同点

问：如果把不平衡的训练集（正负样本1：3）通过降采样平衡后，那么对于平衡后的AUC值和预测概率值有怎样的变化？

roc曲线对类别数量的变化不敏感，因此auc的计算结果整体不会发生明显变化；

通过下采样平衡后，变相增大了正样本数量，分类决策边界远离正样本，预测概率整体变大；

问：class_weight的思想是什么？

class_weight对应的简单加权法是代价敏感学习最简单的一种方法，思想就是小类样本加权，使其在loss中比重变大；

问：不均衡学习原理？

目前主流的不均衡学习主要是关于分类问题的不均衡。所谓不均衡分类，指的是样本不同类别的数量差异越来越大的情况下，模型越来越偏向于预测大类样本的现象，因此，模型分类性能越来越差。

单纯从样本不均衡的角度出发（不考虑分布变化，小样本学习，分类问题的困难程度等其它问题），不均衡的类别对模型造成影响的原因：

1.目标函数优化的方法，使用梯度下降法优化目标函数的模型对于不均衡问题更敏感；而tree模型纯粹基于贪心策略进行分裂的方法则对此并不敏感；

2.目标函数的使用，hinge loss和交叉熵对于不均衡的敏感度不同；

不均衡是一个现象，是分类模型效果差的潜在原因之一；

问：了解哪些不均衡学习的处理方法？讲讲smote算法的原理？为什么平常很少使用smote这类基于样本生成的方法？

问：过采样（上采样）和生成样本的区别？

上采样不一定是生成样本，例如简单的repeat式的上采样，通过repeat不涉及样本生成的过程，但生成样本一定是一种上采样；

模型的loss function，metrics和optimizers

无监督metrics：

问：如何评价聚类结果的好坏（知道哪些聚类的评估指标）？轮廓系数有没有用过

sse很简单

轮廓系数：

轮廓系数是为每个样本定义的，由两个分数组成：

a：样本与同一cluster中所有其他点之间的平均距离。
b：样本与_下一个最近cluster_中的所有其他点之间的平均距离。

对于单个样本而言，轮廓系数的计算公式如下：

对于模型评估而言，取所有样本的轮廓系数的均值作为模型聚类效果的评估指标；

其它评估方式可见：

https://scikit-learn.org/stable/modules/clustering.html#clustering-performance-evaluation

有监督metrics：

问：准确率的局限性是什么？

1.不同分类阈值下准确率会发生变化，评估起来比较麻烦；

2.对样本不均衡问题特别敏感，例如当负样本占99%时，分类器把所有样本都预测为负样本也可以获得99%的准确率；

公式：分类正确的样本数/总样本数

问：ROC曲线如何绘制，ROC和PRC的异同点；准确率（accuracy）、精确率（precision）、召回率（recall），各自的定义，各自的缺陷；PR曲线的绘制；使用PR曲线判断模型好坏；ROC曲线的横坐标、纵坐标意义；

TP，FP，TN，FN，都是英文缩写很好记忆

准确率=(tp tn)/total

精确率=tp/(tp fp) 分子为正确预测的正样本的样本数量，分母为预测为正样本的样本数量

召回率=tp/(tp fn) 分子为正确预测的正样本的样本数量，分母为所有正样本的样本数量

误杀率=fp/(fp tn) 分子为错误预测的正样本数量，分母为所有负样本的样本数量

极度不均衡情况下，模型将所有样本预测为大类则准确率就能很高了；

分类阈值接近0，则模型将所有样本预测为正样本则召回率接近100%；

分类阈值接近1，则模型将极少样本预测为正样本则精确率接近100%（例如就预测一个样本为正样本并且这个样本恰好为正样本则精确率为1）；

召回和精确率都受到分类阈值的影响较大；

pr曲线，以召回率为横坐标，精确率为纵坐标

如果一个学习器的P-R曲线被另一个学习器的P-R曲线完全包住，则可认为后者的性能优于前者，例如上面的A和B优于学习器C；

一般使用平衡点来评估无法直接比较的情况例如上图的A和B模型，平衡点（BEP）是P=R时的取值，如果这个值较大，则说明学习器的性能较好。而F1 = 2 * 召回率 * 精确率／( 召回率精确率 )，同样，F1值越大，我们可以认为该学习器的性能较好。

roc曲线，和pr曲线一样，纵坐标是精确率，但是横坐标是误杀率。

其中第一行ab均为原数据的图，左边为ROC曲线，右边为P-R曲线。第二行cd为负样本增大10倍后俩个曲线的图。可以看出，ROC曲线基本没有变化，但P-R曲线确剧烈震荡。因此，在面对正负样本数量非常不均衡的场景下，ROC曲线会是一个更加稳定能反映模型好坏的指标，

问：ROC曲线和PR曲线的区别，适用场景，各自优缺点；

roc曲线对于正负样本比例不敏感，因为roc曲线的纵坐标是精确率=预测正确的正样本/预测为正样本的样本数量，横坐标是误杀率=预测错误的负样本/所有负样本数量，改变了标签中类别的分布之后，预测正确的正样本/预测为正样本的样本数量会同时发生同向的变化，预测错误的负样本/所有负样本数量也会发生同向的变化，即roc的横纵坐标的计算结果是独立的，分别是针对正样本和针对负样本独立计算的，两个坐标的计算不会发生互相影响，因此类别比例发生变化的情况下，roc也不会产生剧烈的变动；

pr曲线的纵坐标是精确率=预测正确的正样本/预测为正样本的样本数量，横坐标是召回率=预测正确的正样本/所有正样本的数量，即pr的横纵坐标的计算结果是存在相互关系的，他们都是针对正样本进行计算，两个坐标的计算发生互相影响，从而使得pr曲线对类别的变化很敏感；

roc聚焦于二分类模型整体对正负样本的预测能力，所以适用于评估模型整体的性能；如果主要关注正样本的预测能力而不care负样本的预测能力，则pr曲线更合适；

问：AUC的意义，AUC的计算公式？

auc是roc的曲线下面积，但是auc的实际意义仅仅从roc的曲线下面积不好理解，这里可以先了解一下auc的计算公式有哪些：

直接根据roc曲线进行计算，计算roc曲线下面积，缺点是计算误差较大，我们需要确定非常大量的分类阈值才能毕竟auc的真实计算结果；

2.auc的实际意义：正负样本对中预测结果的rank值的比较，假设正样本有x1个，负样本有x0个，则统计正样本*负样本的样本对中，正样本的预测概率大于负样本的预测概率的样本数量z，然后用z/x0*x1就可以得到auc了，这种计算方式的时间复杂度为O(n^2)，这里的n指的是样本总数量

3.在2的基础上改进，先对预测的结果进行rank，预测概率越大则rank值越大，

这里的公式写的比较简略，详细解释一下：

首先， 假设某个样本 S 的rank值为k，则意味着有k-1个样本的预测概率小于样本S，即对于这k-1个样本中的每一个样本s来说，他们分别和样本S 构成的 sample pair （S，s）都是S的rank大而s的rank小的，则我们可以先得到：

然后， 对于M个正样本而言，两个正样本构成的pair是没有意义的，我们在2里的计算不涉及到正样本之间的匹配，因此这部分需要减掉，则M个正样本两两配对的组合数量为

C_{M}^{2}=frac{M*(M-1)}{2}

最后， 对于rank值而言，例如样本S的rank值为10，则实际上是有9个样本的预测值小于样本S的，但是我们前面的求和部分实际上将样本S和自身的sample pair(S,S)都考虑进去了，所以这里减掉和自身匹配的情况，一共是M种；

最终，我们就得到了：

时间复杂度取决于使用了排序算法，使用快排则计算复杂度为O(nlog(n))

因此，auc的实际意义是任意选定一个正负样本对，正样本的预测结果大于负样本的预测结果的概率；

问：给你M个正样本，N个负样本，以及他们的预测值P，求AUC

预测值取rank然后套上面公式就行了；

问：IV值，woe值是什么？

woe是一种用于类别特征编码的编码方法，公式为：

简单来说，就是某个类别的好坏比/全量数据的好坏比；

iv是对woe值的修正，主要是考虑类别中包含的样本数量大小不同从而导致相同woe计算结果下，统计特征不明显的问题，不同样本数量下计算出来的woe是具有不同意义的，简单来说，woe计算结果相同的情况下，类别中包含的样本数量越多，woe的显著性越明显；

woe因为存在上述的问题，所以从整个特征的层面来看不能直接求和，但iv可以

问：roc曲线中，高于和低于对角线表示意义

roc曲线的对角线，表示一个随机预测模型的性能，如果模型的roc曲线在对角线下方，则该模型比随机模型还差，高于对角线则表示模型比随机模型好，模型是有意义的；

具体的，可以从auc的物理意义上去理解，roc的对角线下方面积为0.5，意味着对角线的随机模型的auc为0.5，结合auc的物理意义：任意选择一个正负样本对，正样本的预测结果高于负样本的预测结果的概率，则说明对角线代表的随机模型对于正负样本对的相对大小的判定是随机的；

问：多分类 auc 怎么算？

多分类问题中，在二分类指标的基础上需要进行一些处理才能适配多分类的评估，整体有两种计算策略：

基于macro的策略：ovr的划分方式，分别计算每个类别的metrics然后再进行平均

基于micro的策略：所有类放在一起算metrics；

micro的评估方式，当类别非常不均衡时，micro的计算结果会被样本数量多的类别主导，此时需要使用macro

问：F1，F2.。。.Fn值是什么，Fbeta怎么计算？

fbeta是f_metrics系列的最终定义式，公式如下：（f系列的可以统一用这个公式来记忆）

当beta=1时，Fbeta=F1，当beta=n时，Fbeta=fn；

beta用于定义召回率和精确率的相对重要性，越大，则recall越重要，当beta趋于无穷大时，Fbeta=recall，越小，则precision越重要，当beta**2趋于0时，Fbeta=precision

问：ks曲线和psi了解吗？

ks曲线的横坐标是分类的阈值，纵坐标代表了精确率或者误杀率，一个分类阈值对应的一个精确率和一个误杀率，而ks曲线就是用每个分类阈值下的精确率-误杀率，ks值则是指ks曲线上的最大值；

psi：

psi就是对称的kl散度的平均,kl散度的公式如下：

用来衡量两个离散随机变量的分布的差异

loss function

问：知道哪些常见的损失函数？

点预测问题：

0-1损失函数：

非凸，直接优化困难

logloss（交叉熵）（多分类），

最常用，相对hinge loss对噪声敏感（无意义的hard sample）；

Cross-entropy（二元交叉熵）（logloss在二分类的特例）：

当使用sigmoid作为激活函数的时候，常用交叉熵损失函数而不用均方误差损失函数，因为它可以完美解决平方损失函数权重更新过慢的问题，具有“误差大的时候，权重更新快；误差小的时候，权重更新慢”的良好性质。

exponential loss

对噪声敏感，adaboost中使用过，其它情况很少接触

hingeloss，

对噪声健壮性强；

mse，mae，rmse，mape，smape：

mse，mae，rmse对标签y取值特别大的样本鲁棒性都较差，mae和rmse相对有所缓解，

mape：范围[0, ∞)，MAPE 为0%表示完美模型，MAPE 大于 100 %则表示劣质模型。

可以看到，MAPE就是mae 多了个分母。

注意点：当真实值有数据等于0时，存在分母0除问题，需要做平滑

mape对标签y取值特别大的样本的鲁棒性较强，因为通过除以真实标签（即分母项），对单个异常样本的loss进行了放缩；缺陷在于对标签y取值接近0的样本鲁棒性很差，一点点的偏差就会使得单个样本的mape的loss的计算结果很大，

smape：smape是针对mape的对异常小样本的鲁棒性很差的问题进行了修正，可以较好的避免mape因为真实值yi小而计算结果太大的问题；同时对异常大的样本的鲁棒性也较好；

mape和smape都可以作为loss function进行优化；

区间预测问题：

直接估计参数的分布的参数，贝叶斯深度学习这部分内容里有，之前看的deepar也是用的这种，称为distribution loss，这块儿研究的不多，后续应该找个时间好好系统性的看一下回归中的区间预测问题；

问：mse对于异常样本的鲁棒性差的问题怎么解决？

1、如果异常样本无意义，则对异常样本进行平滑等方式处理成正常样本，如果异常样本很稀少，直接删除也可以；

2. 如果异常样本有意义，例如双十一销量，需要模型把这些有意义的异常考虑进来，则从模型侧考虑使用表达能力更强的模型或复合模型或分群建模等；

3.loss function层面选择更鲁棒的损失函数例如smape；

问：二分类为什么用二元交叉熵？为什么不用mse？

原因：sigmoid对模型输出进行压缩到(0，1）区间的条件下，根据二元交叉熵得到的梯度更新公式中不包含sigmoid的求导项，根据mse的得到的梯度更新公式则会包含。

使用mse推导出的梯度更新量：

因为sigmoid的性质，导致

sigma"(x)

在

取大部分值时会很小（如下图的两端，几乎接近于平坦），这样会使得

eta (a-y)sigma"(z)

很小，导致参数

和

更新非常慢。

根据二元交叉熵推导出来的梯度更新公式：

不包含sigmoid的求导项，没这个问题

问：mse，sigmoid 交叉熵梯度推导

mse

没有sigmoid或其它的转换，则公式中求导项为1，

二元交叉熵（带sigmoid，求导过程中用到sigmoid的导数公式，否则到第二张图的第二步就可以停止了）：

问：信息量，信息熵、相对熵（KL散度）、交叉熵、条件熵、互信息、联合熵的概念和公式？

信息量用来度量一个事件的不确定性程度，不确定性越高则信息量越大，一般通过事件发生的概率来定义不确定性，信息量则是基于概率密度函数的log运算，用以下式子定义：

这里的p(x)可以是离散数据的概率，也可以是连续数据的概率密度函数

信息熵，衡量的是一个事件集合的不确定性程度，就是事件集合中所有事件的不确定性的期望，公式定义如下：

相对熵（kl散度）：kl散度，从概统角度出发，表示用于两个概率分布的差异的非对称衡量，kl散度也可以从信息理论的角度出发，从这个角度出发的kl散度我们也可以称之为相对熵，实际上描述的是两个概率分布的信息熵的差值：

对于离散和连续的随机变量分布都可以使用kl散度进行定义

kl散度和余弦距离一样，不满足距离的严格定义；

kl散度的性质：

非负性（用Jenson‘s inequality 证明）
不对称性，即KL(P||Q)≠KL(Q||P)

js散度公式如下：

js散度的范围是[0,1],相同则是0，相反为1。相较于KL，对相似度的判别更准确;同时，js散度满足对称性 JS(P||Q)=JS(Q||P)

交叉熵：

可见,交叉熵就是真值分布的信息熵与KL散度的和, 而真值的熵是确定的,与模型的参数θ 无关,所以梯度下降求导时，优化交叉熵和优化kl散度（相对熵）是一样的；

联合熵：

联合熵实际上衡量的是两个事件集合，经过组合之后形成的新的大的事件集合的信息熵；

条件熵：

事件集合Y的条件熵=联合熵-事件集合X的信息熵，用来衡量在事件集合X已知的基础上，事件集合Y的不确定性的减少程度；

互信息：

互信息=事件集合X的信息熵-事件集合X在已知事件集合Y下的条件熵=事件集Y的信息熵-事件集合Y在已知事件集合X下的条件熵；

问：怎么衡量两个分布的差异？KL散度和交叉熵损失有什么不同？关系是啥？

kl散度，js散度，以及迁移学习里的许多更advanced的评估方式例如mmd，交叉熵=真实的标签分布的信息熵相对熵（kl散度）

问：距离的定义？哪些度量方法不符合距离的定义

距离的定义：在一个集合中，如果每一对元素均可唯一确定一个实数，使得三条距离公理（正定性，对称性，三角不等式）成立，则该实数可称为这对元素之间的距离。

1：正定性，d(x,y)>=0，仅当x=y则不等式等号成立，说白了就是如果样本A和样本B的距离为0，则样本A和样本B可以看作同一个样本；

2：对称性：d(x,y)=d(y,x)，即样本A到样本B的距离等于样本B到样本A的距离；

3：d(x,y)<d(x,z) d(z,y),即样本A到样本B的距离小于样本A到样本C的距离样本B到样本C的距离

余弦距离不满足三角不等式，kl散度不满足对称性，因此二者都不是严格意义上的距离的定义；

问：交叉熵的设计思想是什么？

优化交叉熵等价于优化kl散度，

这里的

是真实分布，它的信息熵

H(p)

是一个定值，对于模型来说是一个不可优化的常数项，你可以把它替换成包括1、

在内的任何常数，对优化都没有影响。在这种问题中优化交叉熵和优化KL散度是等价的。P.S. 在多分类的问题中，这两者是完全一致的，因为对于one hot标签来说：

H(p)=0\

所以交叉熵实际上就是希望模型的预测结果能够尽量和标签的分布保持一致；

问：写 huber loss 公式，huber loss了解吗？和mse、比起来优势是啥？

通过引入超参数sigma，huber loss可以灵活动态的调整模型使用的loss function是mse还是mae，

这确保了损失函数不会受到异常值的严重影响，同时不会完全忽略它们的影响。

最优化方法：

问：推导梯度下降公式

这里问的是梯度下降的一般性的表达式：

不知道这种问题有什么好问的。。

问：知道哪些常见的一、二阶优化方法？

牛顿法的收敛速度，是不是一定比梯度下降快（举反例），Hessian矩阵的求逆与计算量问题（正则化，Hessian矩阵的近似），牛顿下降的几个phase，KKT的仔细描述。拟牛顿法和牛顿法的关系，拟牛顿法解决了牛顿法哪个问题？推导下牛顿法。牛顿法在什么时候只需要迭代一次就能求解，什么时候牛顿法不能适用

问：极大似然估计，结构，经验风险最小化的关系，交叉熵和最大似然损失函数的区别，讲一下极大似然估计，极大似然估计和最大后验估计的区别是什么？最小二乘与极大似然函数的关系？先验，后验，最大似然估计，最大后验估计？

问：讲一下jaccob矩阵和Hessian矩阵？Hessian矩阵是对称矩阵吗？

问：机器学习中的优化问题，哪些是凸优化问题，哪些是非凸优化问题？请各举一个例子。

凸函数的严格定义为，函数_L_(·) 是凸函数当且仅当对定义域中的任意两点_x_，_y_和任意实数_λ_∈[0,1]总有

该不等式的一个直观解释是，凸函数曲面上任意两点连接而成的线段，其上的任意一点都不会处于该函数曲面的下方，如下图所示。（注意，这只是一种判定方法，实际上还有许多其它的判定方法，因为比较超纲所以不多介绍了）

凸优化问题的例子包括支持向量机、线性回归等线性模型，非凸优化问题的例子包括低秩模型（如矩阵分解）、深度神经网络模型等，凸函数和优化算法没有直接的关系，对于模型而言其目标函数是凸函数，不一定使用梯度下降法进行求解，例如GMM的目标函数（带隐变量的极大似然函数）使用EM算法进行迭代求解。

自动化机器学习：

问：模型和超参数有哪些自动化调优方法？它们各自有什么特点？

问：简述贝叶斯优化中用高斯过程回归计算目标函数后验分布的方法。高斯过程回归可以用于种类型或者层次型模型配置参数的优化吗？

问：贝叶斯优化中的获得函数是什么？起到什么作用？请介绍常用的获得函数。

模型应用和特征工程部分:

问：什么是偏差和方差？

偏差指的是由所有采样得到的大小为_m_的训练数据集训练出的所有模型的输出的平均值和真实模型输出之间的差异。偏差通常是由于我们对学习算法做了错误的假设所导致的，比如真实模型是某个二次函数，但我们假设模型是一次函数。由偏差带来的误差通常在训练误差上就能体现出来

方差指的是由所有采样得到的大小为_m_的训练数据集训练出的所有模型的输出的方差。方差通常是由于模型的复杂度相对于训练样本数_m_过高导致的，比如一共有100个训练样本，而我们假设模型是阶数不大于200的多项式函数。由方差带来的误差通常体现在测试误差相对于训练误差的增量上。

问：如何从减小方差和偏差的角度解释Boosting和Bagging的原理？

数据清洗：异常值怎么判断？箱型图：上界怎么定义？极端异常值怎么判断？

怎么填补?用缺失值填补，缺失值怎么处理？

1.为什么使用中位数对缺失值进行填充,这样做的好处是什么?

5.one-hot编码的原理及意义?

6.特征维度很高时你是怎样做的操作?

标准化的适用场景、不适应场景？

所有模型都要求对数据进行标准化么？

如果onehot等操作之后维度过高你会怎么做；

为什么K折交叉验证能防止过拟合？

问：一般怎么做交叉验证.

缺失值怎么处理？验证集怎么划分？哪些指标说明你的模型调优了？调节过模型的哪些参数

异常值的影响，如何消除

连续特征分桶都有哪些方法（没说够）卡方分箱那些的几个分箱策略的使用场景和优缺点
如何做数据预处理
你了解哪些归一化方式（没说够）
零均值归一化是线性的么

为什么要离散化，离散化的参数如何确定

训练集和测试集分布不一致的问题是怎么发现的，怎么诊断定位，除了可视化还有没有其他直观的指标

1.类别特征编码方式有哪些？如何解决 target encoding 的 target leakage？count encoding 有个缺点：测试集和训练集分布不同，导致特征频率不一样。怎么解决？

为什么需要计算特征重要性，计算特征重要性的方法有哪些

连续特征怎么分箱，如何判断分箱的结果是好是坏

特征平滑方法有哪些

什么样的 ID 经过 Embedding 后可能有效，如何筛选有效的 ID。有些 ID 数量级很大，怎么处理

1. 哪些算法需要对特征先进行归一化，这类算法有什么特点，不进行归一化的缺点是?

5. #### 常见的筛选特征的方法有哪些？⭐⭐⭐⭐⭐

6. #### 数据怎么清洗，缺失值怎么填充⭐⭐⭐⭐⭐

7. #### 出现Nan的原因⭐⭐⭐⭐⭐

8. #### 特征筛选，怎么找出相似性高的特征并去掉⭐⭐⭐⭐⭐

11. #### 类别型数据你是如何处理的？比如游戏品类，地域，设备⭐⭐⭐⭐

12. #### 计算特征之间的相关性方法有哪些？⭐⭐⭐⭐

卡方检验的原理？

问：如何判断一个模型是处于高方差还是高偏差？高方差如何调节模型，高偏差如何调节模型？过拟合产生的原因有哪些？如何防止过拟合？

特征选择的方法有哪些？

过滤式，包裹式，嵌入式特征选择，过滤式特征选择主要采用独立于模型的评估指标来评估特征的好坏，计算快，能够方便迅速的对特征进行粗筛，缺陷在于评估指标的计算与模型解耦，很多时候精度都不好，

问：那请你解释一下什么是偏差和方差和泛化误差，过拟合和欠拟合，怎么衡量一般？

问题1 在模型评估过程中，过拟合和欠拟合具体是指什么现象？

一般我们解释模型的泛化性能会用到偏差-方差分解，模型在训练阶段的预测和训练标签的偏离程度为偏差，刻画模型的拟合能力，模型在样本数相同的不同训练数据集下偏差的期望为方差，刻画数据变化对模型噪声的影响，泛化误差=偏差方差噪声，噪声是模型所能达到的期望泛化误差的下界，刻画了模型在学习当前问题本身的难度。

当然，这只是一种用于解释模型泛化误差的很理论的说法，我们在应用的过程中更常提到的是过拟合和欠拟合，过拟合意味着模型在训练集上的预测误差和模型在验证集上的预测误差存在较大差异，欠拟合则意味着模型在训练集上的预测误差本身就比较大，在验证集上的预测误差往往也会比较大。而所谓泛化误差，我们也称之为泛化能力等，在实际应用的时候一般指的是模型对未知数据的预测能力，这个能力是根据预测的误差决定的。

问：在模型评估过程中，过拟合和欠拟合具体是指什么现象？

过拟合是指模型对于训练数据拟合呈过当的情况，反映到评估指标上，就是

模型在训练集上的表现很好，但在测试集和新数据上的表现较差。欠拟合指的是

模型在训练和预测时表现都不好的情况。

决绝nfa解决方法：

数据，特征，模型

问：有没有遇到过模型在训练集上预测误差大，在测试集上预测误差小的情况？为什么会发生这种情况？

答：有，模型恰好在验证数据上的泛化性能好，例如二分类问题中，测试集数据恰好是和分界超平面距离很远的样本或者是回归问题中，验证数据在模型的拟合曲面上；

问:为什么会发生过拟合和欠拟合,怎么解决模型的过拟合和欠拟合的问题？

这是一道很好回答又很难回答的面试题，之所以很好回答是因为有很多直观的思路可以解释过拟合和欠拟合，很难回答是因为很多的答案都无法回到过拟合和欠拟合的本质上导致了不同场景下不能自洽的问题；

在实际应用的过程中，实际上没有什么绝对的准则：

过拟合：

样本层面：大部分情况下增加样本可以缓解过拟合，少部分情况下减少样本可以缓解过拟合;

特征层面：大部分情况下减少特征可以缓解过拟合，少部分情况下增加特征可以缓解过拟合;

模型层面：约束模型的复杂程度;不同模型有不同的约束方式,lr 有l1,l2或l1 l2,树模型有增大行列采样比例,限制树深,学习率放缩,早停等等,nn有dropout,bn等等，这是模型本身的处理，除此之外对模型进行集成也可在一定程度上缓解过拟合；

欠拟合：

同上，倒过来即可

问:为什么增加或减少样本会影响过拟合问题?为什么对特征的增减会影响过拟合问题?为什么约束模型的复杂程度会缓解过拟合问题?

首先,上述所提到的三种方法都是一种经验性的解决方法,并不一定奏效,存在前提条件.

过拟合分为两种过拟合的情况:

1 在当前数据集上的过拟合;

2 在未来未知的数据集上的过拟合

在当前的数据集上的过拟合的评估涉及到train和valid数据集,一般我们判定过拟合是否发生,就是计算model在train数据,即X_train和y_train上的metrics和在valid数据,即X_valid和y_valid上的metrics的差异从而衡量过拟合的程度;

在未来的数据集上的过拟合的评估则涉及到模型构建调整完毕之后,对未来的test数据集的评估,即X_test和y_test,当然y_test不一定是可获得的,很多时候通过实际的业务目标的达成情况来评估模型是否过拟合;

潜在的全量数据(这样的数据一般是不可获取的,这里面有两个原因,

1.样本的获取是具有代价的,很难全面的采集所有相关的数据,即使采集全面,如此巨量数据的存储和处理也是一个难以解决的问题;

2.样本是具有时间属性的,我们无法采集到未来的数据,而我们要预测的恰好也是未来的数据)

这里我们假设潜在的全量数据为X,潜在的真实标签为y

需要明确三点:

存在假设:建模的前提之一是建设X和y存在某种映射关系,我们使用有限的train和test来训练模型逼近这个隐式的映射关系,使用train上拟合的模型预测test来有偏的检验模型的泛化能力;
稳定假设:我们假设真实的 X-->y的映射关系是静态不变的,即所谓独立同分布;
乐观假设:我们假设用于模型训练的数据train具有足够的代表性,能够代表未来的所有样本

回到问题上,现在假设我们在train和test上的预测的metrics差异很大,即出现了当前数据集上的过拟合问题,则我们需要这么分析(注意,下面是对当前过拟合问题的分析):

1 当X-->y的映射关系不存在的时候,无论使用什么方法,我们都无法解决当前过拟合问题或未来过拟合问题,,模型的预测结果是无意义的,例如使用淘宝商品的价格预测华盛顿的温度,这种情况一般在使用train和valid数据进行模型构建和验证的阶段就会发现;

2.当X-->y 的映射关系存在且稳定,则

在当前的train和test的数据集上出现过拟合的原因在于train和test数据集不相似,或者说train数据集相对于test数据集是有偏的,这个时候增加数据有可能缓解模型的过拟合问题,例如我们引入的数据恰好和test相似甚至和test完全一样的样本,则此时在test上的metrics评估结果会大大改善,例如对图像做翻转可以作为cv中的一种基本的数据增强的方式主要原因在于test数据集中也会存在翻转的图像;

但是如果引入的数据完全和test不同,则对于模型在test上的评估是没有帮助甚至可能起到负效果,这种情况下引入的样本我们常常称之为噪声样本,例如通过上采样的方式对结构化数据进行样本生成很容易产生这种噪声样本,;

这个时候增加或者减少特征也是可能缓解过拟合问题的,

问：为何模型总是难以拟合真实情况

问：为什么你认为增加样本、减少特征，约束模型复杂度，能够解决过拟合问题？

答：因为我主要接触的是表格数据，所以，就表格数据来谈这个问题吧，在表格数据里增加样本的方式无非是通过一些代价获得更多的真实数据和标签，另一种方式就是通过一些上采样的方式来做数据增强，增加的是伪数据。

首先，过拟合的本质是数据分布的变化，而所谓的数据分布的本质是特征的分布，而我们所关注的“分布”是相对于模型而言的，例如对于gbdt来说，特征重要性最高的特征群的分布才是我们主要关注的，特征重要性很低甚至为0的特征我们基本不怎么考虑他们的分布是否发生变化，因此，“分布”和"模型"是紧密相关的，即使是无监督的背景下，我们也会根据业务经验重点关注一些认为比较重要的特征的分布进行follow，跳回来说，理想状态下如果数据的分布是完全一致的，则我们其实根本不用考虑模型的复杂度或者降低特征维度的问题，比如说二分类问题吧，如果正负样本是完全线性可分的，并且未来的新样本的分布完全一致，则gbdt拟合1亿棵树都不会有过拟合的问题；

所以，之所以模型会发生过拟合，是因为未来的数据的部分特征的分布或者是部分特征的联合分布发生了变化从而导致模型的预测出错，有两种情况：

1、肉眼可见的特征的取值发生变化了，例如训练集的特征的取值范围在0~1之间，预测数据的特征的取值范围为0~10之间；

2、特征的取值可能没有明显变化，但是特征的联合分布发生变化了，一个简单例子，两列类别特征，f1和f2，f1的取值为a，b，f2的取值为A，训练集中f1和f2的组合为aA，aB，测试集中出现了bA.

增加数据能够缓解过拟合的情况在于我们增加的数据引入了更多会未来将出现的样本相似或完全相同的样本，但是如果引入的数据和未来的样本完全不相似，例如不均衡学习中的许多上采样的方法，纯粹基于训练数据的一些加减计算，难以扩充和未来相似的样本，自然是不能缓解过拟合问题了；

回到问题，增加样本可能可以缓解过拟合问题但并不绝对，之所以有时候能够缓解过拟合问题

问:为什么需要对数值类型的特征做归一化？

1.通过梯度下降法求解的模型通常是需要归一化的，包括线性回归、逻辑回归、基于梯度下降法视角下的支持向量机、神经网络等模型,主要原因在于归一化能够大大加快梯度下降法收敛的速度,

具有相似尺度的特征可以帮助梯度下降更好更快地收敛；

具有不同程度的幅度和范围的特征将导致每个特征的步长不同。因此，为了确保梯度下降更平滑、更快速地收敛，我们需要缩放我们的特征，使它们共享相似的尺度；

（逻辑回归的梯度公式对比一下就造了）

2.基于距离计算的模型例如典型的knn，kmeans等对于不同量纲下的特征的距离计算非常敏感，这个原因很简单不多解释了；

问在对数据进行预处理时，应该怎样处理类别型特征？

特征编码，onehot，woe，target encoding等（具体编码方法可以参考category encoding），lgb内部其实做的是梯度编码也算是一种编码的方法，深度学习里可以使用embedding等；

问:什么是组合特征？如何处理高维组合特征？

为了提高复杂关系的拟合能力，在特征工程中经常会把一阶离散特征两两组合，构成高阶组合特征

广义线性模型

问：什么是广义线性模型？

问：推导一下线性回归和l逻辑回归？

逻辑回归：

y_pred=sigmoid(w*x) ，x的增加一个维度为1，这样截距项直接包含到w里，形式上更简洁和记忆。

损失函数：二元交叉熵，

Loss function=sum_{0}^{n}{[y_{true,i}*log(y_{pred,i})} {(1-y_{true,i})*log(1-y_{pred,i})}]

其中：

y_{pred,i}=sigmoid(W*X_i)

合并同类项，y_pred带入，就可以得到简化的二元交叉熵：

Loss function=sum_{0}^{n}{[y_{true,i}*W*x_i} {log(1-sigmoid(W*x_i))}]

对W求导可得：

frac{partial lossfunction}{partial W}=sum_{0}^{n}[y_{true,i}*x_i sigmoid(W*x_i)*xi]

frac{partial lossfunction}{partial W}=sum_{0}^{n}[y_{true,i}*x_i-y_{pred}*x_i]

推导完毕。

线性回归：

懒得推了，很简单的，最终的梯度的形式是一样的：

frac{partial lossfunction}{partial W}=sum_{0}^{n}[y_{true,i}*x_i-y_{pred}*x_i]

追问：为什么做线性回归，逻辑回归之前要做归一化？

从上面的梯度计算公式可以看出来了，特征两个不一样，则W权重中的每一个wi的梯度更新量差异很大，量纲大的特征对应的权重w的梯度更新的量纲也大。导致梯度中的偏导差异极大，使得模型收敛很慢甚至无法收敛。

问：逻辑回归的损失是怎样的，逻辑回归损失为什么这么设计

问：逻辑回归损失函数中为啥要加1/N

1/N（N表示样本数量）可以融合到learning rate里去理解，torch的损失函数里面也设计了对loss进行平均和对loss进行求和，平均不求和的差异就在于每一个step对参数w的梯度更新量的差异为N（样本数量）倍，数据量很大时，会导致梯度更新量非常大，权重的变化会非常的剧烈，收敛困难，所以用1/N，不过其实learning rate缩小n倍达到的效果是一样的。

梯度表达式前面的以乘数的形式存在的常数项对梯度下降法的收敛没有任何的影响，本质上可以理解为learning rate的变化。

问：逻辑回归使用梯度下降法的时候的停止条件是什么？

1、达到最大迭代次数

2、所有的权重的梯度更新量的值都小于预先设定的阈值

3、早停等.

问：逻辑回归是线性模型还是非线性模型？

这个地方很有意思，这涉及到我们怎么去定义线性还是非线性（1.根据模型的决策超平面来定义模型的线性和非线性，一般比较难，很难画出高维超平面；2.模型的参数是否是线性组合的，tree和nn的参数都是非线性组合的形式），如果从输出的角度来看，逻辑回归输出的是非线性的数据，经过sigmoid映射之后的输出值是非线性的：

但是如果我们从他的决策面来说，它又是超平面而不是曲面：

上述现象的原因是：

sigmoid函数就是一个纯粹的数学变换没有任何的可学习参数，我们的决策是直接根据右边的式子得到的，sigmoid只是负责映射成非线性的输出罢了，直观的说就是我们的逻辑回归的输出在进入sigmoid函数之前是图2这样的线性的值，经过sigmoid之后称为非线性的值，所以从决策平面的来说逻辑回归是线性模型，从输出来看逻辑回归是非线性模型，不过一般是从决策平面来定义线性和非线性的，所以我们还是将逻辑回归视为线性模型。

严格的定义：模型的参数是否是线性组合的

问：试着从3个角度来解释逻辑回归？（1、概率角度分析逻辑回归；2、GLM角度分析线性回归和逻辑回归；3、最大熵模型和逻辑回归的关联；）

lr之所以能衍生出很多面试的问题，主要在于逻辑回归这个模型可以从很多角度解释，每个角度所代表的领域知识各不相同，是一个非常好的考察面试者的机器学习基础的问题，所以这种题目基本上不会断。

问：为什么逻辑回归要用极大似然法来进行参数估计？

极大似然估计是一种参数估计的方法，它是频率学派最经典的方法之一，认为真实发生的结果的概率应该是最大的，那么相应的参数，也应该是能让这个状态发生的概率最大的参数。简单说就是如果事件发生了被我们观测到了，那么这个事件对应发生的概率一定是最大的才能被我们观测到否则就不会被我们观测到，所以当前的状态是这个事件发生概率最大的结果。

逻辑回归假设数据服从伯努利分布，则P（y|X）——在已知x的情况下y服从伯努利分布,通过极大化似然函数的方法，运用梯度下降或者拟牛顿法等最优化方法来求解参数，以达到将数据二分类的目的。

逻辑回归与线性回归的区别（因为项目中有用到逻辑回归）、p值、假设检验、参数估计、方差和标准差的区别（自己平时如何使用他们）

LR为什么用sigmoid函数。这个函数有什么优点和缺点？为什么不用其他函数？sigmoid函数由那个指数族分布，加上二项分布导出来的。损失函数是由最大似然估计求出的。

naive bayes和logistic regression的区别

为什么LR需要归一化或者取对数，为什么LR把特征离散化后效果更好，、

逻辑回归为啥使用sigmoid函数，有何优缺点

逻辑回归中为啥用对数，并且为啥不用log而用ln

(1) 为什么可以用 Sigmoid 函数定义了逻辑回归的条件概率，<w,x>的内积代表数据属于正类(y=1)的确信度。<w,x>越大则x属于正类的确信度越大。由于建模需求,需要将<w,x>从整个实数空间映射到条件概率P(y=1|w,x)，Sigmoid 函数单调递增能反映确信度，并且能够将实数空间(-无穷, 无穷)映射到(0,1)区间内,能表示概率意义,更加直观。

(2) 为什么要用:指数分布具有最大熵的性质,即在满足前提假设下的分布，分布越均匀越好.在逻辑回归中认为P(Y|x)服从伯努利二分布,并且P(y|x)=f(wx),可根据最大熵的性质推出sigmoid函数。

如果逻辑回归的所有样本的都是正样本，那么它学出来的超平面是怎样的？

LR推导（伯努利过程，极大似然，损失函数，梯度下降）有没有最优解？

LR可以用核么？可以怎么用？l1和l2正则项是啥？lr加l1还是l2好？加哪个可以用核（加l2正则项，和svm类似，加l2正则项可以用核方便处理）

LR可以用来处理非线性问题么？（还是lr啊只不过是加了核的lr 这里加核是显式地把特征映射到高维然后再做lr）怎么做？可以像SVM那样么？为什么？

SVM和logistic回归分别在什么情况下使用？https://www.zhihu.com/question/21704547

逻辑斯蒂回归能否解决非线性分类问题？https://www.zhihu.com/question/29385169

逻辑回归估计参数时的目标函数逻辑回归的值表示概率吗？（值越大可能性越高，但不能说是概率）

为什么把特征组合之后还能提升，反正这些基本都是增强了特征的表达能力，或者说更容易线性可分吧

逻辑回归对特征有什么要求，是否需要做离散化，离散化的好处与坏处。

L1 和 L2 正则化的区别

L0 范数：向量中非0元素的个数。

L1 范数 (Lasso Regularization)：向量中各个元素绝对值的和。

L2 范数(Ridge Regression)：向量中各元素平方和再求平方根。

L0 范数和 L1 范数都能够达到使参数稀疏的目的，但 L0 范数更难优化求解，L1 范数是 L0 范数的最优凸近似，而且它比 L0 范数要容易优化求解。

L2 范数不但可以防止过拟合，提高模型的泛化能力，还可以让我们的优化求解变得稳定和快速。L2 范数对大数和 outlier 更敏感！

· LR（5星）：损失函数、交叉熵、权重更新的推导（建议每次面试之前推一遍）；从权重更新的公式中，明白交叉熵相对于MSE损失函数的优点（大部分CNN网络结构用的损失函数都是交叉熵）；多个角度解释逻辑回归与SVM之间的关系；标签是-1/1时损失函数形式推导。

线性回归（4星）：权重更新方式的推导，包括矩阵形式的和非矩阵形式的（西瓜书上有）；包含L1或者L2正则化的权重更新的推导；L1/L2正则化包含的贝叶斯先验假设（或者从多个角度解释L1/L2对特征选择的作用）；在包含重复特征情况下，线性回归存在的问题，L1正则化是否能解决等细节问题。

为什么交叉熵损失函数有log项？

.lr的基本原理，为什么要用sigmoid的函数，最大熵模型是否了解过

LR模型里面有共线性的问题怎么解决？

逻辑回归采用的是交叉熵，那你知道相对熵（KL）吗？

问：手写一下逻辑回归的损失函数，推导

逻辑回归为什么不用最小二乘？基于mse来进行模型求解的称之为最小二乘法

l1 l2正则区别

LR的基本假设（当时没回答出来，应该是满足伯努利分布）

LR的缺点

lr中特征相关性较高会怎样（多重共线性）（10个相关性很高的特征）

什么时候lr比xgb好

对于LR来说，LR如果多了一维冗余特征，其权重和AUC会怎样变化（权重变为1/2, AUC不会变化）

什么情况下需要将连续变量分桶

为什么LR模型又可称最大熵模型？

逻辑回归怎么分类非线性数据？

逻辑回归引入核方法后损失函数如何求导？

LR可以处理非线性问题吗

L1 L2的作用，为什么有这样的作用？一般求L1的优化方法（坐标下降，LARS角回归）

L1为什么能让参数稀疏，L2为什么会让参数趋于较小值，L1优化方法

LR模型中为何使用交叉熵而不使用MSE作为损失函数（从损失函数建立的目标和效果上谈）

Logistic Regression的原理及其推导；

8、 L2正则的本质？限制解空间范围，缩小解空间，控制模型复杂度

svm怎么用于多分类

svm的推导，什么是凸函数，为什么拉格朗日对偶方程成立

svm与lr的对比与区别

svm系列,参考一下书

问题1　在空间上线性可分的两类点，分别向SVM分类的超平面上做投影，这些点在

超平面上的投影仍然是线性可分的吗？

Q:线性模型和决策树模型对特征选择特征利用有哪些区别

Q:决策树和线性模型哪个更好在线更新

写线性回归的解析解，矩阵不可逆怎么办？

4）SVM的对偶问题（我没想起来）

什么样的函数是核函数

如何去选择核函数，线性，高斯核函数。

讲了下SVM的推导：hard margin, soft margin, 几何距离、函数距离，最优化，拉格朗日乘子法，对偶问题，KKT条件，损失函数，惩罚系数等。

为什么SVM求解要求解他的对偶问题？

为了使原问题更好求解，因为原问题不好求解，引入对偶问题之后就更好求解了。

其实，是因为对偶问题可以降低原问题的计算复杂度。

问题2　是否存在一组参数使SVM训练误差为0？

问题3　训练误差为0的SVM分类器一定存在吗？

问题4　加入松弛变量的SVM的训练误差可以为0吗？

1. 问SVM算法原理，如果数据分布是同心圆怎么办？答核函数，然后就是讲述过程；

SVM的支持向量是什么？

梯度下降法是一阶导，牛顿法是二阶导？为什么还会有牛顿法的出现？说明数学原理

SVM可以处理非线性问题吗

问了svm的推导，问的非常细，问距离到底如何定义的，不可分的svm中松弛变量怎么理解，如果有个点特别异常，是否还能找到分割面

svm的原理，smo算法，

svm的核函数的作用，lr能不能用核函数，为什么

SVM的原理及其推导

手推svm

svm推导，核函数的体现，常用的核函数有哪些

为什么svm可以使用和函数，LR不可以使用

SVM原理，支撑向量越多越好还是越少越好

svm推导，为什么要用拉格朗日乘数法，对偶问题是什么

KKT条件都有什么，如何求解svm的最优化问题

2、特征工程做的有哪些？非线性可分的情况怎么处理的？

9、 SVM引入核函数本质？提高维度，增加模型复杂度

Q：这样啊，那我手推一下SVM吧

Q：为什么必须满足KKT条件？

· SVM（5星）：理解SVM目标函数的由来；理解SVM中核技巧的使用；将目标函数转化成对偶问题的推导（软间隔、硬间隔）；为什么要转换成对偶问题求解，求解的权重个数（一系列相关的细节问题）；多个角度解释逻辑回归与SVM之间的关系。

继续问有了P,R为什么要有AUC和F1-score（说AUC是真阳性，与假阳性之间的平衡，面积越大越好，然后F1-score,是平衡p和R）

说说SVM损失函数

10. #### 最小二乘法在什么条件下与极大似然估计等价？⭐⭐⭐⭐⭐

如果特征比较多，用LR还是SVM?

SVM是否可以用随机梯度下降

为什么要将求解 SVM 的原始问题转换为其对偶问题

为什么SVM对缺失数据敏感

SVM怎么防止过拟合 ?

【机器学习】

【机器学习】SVM的高斯核函数公式是什么？为什么解决非线性问题一定要用核函数？各种核函数的公式

贝叶斯和统计：

1.有一个场景，想用朴素贝叶斯，但效果不好，怎么优化？

2.朴素贝叶斯公式是怎么得到的，推导一下

3.常见分布常见假设检验 p-value计算

4.偏度和峰度

5.先验概率、条件概率

6.写一下贝叶斯公式

7.贝叶斯公式，实际如何计算，如何解决精度问题。

8.朴素贝叶斯的证明（不懂）

9.朴素贝叶斯适用哪些场景

人觉得很少有面试官会直接问贝叶斯决策，最多就问一个先验概率和后验概率的联系，但是朴素贝叶斯的思想会在很多算法中体现，比如L1、L2正则化的贝叶斯先验假设，期望最大化算法与最小二乘法的联系，k-means包含的贝叶斯先验假设等。所以理解贝叶斯的思想是核心。

马尔科夫模型（1星，提问概率极低）：3个基本问题以及对应求解算法，要理解（前向后向算法、B-W算法、维特比算法）

贝叶斯定理，全概率公式

1.朴素贝叶斯优缺点⭐⭐⭐⭐⭐

2.贝叶斯公式⭐⭐⭐⭐⭐

3.朴素贝叶斯中的“朴素”怎么理解？⭐⭐⭐⭐⭐

4.什么是拉普拉斯平滑法?⭐⭐⭐⭐⭐

5.朴素贝叶斯中有没有超参数可以调？⭐⭐⭐⭐⭐

6.你知道朴素贝叶斯有哪些应用吗？⭐⭐⭐⭐⭐

7.朴素贝叶斯对异常值敏不敏感？⭐⭐⭐⭐⭐

8.频率学派与贝叶斯学派的差别⭐⭐⭐

9.概率与期望的公式⭐⭐⭐⭐

10.先验概率与后验概率⭐⭐⭐⭐

矩阵分解和降维：

1.介绍PCA，特征值分解，奇异值分解等等（描述了这两个分解的意义，特征值和特征向量的用途以及这两个分解的应用）

2.PCA原理及涉及的公式

3.PLSA和LDA的联系区别

4.降维有哪些方法

5.降维方法，PCA原理

6.降维的方式（PCA、LDA）：算法思想，PCA特征降维公式推导。

7.PCA降维后对模型的准确率有何影响？

8.非负矩阵分解的损失函数是什么？

其它：

1.有监督学习和无监督学习的区别是什么.

2.半监督学习里无标签样本的打标

3.生成模型和判别模型的区别并且举例

4.如果分类样本的标签只有一定的概率可信，如何处理

5.KNN介绍一下，优缺点？KNN的K值怎么选？KNN数据需要归一化吗？KNN三要素说一下。knn的k设置的过大会有什么问题？

6.样本服从t分布，怎么填补异常值

深度学习函数模型数据异常

0 人点赞