在有限的时间内,提炼要点解释复杂的事物是一项重要的能力。
作者:Terence S 编译:McGL
为了帮助大家准备面试,这里分享一个资源,它提供了每个机器学习模型的简明解释。它们并不详尽,而是恰恰相反。希望阅读这篇文章后,你会了解如何以简洁的方式解释复杂的模型。
所涵盖的模型
- 线性回归(Linear Regression)
- 岭回归(Ridge Regression)
- Lasso 回归(Lasso Regression)
- 逻辑回归(Logistic Regression)
- K最近邻(K Nearest-Neighbours)
- 朴素贝叶斯(Naive Bayes)
- 支持向量机(Support Vector Machines)
- 决策树(Decision Trees)
- 随机森林(Random Forests)
- AdaBoost
- 梯度提升(Gradient Boost)
- XGBoost
线性回归(Linear Regression)
线性回归用最小二乘法找到一条表示数据集的最佳拟合线。最小二乘法需要找到一个最小化残差平方和的线性方程。残差等于实际值减去预测值。
举个例子,红线是比绿线更好的最佳拟合线,因为它更接近数据点,残差更小。
岭回归(Ridge Regression)
岭回归,也称为 L2正则化,是一种通过引入少量的偏差,以减少过拟合的回归技术。它通过最小化残差的平方和加上一个惩罚项来做到这一点,这里的惩罚项等于 λ 乘以斜率的平方。λ 指的是惩罚的严厉程度。
如果没有惩罚,最佳拟合线的斜率更陡,这意味着它对 X 的微小变化更敏感。通过引入惩罚项,最佳拟合线对 X 的微小变化不再那么敏感。这就是岭回归背后的思想。
Lasso 回归(Lasso Regression)
Lasso 回归,又称 L1正则化,类似于岭回归。唯一的区别是惩罚项是用斜坡的绝对值来计算的。
逻辑回归(Logistic Regression)
逻辑回归是一种分类技术,它也可以找到一条最佳拟合线。然而,不同于线性回归的最佳拟合线是用最小二乘法找到的,逻辑回归用最大似然法找到最佳拟合线(逻辑曲线)。这样做是因为 y 值只能是一或零。
K最近邻(K-Nearest Neighbours)
K最近邻是一种分类技术,其中一个新的样本是通过查找最近的分类点来分类,因此叫“ K最近”。在上面的例子中,如果 k = 1,那么未分类点将被归类为蓝点。
如果 k 的值太小,它可能会受到异常值的影响。然而,如果它太高,它可能会忽略只有几个样本的类。
朴素贝叶斯(Naive Bayes)
朴素贝叶斯分类器是一种受贝叶斯定理启发的分类技术,贝叶斯定理有以下方程:
由于类中的变量是独立的这一个朴素的假设(因此得名) ,我们可以将 P(X|y) 重写如下:
而且,因为我们要求解 y,而P(X) 是一个常数,这意味着我们可以把它从方程中去掉,引入一个比例。
因此,y 每个值的概率都是算出给定 y 下 xn 的条件概率的乘积。
支持向量机(Support Vector Machines)
支持向量机是一种分类技术,它可以找到一个最优的边界,称为超平面,用于分离不同的类。通过最大化类之间的空白来找到超平面。
决策树(Decision Trees)
决策树实质上是一系列条件语句,它们决定了样本到达底部之前的路径。它们直观,易于构建,但往往不够准确。
随机森林(Random Forest)
随机森林是一种集成(ensemble)技术,这意味着它将几个模型组合成一个,以提高其预测能力。具体来说,它使用 bootstrap 数据集和随机变量子集(也称为 bagging)来构建1000个较小的决策树。对于1000多个较小的决策树,随机森林使用“多数胜出”模型来确定目标变量的值。
例如,如果我们创建一个决策树,第三个决策树预测为0。但是如果我们依赖所有4个决策树的模式,预测值将是1。这就是随机森林的力量。
AdaBoost
AdaBoost 是一个增强算法,类似于随机森林,但是有一些显著的区别:
- AdaBoost 并不是一片树的森林,而是一片树桩(stump)的森林(树桩是一棵只有一个节点和两片叶子的树)。
- 在最后的决定中,每个树桩的决定权重并不相等。总误差较小(精度较高)的树桩有较高的发言权。
- 树桩生成的顺序很重要,因为随后的每个树桩都强调了在前一个树桩中被错误地分类了的样本的重要性。
梯度提升(Gradient Boost)
梯度提升类似于 AdaBoost,因为它构建了多棵树,而每棵树都是在前一棵树的基础上构建的。与 AdaBoost 建立树桩不同,梯度提升构建的树通常有8到32片叶子。
更重要的是,梯度提升和 AdaBoost 在决策树的构建方式上有所不同。梯度提升从初始的预测开始,通常是平均值。然后基于样本的残差建立决策树。将初始预测值 学习率乘以残差树的输出,得到一个新的预测值,然后重复这个过程。
XGBoost
XGBoost 本质上与 Gradient Boost 相同,但主要区别在于如何构建残差树。XGBoost 通过计算叶子和前面节点之间的相似度得分来确定哪些变量用作根和节点,从而构建残差树。
感谢阅读
希望读完本文,你能够通过突出要点来总结各种机器学习模型。
来源:https://towardsdatascience.com/how-to-explain-each-machine-learning-model-at-an-interview-499d82f91470