全网TOP量化自媒体
作者:Terence 编译:方的馒头
这篇文章很长...
但是不要被长度吓到了,我们已经将其分为四个部分(机器学习、统计信息、SQL、其他),以便你可以逐步了解它。
你可以使用这些问题来磨练知识并找出差距,然后填补这些空白。
我们希望你会发现这很有帮助,并祝你在数据科学的努力中好运!
1
机器学习基础
问1:在应用机器学习算法之前,数据争论和数据清理有哪些步骤?
当数据争论和数据清理时可以采取许多步骤。下面列出了一些最常见的步骤:
数据剖析:几乎每个人都从理解他们的数据集开始。更具体地说,你可以使用.shape查看数据集的形状,并使用.describe()查看数字变量的描述。
数据可视化:有时,使用直方图、箱形图和散点图可视化数据很有用,以更好地理解变量之间的关系并识别潜在的异常值。
语法错误:这包括确保没有空格,确保字母大小写一致以及检查拼写错误。你可以使用.unique()或条形图检查拼写错误。
标准化或规范化:根据你使用的数据集和决定使用的机器学习方法,对数据进行标准化或标准化可能会很有用,这样不同比例的不同变量不会对模型的性能产生负面影响。
处理空值:有多种处理空值的方法,包括完全删除带有空值的行,将空值替换为均值/中位数/众数,将空值替换为新的类别(例如未知)、预测值,或使用可以处理空值的机器学习模型。在这里阅读更多。
其他事情包括:删除不相关的数据,删除重复项和类型转换。
问2:如何处理不平衡的二元分类?
有多种方法可以处理不平衡的二元分类(假设你要识别少数类):
首先,你想重新考虑用于评估模型的指标。模型的准确性可能不是最好的指标,因为我将用一个例子来说明原因。假设有99次银行提款不是欺诈行为,而1次提款是欺诈行为。如果你的模型仅将每个实例归类为“非欺诈性”,则其准确性为99%!因此,你可能要考虑使用精确度和召回率等指标。
改善不平衡二元分类的另一种方法是增加对少数群体分类错误的成本。通过增加这种惩罚,模型应该更准确地对少数群体进行分类。
最后,你可以通过对少数类进行过度采样或对多数类进行欠采样来改善类的平衡。你可以在这里读更多关于它的内容。
问3:箱线图和直方图有什么区别?
箱线图和直方图是用于显示数据分布的可视化效果,但它们以不同的方式传达信息。
直方图是显示数值变量的频率的条形图,并用于估计给定变量的概率分布。它使你可以快速了解分布的形状、变化和潜在的离群值。
箱线图传达数据分布的不同方面。虽然你无法通过箱形图看到分布的形状,但可以收集其他信息,例如四分位数、范围和离群值。当你想同时比较多个图表时,箱线图特别有用,因为它们比直方图占用更少的空间。
问4:请描述不同的正则化方法,例如L1和L2正则化?
L1和L2正则化都是用于减少训练数据过拟合的方法。最小二乘法可最小化残差平方和,这可能会导致低偏差但高方差。
L2正则化(也称为岭回归)可最小化残差平方和加上λ乘以斜率平方。这个附加术语称为“岭回归惩罚”。这会增加模型的偏差,使训练数据的拟合度变差,但也会降低方差。
如果采用岭回归惩罚并将其替换为斜率的绝对值,则将获得套索回归或L1正则化。
L2没有那么强大,但具有稳定的解决方案,并且始终是一个解决方案。L1更强大,但解决方案不稳定,可能有多个解决方案。
StatQuest在这里有关于套索和岭回归的精彩视频。
问5:神经网络基础知识
神经网络是受人脑启发的多层模型。像我们大脑中的神经元一样,上方的圆圈代表一个节点。蓝色圆圈代表输入层,黑色圆圈代表隐藏层,绿色圆圈代表输出层。隐藏层中的每个节点代表输入所经历的函数,最终导致绿色圆圈中的输出。这些函数的正式术语称为sigmoid激活函数。
问6:什么是交叉验证?
交叉验证本质上是一种用于评估模型在新的独立数据集上的性能的技术。交叉验证的最简单示例是将数据分为两组:训练数据和测试数据,其中使用训练数据构建模型,使用测试数据测试模型。
问7:如何定义/选择指标?
没有一种“放之四海而皆准”的指标。选择用于评估机器学习模型的度量标准取决于多种因素:
- 它是回归还是分类任务?
- 业务目标是什么?例如:精确度与召回率
- 目标变量的分布是什么?
可以使用许多指标,包括调整后的r平方、MAE、MSE、精确度、召回率、准确度、f1得分等等。
问8:请解释什么是精确度和召回率
召回率试图回答“正确识别出实际阳性的比例是多少?”
精确度试图回答“阳性识别的实际比例是多少?”
问9:请解释什么是假阳性和假阴性。为什么彼此之间很重要?举例说明假阳性比假阴性更重要,假阴性比假阳性更重要,以及当这两种类型的错误同等重要时
假阳性是指在实际不存在的情况下对它的错误识别。
假阴性是指在实际存在的情况下对它的错误识别。
筛查癌症是假阴性比假阳性更重要的一个例子。更糟糕的是,当一个人患了癌症时却说他没有患癌症,而不是说某人患有癌症,后来又意识到他没有癌症。
这是一个主观论点,但从心理学的角度来看,假阳性可能比假阴性更糟。例如,由于人们通常不期望中奖,因此,赢得彩票的假阳性可能比假阴性结果更糟。
问10:监督学习和无监督学习有什么区别?给出具体的例子
监督学习涉及学习基于示例输入输出对[1]将输入映射到输出的函数men。
例如,如果我们有一个包含年龄(输入)和身高(输出)两个变量的数据集,我们可以实现一个监督学习模型,以根据一个人的年龄预测其身高。
与监督学习不同,无监督学习用于得出推论并从输入数据中找到模式,而无需参考标记的结果。无监督学习的常见用法是通过购买行为来对客户进行分组以找到目标市场。
问11:假设你需要使用多元回归来生成一个预测模型。解释你打算如何验证此模型
有两种主要方法可以做到这一点:
A)调整后的R平方
R平方是一种度量,它告诉你因变量的方差比例在多大程度上由自变量的方差解释。用简单的话来说,当系数估计趋势时,R平方代表最佳拟合线周围的散布。
但是,每增加一个独立变量到一个模型中总是会增加R平方值,因此,具有多个自变量的模型似乎更适合,即使并非如此。这是调整后的R²出现的作用。调整后的R²补偿每个额外的自变量,并且该值仅当每个给定变量使模型的改善超出概率范围时才增加。这很重要,因为我们正在创建一个多元回归模型。
B)交叉验证
对大多数人来说,一种通用的方法是交叉验证,即将数据分为两组:训练和测试数据。有关更多信息,请参见第一个问题的答案。
问12:NLP代表什么?
NLP代表自然语言处理。它是人工智能的一个分支,赋予机器阅读和理解人类语言的能力。
问13:什么时候使用随机森林Vs支持向量机( SVM),为什么?
与支持向量机相比,随机森林是更好的模型选择有以下几个原因:
- 随机森林允许你可以确定特征的重要性。SVM无法做到这一点。
- 随机森林比支持向量机更快,更容易构建。
- 对于多类别分类问题,支持向量机需要“一对多”的方法,这种方法的可扩展性较低,并且占用的内存更多。
问14:为什么降维很重要?
降维是减少数据集中特征数量的过程。
这一点很重要,主要是在你要减少模型中的方差(过度拟合)的情况下。
降维的四个优点:
1.减少所需时间和存储空间
2.消除多重共线性改善了机器学习模型参数的解释
3.当数据缩小到非常低的维度(例如2D或3D)时,可视化数据更容易
4.避免了维度的诅咒
问15:什么是主成分分析(PCA)?解释使用PCA来解决的问题。
从最简单的意义上讲,PCA涉及将更高维度的数据(例如3维)投影到更小的空间(例如2维)。这样会导致数据维度较低(2维而不是3维),同时将所有原始变量保留在模型中。
PCA通常用于压缩目的,以减少所需的内存并加快算法的速度,还用于可视化目的,从而使汇总数据更加容易。
问16:为什么朴素贝叶斯这么糟糕?将如何改进使用朴素贝叶斯的垃圾邮件检测算法?
朴素贝叶斯的一个主要缺点是它有一个很强的假设,即特征被假设为彼此不相关,而通常情况并非如此。
改进使用朴素贝叶斯算法的一种方法是对特征进行去相关以使假设成立。
问17:线性模型有哪些缺点?
线性模型有几个缺点:
- 线性模型具有一些在应用中可能不正确的强假设,它假设为线性关系、多元正态性、无或少有多重共线性、无自相关和均方差
- 线性模型不能用于离散或二进制结果。
- 你不能改变线性模型的模型灵活性。
问18:你认为50颗小型决策树比一颗大型决策树好吗?为什么?
提出此问题的另一种方式是:“随机森林比决策树更好的模型吗?”答案是肯定的,因为随机森林是一种集成方法,它需要许多弱决策树才能培养出强大的学习者。随机森林更准确、更健壮,并且更不太容易过度拟合。
问19:为什么均方误差是衡量模型性能的一个不好的指标?你会建议什么呢?
均方误差(MSE)对较大的误差具有较高的权重,因此,MSE往往过分强调较大的偏差。一个更强大的替代方法是MAE(平均绝对偏差)。
问20:线性回归需要哪些假设?如果其中一些假设被违反怎么办?
假设如下:
1、用于拟合模型的样本数据可代表总体
2、X与Y的平均值之间的关系是线性的
3、对于任何X值(均方差),残差的方差都相同
4、观察彼此独立
5、对于任何X值,Y均是正态分布。
极端违反这些假设将使结果变得多余。略微违反这些假设将导致估计值更大的偏差或方差。
问21:什么是共线性?如何处理?如何消除多重共线性?
在多元回归方程中,当一个自变量与另一个自变量高度相关时,存在多重共线性。这可能是有问题的,因为它破坏了自变量的统计意义。
你可以使用方差膨胀因子(VIF)来确定自变量之间是否存在多重共线性——一个标准基准是,如果VIF大于5,则存在多重共线性。
问22:如何检查回归模型是否与数据吻合?
你可以使用几个指标:
R平方/调整后的R平方:相对拟合度。先前的答案对此进行了解释
F1分数:评估所有假设回归系数均等于零的原假设和至少一个不等于零的替代假设。
RMSE:绝对拟合度。
问23:什么是决策树?
决策树是一种流行的模型,用于运筹学、战略规划和机器学习。上方的每个正方形称为一个节点,并且你拥有的节点越多,(通常)决策树越准确。做出决策的决策树的最后节点称为树的叶子。决策树直观且易于构建,但在准确性方面却有所欠缺。
问24:什么是随机森林?为什么好呢?
随机森林是一种基于决策树集成学习技术。随机森林涉及使用原始数据的自举数据集创建多个决策树,并在决策树的每个步骤中随机选择一个变量子集。然后,模型选择每个决策树的所有预测的模式。通过依赖“多数获胜”模型,它降低了单颗树出错的风险。
例如,如果我们创建一个决策树,第三个决策树,它将预测0。但是,如果我们依赖所有4个决策树的模式,则预测值为1。这就是随机森林的力量。
随机森林还提供了其他一些好处,包括强大的性能,可以对非线性边界进行建模,不需要交叉验证以及赋予特征重要性。
问25:什么是内核?解释内核技巧
核(kernel)是一种在某些(可能是非常高维的)特征空间中计算两个向量