机器学习理论类
1.写出全概率公式&贝叶斯公式
2.模型训练为什么要引入偏差(bias)和方差(variance)?
优化监督学习=优化模型的泛化误差,模型的泛化误差可分解为偏差、方差与噪声之和 Err = bias var irreducible error,以回归任务为例,其实更准确的公式为:Err = bias^2 var irreducible error^2符号的定义:一个真实的任务可以理解为 Y=f(x) e,其中 f(x)为规律部分,e 为噪声部分
3.CRF/朴素贝叶斯/EM/最大熵模型/马尔科夫随机场/混合高斯模型
这几个模型中都有概率计算的过程,不像 knn,svm 等都是距离计算一看就知道是判别模型。
• 生成式模型:朴素贝叶斯,混合高斯模型,马尔科夫随机场,EM
o 仔细看过这些模型细节的朋友都应该知道,他们最后都是判断 x 属于拟合一个正负样本分布,然后对比属于正负样本的概率
• 判别式模型:最大熵模型,CRF
4.如何解决过拟合问题?
l 加到数据量
l 解决数据不平衡的问题
l 加大正则化
l 减小模型复杂度
5.One-hot 的作用是什么?为什么不直接使用数字作为表示
主要是为了解决 categorcial 的数据在做模型搭建的时候它的数字表征对函数引起波动
6.决策树和随机森林的区别是什么?
随机森林大家可以看做是为了增强模型的稳定性,由若干个决策树组合成的集合型模型,随机森林中的每个决策树,只使用部分 features 进行预测,然后做投票,这样增强了模型的稳定性。
7.朴素贝叶斯为什么“朴素 naive”?朴素贝叶斯模型,全称为:Naive Bayesian Model,Naive 翻译为朴素。朴素贝叶斯模型假设样本特征彼此独立,没有相关关系。这个假设在现实世界中是很不真实的,因此说朴素贝叶斯真的很“朴素”。
8.kmeans 初始点除了随机选取之外的方法
先层次聚类,再在不同层次上选取初始点进行 kmeans 聚类。
9.LR 明明是分类模型为什么叫回归
观测样本中该特征在正负类中出现概率的比值满足线性条件,用的是线性拟合比率值,所以叫回归。
10.梯度下降如何并行化
首先需要理解梯度下降的更新公式:θj 1=θj-η1mi=1mhθxi-yixi;处的并行,不同样本在不同机器上进行计算,计算完再进行合并;同一条样本不同特征维度进行拆分,hθxi-yixi 处并行,把 hθxi 内的 xi 和 wi 拆分成块分别计算后合并,再把外层 hθxi-yixi 同样拆分成若干块进行计算。
11.LR 中的 L1/L2 正则项是啥
L1 正则项:为模型加了一个先验知识,未知参数 w 满足拉普拉斯分布,fw=12λe-|w- u|λ,u 为 0 在 lr 模型损失函数中新增了|wj|2λ2 项。L2 正则项:为模型加了一个先验知识,未知参数 w 满足 0 均值正太分布,fw|u,σ=12πσexp(-(w-u)22σ2),u 为 0。在 lr 模型损失函数中新增了 wwT2σ2 项。
12.简述决策树构建过程
l 构建根节点,将所有训练数据都放在根节点
l 选择一个最优特征,按照这一特征将训练数据集分割成子集,使得各个子集有一个在 当前条件下最好的分类
l 如果子集非空,或子集容量未小于最少数量,递归 1,2 步骤,直到所有训练数据子 集都被正确分类或没有合适的特征为止
13.解释Gini系数
Gini 系数二分情况下:GiniP=Pk1-Pk=2p(1-p)
l 对于决策树样本 D 来说,Ginip=CkD1-CkD=1-(|Ck||D|)2
l 对于样本 D,如果根据特征 A 的某个值,把 D 分成 D1 和 D2,则在特征 A 的条件下,D 的基尼系数为:GiniD,A=D1DGiniD1 D2DGiniD2
14.决策树的优缺点
优点:
l 缺失值不敏感,对特征的宽容程度高,可缺失可连续可离散
l 可解释性强
l 算法对数据没有强假设
l 可以解决线性及非线性问题
l 有特征选择等辅助功能
缺点:
l 处理关联性数据比较薄弱
l 正负量级有偏样本的样本效果较差
l 单棵树的拟合效果欠佳,容易过拟合
15.出现估计概率值为 0 怎么处理
拉普拉斯平滑
16.随机森林的生成过程
l 生成单棵决策树
l 随机选取样本
l 从 M 个输入特征里随机选择 m 个输入特征,然后从这 m 个输入特征里选择一个最好的进行分裂
l 不需要剪枝,直到该节点的所有训练样例都属于同一类
l 生成若干个决策树
17.介绍一下 Boosting 的思想
l 初始化训练一个弱学习器,初始化下的各条样本的权重一致
l 根据上一个弱学习器的结果,调整权重,使得错分的样本的权重变得更高
l 基于调整后的样本及样本权重训练下一个弱学习器
l 预测时直接串联综合各学习器的加权结果
18.gbdt 的中的 tree 是什么 tree?有什么特征
Cart tree,但是都是回归树
19.xgboost 对比 gbdt/boosting Tree 有了哪些方向上的优化
1. 显示的把树模型复杂度作为正则项加到优化目标中
2. 优化目标计算中用到二阶泰勒展开代替一阶,更加准确
3. 实现了分裂点寻找近似算法
4. 暴力枚举
5. 近似算法(分桶)
6. 更加高效和快速
7. 数据事先排序并且以 block 形式存储,有利于并行计算
8. 基于分布式通信框架 rabit,可以运行在 MPI 和 yarn 上
9. 实现做了面向体系结构的优化,针对 cache 和内存做了性能优化
20.什么叫最优超平面
两类样本分别分割在该超平面的两侧超平面两侧的点离超平面尽可能的远
21.什么是支持向量
在求解的过程中,会发现只根据部分数据就可以确定分类器,这些数据称为支持向量。换句话说,就是超平面附近决定超平面位置的那些参与计算锁定平面位置的点。
22.SVM 如何解决多分类问题
对训练器进行组合。其中比较典型的有一对一,和一对多。
23.核函数的作用是啥
核函数能够将特征从低维空间映射到高维空间, 这个映射可以把低维空间中不可分的两 类点变成高维线性可分的。