ML_Basic-机器学习常见概念

机器学习基础系列专栏

整合网路上各种资源

归纳总结于Machine_Learning_Basic系列

Index

奥卡姆剃刀原理
过拟合与欠拟合
偏差与方差
- 深度学习中的偏差与方差
- 偏差与方差的权衡
- 导致偏差与方差的原因
机器学习类型
- 有监督学习
- 无监督学习
- 半监督学习
- 强化学习
生成模型和判别模型
- 两者之间的联系
- 两者的优缺点
- 两者常见的模型
先验概率和后验概率
- 条件概率
- 先验概率
- 后验概率
- 贝叶斯公式

奥卡姆剃刀原理

Occam’s Razor and Overfitting，即奥卡姆剃刀原理，指的是对训练数据最简单的解释就是最好的，训练的模型可能越简单越好，即如果有2个模型的效果效果差不多，那选择简单的那个。

过拟合与欠拟合

教科书式定义：为了得到一致假设而使假设变得过度严格称为过拟合。

通俗来说，就是对你输入的数据进行了非常严格的拟合，但模型的复用性不强，在测试集上效果差，模型泛化能力弱。大家可以看下下图。

?偏差与方差

《机器学习》 2.5 偏差与方差 - 周志华

偏差与方差分别是用于衡量一个模型泛化误差的两个方面；
- 模型的偏差，指的是模型预测的期望值与真实值之间的差；
- 模型的方差，指的是模型预测的期望值与预测值之间的差平方和；
在监督学习中，模型的泛化误差可分解为偏差、方差与噪声之和。

偏差用于描述模型的拟合能力；方差用于描述模型的稳定性。

导致偏差和方差的原因

偏差通常是由于我们对学习算法做了错误的假设，或者模型的复杂度不够；
- 比如真实模型是一个二次函数，而我们假设模型为一次函数，这就会导致偏差的增大（欠拟合）；
- 由偏差引起的误差通常在训练误差上就能体现，或者说训练误差主要是由偏差造成的
方差通常是由于模型的复杂度相对于训练集过高导致的；
- 比如真实模型是一个简单的二次函数，而我们假设模型是一个高次函数，这就会导致方差的增大（过拟合）；
- 由方差引起的误差通常体现在测试误差相对训练误差的增量上。

深度学习中的偏差与方差

神经网络的拟合能力非常强，因此它的训练误差（偏差）通常较小；
但是过强的拟合能力会导致较大的方差，使模型的测试误差（泛化误差）增大；
因此深度学习的核心工作之一就是研究如何降低模型的泛化误差，这类方法统称为正则化方法。

偏差与方差的权衡（过拟合与模型复杂度的权衡）

给定学习任务，
- 当训练不足时，模型的拟合能力不够（数据的扰动不足以使模型产生显著的变化），此时偏差主导模型的泛化误差；
- 随着训练的进行，模型的拟合能力增强（模型能够学习数据发生的扰动），此时方差逐渐主导模型的泛化误差；
- 当训练充足后，模型的拟合能力过强（数据的轻微扰动都会导致模型产生显著的变化），此时即发生过拟合（训练数据自身的、非全局的特征也被模型学习了）
偏差和方差的关系和模型容量（模型复杂度）、欠拟合和过拟合的概念紧密相联
- 当模型的容量增大（x 轴）时，偏差（用点表示）随之减小，而方差（虚线）随之增大
- 沿着 x 轴存在最佳容量，小于最佳容量会呈现欠拟合，大于最佳容量会导致过拟合。

《深度学习》 5.4.4 权衡偏差和方差以最小化均方误差

Reference

Algorithm_Interview_Notes-Chinese-ML-机器学习基础 --GitHub
Understanding the Bias-Variance Tradeoff
机器学习中的Bias(偏差)，Error(误差)，和Variance(方差)有什么区别和联系？ - 知乎

机器学习类型

有监督学习（Supervised Learning）

是否有监督（supervised），就看输入数据是否有标签（label）。输入数据有标签，则为有监督学习，没标签则为无监督学习。

最简单也最普遍的一类机器学习算法就是分类（classification）。对于分类，输入的训练数据有特征（feature），有标签（label）。所谓的学习，其本质就是找到特征和标签间的关系（mapping）。这样当有特征而无标签的未知数据输入时，我们就可以通过已有的关系得到未知数据标签。

无监督学习（Unsupervised Learning）

相反，即无监督学习，在无监督学习中，数据是未标注的。无监督学习分为聚类和降维。

聚类用于根据属性和行为对象进行分组。这与分类不同，因为这些组不会提供给你。聚类将一个组划分为不同的子组（例如，根据年龄和婚姻状况），然后进行有针对性的营销。
降维涉及通过查找共性来减少数据集的变量。大多数数据可视化使用降维来识别趋势和规则。

半监督学习（Semi-Supervised Learning）

对于半监督学习，其训练数据的一部分是有标签的，另一部分没有标签，而没标签数据的数量常常极大于有标签数据数量（这也是符合现实情况的）。隐藏在半监督学习下的基本规律在于：数据的分布必然不是完全随机的，通过一些有标签数据的局部特征，以及更多没标签数据的整体分布，就可以得到可以接受甚至是非常好的分类结果。

强化学习（Reinforcement Learning）

强化学习使用机器的历史和经验来做出决策。强化学习的经典应用是游戏。与监督和无监督学习相反，强化学习不注重提供“正确”的答案或输出。相反，它专注于性能，这类似人类根据积极和消极后果进行学习。如果孩子碰到了热炉，他很快就会学会不再重复这个动作。同样在国际象棋中，计算机可以学习不将王移动到对手的棋子可以到达的地方。根据这个原理，在游戏中机器能够最终击败顶级的人类玩家。

Reference

机器学习太难？一文带你掌握机器学习的必备基础知识 -百度

生成模型和判别模型

《统计学习方法》 1.7 生成模型与判别模型

监督学习的任务是学习一个模型，对给定的输入预测相应的输出
这个模型的一般形式为一个决策函数或一个条件概率分布（后验概率）：

监督学习模型可分为生成模型与判别模型
- 直观来说，判别模型学习的是类别之间的最优分隔面，反映的是不同类数据之间的差异
- 判别模型直接学习决策函数或者条件概率分布
- 生成模型学习的是联合概率分布P(X,Y)，然后根据条件概率公式计算 P(Y|X)

两者之间的联系

由生成模型可以得到判别模型，但由判别模型得不到生成模型。
当存在“隐变量”时，只能使用生成模型隐变量：当我们找不到引起某一现象的原因时，就把这个在起作用，但无法确定的因素，叫“隐变量”

两者的优缺点

判别模型
- 优点
  - 直接面对预测，往往学习的准确率更高
  - 由于直接学习 P(Y|X) 或 f(X)，可以对数据进行各种程度的抽象，定义特征并使用特征，以简化学习过程
- 缺点
  - 不能反映训练数据本身的特性
  - ...
生成模型
- 优点
  - 可以还原出联合概率分布 P(X,Y)，判别方法不能
  - 学习收敛速度更快——即当样本容量增加时，学到的模型可以更快地收敛到真实模型
  - 当存在“隐变量”时，只能使用生成模型
- 缺点
  - 学习和计算过程比较复杂