1.基础概念
- 统计学习是关于计算机基于数据构建概率统计模型并运用模型对数据进行预测与分析的一门学科,也称统计机器学习。统计学习是数据驱动的学科,是一门概率论、统计学、信息论、计算理论、最优化理论及计算机科学等多个领域的交叉学科。
- 统计学习的对象是数据,它从数据出发,提取数据的特征,抽象出数据的模型,发现数据中的知识,又回到对数据的分析与预测中去。统计学习关于数据的基本假设是同类数据具有一定的统计规律性,这是统计学习的前提。
- 统计学习的目的就是考虑学习什么样的模型和如何学习模型。
- 统计学习方法包括模型的假设空间、模型选择的准则以及模型学习的算法。实现统计学习的步骤如下: (1) 得到一个有限的训练数据集合; (2) 确定包含所有可能的模型的假设空间,即学习模型的集合; (3) 确定模型选择的准则,即学习的策略; (4) 实现求解最优模型的算法,即学习的算法; (5) 通过学习方法选择最优模型; (6) 利用学习的最优模型对新数据进行预测或分析。
- 统计学习包括监督学习、半监督学习、非监督学习、强化学习。 监督学习:用于学习的数据集都是输入输出数据对(有标记的样本),学习的任务是找到输入与输出的对应规则。主要用于分类、标注、回归分析。 非监督学习:用于学习的数据集只有输入(未标记的样本),学习的任务是对于数据进行分析,找到输出。主要用于聚类。 半监督学习:是监督学习和非监督学习的结合,它主要考虑如何利用少量的标注样本和大量的未标注样本进行训练和分类的问题,主要用于半监督分类、半监督回归、半监督聚类、半监督降维。 强化学习:简单理解,学习者在学习过程中不断与环境交互,会从环境中得到一定的奖赏,根据奖赏再不断的学习,直到达到一个更优的策略。 非监督学习:是另一种研究的比较多的学习方法,它与监督学习的不同之处,在于我们事先没有任何训练样本,即没有用于学习的数据集,而需要直接对数据进行建模,比如说聚类算法。 强化学习:强化学习就是智能系统从环境到行为映射的学习,以使奖励信号(强化信号)函数值最大,强化学习不同于连接主义学习中的监督学习,主要表现在教师信号上,强化学习中由环境提供的强化信号是对产生动作的好坏作一种评价(通常为标量信号),而不是告诉强化学习系统RLS(reinforcement learning system)如何去产生正确的动作。由于外部环境提供的信息很少,RLS必须靠自身的经历进行学习。通过这种方式,RLS在行动-评价的环境中获得知识,改进行动方案以适应环境。
2.统计学习三要素
- 统计学习=模型 策略 算法
2.1 模型
- 统计学习中,首先要考虑学习什么样的模型,在监督学习中,模型就是所要学习的条件概率分布或决策函数,由决策函数表示的模型为非概率模型,由条件概率分布表示的模型为概率模型。
2.2 策略
- 有了模型的假设空间,统计学习接着需要考虑的是按照什么样的准则学习或选择最优的模型。监督学习实际上就是一个经验风险或者结构风险函数的最优化问题。风险函数度量平均意义下模型预测的好坏,模型每一次预测的好坏用损失函数来度量。
2.3 算法
- 统计学习问题归结为以上的最优化问题,这样,统计学习的算法就是求解最优化问题的算法。如果最优化问题有显示的解析解,这个最优化问题就比较简单,但通常这个解析解不存在,所以就需要利用数值计算的方法来求解。统计学习可以利用已有的最优化算法,也可以开发独自的最优化算法。
3.模型评估与模型选择、正则化和交叉验证
- 1、评估标准 —— 误差
训练误差:模型关于训练数据集的平均损失(经验风险) 测试误差:模型关于测试数据集的平均损失(经验风险)
- 2、过拟合
当模型的复杂度增大时,训练误差会逐渐减小并趋向于0;而测试误差会先减小,达到最小值后又增大。当模型复杂度过大时,过拟合现象就会发生。 学习时选择的模型所包含的参数过多(复杂度过高),以致于出现这一模型对已知数据预测得很好,但对未知数据预测得很差的现象
- 3、模型选择——正则化
正则化:正则化是结构风险最小化策略的实现,是在经验风险上加一个正则化项或罚项 正则化项:一般是模型复杂度的单调递增函数,模型越复杂,正则化值越大 正则化的作用是选择经验风险与模型复杂度同时较小的模型
- 4、模型选择 —— 交叉验证
如果给定的样本数据充足,进行模型选择的一种简单方法是随机地将数据集切成三部分,分别为训练集、验证集和测试集。训练集用来训练模型,验证集用于模型的选择,测试集用于最终对方法的评估 但是由于在许多实际应用中数据是不充分的,为了选择好的模型,可以采用交叉验证方法 (1)基本思想:重复的使用数据,把给定的数据进行切分,将切分的数据集组合为训练集和测试集,在此基础上反复地进行训练、测试以及模型选择 (2)简单交叉验证:将已给数据随机分为两部分,分别用作训练集和测试集 (3)S折交叉验证:首先将已给数据随机分为S组;然后利用S-1个子集的数据训练模型,剩余1个子集测试模型;将这一过程对可能的S种选择重复进行;最后选出S次评测中平均测试误差最小的模型。 (4)留一交叉验证:S折交叉验证的特殊形式是S=N,其中N是给定数据集的容量
4.分类问题、标注问题、回归问题
- 输入变量和输出变量均为连续变量的预测问题称为回归问题;输出变量为有限个离散变量的预测问题称为分类问题;输入变量与输出变量均为变量序列的预测问题称为标注问题。
- 分类问题主要分为二分类和多分类,对于二分类问题,常用的评价指标是精确率和召回率。通常以关注的类为正类,其他类为负类,分类器在测试数据集上的预测或正确或不正确,4中情况出现的总数分别记为:
TP——将正类预测为正类数; FN——将正类预测为负类数; FP——将负类预测为正类数; TN——将负类预测为负类数。
- 许多统计方法可以用于分类,包括k近邻法、感知机、朴素贝叶斯法、决策树、决策列表、逻辑斯谛回归模型、支持向量机、提升方法、贝叶斯网络、神经网络、Winnow等。
- 标注问题的输入是一个观测序列,输出是一个标记序列。标注问题在信息抽取、自然语言处理等领域被广泛采用。例如,自然语言处理中的词性标注就是一个典型的标注问题:给定一个由单词组成的句子,对这个句子中的每一个单词进行词性标注,即对一个单词序列预测其对应的词性标记序列。标注常用的统计学习方法有:隐马尔科夫模型、条件随机场。
- 回归问题的学习等价于函数拟合:选择一条函数曲线使其很好的拟合已知数据且很好地预测未知数据。回归问题按照输入变量的个数分为一元回归和多元回归,按照输入变量和输出变量之间的关系的类型即模型的类型,分为线性回归和非线性回归。回归学习最常用的损失函数时平方损失函数,在此情况下,回归问题可以用著名的最小二乘法求解。
5.学习小结
- 1.统计学习是关于计算机基于数据构建概率论统计模型并运用模型对数据进行分析与预测的一门学科,统计学习包括监督学习、非监督学习、半监督学习和强化学习
- 2.统计学习的三要素:模型、策略、算法
- 3.统计学习分类,即各个分类的定义和常用算法
- 4.监督学习的三类问题:分类问题、标注问题、回归问题