1. 概述
随着机器学习越来越广泛的进入我们的生活,机器学习对我们生活的影响越来越大。 作为一个计算机行业的工作者,机器学习学科的学习是必不可少的。 说来惭愧,博主本是智能科学与技术专业毕业,《机器学习》《模式识别》《智能科学导论》等课程均是博主的专业课,但是由于长时间没有从事相关工作,早已将这些理论忘的差不多了,如今想要重拾起来,一窥其中的奥秘。
2. 什么是机器学习
周志华的《机器学习》一书中指出:机器学习是一门致力于研究如何通过计算的手段,利用经验来改善系统自身性能的学科。 机器学习是通过“模型”处理“经验”(即数据)的学科。 机器学习的主要任务是分类和预测,例如下图中:
- 用什么样的曲线函数可以最大程度的区分两种颜色的点?这就是一个分类问题
- 黄色的点如果是下一个出现的点,那么会是什么颜色的呢?这就是一个预测问题
3. 基本术语
3.1. 数据集与样本
要进行机器学习,先要有数据,数据记录的合集被称为数据集(data set),每条数据记录是关于一个事物或事件的描述,被称为一个“示例”(instance)或“样本”(sample)
3.2. 样本空间与特征向量
反映事物或事件在某方面的表现或性质的事项称为“属性”(attribute)或“特征”(feature),属性上的取值被称为“属性值”,多个属性构成“属性空间”或“样本空间”,每个样本在属性空间中可以被映射成一个坐标向量,被称为“特征向量”,特征空间中的属性个数被称为“维数”。
3.3. 训练与学习
从数据中得到模型的过程被称为“训练”或“学习”,这个过程通过执行某个机器学习算法完成,训练中使用的数据被称为“训练数据”,每个样本被称为“训练样本”,训练样本组成的集合被称为“训练集”。 学得的模型对应了数据的某种潜在规律,被称为“假设”,这种潜在规律自身被称为“真实”或“真相”。 想要让计算机通过训练数据的特征来获得这些特征指向的结果,我们就要对训练数据进行标记,拥有标记数据的示例就被称为“样例”,样例是 (xi, yi) 组成的,yi 组成的空间就被称为“标记空间”或“输出空间”。
4. 学习任务的分类
4.1. 分类、聚类和回归
1. 分类 — 如果我们要通过西瓜的特征来区分“好瓜”和“坏瓜”,这就是一个分类的学习任务 2. 回归 — 如果我们的目标是预测西瓜的成熟度(从 0 到 1 的连续值),那么,这就是一个“回归”任务 3. 聚类 — 将西瓜潜在的属性进行聚类,得到“浅色瓜”、“深色瓜”的区分,但在机器学习开始前,我们事先并不知道“浅色瓜”与“深色瓜”的区分原则
聚类过程中,机器学习算法会自动形成若干个特征组,每个特征组被称为“簇”。
4.2. 监督学习和无监督学习
通过训练数据是否拥有标记信息,学习任务可以分为“监督学习”和“无监督学习”。 分类和回归是“监督学习”的代表,聚类则是“无监督学习”的代表。
5. 训练结果的评估
机器学习的目标是得到的模型能够很好地适用于新样本,这样的能力就被称为“泛化能力”。 一般来说,训练样本越多,我们得到的分布信息就越多,泛化能力就越强。
6. 参考资料
周志华 《机器学习》。