机器学习基础

2019-08-14 16:38:27 浏览数 (1)

注:本篇和后续各篇关于机器学习(不含深度学习)的内容,都有参考《Machine Learning in Action》(中文翻译版《机器学习实战》)这本书。

1. 什么是机器学习(Machine Learning)?

简单来说,机器学习是指 无需通过显式编程,让计算机能够从大量无序数据获取有效信息的过程。它横跨计算机科学、数学(尤其是统计学)、工程技术、社会科学等多个学科。

2. 关键术语

书中使用了一个简单的“鸟类分类系统”作为切入点,介绍了机器学习算法中常用到的基本术语。

这个系统用到的鸟物种分类表如下:

表中使用了四种不同的属性值(体重、翼展、脚蹼、后背颜色四个维度)来区分不同鸟类。现实中,你可能会想测量更多的值。通常的做法是测量所有可测属性,而后再挑选出重要部分。我们称使用的这四种属性为特征。数据表的最后一列(种属)称为目标变量(对于分类问题,也叫分类标签。特征和目标变量的数据类型可以是离散型(脚蹼、后背颜色和种属),也可以是连续型(体重、翼展)。

表中的每一行都是一个具有相关特征的实例或称样本。目标标量已知的样本集称为训练样本集(训练数据)。“鸟类分类系统”是一个基于训练样本集的分类算法,对于任何一只全部特征已知的鸟,它都可以预测一个分类结果(当然可能错判)。

为了评估机器学习算法的准确度,我们还需要给机器输入测试数据---并不给机器提供各个样本的目标变量(人知机器不知),只提供全部特征---由机器预测目标变量。比较各测试样本的预测目标变量 f(x) 和真实值 Y 的差别, 我们就可以评估机器学习算法的准确度,从而改进我们的算法。损失函数(Loss Function)专门用来估量预测值f(x)与真实值Y的不一致程度,它是一个非负实值函数,通常使用L(Y, f(x))来表示。

3. 机器学习的主要任务

如果需要预测目标变量的值,则属于监督学习。监督学习的训练数据需要给出各样本的目标变量值。如果目标变量是离散型,则可以选择分类算法;如果目标变量是连续型,则可以选择回归算法(曲线拟合就是一种常见的回归算法)。

与监督学习相对应的是无监督学习,此时数据没有类别信息,也不会给定其它目标值。在无监督学习中,将数据集合分成由相似的样本组成的多个类的过程被称为聚类;将寻找描述数据统计值的过程称之为密度估计。此外无监督学习还可以给数据降维(如PCA, SVD算法),用来降低计算开销,去除噪音,使数据简单直观,便于理解。

0 人点赞