机器学习(三)基本概念强化

1.6.2机器学习数据集基本概念强化

下面是西瓜数据集，可以通过西瓜的色泽、根蒂、敲声确定一个西瓜是好瓜或坏瓜：

要进行机器学习，先要有数据。假定我们收集了一批关于西瓜的数据：

{颜色=乌黑，敲声=浊响}

{颜色=青绿，敲声=清脆}

【基础概念1】将这组记录的集合称为一个“数据集”（data set），其中每条记录是关于一个事件或对象（这里说的是西瓜）的描述，也称为一个“样本”（sample）。

【基础概念2】而我们所说的西瓜的色泽，这种可以反应事件或对象在某方面的表现或性质的事项，称为“特征”（feature）或“属性”（attribute）”

属性上的取值，如色泽青绿等，这个取值称为属性值（attribute value）。

【基础概念3】属性构成的空间称为“属性空间”或样本空间（sample space）或输入空间。比如将西瓜的颜色，敲声作为两个坐标轴，则它们可以张成一个用于描述西瓜的二维空间，每个西瓜都可以在这个空间中找到自己的坐标位置。由于空间中的每个点都对应一个坐标向量，因此我们也把一个样本称作一个“特征向量”（feature vector）。

假设

是西瓜数据集

的第i个样本，其中

是

在第j个属性上的取值，如第3个西瓜在第1个属性（颜色）上取值为“乌黑”。d称为样本

的“维度数或维数”（dimensionality）。数据集D中的

表示第i个样本或示例。

【基础概念4】从数据中学得模型得过程称为“学习”（learning）或训练（training），这个过程是通过执行某个学习算法来完成的。训练过程中使用的数据称为“训练数据”（training set）。

***训练数据：***由输入X与输出Y对组成。训练集在数学上表示为：

【基础概念5】模型有时也称为“学习器”（learner），可以看作是学习算法在给定数据和参数空间上的实例化。

【基础概念6】如果希望学得一个能帮助我们判断西瓜是不是“好瓜”的模型，仅仅有前面的样本数据是不够的，要建立这样的关于“预测（prediction）”的模型，我们需要获得训练样本的“结果”信息，如：{（颜色=青绿，敲声=浊响），好瓜}。这里的结果信息，称为样本的“标记（label）”；拥有了标记信息的样本，则称为“样例（example）”。用

表示第i个样例，yi是样本x的标识，一般把标记的集合称为标记空间(label space)或输出空间。

学习完模型后，就需要进行预测，预测的过程称为“测试”（testing），被预测的样本称为“测试样本”（testing sample）。

***测试数据：***也是由输入X与输出Y组成，是用于测试训练好的模型对于新数据的预测能力。例如在中学阶段的函数可表示为y=f(x)，这里的f指的是通过学习得到的模型，对于测试x，可得到其预测标记y=f(x)。

有了上面基本概念铺垫，我们可以学习机器学习的三种不同方法

1.6.3电商数据集基本概念强化

首先，通过电商购买数据集了解机器学习数据集的构成：其中每一个用户都由age年龄、income收入、student是否为学生、credit_rating信用级别和buy_computer是否购买电脑组成。

如果通过机器识别用户是否购买电脑，需要将数据集中各字段进行数字化：

数据集的描述：

机器学习测试基础模型数据

0 人点赞