第1章 绪论
1.2 基本术语
1)样本和数据集
要进行机器学习,先要有数据.假定我们收集了一批关于西瓜的数据:
编号 | 密度 | 含糖率 |
---|---|---|
1 | 0.697 | 0.46 |
2 | 0.774 | 0.376 |
3 | 0.634 | 0.264 |
4 | 0.608 | 0.318 |
5 | 0.556 | 0.215 |
6 | 0.403 | 0.237 |
7 | 0.481 | 0.149 |
8 | 0.437 | 0.211 |
9 | 0.666 | 0.091 |
10 | 0.243 | 0.267 |
11 | 0.245 | 0.057 |
12 | 0.343 | 0.099 |
13 | 0.639 | 0.161 |
14 | 0.657 | 0.198 |
15 | 0.36 | 0.37 |
16 | 0.593 | 0.042 |
17 | 0.719 | 0.103 |
这组记录的集合称为一个数据集(data set),其中每条记录是关于一个事件或对象(这里是一个西瓜)的描述,称为一个示例(instance)或样本(sample)。
有时整个数据集亦称一个样本,因为它可看作对样本空间的一个采样;通过上下文可判断出“样本”是指单个示例还是数据集。
2)特征和特征向量
反映事件或对象在某方面的表现或性质的事项,例如“密度”、“含糖量”称为属性(attribute)或特征(feature);属性上的取值称为属性值(tribute value)。属性张成的空间称为“属性空间"(attribute space)、“样本空间”(sample space)或“输入空间”。例如我们把“密度”、“含糖量”作为;两个坐标轴,则它们张成一个用于描述西瓜的二维空间,每个西瓜都可在这个空间中找到自己的坐标位置。由于空间中的每个点对应一个坐标向量,因此我们也把一个示例称为一个“特征向量”(feature vector)。
通常情况下,我们用D={x_{1},x_{2},...,x_{m}} 来表示一个包含m 个示例的数据集。每个示例由d 个属性描述,(例如上面的西瓜数据使用了2个属性,每个示例x_{i}=(x_{i1};x_{i2};...;x_{id}) 是d 维样本空间mathcal{X} 中的一个向量,其中d 被称为样本x_{i} 的“维数”(dimensionality),x_{ij} 是x_{i} 在第j 个属性上的取值(例如上述第3个西瓜在第2个属性上的值是“0.264”)。
3)机器学习过程
- 学习(Learning)或训练(Training):指机器学习模型从训练数据中学习规律和模式的过程,这个过程通过执行某个学习算法来完成。这个过程的目标是使得模型能够对未见过的数据进行准确的预测或分类。
- 训练数据(Training Data):训练过程中使用的数据。
- 训练样本(Training Sample):数据集中的每一个数据点,包括特征和标签,都是一个训练样本。
- 训练集(Training Set):所有训练样本组成的集合。
- 学习算法(Learning Algorithm):这是一系列用于从数据中学习模型的指令或步骤。不同的学习算法适用于不同类型的数据和任务。
- 学习过程:
- 假设(Hypothesis):学得模型对应了关于数据的某种潜在的规律。
- 真相或真实(Ground-truth):潜在规律自身。(学习过程的目的是使模型的假设尽可能接近真相)
- 学习器(Learner):对模型的另一种称呼,强调了模型是通过学习过程构建的。学习器是学习算法在特定数据和参数设置下的具体实现。
如果希望学得一个能帮助我们判断没剖开的是不是“好瓜”的模型,要建立这样的关于“预测”(prediction)的模型,我们还需获得训练样本的“结果”信息——标记(label)。 拥有了标记信息的示例(样本),则称为 样例(example)。
一般地,left( mathcal{x_{i}},y_{i}right) 表示第i 个样例,其中y_{i}∈mathcal{Y} 是示例x_{i} 的标记,mathcal{Y} 是所有标记的集合,亦称标记空间(label space)或输出空间。
样例example=样本sample 标签label
编号 | 密度 | 含糖率 | 好瓜 |
---|---|---|---|
1 | 0.697 | 0.46 | 是 |
2 | 0.774 | 0.376 | 是 |
3 | 0.634 | 0.264 | 是 |
4 | 0.608 | 0.318 | 是 |