机器学习(Machine Learning,ML)就是让计算机从数据中进行自动学习,得到某种知识(或规律)。
1 基本概念
以市场上的芒果为例,介绍机器学习中的基本概念。
从市场上随机挑选出一批芒果。
芒果的特征(Feature) ,包括颜色、大小、形状、产地、品牌。
预测的标签(Label),标签可以是连续值(比如关于芒果的甜度、水分以及成熟度的综合打分),也可以是离散值(比如“好”“坏”两类标签)。
将一个标记好特征以及标签的芒果堪称一个样本(Sample)。
一组样本构成的集合称为为数据集(Data Set)。在很多领域,数据集也经常称为语料库(Corpus)。
一般将数据集分为两部分: 训练集和测试集。训练集(Training Set)中的样本是用来训练模型的,也叫训练样本(Training Sample),而测试集(Test Set)中的样本是用来检验模型好坏的,也叫测试样本(Test Sample)。
一个