1 方差与偏差的权衡
在讨论线性回归的时候,我们尝试用各种不同的模型来拟合训练集,如下图所示:
模型可以理解为假设(hypothesis)的集合。可以看到,过于简单或复杂的模型都不能对训练集之外的数据给出合理的预测,这表示训练集学习得到的东西并不能被很好地推广到其他数据上。
我们用「泛化误差」(generalization error)来量化这种差异,一个假设的泛化误差指不属于训练集的样本的预期误差。上图左边的线性拟合与右边的高次多项式拟合都有非常大的泛化误差,但其反映的问题大不相同。
左边的模型得到的假设具有非常大的「偏差」(bias),偏差较大指的是模型没有捕捉到训练数据的结构特征,即对训练数据「欠拟合」(underfitting)。
右边的模型得到的假设具有非常大的「方差」(variance),方差较大是指拟合出的模型可能只适合眼下这个小规模的有限训练集,即对训练数据「过拟合」(overfitting)。
我们需要在偏差与方差之间进行权衡:
- 如果模型过于“简单”,参数非常少,那么可能会有很大的偏差,而方差则很小
- 如果模型过于“复杂”,有非常多的参数,那么可能会有很大的方差,而偏差则较小
在上图的例子中,用二次函数模型进行拟合得到的效果,要好于其他两种模型。