交叉验证，K折交叉验证的偏差和方差分析

交叉验证

交叉验证是一种通过估计模型的泛化误差，从而进行模型选择的方法。没有任何假定前提，具有应用的普遍性，操作简便，是一种行之有效的模型选择方法。

1. 交叉验证的产生

人们发现用同一数据集，既进行训练，又进行模型误差估计，对误差估计的很不准确，这就是所说的模型误差估计的乐观性。为了克服这个问题，提出了交叉验证。基本思想是将数据分为两部分，一部分数据用来模型的训练，称为训练集；另外一部分用于测试模型的误差，称为验证集。由于两部分数据不同，估计得到的泛化误差更接近真实的模型表现。数据量足够的情况下，可以很好的估计真实的泛化误差。但是实际中，往往只有有限的数据可用，需要对数据进行重用，从而对数据进行多次切分，得到好的估计。

2. 交叉验证方法

留一交叉验证（leave-one-out）：每次从个数为N的样本集中，取出一个样本作为验证集，剩下的N-1个作为训练集，重复进行N次。最后平均N个结果作为泛化误差估计。
留P交叉验证（leave-P-out）：与留一类似，但是每次留P个样本。每次从个数为N的样本集中，取出P个样本作为验证集，剩下的N-P个作为训练集，重复进行CPN次。最后平均N个结果作为泛化误差估计。

以上两种方法基于数据完全切分，重复次数多，计算量大。因此提出几种基于数据部分切分的方法减轻计算负担。 - K折交叉验证：把数据分成K份，每次拿出一份作为验证集，剩下k-1份作为训练集，重复K次。最后平均K次的结果，作为误差评估的结果。与前两种方法对比，只需要计算k次，大大减小算法复杂度，被广泛应用。

3.模型选择方法的评价

衡量一个模型评估方法的好坏，往往从偏差和方差两方面进行。 3.1偏差

交叉验证只用了一部分数据用于模型训练，相对于足够多的数据进行训练的方法来说，模型训练的不充分，导致误差估计产生偏差。相对来说，留一交叉验证，每次只留下一个作为验证集，其余数据进行训练，产生泛化误差估计结果相对真值偏差较小。很多文献表明留一交叉验证在回归下的泛化误差估计是渐进无偏的。留P交叉验证，取决于P的大小，P较小时，等同于留一交叉验证的情况。P较大，会产生较大的偏差，不可忽略。K折交叉验证，同样取决于K的大小。K较大时，类似留一交叉验证；K较小时，会产生不可忽略的偏差。训练数据越小，偏差越大。当偏差无法忽略时，需要对偏差进行纠正。 3.2方差

对于一个模型，训练数据固定后，不同的验证集得到的泛化误差评估结果的波动，称之为误差评估的方差。影响方差变化的因素，主要有数据的切分方法，模型的稳定性等。训练数据固定的情况下，验证集中样本数量越多，方差越小。模型的稳定性是指模型对于数据微小变化的敏感程度。

4.针对K折交叉验证的k的选择，及偏差和方差分析

对于k的选择，实践中一般取k =10。这里有一种情况，k = N，（N为训练样本数量）。在这种情况下，k折交叉验证也称为留一交叉验证（leave-one-out cross validation）。由于在留一交叉验证中，每一次训练模型的样本几乎是一样的，这样就会造成估计的偏差很小但方差很大的情况出现，另外，需要调用N次学习算法，这在N很大的时候，对于计算量也是不小的开销。

另一方面，如果取k = 10，那么交叉验证的方差会降低，但是偏差又会成为问题，这取决于训练样本的数量。当训练样本较小时，交叉验证很容易有较高的偏差，但是随着训练样本的增加，这种情况会得到改善。

validation

0 人点赞