1.9 归一化 Normaliation
- 训练神经网络,其中一个加速训练的方法就是归一化输入(normalize inputs).
- 假设我们有一个训练集,它有两个输入特征,所以输入特征 x 是二维的,这是数据集的散点图.
归一化输入需要两个步骤
第一步-零均值化
- subtract out or to zero out the mean 计算出 u 即 x(i)的均值
- u 是一个向量,
每个训练数据
都是
的新值
- 意思是移动训练集,直到它完成零均值化
第二步-归一化方差
- 如上图所示:特征 x1 的方差比特征 x2 的方差要大得多,我们要做的是给
赋值.
是一个方差,它的每个特征都是方差.其中
.元素
表示每个特征的方差.我们已经对数据完成了零均值化,现在只需要将所有数据都除以向量
- 经过方差的归一化,数据分布变为:
- 特征 x1 和特征 x2 的方差都等于 1
- 注意:如果你要用它来调整数据,那么要用相同的
来归一化测试集和训练集.这个数据集都是通过相同的
其中
为什么要归一化输入特征
- 如果不使用归一化,则这是个非常细长狭窄的代价函数,你要找的代价函数的最小值点应该在这里.(如图中箭头标示)
- 但是特征值在不同的取值范围内,例如 x1 取值范围从 1 到 1000,特征 x2 的取值范围从 0 到 1,结果是参数 w1 和 w2 值的范围或者比率完全不同,这些数据轴应该是 w1 和 w2,为了直观理解,我标记为 w 和 b,该函数的轮廓十分狭窄.
- 如果使用了归一化方法,代价函数更加对称
- 如果在不使用归一化方法且特征分布十分不均匀的数据集上的代价函数上运行梯度下降法,必须使用一个非常小的学习比率,因为如果是在这个位置,梯度下降法可能需要更多次迭代过程.
直到最后找到最小值.
- 但是如果函数是经过归一化的特征分布,那么会是一个更圆的轮廓,那么无论从哪个位置开始,梯度下降法都能够更直接地找到最小值,并且可以使用较大步长,而不是需要以较小步长反复执行.
- 这只是一个二维特征的例子,实际上 w 是一个高维向量,因此用二维绘制 w 并不能正确的传达直观理解,但总的直观理解是代价函数会更圆一些,,前提是特征都在相似范围内,而不是从 1 到 1000,0 到 1 的差别很大的范围内,而是都在-1 到 1 的范围内,或者相似偏差,这使得优化代价函数变的更简单更快捷.
- 实际上,如果特征 x1 范围在 0~1 之间,x2 在-1~1 之间,x3 在 1~2 之间,它们是相似范围,所以会表现的很好,如果在不同的取值范围内,如其中一个从 1 到 1000,另一个从 0 到 1,这对优化算法十分不利,但是仅将它们设置为均化零值,假设方差为 1,确保特征都在相似范围内,通常可以使算法运算得更快.
- 如果数据的不同特征值取值范围差异很大,那么归一化就很重要了,如果特征值处于相似范围,那么归一化就变得不那么重要了.
参考资料
[1]
吴恩达老师课程原地址: https://mooc.study.163.com/smartSpec/detail/1001319001.htm