今天我们给出梯度下降(Gradient Descent)的推导示例,通过一个简单的例子让我们理解GD的流程和本质。
其实梯度下降是比较怂的解决方案,实在是在数学方法没辙了,那我就用物理的方法:按照一定的步长遍历参数空间,为了加快搜索,每次都沿下降最快的方向寻找,直到找到最佳的参数解;当然这也是一种直觉上的解决方案,就跟在游戏中搜索地图一样,不停去尝试。
这个方法的优缺点也是一目了然的:
相对于矩阵求逆,梯度下降理解简单,计算也简单;
其缺点是迭代较慢,有可能陷入局部最优。
梯度下降的公式推导和示例如下:
在如上的示例中,我们已知y = 2*x 3的4个样本,GD的学习率取0.1,示例中给出了前两步的计算推导,供参考。
程序计算的迭代数据如下所示,跟手推的一样:
GD对学习率比较敏感,取值过小,迭代极慢;取值过大,可能跑过了,震荡较大,甚至无法收敛。
业界的说法,一般学习率取0.01比较合适。
如下三张图给出了取不同学习率下w,b,J的收敛曲线。
(如果觉得文章不错,请点在看支持,谢谢!)