机器学习(6)手推线性回归模型(梯度下降法)

2020-06-02 17:04:11 浏览数 (2)

今天我们给出梯度下降(Gradient Descent)的推导示例,通过一个简单的例子让我们理解GD的流程和本质。

其实梯度下降是比较怂的解决方案,实在是在数学方法没辙了,那我就用物理的方法:按照一定的步长遍历参数空间,为了加快搜索,每次都沿下降最快的方向寻找,直到找到最佳的参数解;当然这也是一种直觉上的解决方案,就跟在游戏中搜索地图一样,不停去尝试。

这个方法的优缺点也是一目了然的:

相对于矩阵求逆,梯度下降理解简单,计算也简单;

其缺点是迭代较慢,有可能陷入局部最优。

梯度下降的公式推导和示例如下:

在如上的示例中,我们已知y = 2*x 3的4个样本,GD的学习率取0.1,示例中给出了前两步的计算推导,供参考。

程序计算的迭代数据如下所示,跟手推的一样:

GD对学习率比较敏感,取值过小,迭代极慢;取值过大,可能跑过了,震荡较大,甚至无法收敛。

业界的说法,一般学习率取0.01比较合适。

如下三张图给出了取不同学习率下w,b,J的收敛曲线。

(如果觉得文章不错,请点在看支持,谢谢!)

0 人点赞