梯度下降法的理解及实现 (一）

2020-11-12 11:45:47 浏览数 (1)

梯度下降法（Gradient Decent）示意图如下图所示：

我们的目的的一步步的走向最低点，也就是损失函数的最小值。图中损失函数的导数可以代表方向，当初始点在左侧时，导数为负，w_i 1会向右移动（也就是向最低点移动）；当初始点在右侧时导数为正，w_i 1会向左移动。无论初始点在哪里都会得到一个局部最小值。

1). 图中的alpha（或者称作eta）被称为学习率 (learning rate)； 2). 这个值影响获得最优解的速度（如果太小，会影响收敛的速度）；取值不合适可能得不到最优解（如果太大，则会跳过最小值）； 3). 这是梯度下降法的一个超参数。

值得注意的是，并不是所有的函数都有唯一的极值点，这样我们得到的可能只是一个局部最优解。

解决方案：多次运行，随机初始点。

0 人点赞