1. 简介
Nesterov 加速梯度算法是一种对 Momentum 动量法的改进。
2. 原理
第 t 次迭代时:
其中,boldsymbol{W} 为需要更新的参数,L 为损失函数,frac{partial L}{partial hat{boldsymbol{W}}} 为 L 关于 hat{boldsymbol{W}} 的梯度,eta 为学习率,alpha 为动量因子,通常设为 0.9 。
Nesterov 加速梯度算法是一种对 Momentum 动量法的改进。
第 t 次迭代时:
其中,boldsymbol{W} 为需要更新的参数,L 为损失函数,frac{partial L}{partial hat{boldsymbol{W}}} 为 L 关于 hat{boldsymbol{W}} 的梯度,eta 为学习率,alpha 为动量因子,通常设为 0.9 。