Nesterov 2022-03-10 14:50:51 浏览数 (1) 1. 简介Nesterov 加速梯度算法是一种对 Momentum 动量法的改进。2. 原理第 t 次迭代时:begin{array}{c} hat{boldsymbol{W}}_t = boldsymbol{W}_{t-1} alpha Delta boldsymbol{W}_{t-1} \ boldsymbol{W}_t = hat{boldsymbol{W}_{t}} - eta frac{partial L}{partial hat{boldsymbol{W}}_t} end{array} 其中,boldsymbol{W} 为需要更新的参数,L 为损失函数,frac{partial L}{partial hat{boldsymbol{W}}} 为 L 关于 hat{boldsymbol{W}} 的梯度,eta 为学习率,alpha 为动量因子,通常设为 0.9 。 函数 算法 原理 0 人点赞 上一篇:分享雷军22年前编写的代码