1. 简介
Momentum 类似于物理中的冲量的思想,Momentum 算法优化的过程给人的感觉就像是小球在地面上滚动。
2. 原理
第 t 次迭代时:
其中,boldsymbol{W} 为需要更新的参数,L 为损失函数,frac{partial L}{partial boldsymbol{W}} 为 L 关于 boldsymbol{W} 的梯度,eta 为学习率,boldsymbol{v} 类似于物理上的速度,alpha 为动量因子,承担使 boldsymbol{v} 逐渐减小的任务,对应于物理上的阻力,通常设为 0.9 。