Momentum

2022-03-10 14:54:07 浏览数 (1)

1. 简介

Momentum 类似于物理中的冲量的思想,Momentum 算法优化的过程给人的感觉就像是小球在地面上滚动。

2. 原理

t 次迭代时:

begin{array}{c} boldsymbol{v}_t = alpha boldsymbol{v}_{t-1} - eta frac{partial L}{partial boldsymbol{W}_{t-1}} \ boldsymbol{W}_t = boldsymbol{W}_{t-1} boldsymbol{v}_t end{array}

其中,boldsymbol{W} 为需要更新的参数,L 为损失函数,frac{partial L}{partial boldsymbol{W}} L 关于 boldsymbol{W} 的梯度,eta 为学习率,boldsymbol{v} 类似于物理上的速度,alpha 为动量因子,承担使 boldsymbol{v} 逐渐减小的任务,对应于物理上的阻力,通常设为 0.9

0 人点赞