1.指数加权平均

类比n个数求平均： $average=\frac{1+2+3+....+n}{n}$

如果 $v_{t-1}$ 表示前 t-1 个数的平均， $n_{t}$ 表示第个数，那么个数的指数加权平均定义为：

$v_{t}=\alpha v_{t-1}+\beta n_{t}$

其展开为：

$v_{t-1}=\alpha v_{t-2}+\beta n_{t-1}$

$v_{t-2}=\alpha v_{t-3}+\beta n_{t-2}$

….

$v_{3}=\alpha v_{2}+\beta n_{3}$

$v_{2}=\alpha v_{1}+\beta n_{2}$

$v_{1}=\beta n_{1}$

则有 $v_{t}=\alpha (\alpha v_{t-2}+\beta n_{t-1})+\beta n_{t}=\alpha ^{2}v_{t-2}+\alpha \beta n_{t-1}+\beta n_{t}=.......$

全部展开有 $v_{t}=\alpha ^{t-1}\beta n_{1}+\alpha ^{t-2}\beta n_{2}+\alpha ^{t-3}\beta n_{3}+.......+\alpha \beta n_{t-1}+\beta n_{t}$

将 $\beta$ 提取出来得 $v_{t}=\beta (\alpha ^{t-1} n_{1}+\alpha ^{t-2} n_{2}+\alpha ^{t-3} n_{3}+.......+\alpha n_{t-1}+ n_{t})$

可以看出来，括号中 $\alpha$ 即为加权平均系数（完整系数应该是 $\alpha$ 与 $\beta$ 的乘积，为了便于理解此处忽略 $\beta$ ），又因为 $\alpha$ 为指数形式，所以称之为指数加权平均。

2.动量

众所周知，使用梯度下降算法更新参数的公式为：

$\Theta=\Theta -\epsilon \Delta$ （ $\Delta$ 为梯度， $\epsilon$ 是学习率）

在具体的迭代过程中，上式只利用本次迭代计算的梯度更新参数，而加入动量机制则是考虑了之前每次迭代计算的梯度。

3.带动量的随机梯度下降算法中参数更新公式

设动量为，其动量更新公式：

$v=\alpha {v}'-\epsilon \Delta$ ( {v}' 是本次更新之前的动量，参考上面的指数加权平均)

$\Theta =\Theta +v$

动量v其实是负梯度（梯度方向表示上升最快的方向，反方向则表示下降最快的方向）的指数加权平均，所以v是负数，所以上面的参数更新公式中是加上v，算法如下：

深度学习-带动量的随机梯度下降算法「建议收藏」

4.Nesterov动量

相比于标准动量（上面描述的动量），Nesterov动量在计算梯度 $\Delta$ 之前，首先用 {v}' 更新了参数： ${\Theta }'=\Theta +\alpha {v}'$ ，然后再求梯度。

其步骤除了求梯度之前更新了参数之外，其他步骤和标准动量的步骤一致，具体算法如下。

深度学习-带动量的随机梯度下降算法「建议收藏」

免责声明：本站所有文章内容,图片，视频等均是来源于用户投稿和互联网及文摘转载整编而成，不代表本站观点，不承担相关法律责任。其著作权各归其原作者或其出版社所有。如发现本站有涉嫌抄袭侵权/违法违规的内容,侵犯到您的权益，请在线联系站长,一经查实,本站将立刻删除。本文来自网络,若有侵权，请联系删除，如若转载，请注明出处：https://yundeesoft.com/24683.html

深度学习-带动量的随机梯度下降算法「建议收藏」

1.指数加权平均

2.动量

3.带动量的随机梯度下降算法中参数更新公式

4.Nesterov动量

相关推荐

发表回复