大家好,欢迎来到IT知识分享网。
1.指数加权平均
类比n个数求平均:
如果 表示前 个数的平均, 表示第 个数,那么 个数的指数加权平均定义为:
其展开为:
….
则有
全部展开有
将提取出来得
可以看出来,括号中即为加权平均系数(完整系数应该是与的乘积,为了便于理解此处忽略),又因为为指数形式,所以称之为指数加权平均。
2.动量
众所周知,使用梯度下降算法更新参数的公式为:
(为梯度,是学习率)
在具体的迭代过程中,上式只利用本次迭代计算的梯度更新参数,而加入动量机制则是考虑了之前每次迭代计算的梯度。
3.带动量的随机梯度下降算法中参数更新公式
设动量为 ,其动量更新公式:
(是本次更新之前的动量,参考上面的指数加权平均)
动量v其实是负梯度(梯度方向表示上升最快的方向,反方向则表示下降最快的方向)的指数加权平均,所以v是负数,所以上面的参数更新公式中是加上v,算法如下:
4.Nesterov动量
相比于标准动量(上面描述的动量),Nesterov动量在计算梯度之前,首先用更新了参数:,然后再求梯度。
其步骤除了求梯度之前更新了参数之外,其他步骤和标准动量的步骤一致,具体算法如下。
免责声明:本站所有文章内容,图片,视频等均是来源于用户投稿和互联网及文摘转载整编而成,不代表本站观点,不承担相关法律责任。其著作权各归其原作者或其出版社所有。如发现本站有涉嫌抄袭侵权/违法违规的内容,侵犯到您的权益,请在线联系站长,一经查实,本站将立刻删除。 本文来自网络,若有侵权,请联系删除,如若转载,请注明出处:https://yundeesoft.com/24683.html