腾讯混元、北大发现Scaling law「浪涌现象」，解决学习率调参难题

老牧童 • 2024-09-04 05:25 • 未分类 • 阅读 56

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年，机器之心AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联系报道。投稿邮箱：liyazhou@jiqizhixin.com；zhaoyunfeng@jiqizhixin.com

过去十年间，基于随机梯度下降（SGD）的深度学习模型在许多领域都取得了极大的成功。与此同时各式各样的 SGD 替代品也如雨后春笋般涌现。在这些众多替代品中，Adam 及其变种最受追捧。无论是 SGD，还是 Adam，亦或是其他优化器，最核心的超参数非 Learning rate 莫属。因此如何调整好 Leanring rate 是炼丹师们从一开始就必学的技能。

从直觉上讲，影响 Learning rate 取值的重要因素是 Batch size。不知你在学习炼丹术时，是否遇到或者思考过入如下问题：

我的 Batch size 增加一倍，Learning rate 该怎么调整？

网上有说 Batch size 和 Learning rate 是线性放缩，也有说是平方根放缩，到底该按照哪个调整？

为什么我按照网上说的经验关系调整之后效果反而变差了？

针对上述问题，腾讯混元联合北京大学基于现有科研基础和实际业务需求，在进行了大量理论分析和实验验证后发布了关于 Batch size 和 Learning rate 放缩关系的调参指南：

论文：Surge Phenomenon in Optimal Learning Rate and Batch Size Scaling

论文地址：https://arxiv.org/pdf/2405.14578

1. 当使用 SGD 风格的优化器时，应当采用 OpenAI 2018 年给出的结论（https://arxiv.org/pdf/1812.06162）：

2. 但是当使用 Adam 风格的优化器时，需要按照如下放缩规律：

五、应用

我们在腾讯 Angel 大模型训练框架中集成了上述理论成果，并在腾讯混元大模型训练任务中对理论进行进一步验证，未来将服务于各种大模型训练场景。

感谢阅读，更多详细内容，请参考原文。

免责声明：本站所有文章内容,图片，视频等均是来源于用户投稿和互联网及文摘转载整编而成，不代表本站观点，不承担相关法律责任。其著作权各归其原作者或其出版社所有。如发现本站有涉嫌抄袭侵权/违法违规的内容,侵犯到您的权益，请在线联系站长,一经查实,本站将立刻删除。本文来自网络,若有侵权，请联系删除，如若转载，请注明出处：https://yundeesoft.com/81352.html

腾讯混元、北大发现Scaling law「浪涌现象」，解决学习率调参难题

相关推荐

发表回复