神经网络调参技巧：warmup策略|电子爱好者

admin管理员组
文章数量:1658610

有一些论文对warmup进行了讨论，使用 SGD 训练神经网络时，在初始使用较大学习率而后期改为较小学习率在各种任务场景下都是一种广为使用的做法，在实践中效果好且最近也有若干文章尝试对其进行了理论解释。例如《On Layer Normalization in the Transformer Architecture》等，论文中作者发现Post-LN Transformer在训练的初始阶段，输出层附近的期望梯度非常大，所以没有warm-up的话模型优化过程就会非常不稳定。

虽然在实践中效果好且最近也有若干文章尝试对其进行了理论解释，但到底为何有效，目前还没有被充分证明。

Transformer中的warm-up可以看作学习率 lr 随迭代数 t 的函数：

学习率 lr 会以某种方式递减，学习率从0开始增长，经过 Twarmup 次迭代达到最大。论文中对Adam，SGD等有无warmup做了实验，

可以看到，warmup增加了训练时间，同时在最初阶段使用较大的学习率会导致Loss偏大，对模型的训练的影响是巨大的。warmup在这里对SGD是非常重要的。

Rectified Adam针对warmup前期数据样本不足导致的biased variance的问题提出了解决方案，论文中实验结果看到还是有一定效果的。RAdam 由随机初始化带来的 Variance 比较小。即使隔离掉 warmup 部分的影响后Variance 也是要比 Adam 小的。

class AdamWarmup(Optimizer):
    # DOTA
    def __init__(self, params, lr=1e-3, betas=(0.9, 0.999), eps=1e-8, weight_decay=0, warmup = 0):
        if not 0.0 <= lr:
            raise ValueError("Invalid learning rate: {}".format(lr))
        if not 0.0 <= eps:
            raise ValueError("Invalid epsilon value: {}

本文标签：神经网络策略技巧 warmup

版权声明：本文标题：神经网络调参技巧：warmup策略内容由热心网友自发贡献，该文观点仅代表作者本人，转载请联系作者并注明出处：https://www.elefans.com/xitong/1729814959a1213771.html，本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，一经查实，本站将立刻删除。

更多相关文章

xp系统

电子爱好者 - 最新技术资讯及电子产品介绍！

神经网络调参技巧：warmup策略

更多相关文章

BAT命令入门与高级技巧详解

(Dos)-BAT命令入门与高级技巧详解（转）

ps2021神经网络滤镜不能用,ps2021神经滤镜不能下载

PS 处理一般证件 红底 蓝底 技巧

android微信聊天记录导出到电脑【微信安卓版技巧】

前端 PDF 预览技巧：标签 vs 插件，如何优雅地展示 PDF 文件

石榴1.0.0 Python pomegranate库实现基于概率分布、贝叶斯网络、混合隐马尔可夫模型等, Python 的图模型和概率模型工具包 贝叶斯网络不是贝叶斯神经网络

U盘有盘符但是打不开？揭秘成因与双效恢复策略

u盘删除的文件怎么找回？3个策略，恢复数据乐开颜

电脑回收站清空的文件怎么恢复？2个实用策略，拯救丢失的数据

误删也能找！清空回收站后文件找回技巧

金融领域UNIX网络系统的安全管理策略

文档、文件或者文件夹加密技巧汇总

SEO内链优化的8个终极策略

如何被计算机理论知识,电脑基础知识技巧大全

solidworks重建模型好慢_别再抱怨SolidWorks卡顿了，这个打开模型技巧你可能还不知道！...

深度解析：为何迅雷的xunleiBHO_Now.dll难以彻底删除？高级解决策略

使用Reveal查看任意App的技巧

系统集成项目管理案例答题技巧

清理C盘缓存的垃圾，专业清理C盘缓存垃圾的步骤与策略

发表评论

推荐文章

pbootcms开发助手3.15介绍

手机计算机文档如何发到手机上,电脑的word文档怎么传到手机上

android笔记应用,超级笔记使用指南（安卓&amp;iOS客户端）

Apple设计中的黄金分割

js监听浏览器返回，回退，后退事件（手机端H5页面）同样适用--popstate事件

热门文章

【Docker】win10上修改docker的镜像文件存储位置（九）

Linux下查看CPU型号,内存大小,硬盘空间的命令

苹果x屏幕出现一条绿线_苹果屏幕出现条纹换屏幕有用吗？检测过后才恍然大悟！_...

学计算机的电脑尺寸多大合适,电脑机箱尺寸一般是多少?对电脑有何影响?

使用YOLOV5进行训练时电脑崩溃或运行缓慢如何解决

EXCEL初级入门--（第三章 软件操作学习）-上

powerdesigner16.6.1破解文件

Linux 麒麟系统安装

javascript判断浏览器和终端类型，js如何区分手机、电脑终端和浏览器

【RK3588】关于 devfreq 和 cpufreq 的记录

最新文章

服务器2008系统 stop c0000218,电脑蓝屏STOP:C0000218错误解决方法实记

关于“电脑空闲几分钟出现蓝屏（鼠标能动）、鼠标键盘无响应、硬盘灯长亮”的解决办法

windows蓝屏故障原因（已解答）

Win11 频繁蓝屏重启

win10蓝屏代码_一分钟教你看懂电脑蓝屏，避免故障再次发生！

一次电脑蓝屏NO_MORE_IRP_STACK_LOCATIONS的处理

CrowdStrike更新导致蓝屏事件

VirtualBox7.0.16的蓝屏大坑与ssh登陆ubuntu虚拟机的办法

首次为安装计算机做准备后蓝屏重启,新装电脑蓝屏死机自动重启，问题在哪里？...

计算机错误代码0x 00000006,什么原因造成了蓝屏 电脑蓝屏错误代码介绍

鼠害对计算机硬件的影响,电脑蓝屏对硬件损害大吗？

wegame启动cf蓝屏_Wegame蓝屏怎么解决-解决wegame运行蓝屏、游戏蓝屏的方法 - 河东软件园...

电脑蓝屏0x000024解决记录

服务器显示器蓝屏怎么办

计算机主机启动不了系统怎么办,电脑蓝屏开不了机怎么办

小米手机肿么还原时钟

15000流明是多少瓦

一般普通投影机功率多大?

苹果绿联转换器有些投影机不能用

坚果V9投影机具体参数?

有关九年级作文850字精选

80后90后_高一作文

中级卫生专业资格中医全科学主治医师中级模拟题2021年(9)案与解析

(精品)师范大学招考硕士研究生课程八六0试卷

ZXMVC8900(V3

【模拟人生4（The Sims 4）性感露背黑色亮片礼服MOD V20190313】模拟人生4（The Sims 4）性感露背黑色亮片礼服MOD V20190313 官方免费下载

【生化危机2：重制版（Resident Evil 2 Remake）克莱尔红头发深色服装MOD】生化危机2：重制版（Resident Evil 2 Remake）克莱尔红头发深色服装MOD 官方免费下载

【模拟人生4（The Sims 4）性感露背深V领吊带裙MOD V20190311】模拟人生4（The Sims 4）性感露背深V领吊带裙MOD V20190311 官方免费下载

【模拟人生4（The Sims 4）科幻风宇宙飞船家庭住宅MOD V20190311】模拟人生4（The Sims 4）科幻风宇宙飞船家庭住宅MOD V20190311 官方免费下载

【鬼泣5（Devil May Cry V）v1.0十四项修改】鬼泣5（Devil May Cry V）v1.0十四项修改 官方免费下载

如何实现高效的treenode搜索算法

treenode与链表有何本质区别

在哪些场景下应优先考虑使用treenode

treenode在树形结构中的角色是什么

如何通过treenode实现二叉树

PS 处理一般证件红底蓝底技巧

石榴1.0.0 Python pomegranate库实现基于概率分布、贝叶斯网络、混合隐马尔可夫模型等, Python 的图模型和概率模型工具包贝叶斯网络不是贝叶斯神经网络

android笔记应用,超级笔记使用指南（安卓&iOS客户端）

EXCEL初级入门--（第三章软件操作学习）-上

计算机错误代码0x 00000006,什么原因造成了蓝屏电脑蓝屏错误代码介绍

【鬼泣5（Devil May Cry V）v1.0十四项修改】鬼泣5（Devil May Cry V）v1.0十四项修改官方免费下载