关于优化器的问题
Adam和AdamW的区别。
Adamw 即 Adam + weight decay,效果与 Adam + L2正则化相同,但是计算效率更高,因为L2正则化需要在loss中加入正则项,之后再算梯度,最后再反向传播,而AdamW直接将正则项的梯度加入反向传播的公式中,省去了手动在loss中加正则项这一步。
更多推荐
关于优化器的问题
Adamw 即 Adam + weight decay,效果与 Adam + L2正则化相同,但是计算效率更高,因为L2正则化需要在loss中加入正则项,之后再算梯度,最后再反向传播,而AdamW直接将正则项的梯度加入反向传播的公式中,省去了手动在loss中加正则项这一步。
更多推荐
关于优化器的问题
发布评论