admin管理员组文章数量:1652185
RoBERTa A Robustly Optimized BERT Pretraining Approach
Abstract
Devlin等人在 BERT Pre-training of Deep Bidirectional Transformers for Language Understanding 提出的BERT预训练研究虽然已达到最优结果,但
- 训练成本比较高,很难彻底得到训练
- 训练的时候通常是在不同大小的私有数据集上进行训练的,很难判断具体哪个部分对结果有促进作用
所以,作者重新衡量了关键参数和数据集大小的影响,并提出了改进BERT的方法,即RoBERTa
1 Introduction
本文贡献:
-
出了一套重要的BERT设计选择和培训策略,并引入了能够提高下游任务绩效的备选方案
-
使用了一个新的数据集,CCNEWS,并确认使用更多的数据进行预训练进一步提高了下游任务的性能
-
训练改进表明,在正确的设计选择下,
masked language model
的预训练可以与所有其他最近发表的方法相媲美
2 Background
BERT
预训练有两个目标:
-
Masked Language Model (MLM)
15%
token
进行替换,其中80%被替换为[MASK]
替换,10%保持不变,10%被随机选择的token
替代。 -
Next Sentence Prediction (NSP)
用于预测两句话在原文中是否相邻。正例和负例的采样概率相等。NSP目标旨在提高下游任务的性能
BERT的优化算法中,Adam参数: β 1 = 0.9 , β 2 = 0.999 , ϵ = l e − 6 β_1=0.9,β_2=0.999,\epsilon=le-6 β
本文标签: 论文RobustlyRoBERTaoptimizedPretraining
版权声明:本文标题:论文阅读——RoBERTa A Robustly Optimized BERT Pretraining Approach 内容由热心网友自发贡献,该文观点仅代表作者本人, 转载请联系作者并注明出处:https://www.elefans.com/dianzi/1729578488a1207315.html, 本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容,一经查实,本站将立刻删除。
发表评论