RoBERTa: A Robustly Optimized BERT Pretraining Approach|电子爱好者

admin管理员组
文章数量:1652190

1 简介

本文根据2019年《RoBERTa: A Robustly Optimized BERT Pretraining Approach》翻译总结的。
RoBERTa：稳健优化BERT方法。对BERT进行了优化。

RoBERTa ：Robustly optimized BERT approach.

RoBERTa包括:

采用动态mask；
采用FULL-SENTENCES without NSP loss；没有使用NSP，NSP作用不大。
large mini-batches；采用更大的batch。
a larger byte-level BPE。BPE 指Byte-Pair Encoding 。

此外，
1）训练更长的时间也可以改进RoBERTa。
2）使用更多额外的数据，可以改进模型对下游任务的表现。

实验结果主要和BERT、XLNet进行了比较，好于它们。

2 Static vs. Dynamic Masking

BERT默认是静态mask（在数据预处理时表现一次）。我们改成动态的，可以看到表现有提升。动态mask指在每次将序列输入到模型时生成mask，

3 FULL-SENTENCES without NSP loss

SEGMENT-PAIR：BERT中采用的。有NSP。

SENTENCE-PAIR+NSP：将segment换成sentence（句子）。

FULL-SENTENCES：每个输入是连续从一个文档或者多个文档中提取的，总长度至少512个token。输入可能跨文档，即当我们在一个文档采样完后，长度不够时，我们继续在下一个文档中采样，在他们中间会添加个额外的分割token。没有NSP。

DOC-SENTENCES：类似FULL-SENTENCES，只是不跨文档，所以可能不够512个token。我们采用动态创建batch size方法。没有NSP。

如下表，虽然DOC-SENTENCES效果好点，但因为其batchsize在变化，故为了简化与其他模型的比较，我们用的FULL-SENTENCES。

4 大batch的训练

如下表，可以看到2K的batchsize好于BERT的256.

5 BPE

Byte-Pair Encoding (BPE)是介于character-和word-level之间的混合，可以处理在自然语言中普遍存在的大量词汇。BFE不是依靠整个词语，而是采用子词语。

BPE的词汇大小一般是10K到100K个子词。但是unicode 字符占据了相当大一部分。Radford et al. (2019)引入一种新的方式，用bytes代替unicode字符。使用bytes可以学习一个的大小适中50K的子词表，可以编码任何文本，不用引入任何未知token。

原始的BERT使用的是字符水平的BPE，大小30K，是在用启发式tokenization处理后再被学习的。

我们用一个更大的50K子词的byte-level BPE代替BERT中的，不用任何额外的处理或者输入的tokenization。不过这增加了BERTBASE 和BERTLARGE分别15M、20M的参数量。

不过也有研究说BPE可能轻损害某些任务的表现。但是我们认为一个广泛使用的编码胜过表现上轻微的损失。这部分可以进一步研究下。

6 实验结果

GLUE上的实验结果：

SQuAD实验结果：

RACE实验结果：

本文标签： optimized Robustly RoBERTa Approach Pretraining

版权声明：本文标题：RoBERTa: A Robustly Optimized BERT Pretraining Approach 内容由热心网友自发贡献，该文观点仅代表作者本人，转载请联系作者并注明出处：https://www.elefans.com/dianzi/1729578674a1207336.html，本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，一经查实，本站将立刻删除。

更多相关文章

xp系统

电子爱好者 - 最新技术资讯及电子产品介绍！

RoBERTa: A Robustly Optimized BERT Pretraining Approach

1 简介

2 Static vs. Dynamic Masking

3 FULL-SENTENCES without NSP loss

4 大batch的训练

5 BPE

6 实验结果

更多相关文章

Thinkpad电脑 重装系统后黑屏 开启OS optimized defaults

《论文阅读》EmoBERTa: Speaker-Aware Emotion Recognition in Conversation with RoBERTa

Sustainable Urban Development: A Holistic Approach

半监督学习 MixMatch：A Holistic Approach to Semi-Supervised Learning（核心代码）

【预训练语言模型】RoBERTa: A Robustly Optimized BERT Pretraining Approach

RoBERTa: A Robustly Optimized BERT Pretraining Approach

An End-to-End Steel Surface Defect Detection Approach via Fusing Multiple Hierarchical Features

RoBERTa: A Robustly Optimized BERT Pretraining Approach（通篇翻译）

Bootstrap your own latent ：A new approach to self-supervised Learning（BYOL）（论文解读）

《论文阅读》RoBERTa: A Robustly Optimized BERT Pretraining Approach

文献阅读笔记【12】：A novel hybrid approach for crack detection【一种新型的混合裂缝检测方法】

IMAGE CODING FOR MACHINES: AN END-TO-END LEARNED APPROACH 2021

论文阅读 - A Deep Learning Approach for Robust Detection of Bots in Twitter Using Transformers

【论文解读】A Frustratingly Easy Approach for Entity and Relation Extraction

A Minimalist Approach to Offline Reinforcement Learning[TD3+BC]阅读笔记

A Frustratingly Easy Approach for Joint Entity and Relation Extraction（陈丹琦2020）

（二）PositionRank: An Unsupervised Approach to Keyphrase Extractionfrom Scholarly Documents解读一

（四十五）混合法（hybrid approach）计算VaR

论文笔记：A Robust Learning Approach to Domain Adaptive Object Detection

Computer Networking A Top-Down Approach 总结

发表评论

推荐文章

英语-专业论文写作的八大特征

Kubernetes详解（四十九）——ServiceAccount实战

使用ItextPdf生成pdf文件时，图片尺寸被自动压缩、单元格内容过多时自动换页导致空白页等问题解决办法！

360浏览器极速模式对iframe的支持

算法设计技巧与分析（五）：贪心算法(The Greedy Approach)

热门文章

k8s、ServiceAccount权限详解、RBAC 详解(基于角色的访问控制)，常用操作指令

【Error】centOS下切换用户报“This account is currently not available”错误

错误 Please enter the correct username and password for a staff account. Note that both fields may be

vue中将html导出成pdf

【福利】简单记录免费的卡密系统

IP-Guard回收客户端加密授权，已经加密的文档如何解密

R语言基于Boruta进行机器学习特征筛选（Feature Selection）

计算机不能显示桌面图标的功能是什么,无法显示桌面图标怎么解决

python下载酷狗音乐源码

Ubuntu-16.04.4-desktop-amd64百度网盘下载链接，查看Python版本

最新文章

查看win8 是否彻底激活

完全免费又超级好用的万能视频播放器PotPlayer安装教程分享

CDR2024破解完整版下载安装永久激活最新

windows系统激活时间查询

中文linux 老旧电脑,安装Bodhi Linux让老旧电脑重新焕发活力

【Windows 11】 24H2 在线更新、全新安装

Autodesk 3DS Max v2025 激活版下载及安装教程

win7虚拟机黑苹果_苹果Mac虚拟机安装Win7系统的方法【图文教程】

MathType7永久免费无需激活版下载，数学神器轻松get！

QT历届版本下载总汇

重复照片清理软件分享，看看这5个重复文件删除工具（新）

[Hyper-v]删除系统保留分区，修复克隆win7win8虚拟磁盘后无法引导问题

Windows server 2022datacenter版本的j激活过程

mathtype2024最新破解永久激活码密钥序列号+下载安装教程

【C++软件调试技术】使用 Windbg 分析软件异常时的诸多细节与技巧总结

小米手机肿么还原时钟

15000流明是多少瓦

一般普通投影机功率多大?

苹果绿联转换器有些投影机不能用

坚果V9投影机具体参数?

有关九年级作文850字精选

80后90后_高一作文

中级卫生专业资格中医全科学主治医师中级模拟题2021年(9)案与解析

(精品)师范大学招考硕士研究生课程八六0试卷

ZXMVC8900(V3

【模拟人生4（The Sims 4）性感露背黑色亮片礼服MOD V20190313】模拟人生4（The Sims 4）性感露背黑色亮片礼服MOD V20190313 官方免费下载

【生化危机2：重制版（Resident Evil 2 Remake）克莱尔红头发深色服装MOD】生化危机2：重制版（Resident Evil 2 Remake）克莱尔红头发深色服装MOD 官方免费下载

【模拟人生4（The Sims 4）性感露背深V领吊带裙MOD V20190311】模拟人生4（The Sims 4）性感露背深V领吊带裙MOD V20190311 官方免费下载

【模拟人生4（The Sims 4）科幻风宇宙飞船家庭住宅MOD V20190311】模拟人生4（The Sims 4）科幻风宇宙飞船家庭住宅MOD V20190311 官方免费下载

【鬼泣5（Devil May Cry V）v1.0十四项修改】鬼泣5（Devil May Cry V）v1.0十四项修改 官方免费下载

如何实现高效的treenode搜索算法

treenode与链表有何本质区别

Thinkpad电脑重装系统后黑屏开启OS optimized defaults

【鬼泣5（Devil May Cry V）v1.0十四项修改】鬼泣5（Devil May Cry V）v1.0十四项修改官方免费下载