admin管理员组

文章数量:1623797

引言

今天带来神作Attention Is All You Need的翻译,该作提出了Transformer模型。很牛逼的模型像PLATO-2和GPT-3都是基于Transformer。

经典论文翻译系列

摘要

现在主导的序列转录(transduction)模型不是基于复杂的循环网络或就是基于卷积网络,它们都包含一个编码器和一个解码器。表现最好的模型也是通过一个注意力机制来连接编码器和解码器。我们提出一个新的简单的网络架构,Transformer,仅基于注意力机制,完全抛弃了循环和卷积网络。在两个机器翻译任务上的实验表面该模型在质量上更加优越,更易于并行训练从而训练时间大大减少。我们的模型在WMT2014英-德翻译任务上达到28.4BLEU得分,超过了现有最好的结果2分,包括通过集成学习实现的模型。在WMT2014英-法翻译任务上,我们的模型建立了一个新的单一模型最好的BLEU得分——41.8分,在8个GPU上训练了3.5天,这个训练时间只是目前记载的最好的模型训练成本的一小部分。基于有限的训练集或大的训练集,我们的模型成功的应用到英语选区分析(constituency parsing)任务上,说明Transformer模型能很好地推广到其他任务中。

1 简介

循环神经网络,尤其是LSTM和GRU

本文标签: 论文Attention