The Evolved Transformer 学习笔记

编程入门 行业动态 更新时间:2024-10-27 18:32:59

The Evolved Transformer <a href=https://www.elefans.com/category/jswz/34/1770117.html style=学习笔记"/>

The Evolved Transformer 学习笔记

摘要

通过neural architecture search的方法提升普通transformer,
速度比普通transformer提升两倍,
效果在机器翻译比普通transformer提升0.7 BLEU

neural architecture search

设计出一些可能的神经网络结构,分别在测试集上评估效果

Search Space

本文搜索空间包括两个stackable cell,一个在transformer模型的encoder,一个在transformer模型的decoder。

每个cell由NASNet-style block组成, 具体通过左右两个block将输入的hidden state转成左右两个hidden state再归并成为一个新的hidden state,作为self-attention的输入。

encoder包括6个block,decoder包括8个block。

block可以由MLP和各种CNN等组成(实际好像还有attention作为layer),里面的normalization, layer, output dimension and activation就是搜索空间

最终结构

encoder:

decoder:

最终结构代码:.py

更多推荐

The Evolved Transformer 学习笔记

本文发布于:2024-02-17 07:41:25,感谢您对本站的认可!
本文链接:https://www.elefans.com/category/jswz/34/1693217.html
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。
本文标签:学习笔记   Evolved   Transformer

发布评论

评论列表 (有 0 条评论)
草根站长

>www.elefans.com

编程频道|电子爱好者 - 技术资讯及电子产品介绍!