Evolving Attention with Residual Convolutions"/>
CVPR 2021 Evolving Attention with Residual Convolutions
动机
-
transformer是一种普遍存在的自然语言处理模型,在计算机视觉领域引起了广泛的关注。
Transformer是用于序列建模的最先进的体系结构,它在自然语言理解、图像生成和时间序列预测等各种应用中实现了出色的性能。
-
transformer模型的性能主要取决于其在输入token之间诱导合理注意力的能力。而注意力映射是在每一层中独立学习的,有时无法捕获精确的模式。
注意力映射是transformer模型用来编码输入token之间的依赖关系的。然而,正如之前的一些著作所说明的那样,vanilla注意力层捕捉到的注意力映射并不总是有效和可解释的。在vanilla transformer中,每一层的注意力图都是独立学习的,不具备很好的生成能力。直观地说,可以简单地在层之间共享注意力映射,但这并不有效,因为不同的层可能需要来自不同抽象级别的注意力结构。例如,在图像分类中,低层通常关注相似的颜色和纹理之间的关系,而高层则需要推理各组成部分之间的依赖关系。
-
在处理这个问题上,最近的努力是将自注意力与卷积层做concatenation,以获得更好的图像或文本表征,而注意力映射本身并没有得到改善。在本文中,考虑了另一个问题,是否可以通过一个专门的模型架构设计来改进注意力映射的学习?
方法
简介
在这篇论文中,提出了evolving注意力(EA-)transformer,它采用一种新的和通用的基于卷积模块链的evolving注意力的机制来改善transformer的性能。该transformer通过与transformer结构耦合的残差卷积模块链来指导注意映射的学习。在每个块中,EA-Transformer将前一个块生成的所有注意力映射作为一个多通道图像。然后,通过对该图像进行2D卷积,当前块的注意力映射可以从先前的注意力映射有效地演化。同样地,token间依赖关系的通用模式在所有块之间共享,并且注意力映射适合于每个层的适当抽象级别。一方面,不同层次的注意力映射具有共同的知识,因此前一层次的注意力映射可以通过残差连接来指导后一层次的注意力,可以直接通过残差连接桥接来自不同层的注意力映射。另一方面,Low-Level和High-Level的注意力在抽象层次上存在差异,因此采用卷积层来建模注意力映射的演化过程,这种归纳偏好强调局部细节,并通过对先前的注意力映射进行推理来产生更精确的注意力映射。
EA-Transformer学习到的注意力映射在基于卷积的注意力evolving的帮助
更多推荐
CVPR 2021 Evolving Attention with Residual Convolutions
发布评论