【TNT】Transformer in Transformer

编程入门行业动态更新时间:2024-10-13 16:21:28

【<a href=https://www.elefans.com/category/jswz/34/1759155.html style= TNT】Transformer in Transformer"/>

【TNT】Transformer in Transformer

这是今年中科院计算机科学实验室、华为和澳门大学联合写的一篇文章，题目非常硬核，TNT，像是多么爆炸性的产出。话不多说，直接开始学习吧。

论文：.00112.pdf

代码：

1.背景

2.网络

2.1网络结构

2.2网络计算

2.3位置编码

3.实验

3.1TNT on ImageNet

3.2图像分类任务

3.3目标检测任务

3.4语义分割任务

1.背景

Transformer是基于自注意机制的一种神经网络，他能表示不同特征图之间的关系。Transformer 作为一种新型的神经网络架构，通过注意力机制将输入编码为强大的特征表征，通常，Transformer是将输入图像分成几个分块，然后计算每个分块之间的关系，自然影像由于具有丰富的细节和颜色信息，所以复杂性较高，但是分块的颗粒不够精细，无法挖掘不同尺度和位置的物体特征，因此，本文提出一种新的高性能Transformer结构-TNT（Transformer In Transformer ）。

2.网络

2.1网络结构

为了增强特征表征能力，TNT首先将输入图像分成几个patch切片，类似于“视觉句子”，然后将每个“视觉句子”的patch切片再切分成几个切片，类似于“视觉单词”，TNT网络除了要提取传统transformer网络的“视觉句子”之间的注意力特征，还要挖掘“视觉单词”之间的参数。特别注意的是，计算“视觉单词”之间的注意力特征时采用共享网络参数机制，因此计算“视觉单词”之间的注意力特征的参数和FLOPS的增加量可以忽略不计。然后，这个“视觉单词”的特征会被合成到对应的“视觉句子”中，class token也会通过连接不同的head被用于各种视觉识别任务中，通过TNT模型，可以提取更细粒度的视觉信息，提供更多的特征细节。