DeiT：Training data-efficient image transformers & distillation through attention|电子爱好者

admin管理员组
文章数量:1564648

这篇文章主要是通过一些训练策略和知识蒸馏来提升模型的训练速度和性能效果。

原文链接：Training data-efficient image transformers & distillation through attention
源码地址：https://github/facebookresearch/deit
写的好的文章：Transformer学习(四)—DeiT
知识蒸馏可以简单看下这篇介绍：知识蒸馏(Knowledge Distillation) 经典之作，论文笔记

Training data-efficient image transformers & distillation through attention[PMLR2021]

Abstract
1 Introduction
2 Method
3 Conclusion

Abstract

虽然ViT在分类任务中有着非常高的性能，但它是使用大型基础设施预先训练了数亿张图像，才得到现在的效果，这两个条件限制了其应用。

因此作者提出了一种新的训练策略，在不到3天的时间内仅使用一台计算机在ImageNet上训练出具有竞争力的无卷积Transformer。在没有外部数据的情况下，在ImageNet上达到了83.1%（（86M参数））的最高精度。

其次，作者提出了一种基于知识蒸馏的策略。依赖于一个蒸馏token，确保student 模型通过注意力从teacher 模型那里学习，通常老师模型是基于卷积的。学习到的Transformer与ImageNet上的最先进技术具有竞争力（85.2%）。

1 Introduction

近来人们对利用convnet中注意力机制的体系结构越来越感兴趣，提出了混合结构，将transformer成分移植到ConvNet以解决视觉任务。在本文作者使用的是纯Transformer结构，但是在知识蒸馏策略中，使用convnet网络作为teacher网络来训练，能够继承到convnet中的归纳偏置。

ViT模型使用的是包含3亿张图像的大型私有标记图像数据集，才能达到最好的效果，同时也得到结论：在数据量不足的情况下训练时不能很好地概括。

在本文中，作者在一个8GPU节点上用两到三天的时间（53小时的预训练，以及可选的20小时的微调）训练视觉Transformer，这能够与具有相似数量的参数和效率的ConvNet相竞争。使用Imagenet作为唯一的训练集。

作者提取模型时还使用了一种基于token的蒸馏策略，文中⚗作为蒸馏标志。

概括一下有以下贡献：

网络中不包含卷积层，在没有外部数据的情况下，可以在ImageNet上实现与最先进技术相比的竞争结果。两个新模型变体DeiT-S和DeiT-Ti的参数更少，可以看作是ResNet-50和ResNet-18的对应物。
介绍了一种基于蒸馏token的新蒸馏过程，该过程与class token的作用相同，只是其目的是再现teacher网络的估计标签。这两个token通过注意力在transformer中进行交互。
在Imagenet上预先学习的模型在转移到不同的下游任务时具有竞争力。

2 Method

训练策略：
在较低的分辨率下训练，并在较大分辨率下微调网络，这加快了完整训练的速度，并提高了在主流数据增强方案下的准确性。

当增加输入图像的分辨率时，保持patch大小不变，因此输入patch的数量N会发生变化。由于transformer块和class token的架构，不需要修改模型和分类器来处理更多token。而是需要调整位置嵌入，因为每个patch一个，共有N个位置嵌入。

蒸馏： 首先假设可以使用强大的图像分类器作为教师模型。它可以是convnet，也可以是分类器的混合。本节介绍：硬蒸馏与软蒸馏，以及蒸馏token。

首先借用一个知乎小皇帝的图，teacher模型是拥有更大体量和优越效果的已知模型，在蒸馏过程中，teacher模型是不进行训练的，只是作为一种指路标杆来引导图像找到teacher模型中对应我们需要的参数。实际上，我们只是利用了teacher模型映射过程中产生的别的信息。在普通的分类模型训练，我们有的信息只有图像和分类标签，如果是该类，就是1，不是就是0。但是teacher模型训练过程中经过softmax函数得到不同类别的概率，我们就是利用这个概率分布来训练student模型，除了正样本，负样本中也包含非常多的信息，但是Ground Truth并不能提供这部分信息，而teacher模型的概率分布相当于在student模型训练时增加了部分新的标签信息。更详细的内容可以看这个链接：知识蒸馏

1. 软蒸馏：
最小化教师模型的softmax和学生模型的softmax之间的Kullback-Leibler散度。假设Zt是教师模型的logits，Zs是学生模型的logits。用τ表示蒸馏温度，λ表示平衡地面真值标签y上的Kullback-Leibler发散损失（KL）和交叉熵（LCE）的系数，ψ表示softmax函数。蒸馏的目标是：y的部分普通的loss计算，后半部分是散度。

2. 硬蒸馏变体：
将Teacher模型的预测输出 y t = a r g m a x c Z t ( c ) y_t = argmax_cZ_t(c) yt=argmaxcZt(c)作为真实标签，对于给定的图像，与教师相关联的硬标签 y t y_t yt可能会根据特定的数据增加而变化。这种选择优于传统选择，同时无参数且概念更简单：教师预测 y t y_t yt与真正的标签y起着相同的作用。蒸馏目标为：

3. 蒸馏token：

在初始嵌入（patch和class token）中添加了一个新token，即蒸馏token。蒸馏token与class token类似：它通过自注意力与其他嵌入交互，并在最后一层之后由网络输出。蒸馏嵌入允许模型学习教师模型的预测输出，不仅学习到教师模型的先验知识，同时也是对class嵌入的补充。

蒸馏策略：

微调：在更高分辨率的微调阶段使用真实标签和教师预测。使用具有相同目标分辨率的教师模型，测试阶段仅使用真正的标签。
联合分类器。在测试时，transformer生成的类或蒸馏嵌入都与线性分类器关联，并且能够推断图像标签。将这两个独立头在后期进行融合，添加两个分类器的softmax输出以进行预测。

实验部分中写了不同蒸馏方法的结果比较。

3 Conclusion

这篇文章本身并没有对ViT模型进行改进，只是使用了一些训练策略，使之更容易训练，同时也提高了模型的性能。

文中核心是使用了知识蒸馏的策略，增加了模型训练过程中的负样本的预测信息，继承了teacher模型（convnet的效果优于Transformer）中的归纳偏置，实际上是对标签信息的一种补充。

最后祝各位科研顺利，身体健康，万事胜意~

本文标签： Data Efficient DeiT Training Image

版权声明：本文标题：DeiT：Training data-efficient image transformers & distillation through attention 内容由热心网友自发贡献，该文观点仅代表作者本人，转载请联系作者并注明出处：https://www.elefans.com/dongtai/1725804467a1043843.html，本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，一经查实，本站将立刻删除。

更多相关文章

xp系统

电子爱好者 - 最新技术资讯及电子产品介绍！

DeiT：Training data-efficient image transformers &amp; distillation through attention

Training data-efficient image transformers & distillation through attention[PMLR2021]

Abstract

1 Introduction

2 Method

3 Conclusion

更多相关文章

Training data-efficient image transformers &amp; distillation through attention

Structure-Revealing Low-Light Image Enhancement Via Robust Retinex Model TIP 2018阅读记录

Data Structure Visualizations-数据结构可视化工具推荐

gihosoft android 教程,Gihosoft Free Android Data Recovery

Self-critical Sequence Training

关于格式化Data后无法读取手机内置储存的解决方法

android11不能访问data的解决方案

技术报告：Efficient and Effective Text Encoding for Chinese LLaMA AND Alpaca

解决minikube无法获取到baseimage的问题 Unable to find image ‘gcr.iok8s-minikubekicbase 202409

Privacy Security in Big Data and Privacy-Preserving Data Mining (PPDM)

Efficient polynomial commitment schemes for multiple points and polynomials学习笔记

Efficient Protocols for Set Membership and Range Proof 学习笔记

小米TWRP格式化data无限重启变砖解决办法

The requested image‘s platform (linuxarm64v8) does not match the detected host platform (linuxamd

计算机管理恢复分区,windows10系统隐藏恢复分区Recovery Image的方法

联邦学习学习笔记——论文理解《Communication-Efficient Learning of Deep Networks from Decentralized Data》

Create a simple Visualforce page that displays an image

【English Training】Green Economy and Trade

CoSeR: Bridging Image and Language for Cognitive Super-Resolution

LLMs之InstructGPT：《Training language models to follow instructions with human feedback》翻译与解读

发表评论

推荐文章

iphone6连接电脑后计算机不显示器,iPhone6怎么无故显示屏不亮了

Trends in Cognitive Sciences：脑疾病认知神经科学的协同转变

贡献一个fisco-bcos-browser-front基于官方的代码改造的兼容手机浏览器和pc浏览器

Clonezilla 再生龙 U盘 安装笔记

Liunx操作系统——入门及系统安装

热门文章

百度搜索引擎工作原理解读

xfs+lvm 文件系统损坏开不了机问题

在win10的基础上安装Ubuntu16.04双系统

Android WIFI连接总结

Spectrum Sensing Based on Deep Learning Classification for Cognitive Radios阅读 2019

win10系统开发环境快速安装Playwright python的方法

一个迅雷480M,是搞笑的吗?

【Python成长之路】从零学爬虫--下载豆瓣8分以上的电影（附电影下载地址）

用Ventoy制作U盘引导工具

百度android输入法表情符号,百度输入法安卓5.8版推“史上最丰富颜文字库”

最新文章

两个端口贴合七夕主题，百度输入法的“情感营销”策略

ubuntu20安装百度搜狗输入法失败，无法进入桌面

创建你的输入法高级自定义短语（以PC版百度拼音输入法为例）

AI赋能，百度输入法与故宫中国节文化结合为用户带来有趣体验

输入法 linux安装下载软件,百度输入法linux版下载

windows mobile 6.5 百度输入法 如何集成到系统中去

百度输入法每天语音被调度3.35亿次！它的成功可以复制？

ubuntu linux安装中文输入法+汉化（超详细过程）

linux 输入法_新闻速读 &amp;gt; 百度输入法 Linux 版本发布 | Linux 中国

百度输入法开启AI时代，突破方言、中英文混合识别难题

ubuntu18.4-微信、截图工具Flameshot、百度输入法一键下载

语音识别准确率行业第一，中英、方言混输百度输入法都没在怕的！

哪款Mac输入法值得推荐？百度输入法for Mac你值得拥有！

中文在线语音识别技术获重大突破！百度输入法准确率超行业最高水平15%

如何彻底删除百度输入法（流氓软件删除方法）

小米手机肿么还原时钟

15000流明是多少瓦

一般普通投影机功率多大?

苹果绿联转换器有些投影机不能用

坚果V9投影机具体参数?

有关九年级作文850字精选

80后90后_高一作文

中级卫生专业资格中医全科学主治医师中级模拟题2021年(9)案与解析

(精品)师范大学招考硕士研究生课程八六0试卷

ZXMVC8900(V3

【模拟人生4（The Sims 4）性感露背黑色亮片礼服MOD V20190313】模拟人生4（The Sims 4）性感露背黑色亮片礼服MOD V20190313 官方免费下载

【生化危机2：重制版（Resident Evil 2 Remake）克莱尔红头发深色服装MOD】生化危机2：重制版（Resident Evil 2 Remake）克莱尔红头发深色服装MOD 官方免费下载

【模拟人生4（The Sims 4）性感露背深V领吊带裙MOD V20190311】模拟人生4（The Sims 4）性感露背深V领吊带裙MOD V20190311 官方免费下载

【模拟人生4（The Sims 4）科幻风宇宙飞船家庭住宅MOD V20190311】模拟人生4（The Sims 4）科幻风宇宙飞船家庭住宅MOD V20190311 官方免费下载

【鬼泣5（Devil May Cry V）v1.0十四项修改】鬼泣5（Devil May Cry V）v1.0十四项修改 官方免费下载

如何实现高效的treenode搜索算法

treenode与链表有何本质区别

在哪些场景下应优先考虑使用treenode

DeiT：Training data-efficient image transformers & distillation through attention

Training data-efficient image transformers & distillation through attention

Clonezilla 再生龙 U盘安装笔记

windows mobile 6.5 百度输入法如何集成到系统中去

linux 输入法_新闻速读 > 百度输入法 Linux 版本发布 | Linux 中国

【鬼泣5（Devil May Cry V）v1.0十四项修改】鬼泣5（Devil May Cry V）v1.0十四项修改官方免费下载