[论文阅读]NeurIPS 2021论文预讲会总结

编程入门行业动态更新时间:2024-10-06 20:27:45

[<a href=https://www.elefans.com/category/jswz/34/1770125.html style= 论文阅读]NeurIPS 2021论文预讲会总结"/>

time: 2021.11.27 下午场

王云鹏
华为诺亚方舟实验室

引导报告（四）：
关于视觉Transformer的思考

TNT
1.相关模型：vit

2.TNT：视觉transformer骨干模型
引入了视觉句子
外部trm处理句子，内部trm处理token

IPT
1.结构
多头多尾：输入(原图加噪声)，输出(原图)
对比学习+分类

2.实验：
去燥效果高于cnn

Adder ViT: 加法替代乘法构建trm模型
降低功耗，提升性能

朱铭健

动态分辨率网络：Dynamic resolution Network
目的：减少计算量
结构：
复杂图片选择高分辨率，简单图片选择低分辨率

实验：
mobileNet

谢恩泽
香港大学
SegFormer: simple and efficient
PVT: pyramid vision trm
结构：SegFormer
去掉了位置编码
有效感受
trm高于其他resnet，更全局

实验：
鲁棒性高：vs deeplabV3
Not All Images are Worth 16*16 words: Dynamic Vision Transformers with Adptive Sequence Length
相关工作：vit

motivation
flops增加近4倍，效果提升6.4%，很不划算

假设：自适应调整tokens数目？
通过判断是否可信(confidence > threshold)，动态调整tokens数目
实验：T2T vit, DeiT
复用 attention map

Augmented shortcut for vision transformer

特征多样性
解决shotcut中特征坍塌（特征不够多样性）

方法：
在原始的shotcut(resnet)上并联：线性变换+非线性激活函数
高效部署：分块循环矩阵
基于快速傅立叶变换(FFT)的高效实现

HRFromer: high-resolution transformer for dense prediction

相关工作：
ViT（分类）
DeiT（分类）

分辨率低：丢失了很多细节信息，

DPT

多个stage: 4,8,16,32
PVT:
Swin:

动机：
dense prediction：基于HRNet
同时保持多路分辨率
复杂度高：L平方-
ISA解决

结构：
HRFromer: HR+trm
trm + cnn(跨window)

实验：
数据集：coco pose
参数量低，效果和HRnet类似

语义分割

田值

Twins: Revisting the design of spatial attention in vision transformers

评论列表（有 0 条评论）