[论文阅读]NeurIPS 2021论文预讲会总结

编程入门 行业动态 更新时间:2024-10-06 20:27:45

[<a href=https://www.elefans.com/category/jswz/34/1770125.html style=论文阅读]NeurIPS 2021论文预讲会总结"/>

[论文阅读]NeurIPS 2021论文预讲会总结

time: 2021.11.27 下午场


王云鹏
华为诺亚方舟实验室

引导报告(四):
关于视觉Transformer的思考

TNT
1.相关模型:vit

2.TNT:视觉transformer骨干模型
引入了视觉句子
外部trm处理句子,内部trm处理token

IPT
1.结构
多头多尾:输入(原图加噪声),输出(原图)
对比学习+分类

2.实验:
去燥效果高于cnn

Adder ViT: 加法替代乘法构建trm模型
降低功耗,提升性能


朱铭健

动态分辨率网络:Dynamic resolution Network
目的:减少计算量
结构:
复杂图片选择高分辨率,简单图片选择低分辨率

实验:
mobileNet


谢恩泽
香港大学
SegFormer: simple and efficient
PVT: pyramid vision trm
结构:SegFormer
去掉了位置编码
有效感受
trm高于其他resnet,更全局

实验:
鲁棒性高:vs deeplabV3
Not All Images are Worth 16*16 words: Dynamic Vision Transformers with Adptive Sequence Length
相关工作:vit

motivation
flops增加近4倍,效果提升6.4%,很不划算

假设:自适应调整tokens数目?
通过判断是否可信(confidence > threshold),动态调整tokens数目
实验:T2T vit, DeiT
复用 attention map

Augmented shortcut for vision transformer

特征多样性
解决shotcut中特征坍塌(特征不够多样性)

方法:
在原始的shotcut(resnet)上并联:线性变换+非线性激活函数
高效部署:分块循环矩阵
基于快速傅立叶变换(FFT)的高效实现

HRFromer: high-resolution transformer for dense prediction

相关工作:
ViT(分类)
DeiT(分类)

分辨率低:丢失了很多细节信息,

DPT

多个stage: 4,8,16,32
PVT:
Swin:

动机:
dense prediction:基于HRNet
同时保持多路分辨率
复杂度高:L平方-
ISA解决

结构:
HRFromer: HR+trm
trm + cnn(跨window)

实验:
数据集:coco pose
参数量低,效果和HRnet类似

语义分割


田值

Twins: Revisting the design of spatial attention in vision transformers

相关工作:

位置编码
位置编码:用3*3卷积替换这个编码(PEG)
基于PVT
固定postion,导致不同位置的同一物体特征不一样

global attention(/local)
计算量比较大
我们的思路:分层(local + global)

实验

flops降低
图片分割:

目标检测:
效果提升,flops降低

消融
global + local ⬆️
positional

更多推荐

[论文阅读]NeurIPS 2021论文预讲会总结

本文发布于:2024-02-28 06:49:51,感谢您对本站的认可!
本文链接:https://www.elefans.com/category/jswz/34/1768481.html
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。
本文标签:论文   NeurIPS   预讲会

发布评论

评论列表 (有 0 条评论)
草根站长

>www.elefans.com

编程频道|电子爱好者 - 技术资讯及电子产品介绍!