笔记"/>
AIM: ADAPTING IMAGE MODELS FOR EFFICIENT VIDEO ACTION RECOGNITION精读笔记
0 Abstract
- 主流的视觉Transformer模型遵循这样的范式: “image pre-training then finetuning”,但带来了问题:
- Full finetuning会造成大量的计算成本,同时也是不必要的
- 文章工作:在训练时,冻结pre-train image model参数,在模型中插入轻量化的Adapter进行微调;
- 成果:微调更少的参数,在video任务中实现抗衡甚至更好的表现,并且具有泛化潜能。
1 Introduction
-
在主流范式中,通过pre-train image model拓展到video任务的方法主要有:
- Image model + temporal module:TSM
- 扩展Image model为Video model:Swin transformer
-
这些方法两点的不足:
- 微调所有的参数需要巨大的计算成本以及内存占用;
- 目前仍不清楚是否有必要微调image model的所有参数,以及不充分的微调可能会损坏其泛化能力。
-
借鉴于parameter-efficient transfer learning(有效参数迁移学习),文章提出了AIM模型用于解决video action recognition任务,并且取得了不错的成绩:
- 在Swin-B backbone,减少了50%的内存占用以及42%的训练时间;
- 在4个video action recognition benchmarks实现了高精度,如只微调38M的参数实现K400上87.5%的精度。
2 Relate Work
- Image pre-trained models:ViT及其变种、自监督模型、多模态模型;
- Video action recognition:Transformer-based model + 时序模块/扩展,多模态模型(对CLIP的拓展);
- Parameter-efficient finetuning:首先在NLP领域引入,后引入到了CV,但本文的AIM与他们有几个不同:
- 现有方法基本是same domain(e.g., image-to-image or video-to-video),AIM是cross domain;
- Frozen CLIP(ECCV 2023)在 image model增加包含3D卷积以及帧间attention的decoder分支,而AIM则对encoder进行了复用,需要微调的参数更小,并且具有更好的泛化能力。
3 Methodology
- Adapter:一个bottleneck结构,通过FC层进行特征降维再升维度,中间辅佐以GELU激活函数;
- ViT Block
-
Spatial Adaptation
- 实验发现,增加Spatial Adapter可以增强模型对video data的空间表征能力;
-
Temporal Adaptation
- 为了减少参数量,对ViT Block进行了复用(share weights),但是分别使用不共享参数的Adapter;
- 在复用的时候,需要进行维度转换(从patch间的self-attention转为temporal frame间的self-attention):
↓
- 复用模块之后再加上Adapter(没有残差),主要原因是希望其初始化为接近原始模型,需要将Adapter初始化为零,并删除这残差,以在训练开始时分离Temporal Adaptation的影响(观点来自于论文:Parameter-Efficient Transfer Learning for NLP)。
-
Joint Adaptation
- 在模型最后的MLP层并行加入Adapter,从而对学习的特征进行进一步的整合:
- 在模型最后的MLP层并行加入Adapter,从而对学习的特征进行进一步的整合:
4 Experiments
- backbone:ViT-B/16 dataset:IN-21K
- Spatial adaptation增强了模型的表征能力(15.1%->36.7%),同时相比full fine-tuning降低了微调参数量;
- Temporal adaptation的加入让模型蓬荜生辉,并且微调参数量始终很小(14.3M);
- 更换backbone为pre-train CLIP实现了66.4%的识别精度,证明了良好的泛化能力。
-
在不同的pre-train model下,AIM都能保证在低微调参数的情况下实现媲美甚至更高的精度表现;
-
在数据有效性方面,AIM相比TimeSformer,当数据量越少时更加具有优势;
-
在Adapter的添加位置上,输入层的表现糟糕,原因主要是因为浅层学习不需要太多适应的通用表示,而更深的层学习特定于任务的特征,如时间信息,因此特征适应是重要的;
-
bottleneck的缩放比例在0.125时表现最好;
-
在training cost方面,AIM的表现具有优势。
更多推荐
AIM: ADAPTING IMAGE MODELS FOR EFFICIENT VIDEO ACTION RECOGNITION精读笔记
发布评论