首页 > 编程入门文章详情

AIM: ADAPTING IMAGE MODELS FOR EFFICIENT VIDEO ACTION RECOGNITION精读笔记

编程入门行业动态更新时间:2024-10-09 15:21:22

AIM: ADAPTING IMAGE MODELS FOR EFFICIENT VIDEO ACTION RECOGNITION精读<a href=https://www.elefans.com/category/jswz/34/1770047.html style= 笔记"/>

AIM: ADAPTING IMAGE MODELS FOR EFFICIENT VIDEO ACTION RECOGNITION精读笔记

0 Abstract

主流的视觉Transformer模型遵循这样的范式： “image pre-training then finetuning”，但带来了问题：
- Full finetuning会造成大量的计算成本，同时也是不必要的
文章工作：在训练时，冻结pre-train image model参数，在模型中插入轻量化的Adapter进行微调；
成果：微调更少的参数，在video任务中实现抗衡甚至更好的表现，并且具有泛化潜能。

1 Introduction

在主流范式中，通过pre-train image model拓展到video任务的方法主要有：
- Image model + temporal module：TSM
- 扩展Image model为Video model：Swin transformer
这些方法两点的不足：
- 微调所有的参数需要巨大的计算成本以及内存占用；
- 目前仍不清楚是否有必要微调image model的所有参数，以及不充分的微调可能会损坏其泛化能力。
借鉴于parameter-efficient transfer learning（有效参数迁移学习），文章提出了AIM模型用于解决video action recognition任务，并且取得了不错的成绩：
- 在Swin-B backbone，减少了50%的内存占用以及42%的训练时间；
- 在4个video action recognition benchmarks实现了高精度，如只微调38M的参数实现K400上87.5%的精度。

2 Relate Work

Image pre-trained models：ViT及其变种、自监督模型、多模态模型；
Video action recognition：Transformer-based model + 时序模块/扩展，多模态模型（对CLIP的拓展）；
Parameter-efficient finetuning：首先在NLP领域引入，后引入到了CV，但本文的AIM与他们有几个不同：
- 现有方法基本是same domain（e.g., image-to-image or video-to-video），AIM是cross domain；
- Frozen CLIP（ECCV 2023）在 image model增加包含3D卷积以及帧间attention的decoder分支，而AIM则对encoder进行了复用，需要微调的参数更小，并且具有更好的泛化能力。

3 Methodology

Adapter：一个bottleneck结构，通过FC层进行特征降维再升维度，中间辅佐以GELU激活函数；
ViT Block

Spatial Adaptation
- 实验发现，增加Spatial Adapter可以增强模型对video data的空间表征能力；
Temporal Adaptation
- 为了减少参数量，对ViT Block进行了复用（share weights），但是分别使用不共享参数的Adapter；
- 在复用的时候，需要进行维度转换（从patch间的self-attention转为temporal frame间的self-attention）：
↓
- 复用模块之后再加上Adapter（没有残差），主要原因是希望其初始化为接近原始模型，需要将Adapter初始化为零，并删除这残差，以在训练开始时分离Temporal Adaptation的影响（观点来自于论文：Parameter-Efficient Transfer Learning for NLP）。
Joint Adaptation
- 在模型最后的MLP层并行加入Adapter，从而对学习的特征进行进一步的整合：

4 Experiments

backbone：ViT-B/16 dataset：IN-21K
Spatial adaptation增强了模型的表征能力（15.1%->36.7%），同时相比full fine-tuning降低了微调参数量；
Temporal adaptation的加入让模型蓬荜生辉，并且微调参数量始终很小（14.3M）；
更换backbone为pre-train CLIP实现了66.4%的识别精度，证明了良好的泛化能力。

在不同的pre-train model下，AIM都能保证在低微调参数的情况下实现媲美甚至更高的精度表现；
在数据有效性方面，AIM相比TimeSformer，当数据量越少时更加具有优势；
在Adapter的添加位置上，输入层的表现糟糕，原因主要是因为浅层学习不需要太多适应的通用表示，而更深的层学习特定于任务的特征，如时间信息，因此特征适应是重要的；
bottleneck的缩放比例在0.125时表现最好；
在training cost方面，AIM的表现具有优势。

更多推荐

AIM: ADAPTING IMAGE MODELS FOR EFFICIENT VIDEO ACTION RECOGNITION精读笔记

本文发布于:2024-02-19 19:31:20，感谢您对本站的认可！

本文链接:https://www.elefans.com/category/jswz/34/1765454.html

版权声明:本站内容均来自互联网，仅供演示用，请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系，我们将在24小时内删除。

笔记 IMAGE MODELS AIM ADAPTING

上一篇：【剑指Offer】No.25 合并两个排序的链表
下一篇：【字节青训营】跟着月影学JSの学习笔记

发布评论取消回复

评论列表（有 0 条评论）

热门文章