AIM: ADAPTING IMAGE MODELS FOR EFFICIENT VIDEO ACTION RECOGNITION精读笔记

编程入门 行业动态 更新时间:2024-10-09 15:21:22

AIM: ADAPTING IMAGE MODELS FOR EFFICIENT VIDEO ACTION RECOGNITION精读<a href=https://www.elefans.com/category/jswz/34/1770047.html style=笔记"/>

AIM: ADAPTING IMAGE MODELS FOR EFFICIENT VIDEO ACTION RECOGNITION精读笔记

0 Abstract

  • 主流的视觉Transformer模型遵循这样的范式: “image pre-training then finetuning”,但带来了问题:
    • Full finetuning会造成大量的计算成本,同时也是不必要的
  • 文章工作:在训练时,冻结pre-train image model参数,在模型中插入轻量化的Adapter进行微调;
  • 成果:微调更少的参数,在video任务中实现抗衡甚至更好的表现,并且具有泛化潜能。

1 Introduction

  • 在主流范式中,通过pre-train image model拓展到video任务的方法主要有:

    • Image model + temporal module:TSM
    • 扩展Image model为Video model:Swin transformer
  • 这些方法两点的不足:

    • 微调所有的参数需要巨大的计算成本以及内存占用;
    • 目前仍不清楚是否有必要微调image model的所有参数,以及不充分的微调可能会损坏其泛化能力。
  • 借鉴于parameter-efficient transfer learning(有效参数迁移学习),文章提出了AIM模型用于解决video action recognition任务,并且取得了不错的成绩:

    • 在Swin-B backbone,减少了50%的内存占用以及42%的训练时间;
    • 在4个video action recognition benchmarks实现了高精度,如只微调38M的参数实现K400上87.5%的精度。

2 Relate Work

  • Image pre-trained models:ViT及其变种、自监督模型、多模态模型;
  • Video action recognition:Transformer-based model + 时序模块/扩展,多模态模型(对CLIP的拓展);
  • Parameter-efficient finetuning:首先在NLP领域引入,后引入到了CV,但本文的AIM与他们有几个不同:
    • 现有方法基本是same domain(e.g., image-to-image or video-to-video),AIM是cross domain;
    • Frozen CLIP(ECCV 2023)在 image model增加包含3D卷积以及帧间attention的decoder分支,而AIM则对encoder进行了复用,需要微调的参数更小,并且具有更好的泛化能力。

3 Methodology

  • Adapter:一个bottleneck结构,通过FC层进行特征降维再升维度,中间辅佐以GELU激活函数;
  • ViT Block

  • Spatial Adaptation

    • 实验发现,增加Spatial Adapter可以增强模型对video data的空间表征能力;
  • Temporal Adaptation

    • 为了减少参数量,对ViT Block进行了复用(share weights),但是分别使用不共享参数的Adapter;
    • 在复用的时候,需要进行维度转换(从patch间的self-attention转为temporal frame间的self-attention):


    • 复用模块之后再加上Adapter(没有残差),主要原因是希望其初始化为接近原始模型,需要将Adapter初始化为零,并删除这残差,以在训练开始时分离Temporal Adaptation的影响(观点来自于论文:Parameter-Efficient Transfer Learning for NLP)。
  • Joint Adaptation

    • 在模型最后的MLP层并行加入Adapter,从而对学习的特征进行进一步的整合:

4 Experiments

  • backbone:ViT-B/16 dataset:IN-21K
  • Spatial adaptation增强了模型的表征能力(15.1%->36.7%),同时相比full fine-tuning降低了微调参数量;
  • Temporal adaptation的加入让模型蓬荜生辉,并且微调参数量始终很小(14.3M);
  • 更换backbone为pre-train CLIP实现了66.4%的识别精度,证明了良好的泛化能力。

  • 在不同的pre-train model下,AIM都能保证在低微调参数的情况下实现媲美甚至更高的精度表现;

  • 在数据有效性方面,AIM相比TimeSformer,当数据量越少时更加具有优势;

  • 在Adapter的添加位置上,输入层的表现糟糕,原因主要是因为浅层学习不需要太多适应的通用表示,而更深的层学习特定于任务的特征,如时间信息,因此特征适应是重要的;

  • bottleneck的缩放比例在0.125时表现最好;

  • 在training cost方面,AIM的表现具有优势。

更多推荐

AIM: ADAPTING IMAGE MODELS FOR EFFICIENT VIDEO ACTION RECOGNITION精读笔记

本文发布于:2024-02-19 19:31:20,感谢您对本站的认可!
本文链接:https://www.elefans.com/category/jswz/34/1765454.html
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。
本文标签:笔记   IMAGE   MODELS   AIM   ADAPTING

发布评论

评论列表 (有 0 条评论)
草根站长

>www.elefans.com

编程频道|电子爱好者 - 技术资讯及电子产品介绍!