首页 > 编程入门文章详情

论文阅读【MM21 Pre

编程入门行业动态更新时间:2024-10-24 06:37:52

<a href=https://www.elefans.com/category/jswz/34/1770125.html style= 论文阅读【MM21 Pre"/>

论文阅读【MM21 Pre

MM21 Pre-training for Video Understanding Challenge:Video Captioning with Pretraining Technique

概述

发表：ACMM 2021
idea：使用X-Linear Attention，借鉴XLAN的思路对Multi-modality Feature进行融合，提出一种multi-path XLAN模型能够对多个单模态特征进行融合，得到一种较好的融合后的特征。此外在视频理解预训练模型比赛中通过数据扩充技术以及集成multi-path XLAN（early fuse）和微调pretrained OPT（late fuse）获得第一

详细设计

1. Single-Modality Pretrained Feature Fusion

Multi-Modality Feature Extraction
几乎考虑到了视频中所有模态的特征，包括：
（1）appearance feature（ 30 f r a m e s ∗ 2048 d i m s 30 frames * 2048 dims 30frames∗2048dims）：FixResNeXt-101 network pretrained on the ImageNet-1k dataset
（2）motion feature（ 30 f r a m e s ∗ 2048 d i m s 30 frames * 2048 dims 30frames∗2048dims）：irCSN-152 network pretrained on the Kinetics-400 dataset
（3）region feature（ 50 f r a m e s ∗ 2048 d i m s 50 frames * 2048 dims 50frames∗2048dims）：vinvl model pretrained on Visual Genome dataset
（4）audio feature（ 30 f r a m e s ∗ 2048 d i m s 30 frames * 2048 dims 30frames∗2048dims）：CNN14 network pretrained on the AudioSet dataset
Multi-Modality Feature Fusion
感觉就是OPT+XLAN，几乎没什么改动

F x F_x Fx表示输入特征， E x E_x Ex主要是将各种模态特征嵌入到相同的语义隐藏空间， E n c o d e r x Encoder_x Encoderx是XLAN encoder

这里的 A G G i n AGG_in AGGin和 A G G c t x AGG_ctx AGGctx表示聚合方式，有以下几种选择方式：average pooling、concatenation、additional attention

2. Multi-Modality Pretrained Model Finetuning

对pretrained Omni-Perception Pre-Trainer model (OPT)进行微调。

OPT

分别使用三个encoder对文本、图片、声音进行编码并将特征转换到相同的latent space；然后使用transformer对三种特征进行融合（inter- and intra interactions），然后接入text decoder 和 visual decoder分别生成文本和图片。同时设计了token-level、modality-level和sample-level的任务以让模型具有跨模态理解和生成的能力。作者在这上面使用MSR-VTT数据集进行微调。

实验

Ablation Studies

S P SP SP指直接将multi-modality features concate然后进行reduce dimension到1024然后输入encoder-decoder的XLAN/Transformer modal中
Comparison to State-of-the-art

+ R L +RL +RL表示微调的时候使用了reinforcement learning

更多推荐

论文阅读【MM21 Pre

本文发布于:2024-03-09 11:00:47，感谢您对本站的认可！

本文链接:https://www.elefans.com/category/jswz/34/1724795.html

版权声明:本站内容均来自互联网，仅供演示用，请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系，我们将在24小时内删除。

论文 Pre

上一篇：《On Low
下一篇： html打开文件共享目录,设置共享文件夹访问权限的方法

发布评论取消回复

评论列表（有 0 条评论）

热门文章