TDN: Temporal Difference Networks for Efficient Action Recognition

编程入门行业动态更新时间:2024-10-28 09:14:05

TDN: Temporal <a href=https://www.elefans.com/category/jswz/34/1760442.html style= Difference Networks for Efficient Action Recognition"/>

TDN: Temporal Difference Networks for Efficient Action Recognition

论文笔记（7）

TDN: Temporal Difference Networks for Efficient Action Recognition
- 主要贡献
- TDN
- 实验

TDN: Temporal Difference Networks for Efficient Action Recognition

主要贡献

提出了 Temporal Difference Network (TDN)， TDN的核心是具有特定设计的高效、通用的时域模块(TDM)，用于捕获视频中的短期和长期时间信息。

TDN

TDN 是一个 Two-level 的结构，其主要包含短时和长时两个模块——Short-term temporal difference module(S-TDM) 和 Long-term temporal difference module(L-TDM)。

每个视频V被分割成T段，长度相等，没有重叠。从每个片段中随机抽取一帧，完全得到T帧 I I I= [ I 1 I_1 I1，…， I T I_T IT]，其中 I I I的形状为[T, C, H, W]。

这些帧分别输入到一个2D CNN中，提取帧级特征 F F F= [ F 1 F_1 F1，…， F T F_T FT]，其中F表示隐藏层中的特征表示，其维数为[T, C’, H’, W’]。

S-TDM

如上图所示，对于每一帧采样后的帧 I i I_i Ii，我们在以 I i I_i Ii为中心的局部窗口中提取若干时间RGB差分，然后沿通道维数D( I i I_i Ii) = [ D − 2 D_{-2} D−2, D − 1 D_{-1} D−1, D 1 D_1 D1, D 2 D_2 D2]进行叠加；

对于输入的D( I i I_i Ii) ，首先对它做一个空间上的下采样( Downsample )，用一层卷积去提取其中的motion信息，然后做一个空间上的上采样（Upsample），使得Difference 流的空间尺度和 RGB 流对齐，这样就可以通过一个非常简单的 add 操作将具有运动信息的 Difference 流补充到 RGB 的 Backbone 中。

L-TDM

实验

在Something-Something V1上的top1准确率、计算代价、模型大小等方面的视频分类性能比较

消融实验

Comparison with the state-of-the-art methods on Something-Something V1 and V2

Comparison with the state-of-the-art methods on the validation set of Kinetics-400

更多推荐

TDN: Temporal Difference Networks for Efficient Action Recognition

本文发布于:2024-02-25 11:04:45，感谢您对本站的认可！

本文链接:https://www.elefans.com/category/jswz/34/1698762.html