TDN: Temporal Difference Networks for Efficient Action Recognition

编程入门 行业动态 更新时间:2024-10-28 09:14:05

TDN: Temporal <a href=https://www.elefans.com/category/jswz/34/1760442.html style=Difference Networks for Efficient Action Recognition"/>

TDN: Temporal Difference Networks for Efficient Action Recognition

论文笔记(7)

  • TDN: Temporal Difference Networks for Efficient Action Recognition
    • 主要贡献
    • TDN
    • 实验

TDN: Temporal Difference Networks for Efficient Action Recognition

主要贡献

提出了 Temporal Difference Network (TDN), TDN的核心是具有特定设计的高效、通用的时域模块(TDM),用于捕获视频中的短期和长期时间信息。

TDN


TDN 是一个 Two-level 的结构,其主要包含短时和长时两个模块——Short-term temporal difference module(S-TDM) 和 Long-term temporal difference module(L-TDM)。

每个视频V被分割成T段,长度相等,没有重叠从每个片段中随机抽取一帧,完全得到T帧 I I I= [ I 1 I_1 I1​,…, I T I_T IT​],其中 I I I的形状为[T, C, H, W]

这些帧分别输入到一个2D CNN中,提取帧级特征 F F F= [ F 1 F_1 F1​,…, F T F_T FT​],其中F表示隐藏层中的特征表示,其维数为[T, C’, H’, W’]。

S-TDM


如上图所示,对于每一帧采样后的帧 I i I_i Ii​,我们在以 I i I_i Ii​为中心的局部窗口中提取若干时间RGB差分,然后沿通道维数D( I i I_i Ii​) = [ D − 2 D_{-2} D−2​, D − 1 D_{-1} D−1​, D 1 D_1 D1​, D 2 D_2 D2​]进行叠加;

对于输入的D( I i I_i Ii​) ,首先对它做一个空间上的下采样( Downsample ),用一层卷积去提取其中的motion信息,然后做一个空间上的上采样(Upsample),使得Difference 流的空间尺度和 RGB 流对齐,这样就可以通过一个非常简单的 add 操作将具有运动信息的 Difference 流补充到 RGB 的 Backbone 中。

L-TDM




实验

在Something-Something V1上的top1准确率、计算代价、模型大小等方面的视频分类性能比较

消融实验

Comparison with the state-of-the-art methods on Something-Something V1 and V2

Comparison with the state-of-the-art methods on the validation set of Kinetics-400

更多推荐

TDN: Temporal Difference Networks for Efficient Action Recognition

本文发布于:2024-02-25 11:04:45,感谢您对本站的认可!
本文链接:https://www.elefans.com/category/jswz/34/1698762.html
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。
本文标签:Difference   Temporal   TDN   Networks   Recognition

发布评论

评论列表 (有 0 条评论)
草根站长

>www.elefans.com

编程频道|电子爱好者 - 技术资讯及电子产品介绍!