首页 > 编程入门文章详情

行为识别

编程入门行业动态更新时间:2024-10-28 01:11:46

行为识别

行为识别

文章目录

- 0. 前言
- 1. 要解决什么问题
- 2. 用了什么方法
- 3. 效果如何
- 4. 还存在什么问题&可借鉴之处

0. 前言

相关资料：
- arxiv
- github：还没有开源
- 论文解读
论文基本信息
- 领域：行为识别
- 作者单位：南京大学
- 发表时间：2020.12
一句话总结：使用RGB difference设计了新的特征提取结构。

1. 要解决什么问题

探索高效的temporal modeling方式。
常见的 temporal modeling 方式有两种
- 使用双流法，RGB用来提取appearance information，optical flow用来提取movement information。
  - 这种方法能够很有效地提高识别精度，但需要的大量算力来计算光流。
- 3D模型，或 temporal convolutions，隐性地学习motion fetures。
  - 没有单独考虑temporal dimension相关内容，也需要非常多算力。
之前，也有方法使用RGB difference作为输入，作为光流的替代品。
- 但之前的方法都是简单的把RGB作为另一个输入，最终在结果端进行融合。

2. 用了什么方法

提出了Temporal Difference Network(TDN)，来提取多尺寸的时间信息（multi-scale temporal information）。
- 使用了TSN的结构，sparse and holistic sampling strategy，即1x1x8这种形式
- 主要就是引入了TDM结构，包括short-term和long-term两种。
- short-term TDM的作用是提供更多frame-wise representation
  - 第一个参数是最终结果，第二个参数是普通2D CNN结果特征图，第三个参数中函数是S-TDM的结构，输入为图片
- long-term TDM的作用平衡segments之间的结构，从而提升每一帧的表达能力
  - 最后一个函数是L-TDM结构，这里的F应该是上面S-TDM的结果。
  - 当前模型只考虑相邻两帧之间的关系，即L-TDM只是存在于相邻两帧之间。
TDN的关键在于引入了 temporal difference based module(TDM)
S-TDM
- 作者认为：
  - 在一个很小的local temporal window中相邻的帧都非常类似，直接叠加这些信息并提取特征是不明智的。
  - 另一方面，从segment中提取信息虽然能够有效提取appearance信息，但不能提取local motion信息。
  - 所以，需要使用S-TDM以及相邻帧temporal difference来增强信息。
- 整体结构如上图，感觉使用了选中图片以及选中图片周边一共5帧，来提取diff信息并叠加。
- 总而言之，是提取一个segment内的local motion以及appearance信息。
L-TDM
- 总而言之，是提取segment之间的信息。

3. 效果如何

做了详细的消融实验，证明提出结构的有效。
- 说白了，就是尝试了很多种S-TDM和L-TDM的实现方法，选择了最好的发表。
在SomethingSomething上达到SOTA。在Kinetcis-400上达到差不多SOTA的效果。

4. 还存在什么问题&可借鉴之处

等待开源，不知道真实跑起来效率如何。
- 比如，x3d，看起来厉害，但不知道部署起来效果如何。
看起来是很诱人了。
但从原理上看起来，在online任务中作用可能不会太大……
- 至少，对我的跌倒检测，S-TDM并没有太好的结果。

更多推荐

行为识别

本文发布于:2024-02-25 11:03:25，感谢您对本站的认可！

本文链接:https://www.elefans.com/category/jswz/34/1698758.html

版权声明:本站内容均来自互联网，仅供演示用，请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系，我们将在24小时内删除。

上一篇： CVPR 2021
下一篇：《TDN: Temporal Difference Networks for Efficient Action Recognition》论文详解

发布评论取消回复

评论列表（有 0 条评论）

热门文章