论文浏览(8) Asynchronous Interaction Aggregation for Action Detection|电子爱好者

admin管理员组
文章数量:1589932

文章目录

- 0. 前言
- 1. 要解决什么问题
- 2. 用了什么方法
- 3. 效果如何
- 4. 还存在什么问题

0. 前言

相关资料：
- arxiv
- github：有webcam demo可以直接使用，但暂时没有提供training代码。
- 论文解读
论文基本信息
- 领域：行为时空检测
- 作者单位：上海交大
- 发表时间：2020.4

1. 要解决什么问题

用于解决时空行为检测（spatial-temporal action detection）问题，该类问题是行为识别的升级版，感觉是在检测+跟踪的基础上进行行为识别。
现在在行为识别，或者说在时空行为检测领域又多了一类研究，主要是研究人与人、人与物之间的相关关系（interaction）。这类研究其实还比较少，所以也存在比较多问题：
- 之前的研究主要着重研究某一类相互作用（如人与物之间的相互关系）
- long-term temporal interaction很难寻找。通过3D卷积很难做到这一点，也有方法要保存长期的特征信息，但这非常消耗资源。
- 之前的方法中，为了检测行为时只用了 cropped features，其他信息都去掉了。

2. 用了什么方法

本文将Interaction分为三类
- Person-Person Interaction：人与人之间的相互关系，如听。
- Person-Object Interaction：人与物之间的相互关系，如拿着物品。
- Temporal Interaction：有较大时间相关性的事件，如开、关门。
提出了一个Asynchronous Interaction Aggregation network（AIA）
- 我也不知道该怎么翻译。
- 从创新点看，标题这几个关键字涵盖了本文的两个主要工作。
  - Interaction Aggregation structure（IA）
  - Asynchronous Memory Update algorithm（AMU）
本架构的主要结构如下：
- 我还没有仔细看源码，所以下面的理解很有可能有问题。这里就是介绍了总体工作流程。
- a. Feature Extractor
  - 有一个独立于AIA的Detector，用于检测人和物体,即图中红色的 Detector。通过该Detector，将原始数据中的人和物体都标定出来。
  - 通过 Video Model 提取视频数据的特征，看源码应该是通过 slowfast 提取的。
  - Detector 提取的人/物的 bbox 在 Video Model 得到的特征图上做ROI操作，得到每个人/物的特征。
- b. Interaction Aggregation
  - 该模块主要就是通过 IA structure 融合各类intaraction的信息。
  - IA structure 输入共三类：当前图像中人的特征、当前图像中物的特征、Feature Pool（即历史图像中）中人的特征。
  - IA structure 的输出就是更新后的人特征。
    - 此时的特征融合了周围其他人的特征、历史特征、物体特征。
    - 通过融合后的特征进行简单的分类，判断人的行为。
- c. Asynchronous Memory Update
  - 改模块的主要作用就是按照一定的方法保存历史数据，从而实现 long-term 的行为识别。
  - 主要解决的问题是：随着时间增加，特征尽量不丢失，且总体积不增加。
Instance Level and Temporal Memory Features
- Instance Level Features：按照我的理解就是，对每个instance（独立的人或物体）的特征，即上面总体架构中，通过检测分别提取了人和物体的特征，即 P t , O t P_t, O_t Pt,Ot。
- Temporal Mmoery features：按我的理解就是，当前帧周围的其他帧的人的特征,，即 M t = [ P t − L , . . . , P t , . . . , P t L ] M_t = [P_{t-L}, ..., P_t, ..., P_{t_L}] Mt=[Pt−L,...,Pt,...,PtL]。
Interaction Modeling and Aggregation
- 主要介绍的就是IA相关的功能，主要包括两个方面，interaction block怎么设计，interaction block如何融合（即interaction aggragation structure）。
- Interaction Block
  - 结构主要借鉴了 Transformer Block，有两个输入，分别是 query 和 key/value。
  - P-Block：对同一个clip中人与人的相互行为进行建模，两个输入是相同的，都是 P t P_t Pt
  - O-Block：检测人与物之间的相互关系，key/value输入是 O t O_t Ot，另一个输入应该是P-Block的输出。
  - M-Block：有strong logical connections along the temporal dimension的事件，如开/关。
  - 下图就是一个O-Block，该模块的基本作用就是 select value features that are highly activated to the query features and merge them to enhance the query features，大概意思就是注意力模型的基本思想，利用 Q t Q_t Qt来选择 O t O_t Ot中的重点信息。
- Interaction Aggregation Structure
  - 融合interaction block的信息，主要有三种方式：naive parallel IA，serial IA，dense serial IA。
Asynchronous Memory Update Algorithm
- 主要就用就是保存 long-term memory features（即前文中提到的 M t M_t Mt），从而实现一些行为识别。
- 一个主要挑战：随着视频长度增加，数据会不会越来越多，导致占用更多的内存以及计算资源。
- 期望实现方式：特征会随着时间动态的更新。
- 为了实现上面提到的功能，需要一种异步的特征更新方法，即 asynchronous memory update。该方法主要包括了一个存储单元（memory pool Ω \Omega Ω）以及两个基本操作 READ、WRITE。

3. 效果如何

在AVA数据集上达到SOTA。给的结果表是跟SlowFast比的（应该现在有更好的对比对象了吧）
在UCF101-24和EPIC-Kitchens上做了验证

4. 还存在什么问题

开源代码里有webcam版本的，具体实现还是得看看有啥不一样。
- webcam版的demo使用了MOT模型，不知道用在了什么地方，后续需要仔细看下。
训练代码没开源，要复现也不是不可能，但就算代码写出来了，手上没有足够的卡……难过……
作为菜鸡，一直在等待有没有那种不用独立Detector就能做时空行为检测的framework出现……

本文标签：论文 Asynchronous Interaction Detection Action

版权声明：本文标题：论文浏览(8) Asynchronous Interaction Aggregation for Action Detection 内容由热心网友自发贡献，该文观点仅代表作者本人，转载请联系作者并注明出处：https://www.elefans.com/dianzi/1728077349a1144650.html，本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，一经查实，本站将立刻删除。

更多相关文章

xp系统

基于XR Interaction ToolKit开发的VR双平台兼容项目(一)

3小时前

最近需要把模型通过VR的形式展示，但设备并不是一种，有htc的vive跟oculus的quest。如果说是工程分开来做的话可以htc就用steamVR开发，quest的话就用

AN INTERACTION-AWARE ATTENTION NETWORK FOR SPEECH EMOTION RECOGNITION IN SPOKEN DIALOGS -情感识别论文学习

3小时前

AN INTERACTION-AWARE ATTENTION NETWORK FOR SPEECH EMOTION RECOGNITION IN SPOKEN DIALOGS 简介构架结论简介构架结论针对该文章提出的结果&

Channel Interaction Networks for Fine-Grained Image Categorization《阅读笔记》

3小时前

《Channel Interaction Networks for Fine-Grained Image Categorization》——阅读笔记读文章前三个问题：通道交互网络（CIN&

Protein-protein interaction site prediction through combining local and global features 文章梳理

3小时前

作者：中南大学李敏团队发表期刊：Bioinformatics 时间：2019.9.4 0 写在前面的疑惑 1）如果一个氨基酸的绝对溶剂可及性<

Predicting Drug−Target Interaction Using a Novel Graph Neural Network with 3D Structure-Embedded

3小时前

Predicting Drug−Target Interaction Using a Novel Graph Neural Network with 3D Structure Embedded Graph Representation 笔记

Bi-directional Interaction Network for Person Search 阅读笔记

3小时前

Bi-directional Interaction Network for Person Search 阅读笔记 CVPR 2020 Wenkai Dong1, 3, Zhaoxiang Zhang1, 2, 3∗, Chunfeng

从PRISM开始学WPF（九）交互Interaction（弹窗）-更新至Prism7.1

3小时前

0x07交互 [7.1updated]无变化这是这个系列的最后一篇了，主要介绍了Prism中为我们提供几种弹窗交互的方式。 Notification通知式 Prism通过InteractionRequest 来

Danmaku: A New Paradigm of Social Interaction via Online Videos作者的两篇论文核心概括

3小时前

题目：Danmaku: A New Paradigm of Social Interaction via Online Videos Danmaku vs. Forum Comments: Understanding

【论文】(IJCAI20 知识图谱神经网络)KGNN: Knowledge Graph Neural Network for Drug-Drug Interaction Prediction

3小时前

KGNN: Knowledge Graph Neural Network for Drug-Drug Interaction Prediction 背景相关研究主流方法【特点】：多数据源的集成+流行的嵌入方法【缺点】：对药物**与靶点和基因

开源GIS（五）——openlayers中interaction的select、draw与modify

3小时前

目录一、引言二、interaction中select选取feature 三、interaction中draw与modify修改feature 四、总结一、引言 gis中最基础的就是空间查询，鼠标点击事件获取要素

Hierarchical Point-Edge Interaction Network for Point Cloud Semantic Segmentation

3小时前

1，本文亮点 （1）建立了edge branch（边分支）为point branch提供该区域的上下文信息。 &#xff

论文解读：KGNN: Knowledge Graph Neural Network for Drug-Drug Interaction Prediction

3小时前

一、背景药物间的相互作用(DDI)是指同时或先后服用两种或两种以上药物时，药物之间所产生的相互作用，而该相互作用可能会导致意想不到的副作用。总结归纳现有DDI预测方法，大

visjs入门--模块interaction

3小时前

interactionthese are all options in full.var options = {interaction:{dragNodes:true,dragView: true,hideEdgesOnDrag

《Bilateral Knowledge Interaction Network for Referring Image Segmentation》论文笔记

3小时前

引言作者认为在RIS任务中，抽象知识来源于对自然语言对目标的抽象描述，具体知识来源于特定的图像，例如下图：对于同一个句子“the cat on th

IFM论文笔记：Interaction-aware Factorization Machines for Recommender Systems

3小时前

Abstract 本文是对FM的改进，FM无差别的对待每个特征交互的行为是不好的。所以本文提出了IFM，在feature方面和field方面加入柔性交互——feature方面用attention

OpenLayers 之地图交互功能（interaction）详解，openlayers百度地图

3小时前

转自：http:www.bkjiawebzh1003573.html 地图交互功能和上一篇讲的地图控件有些混淆，它们都控制着用户与地图的交互，区别是地图控件的触发都是

论文翻译：GraphTCN: Spatio-Temporal Interaction Modeling for Human Trajectory Prediction（行人轨迹预测2020）

2小时前

GraphTCN: Spatio-Temporal Interaction Modeling for Human Trajectory Prediction 摘要1 引言2 相关工作3 GraphTCN4 实验5. Conclusion G

分子间相互作用——偶极作用dipolar-dopolar interaction

2小时前

分子间相互作用——偶极作用dipolar-dopolar interaction First release：2019-07-09 Last update: 2019-07-09 四川魔德科技有限公司(www.mod