admin管理员组

文章数量:1589932

笔记

  1. 现有的方法大都采用single-stage的推理线,考虑到任务的复杂性,作者提出了一种采用级联结构,多分支,从粗糙到细致的HOI理解。
  2. 如图1,作者的模型包含了一个实例定位网络和一个交互识别网络。这两个网络都以级联的形式工作,通过实例定位网络,一步一步的增强选择的实例,proposal的质量提高,对于接下来的相关表示也是非常有用的。而且也可以实现更好的动作预测。
  3. 如图2可以看出两种模式的区别,a表示的是single stage方法,b是作者提出的级联结构,这种结构不仅可以解决HOI检测的问题,还可以用于图像分割。
  4. 图3a是整个网络的pipeline,输入一个图片,首先通过backbone提取特征,然后通过L定位proposal,然后配对采样, 再通过R识别动词。图b是R中的RCM模块。
  5. 首先是L部分,即Instance Localization Network:这部分的输出是一个人物区域的集合,有许多标定的人物框和物体框,这些框经过采样再送入下一个模块R进行verb classific

本文标签: 笔记论文HumanCascadedobject