admin管理员组

文章数量:1590506

注:该文章取自CVPR2021
源码:

Abstract

首先介绍了一下HOI任务:检测人与物体交互关系的任务,包含
i)定位交互的主体和客体
ii)交互标签的分类
大多数现有的方法是通过检测人和对象,分别推断每一对直接的关系,但这种方法是间接地解决问题。
本文提出了HOTR框架,基于transformer的encoder-decoder结构直接预测(人,物体,交互)的三元组集合。这种预测集合的方法,有效地利用了内部语义关系,节约了时间成本。

1. Introduction

先前解决HOI的方法是,先进行对象检测,然后将<人,对象>进行后处理,间接、耗时、计算量大。
parallel HOI detectors:第二部分related work会进行详细介绍。
HOI detection存在的问题:i)需要额外的后处理ii)关系建模有助于目标检测,但考虑高级别的依赖关系是否有效,还需进一步研究。
HOTR (Human-Object interaction TRansformer)算法利用直接的集预测方法一次性预测场景中的一组交互。作者设计了一个基于transformer的encoder-decoder结构来预测一组HOI的triplet.
首先,集合级别的直接预测省去了手工后处理的阶段;模型以端到端方式进行训练,将预测的triplet与ground-truth进行匹配作为loss。其次,transformer的自注意机制使得模型能够挖掘人和物体之间的上下文关系以及它们之间的相互作用,使得集合级预测框架更适合于高

本文标签: HOTRHumanpaperreadingDetection