admin管理员组

文章数量:1589792

论文笔记:Interaction-and-Aggregation Network for Person Re-identification

论文:Interaction-and-Aggregation Network for Person Re-identification,cvpr,2019

链接:paper

代码:github

摘要

背景:人的再识别(reID)极大地受益于学习鲁棒特征嵌入的深度卷积神经网络(CNNs)。然而,CNNs由于其固定的几何结构,在建模人的姿态和尺度的巨大变化时具有固有的局限性。

贡献:本文提出了一种新的网络结构:交互-聚合(IA) 来增强CNNS的特征表达能力。首先,介绍了空间IA(SIA)模块。它对空间特征之间的相互依赖关系进行建模,然后对同一身体的相关特征进行聚合。它从固定的矩矩形区域中提取特征的cnn不同,SIA可以根据输入的姿势和比例来确定接收域。其次,文中引入了通道IA(CIA)模块,该模块有选择地聚集通道特征以增强特征表示,特别是对于小尺度视觉线索。此外,IA模块可以插入到CNNS中任意深度。我们验证了person ReID 模型的有效性。

引言

之前的一些方法对人体姿态和尺度变化不够鲁棒的一个重要原因是,它们都使用CNNs来提取行人特征。实际上,CNNs在建模大型几何变换时存在固有的局限性。这种限制源于CNNs模块固定的几何结构:一个在固定位置对输入特征图进行分离的卷积单元和一个按固定比例降低空间分辨率的池化层。缺乏处理身体姿势和尺度变化的内部机制。一方面,特征图的接受域是预先定义好的矩形,不能自适应地定位具有不同特征的非刚体部分。另一方面,同一CNN层中所有激活单元的接受域大小相同,这对于高级CNN层对不同尺度的身体部位进行语义编码是不可取的。

本文提出了一种新的网络结构——交互-聚合(IA),以提高CNNs的特征表示能力,特别是在存在身体姿态和尺度变化的情况下。AI包括两个模块:空间交互聚合(SIA)和通道交互聚合(CIA)。与提取固定几何结构特征的CNNs不同,SIA根据输入人图像的姿态和尺度自适应地确定接受域。SIA生成空间语义关系图以发现不同图像位置之间的两种类型的相互依赖关系:外观关系,其中具有相似特征表示的位置具有较高的相关性;以及位置关系,其中彼此靠近的位置往往具有较高的相关性。通过这种方式,具有各种姿势和比例的身体部位可以自适应地定位。在空间关系图的基础上,通过对不同位置上语义相关的特征进行聚合,实现对特征图的更新。与SIA原则相似,我们提出CIA进一步加强CNNs的表征能力。与CNNs不同,CIA显式地为通道间的语义依赖关系建模,而CNNs中不同通道的特征是独立假定的。特别是对于容易在cnn高级特征中消失的小尺度视觉线索(如bags),CIA可以有选择地将所有通道的视觉线索的语义相似特征进行聚合,以体现其特征表征。

这两个模块在计算上都是轻量级的,并且只略微增加了模型的复杂性。它们可以很容易地插入任何深度的深层CNNs 网络中。

网络结构

总体模型结构图如下:

1.SIA 模块

这里涉及到三个种相关性关系:Appearance RelationsLocation Relationssemantic relations.

本文标签: aggregationInteractionNetworkIdentificationperson