admin管理员组文章数量:1589766
IANet:Interaction-and-Aggregation Network for Person Re-identification
1. 摘要
由于CNN具有固定的几何结构(卷积固定的滑动窗口),因此在模拟人体姿态和大尺度变化时存在固有的局限性。本文提出Interaction-and-Aggregation (IA)来增强CNN的表示能力。首先,用 Spatial IA (SIA)模块对空间特征之间的相互依赖关系建模,然后聚合对应于同一身体部分的相关特征。与从固定矩形区域(卷积滑动窗口过程)提取特征的CNN不同,SIA可以根据输入图像中行人姿态和尺度自适应地确定感受引区域。然后,引入Channel IA(CIA)模块有选择地聚合通道特征以增强特征表示,特别是对于小规模(一些小的物体在网络下采样时很容易在空间维度消失,而不是冗余的话一般会被压缩到channel中去,于是用CIA去找)的视觉线索(CNN在空间size下降,channel上升过程其实做了三个工作,一方面去除冗余信息,另一方面将低级像素特征整合成较高级特征,最后就是将空间维度的信息压缩到channel维度了,而自编码器最终能根据空间压缩后的特征图比较好的重建原始图的原因,因为即使空间维度保留了有用的信息,但如果舍弃channel维度也是不能重建原图的)。最后,IA网络可以通过在任何深度向CNN中插入IA block来构建。
2. 方法
2.1 SIA模块
其中,MC如下操作:
而外貌关系图如下获取:
其中HWC是F的size,而
P
i
P_i
Pi和
P
j
P_j
Pj是F中像素 i 和像素 j 对应的K*K的patch,它们的第 k 个空间位置(像素k处)的特征为
p
i
,
k
p_{i,k}
pi,k和
p
j
,
k
p_{j,k}
pj,k。位置关系图的获取如下:
其中
f
i
∈
R
C
,
f
j
∈
R
C
f_i \in R^C, f_j \in R^C
fi∈RC,fj∈RC是F在位置(相素)i,j处的特征,对应像素位置为
(
x
i
,
y
i
)
,
(
x
j
,
y
j
)
(x_i,y_i),(x_j,y_j)
(xi,yi),(xj,yj),而
是高斯分布的标注差(超参)。最后对所有i,j就可以得出最终
S
L
S^L
SL。
然后,整个语义关系S表示为:
再经过聚类操作,即:
2.2 CIA模块
高层特征图的分辨率很小,有很多空间信息被压缩到channel中去了,因此就要从channel中去寻找这些信息,于是CIA产生
在两个不同的channe对语义相互依赖关系显式建模。有:
其中
f
m
,
f
n
∈
R
H
W
f_m,f_n \in R^{HW}
fm,fn∈RHW表示F中第 m 个channel和第 n 个channel的特征。最终
C
m
n
C_{mn}
Cmn组成
C
∈
R
C
∗
C
C \in R^{C*C}
C∈RC∗C。然后:
2.3 IA Block
SIA和CIA做成IA Block,这样就能插入到CNN的任意深度了。无论SIA还是CIA,IA Block定义为:
其中E是
E
S
E^S
ES或
E
C
E^C
EC,并且还 + F引入了残差结构。如下:
位于不同级别瓶颈处的多个IA Block可以以可忽略的参数逐步增强特征表示。
3. 实验
3.1 实验细节
3.2 和SOTA比较
性能不算很高
3.3 消融
3.4 参数分析
3.5. 不同backbone的影响
图6b中的stage1234可以是任意网络,称这个为backbone
3.6 可视化示例
本文标签: 笔记aggregationInteractionIANetIdentification
版权声明:本文标题:IANet:Interaction-and-Aggregation Network for Person Re-identification阅读笔记 内容由热心网友自发贡献,该文观点仅代表作者本人, 转载请联系作者并注明出处:https://www.elefans.com/dianzi/1728076988a1144608.html, 本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容,一经查实,本站将立刻删除。
发表评论