admin管理员组

文章数量:1589822

论文链接:https://arxiv/abs/2002.10191

分享的这篇文章来自于AAAI2020,文章的整个思路并不难理解。文章的idea来自于我们人类对相似图像的识别。一般来说,我们识别相似的图像,一方面是去找到图像中特殊的区域来进行识别,另一方面是通过比较图像对来有效地得到对比线索。这篇论文就是从后者获得的灵感。
文章提出了Attentive Pairwise Interaction Network (API-Net),该网络可以通过交互逐步识别一对细粒度的图像。

思维导图

Model


整个的网络如上图所示,简单说一下流程如下:

  1. 在训练阶段,输入一对图像对到backbone中,分别提取特征,得到对应的特征向量 x 1 , x 2 x_1,x_2 x1,x2,然后我们得到一个 mutual vector x m ∈ R D x_m\in \Bbb{R}^{D} xmRD
  2. 我们将 x m x_m xm x i x_i xi按通道进行点乘,即用 x m x_m xm查找哪个通道可能包含对比线索,然后再通过sigmoid函数,得到gate vector g i ∈ R D g_i\in \Bbb{R}^{D} giRD
  3. 然后再gate vector 的指导下进行成对的交互,交互后的向量放入softmax classifier中得到损失函数。

上图中的黄色部分是网络的核心部分, Attentive Pairwise Interaction(API),它是一个即插即用的模块,只在训练的过程中存在,在测试的时候,单图像进行测试,图像通过backbone提取特征向量之后,直接放入softmax classifier中,得到得分向量用于标签预测。

Attentive Pairwise Interaction(API)

这是网路的核心部分,但是并没有很复杂,它主要由三部分组成。

  1. Mutual Vector Learning.
  2. Gate Vector Generation.
  3. Pairwise Interaction

下面详细的介绍一下这三个部分,以更好的来理解文章(个人拙见,有不完备的地方还请路过的大佬指教)。

Mutual Vector Learning. 这是一个很简单的部分,输入一对图像到backbone,提取对应的特征向量 x 1 ,

本文标签: 论文PairwiseAttentiveLearningInteraction