论文阅读笔记《PARN: Position

编程入门行业动态更新时间:2024-10-24 12:21:52

论文阅读<a href=https://www.elefans.com/category/jswz/34/1770047.html style= 笔记《PARN: Position"/>

论文阅读笔记《PARN: Position

小样本学习&元学习经典论文整理||持续更新

核心思想

本文提出一种基于度量学习的小样本学习算法（PARN）。本文是对于Relation Network进行改进，作者认为普通的CNN特征提取网络只会在目标对象所在的位置具有较高的相应，如果支持集中的图像和查询集中的图像，其目标物体不在相同的位置时，其得到的特征图就不能很好的对应了。比如支持集图像中的目标物体在 ( x 1 , y 1 ) (x_1,y_1) (x1,y1)处，而查询集图像对应的目标物体在 ( x 2 , y 2 ) (x_2,y_2) (x2,y2)处，在计算二者之间的相似性时，就可能认为二者不相似，因为特征图中的高响应区域不一致。另一种情况就是虽然查询集图像和支持集图像中的目标物体位置接近，但细粒度的特征不同，也会认为二者不相似。为了解决上述问题，作者提出位置已知的相关网络（Position-Aware Relation Networks，PARN），其网络结构如下图所示

如图所示，支持集图像和查询集图像首先输入一个可变形的特征提取器（Deformable Feature Extractor，DFE）得到对应的特征图 f 1 f_1 f1和 f 2 f_2 f2，然后利用双重相关注意力机制（Dual Correlation Attention Module，DCA）提取位置已知的细粒度特征。DCA中包含互相关注意力模块（Cross-correlation attention module，CCA）和自相关注意力模块（Self-correlation attention module，SCA）分别提取互相关特征图 f 12 , f 21 f_{12},f_{21} f12,f21和自相关特征图 f 11 , f 22 f_{11},f_{22} f11,f22。最后将提取到的特征图级联拼接后，输入到普通的CNN网络中得到相似性得分。下面具体介绍一下DFE，CCA和SCA的实现方式。

DFE模块主要时利用可变形卷积取代了普通的卷积层，如图(a)所示，普通卷积的卷积核是固定形状的，只能提取一个矩形区域内的信息。而可变形卷积（如图(b)所示），其卷积核中的每个位置都带有两个偏移量 Δ x , Δ y \Delta x,\Delta y Δx,Δy，则特征图的每个像素点上都对应有 2 ∗ k ∗ k 2*k*k 2∗k∗k个偏移量， k k k表示卷积核的尺寸，这个偏移量是可以学习的参数。可变形卷积的优势就在于其可以根据需要，来决定每个位置上的偏移量，这样在做卷积运算时，就根据偏移后的位置进行计算，对应的感受野区域也不再是一个固定的矩形了，关于可变形卷积的介绍可见这篇博客。作者认为DFE相对于普通的特征提取网络，能够过滤掉无关特征，提取更多有效特征，从而改善后面相似性比较的效果。

CCA模块则是用于计算 f 1 f_1 f1和 f 2 f_2 f2之间的互相关特征，首先对两个特征图进行共享权重的1 * 1卷积将通道数压缩为 C ′ C' C′，并将二维的特征图展平为一维的特征向量 f 1 ′ f_1' f1′和 f 2 ′ ∈ R H 2 W 2 × C ′ f_2'\in \mathbb{R}^{H_2W_2\times C'} f2′∈RH2W2×C′，然后逐元素计算 f 1 ′ f_1' f1′中每个特征值与 f 2 ′ f_2' f2′中每个特征值之间的余弦相似性作为互相关注意力图 A c ∈ R H 1 W 1 × H 2 W 2 A^c\in\mathbb{R}^{H_1W_1\times H_2W_2} Ac∈RH1W1×H2W2，过程如下

g i j g_{ij} gij表示余弦相似性度量。然后分别计算 A c A^c Ac与 f 1 ′ f_1' f1′和 f 2 ′ f_2' f2′之间的内积

得到特征图 f 21 f_{21} f21中每个像素点上都包含了 f 1 f_1 f1中的全局特征信息， f 12 f_{12} f12也同理。最后将 f 12 f_{12} f12和 f 21 f_{21} f21恢复为二维特征图，再利用1 *1的卷积将其通道数恢复为 C C C。这里文章中的介绍似乎和图中的过程不太一致，图片中显示是先将 A c A^c Ac和 f 1 ′ , f 2 ′ f_1',f_2' f1′,f2′的形状恢复为二维特征图后，再进行内积计算的，不过这并不影响结果。

SCA模块则是用于计算 f 1 f_1 f1和 f 2 f_2 f2各自的自相关特征，整个过程与CCA也十分相似，只不过在计算 A s A^s As时，是计算 f 1 ′ f_1' f1′中的每个像素与 f 1 ′ f_1' f1′中其他像素之间的余弦相似性

DCA模块能够捕获特征图中任意两个位置之间的关系，然后利用所捕获的位置关系来聚合输出在每个空间位置的全局信息，经过DCA模块后得到了 f 11 , f 12 , f 21 , f 22 f_{11}, f_{12}, f_{21}, f_{22} f11,f12,f21,f22四组特征图，将其级联起来，输入到普通的卷积神经网络中得到查询集图像和支持集图像之间的相似性得分。

实现过程

网络结构

DFE为4-Conv网络，卷积层为可变形卷积，最后的相似性度量网络与RN相同，两个卷积层和两个全连接层。

创新点

利用可变形卷积进行有效的特征提取
设计了双重相关注意力机制DCA用于聚合查询集图像和支持集图像之间任何两个像素之间的相关性信息

算法评价

本文是对RN算法的一个改进，其中设计的DCA模块还是有点意思的。其实对于深层特征提取网络而言，其最后卷积层的感受野已经足够大，而且提取的特征抽象程度很高，已经能够消除由于位置偏移和细粒度特征不一致引起的相似性较差的问题了。作者认为无论是加深网络或者增大卷积核尺寸，都会增加计算参数量，但本文提到DCA模块可以利用更少的参数量实现更好的效果（虽然我觉得DCA中的计算量也是很大的）。

如果大家对于深度学习与计算机视觉领域感兴趣，希望获得更多的知识分享与最新的论文解读，欢迎关注我的个人公众号“深视”。

更多推荐

论文阅读笔记《PARN: Position

本文发布于:2024-02-25 09:19:03，感谢您对本站的认可！

本文链接:https://www.elefans.com/category/jswz/34/1698499.html