论文解析:基于全卷积网络的端到端目标检测

编程入门 行业动态 更新时间:2024-10-25 08:25:33

论文解析:基于全<a href=https://www.elefans.com/category/jswz/34/1765938.html style=卷积网络的端到端目标检测"/>

论文解析:基于全卷积网络的端到端目标检测

目前,主流的目标检测算法大都需要经过人工设计的标签分配和NMS后处理,使之不能实现完全端到端的目标检测。那么,如何才能在全卷积神经网络上实现完全的端到端目标检测呢?针对这一问题,本文从两个维度作出了解答。一是提出了prediction-aware one-to-one assignment(POTO)标签分配策略,同时根据分类和回归的质量动态分配正负样本。二是提出3D Max Filtering (3DMF),利用多尺度特征提高卷积在局部区域的鉴别能力。

1. 研究背景

非极大值抑制(Non-Maximum Suppression,NMS),顾名思义就是抑制不是极大值的元素,用于目标检测中,就是提取置信度高的目标检测框,而抑制置信度低的误检框。

目前,主流的目标检测算法大都会用到NMS,特别是基于锚点框的目标检测算法。用在当解析模型输出到目标框时,目标框会非常多,具体数量由锚点框的数量决定,其中有很多重复的框定位到同一个目标,NMS用来去除这些重复的框,获得真正的目标框。如上图所示,人、马、车上有很多框,通过NMS,得到唯一的检测框。

2. 问题提出

由以上分析可以看出,NMS是一个“one-to-many”标签分配策略,一个真实的边界框对应多个预测框。在这种机制下,一方面,要设置尽可能多的预测框来增加网络的鲁棒性;另一方面,过多的预测框引起了更多的重复样本。对此,很多研究学者做出了一些改进,但效果并不是很好。

其实,要实现完全的端到端目标检测,解决方法也很简单。就是要抛弃传统的NMS,让一个真实框只生成一个预测框,也就是“one-to-one”标签分配策略。

3. 研究方法

为了实现“one-to-one”的标签分配策略,本文提出的方法的两个关键是:POTO和3DMF。得到的模型整体框架如下:

3.1 POTO

以往的“one-to-one”的标签分配策略采用的是hand-designed,这种方法得到的预测框位置往往不是最优的,强迫式的分配会使得网络收敛难度增加,同时造成更多的False-positive预测。因此,本文提出Prediction-aware One-to-one Label Assignment(POTO),根据预测的质量来进行标签分配。目标检测的损失函数为:

其中,Lfg表示前景损失,Lbg表示背景损失。本文这里选取label assignment的指标为:

3.2 DFM

除了关注标签分配策略以外,本文还提出了一种更高效的网络结构来实现完全的端到端目标检测。首先,本文进行了一系列对比实验后发现,NMS带来的重复预测的问题主要来自最可能预测的邻近空间区域。

卷积是一种具有平移不变性的线性运算,它在不同位置对相似的图形产生相似的输出,但是这个属性在消除重复预测方面有很大的障碍。因此,本文参考CornerNet和CenterNet中Max Filter,将其从single-scale扩展到多尺度版本,提出了一个名为3D Max Filtering (3DMF)的新模块来抑制重复预测。

如上式所示,给定FPN的尺度s中的一个输入特征xs,首先采用双线性算子对τ相邻尺度的相邻特征插值到与输入xs相同的尺度。

然后,对于s尺度下的空间位置i,在预先定义的三维中,根据比例τ尺度和φ×φ的空间距离,得到的最大值,这个操作可以通过高效的3D max-pooling运算轻松实现。

3.3 Auxiliary Loss

使用了POTO以及3DMF的模型表现性能依旧不如FCOS baseline,本文分析了该现象可能是由于一对一的标签分配提供较少的监督,使得网络难以学习强有力的特征表示导致的。为了解决这一问题,本文引入Auxiliary Loss来增强学习特征表达能力。

Auxiliary Loss根据上述公式建议的匹配标准,融合了Focal Loss和改进的基于ATSS的一对多标签分配策略。

4. 实验与分析

4.1 实验设置

本文在ImageNet数据集上进行预训练,采用 a pair of 4-convolution heads分别用于分类和回归。在训练阶段,将输入的图片的短边长度reshape为800。

4.2 消融实验

在“one-to-many”标签分配中,丢弃掉NMS,造成mAP大幅度下降,因此,仅仅依靠“one-to-many”分配,很难实现完全的端到端检测。此外,由下表可以看出,当采用“one-to-one”标签分配策略时,是否使用NMS的检测器之间的性能差距仍然不可忽略,本文提出的POTO+3DMF+Aux取得了最佳性能。

4.2.1 POTO

(1)空间先验:从下表可以看出,center sampling策略是要由于inside box和global策略的,它反映了图像的先验知识在现实世界场景中是必不可少的。

(2)分类vs.回归:超参数α调节分类和回归的比例,当α=0时,仅依赖于分类的预测分数。在这种情况下,与NMS的差距被大大消除,但绝对性能仍然不令人满意,通过分类和回归质量的适当融合,绝对性能显著提高。

4.2.2 3DMF & Aux Loss

没有3DMF和Aux loss情况下,在mAP上without NMS方法上有了19% mAP的提升,通过使用所提出的3DMF,性能进一步提高了1.8% mAP,与使用NMS的差距缩小到0.2% mAP,结果显示了多尺度和局部范围抑制对于端到端目标检测的关键作用。加上Auxiliary Loss获得了和使用NMS的FCOS相当的性能。

4.2.3 Larger Backbone

本文还在更大的主干网络ResNet-101、带有可变形卷积的ResNeXt-101上进行了实验。当使用ResNet-101作为主干时,本文的方法比FCOS的方法稍差0.3%的mAP。但是,当引入更强的主干时,即带有可变形卷积的ResNeXt-101,本文的端到端检测器实现了1.1%的mAP绝对增益。

4.3 可视化

上图是FCOS以及本文所提出方法的可视化展示,从图中可以看出,FCOS中输出了大量的重复预测,很多位置的置信度分数较高,这些重复的预测被评估为假阳性样本,极大地影响性能。相反,通过使用本文所提出的POTO,重复样本被显著抑制。在引入3DMF后,达到更好的效果,这是由于3DMF模块引入了多尺度竞争机制,检测器可以在不同的FPN阶段很好地执行预测。

5. 思考与讨论

(1)本文分析了造成全卷积网络与端到端目标检测模型之间的差距的原因是“one-to-many”标签分配策略以及NMS的使用。基于此,提出了一种基于Predict-aware one-to-one标签分配策略和3D Max Filtering 方法,在引入Auxiliary Loss的情况下,在COCO和CrowdHuman数据集上使用NMS实现了比许多先进检测器更优越的性能。

(2)本文在全卷积神经网络上实现端到端目标检测,给目标检测领域提出了一个新的研究方向。但是在实验对比部分,本文仅与Retinanet、Faster R-CNN、ATSS、DETR目标检测模型进行了对比,不知道与当前比较流行的YOLOv5、PP-YOLO、CenterNet2等模型的效果对比如何。

论文下载地址:.03544v3.pdf

更多推荐

论文解析:基于全卷积网络的端到端目标检测

本文发布于:2024-03-12 23:03:00,感谢您对本站的认可!
本文链接:https://www.elefans.com/category/jswz/34/1732620.html
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。
本文标签:卷积   端到   目标   论文   网络

发布评论

评论列表 (有 0 条评论)
草根站长

>www.elefans.com

编程频道|电子爱好者 - 技术资讯及电子产品介绍!