admin管理员组

文章数量:1663028

CBNetV2: A Composite Backbone Network Architecture for Object Detection论文阅读

    • 介绍
    • 方法
      • CBNetV2
      • 融合方式
      • 对Assistant的监督
    • 实验
      • 与SOTA的比较
      • 在主流backbone架构上的通用性
      • 与更宽更深的网络比较
      • 与可变形卷积的兼容
      • 在主流检测器上的模型适用性
      • 在Swin Transformer上的模型适用性
      • 消融实验

paper:https://arxiv/pdf/2107.00420v2.pdf
code:https://github/VDIGPKU/CBNetV2

介绍

性能强大的检测器往往需要强大的backbone,而比较常见的增强backbone的方法就是将其变得更深、更宽,或者设计更强大的backbone,且需要在imagenet等数据集上预训练,会有昂贵的预训练成本;当然也可以不使用预训练权重,直接从头开始训练检测器,但这会需要更多的计算资源和训练技巧;

论文提出了一种有效率的方法来融合现有的pre-trained权重作为一个检测器的backbone,不像其他致力于精心制作模块并且需要在ImageNet上预训练来加强模型的表达能力,CBNetv2通过一种新的融合方法直接提升现有的pre-trained模型表达能力,不需要预训练;

如图1所示,并行的backbone(assisting backbone,lead backbone)通过“融合连接”连接到一起;assisting backbone的每个stages的输出流到其后续backbone的并行级stage和较低级别stage;

与简单的网络深化或扩宽不同,CBNetV2融合了多个骨干网络的高、低层特性,并逐渐扩展接收域,以更有效地进行目标检测。值得一提的是CBNetV2不需要为检测器预训练任何模型,只需要使用现有开源pretrained单个backbone的权重来初始化CBNetV2的每个组装backbone;

CBNetV2适用于one-stage, two-stage, anchor-based, anchor-free等检测方法,并且在Faster R-CNN, Mask R-CNN, Cascade R-CNN,Cascade Mask R-CNN,ATSS等方法上均有超过3%的精度提升;

并且CBNetV2方法比那些将网络加深,加宽带来的提升更多,且更有效率,例如Dual-ResNeXt50-32x4d比ResNeXt101-64x4d作为backbone带来了0.7%的AP提升,但只有其70%的参数;
Dual-Swin-T比 Swin-B有更少的参数和FLOPs,并有1.7%的AP提升;
HTC Dual-Swin-B在COCOtest-dev上实现了58.6%的box AP和51.1%的mask AP,在多尺度测试下实现了59.3%的box AP和51.8%的mask AP

论文的主要贡献:

  1. 使用现有的pretrained模型权重建立了一个更强大的backbone CBNetV2,不需要额外预训练;
  2. CBNetV2使用更有效率和更友好的方式来融合较大的backbones,而不是简单的增加网络宽度、深度并在ImageNet上预训练;

本文标签: 论文BackbonecompositeNetworkDetection