admin管理员组

文章数量:1579390

对弱监督目标定位路径的再思考


摘要

弱监督目标定位的目标是定位只有图像级标签的对相关。以往的方法是利用特征图和分类权重来间接利用图像级标签对目标进行定位。本文中,作者论证了弱监督目标定位应该分为两部分:类不可知的目标定位和目标分类。

对于类无关的目标定位,应该使用与类无关的方法来生成嘈杂的伪注释,然后在没有类标签的情况下对其执行边界框回归。

文章提出了伪监督目标定位方法作为解决弱监督目标定位问题的一种新方法。还证明PSOL模型在不同数据集之间有良好的迁移性,无需进行微调。


介绍

目前的深度学习模型需要大量准确的标注,包括图像级标签、位置级标签和像素级标签,许多大规模数据集被提出来解决这个问题,然而由于源域和目标域之间的差异,在这些大规模数据集上预先训练的模型不能直接应用于不同的任务。为了缓解这种限制,弱监督方法被提出。

文章通过消融实验证明了WSOL的定位部分应该是类不可知的,这与分类标签无关。基于这些观察,作者提出范式转换,将弱监督目标定位划分为两个独立的子任务:类不可知的目标定位和目标分类,将这种新的方法命名为伪监督目标定位。

首先基于类不可知方法deep descriptor transformation(DDT)生成伪边界框。接着通过这个生成的伪边界框进行边界框回归,这个方法消除了大多数弱监督目标定位模型上的限制,包括只允许一个全连接层作为分类权重的限制,以及分类和定位之间的困境。

结合这两个独立子任务的结果,我们在两个数据集上实现了最先进的性能,获得了比以前的弱监督模型更大的优势。


文章贡献总结如下

  • 指出弱监督目标定位应该划分为两个独立的子任务:类不可知的目标定位和目标分类,并提出PSOL方法来解决以往WSOL方法的缺点和问题。
  • 虽然生成的边界框是有噪声的,但我们认为应该直接对其进行优化,而不使用类标签。
  • 提出的PSOL方法不需要任何微调,在不同数据集之间具有良好的迁移性,明显优于以往的WSOL模型。

相关工作
有监督方法

AlexNet取得成功后,研究者尝试使用CNN进行目标定位和检测,开创性工作OverFeat尝试使用滑动窗口和多尺度技术在单一网络内进行分类、定位和检测。VGGNet增加了逐类回归和模型集成,加强了目标定位的预测结果。

目标检测是另一项能同时生成边框和标签的任务,R-CNN和Fast-RCNN使用选择搜索生成候选区域,然后使用CNN对候选区域进行分类。Faster-RCNN提出了一个两阶段的网络:首先是区域生成网络生成ROI,接下来使用R-CNN模块进行分类,并在区域内进行目标定位。这些常用的两阶段检测器被广泛用于检测任务中。YOLO和SSD是一阶段检测器,具有精心设计的网络结构和锚。最近一些无锚检测器被提出来来缓解一般检测器中的锚问题。

然而所有这些方法都需要大量的、详细的、准确的注释。现实任务重的注释非常昂贵,有时甚至很难获得,因此我们需要一些其他方法在不需要许多精确标签的情况下执行目标定位任务。

弱监督方法

弱监督目标定位可以只使用图像级标签来定位对象,由于图像级标签比目标级标签更容易获得,成本也更低,因此具有很大的吸引力。弱监督目标定位尝试在训练图像只有图像级标签的情况下同时给出目标的位置和类别。

弱监督目标定位假设在整个图像中只有一个特定类别的对象,基于这个假设,人们提出了很多方法来突破WSOL的极限。首先生成带有全局平均池化层和最终全连接层的类激活映射,Grad-CAM使用梯度而不是输出特征来生成更精确的类响应映射。

弱监督目标定位没有一个类中只有一个对象的限制,然而弱监督目标定位经常需要生成建议区域,如选择搜索和边界框,这会耗费大量的计算资源和时间。

此外,目前的弱监督目标定位检测器使用高分辨率输入来输出边界框,导致计算负担沉重,因此大多数弱监督目标定位方法难以应用于大规模数据集。


我们的方法

介绍当前弱监督目标定位的缺点
提出我们的伪监督目标定位方法

WSOL的缺点
  • 这种学习目标是间接的,会影响模型在定位任务中的表现。Has和ADL表明当只有一个CNN模型时,定位和分类是不兼容的。定位试图定位整个目标,而分类试图对目标进行分类,分类模型通常试图只定位图像中目标最具辨识力的部分。
  • Offline CAM有阈值参数,需要存储三维特征图以供进一步计算。阈值很难确定。

在选择搜索和Faster-RCNN中生成感兴趣区域的类不可知过程的鼓励下,我们将WSOL分为两个子任务:类不可知目标定位和目标分类。基于这两个子任务,我们提出了伪监督目标定位方法。PSOL直接在显式生成的为真值边界框上优化定位模型,因此它消除了上述限制和缺陷。

PSOL方法

边界框生成

WSOL和PSOL的关键区别在于为训练图像生成伪边界框。检测是这项任务的自然选择,因为检测模型可以直接提供边框和类。但是检测中的最大数据集只有80个类,不能为有很多类的数据集提供一个通用的目标定位器。此外,目前的目标检测器如Faster-RCNN需要大量的计算资源和较大的输入图像尺寸,这些问题阻碍了检测模型在大规模数据集上生成边界框。

在没有检测模型的情况下,我们可以尝试一些定位方法直接输出训练图像的边界框。一些弱监督和协同监督的方法会产生有噪声的边界框,本文将对它们进行简单介绍。

WSOL方法
现有的WSOL方法通常遵循这个管道来为图像生成边界框:首先将图像I输入网络F,然后生成最终的特征图G(通常是最后一个卷积层的输出)。G:(h x w x d) = F(I),其中三个字母分别是最终特征图的高度、宽度和深度。然后经过全局平均池化和最终的全连接层,生成标签。根据预测标签或真值标签,我们可以得到最终全连接层的类具体权重。然后对G的每个空间位置进行通道加权求和,得到具体类的最终热图H。最终将H上采样到原始输入大小,采用阈值法生成最终的边界框。

DDT概述
一些协同监督方法在定位任务上也有很好的性能。在这些协同监督方法中,DDT具有良好的性能和较少的计算资源需求。我们以DDT为例,给定一组有n个图像的图像集S,其中每个图像都有相同的标签,或者在图像中包含相同的目标。利用预先训练好的模型F,生成最终的特征图G: R(h,w,d)。然后这些特征图被聚集到一个大的特征集R(n,h,w,d),在深度维度上使用PCA方法,经过主成分分析,得到特征值最大的特征向量P。然后对G的各个空间位置进行信道加权求和,得到最终的热图,并将热图上采样到原始输入大小,采用0阈值法和最大连通分量分析法生成最终的边界框。

我们将使用WSOL方法和DDT方法生成伪边界框,并评估其适用性。

目标定位方法

在生成边界框之后,我们为每个训练图像提供伪边界框注释,然后使用这些生成框进行目标定位。因为检测模型太重,无法处理此任务,因此执行边界框回归是很自然的。之前的有监督研究提出了两种边界框回归方法,单类回归(SCR)和每个类回归(PCR)。PCR与类标签有较强的相关性,而我们提出目标定位是一个类不可知任务,因此在所有实验中选择SCR。

我们按照前面的工作执行边界框回归,假设边界框为x,y,w,h形式,其中x,y为边界框左上角坐标,w,h为边界框宽度和高度,我们首先把x,y,w,h转换一下,分别除以wi,hi,wi和hi分别是输入图像的宽度和高度,我们使用一个具有两个全连接层和相应ReLUctant层的子网络进行修复。最后对输出进行sigmoid激活,对回归任务使用l2损失。

算法1的2,3步可以集成在一个模型中,将类标签和生成的边界框进行联合训练,但是实验证明这两步应该分开训练。


实验

数据集
ImageNet-1k
CUB-200

指标
我们使用三个度量标准来评估我们的模型:Top-1/Top-5定位精度和已知真值类的定位精度。

基础模型
我们准备了几个基准模型来评估我们在定位任务上的方法,VGG16,InceptionV3,ResNet50和DenseNet161,之前的方法试图扩大特征图的空间分辨率,我们在PSOL模型中没有使用这种技术。

之前的弱监督定位方法需要通过分类权重将三维特征图转化为二维热图。但是在PSOL中,我们不需要特征图来进行定位,我们的模型会直接输出边界框来进行目标定位。

为了进行公平的比较,我们将VGG16修改为两个版本,VGG-GAP和VGG16。VGG-GAP用GAP和一个全连接层替换了VGG16中的所有全连接层,VGG16保留了VGG16中原有的结构。

对于其他模型,我们保持每个模型的原始结构。对于回归,我们使用两层的全连接网络和对应ReLU层去替换最后一层。

联合优化和单独优化
在上一节中,我们讨论了分类和定位任务的联合优化问题。为了解决这个问题,我们为每个基准模型准备几个模型。对于联合优化模型,我们在模型中添加一个新的边界框回归分支,然后用生成的边界框和类标签同时对模型进行训练。对于单独优化模型,我们将分类部分替换为回归部分,然后分别训练这两个模型,即只使用生成的边界框训练定位模型,只使用类标签训练分类模型。所有模型超参数都是相同的。

实现细节

对于所有模型,我们都对ImageNet-1k使用预先训练好的分类权重,并对目标定位和分类任务进行微调。

结果分析

讨论和结论

在本文中,我们提出了伪监督目标定位来解决以往弱监督目标定位的不足。各种实验表明,我们的方法比以往的方法有明显的优势。此外,我们的PSOL方法在不需要任何训练和微调的情况下具有良好的跨数据集迁移能力。

在未来的工作中,我们将尝试深入研究联合分类和定位问题:我们将尝试以较少的定位精度下降,将这两个任务整合到一个单一的CNN模型中。

另一个方向是尝试用类无关的方法来提高生成边界框的质量。

最后,寻找新的定位问题的网络结构或算法,以防止现有的检测框架的高输入分辨率和计算资源应用于大规模数据集。

本文标签: 论文WeaklyRouteRethinkinglocalization