

    • Abstract
    • Introduction
    • related work
      • CNN based representation
      • Localization
    • Background - MAC
    • Encoding regions into short vectors
      • region feature vector
      • R-MAC:regional maximum activation of convolutions
    • object localization
      • Approximate integral max-pooling
      • window detection
      • AML: approximate max-pooling localization.
    • Retrieval, location and re-ranking
      • initial retrieval
      • Re-ranking
      • query expansion
    • Implementation details
    • Experiments
      • Experimental setup
      • Localization accuracy
      • Retrieval and re-ranking
      • Comparison to the state of the art
      • Discussion about other CNN-based approaches


CNN能够提取出有效的特征描述子来表示图像,但是对于compatible with geometry-aware re-ranking 几何感知重排序方法。预训练得到的特征属于短向量表示,这样的模型传统的图像搜索系统性能较好。
定位得到的bounding box 用于图像的重排序。
本文显著提升了CNN-based 识别性能,在Oxford5k and Paris6k datasets结果表现较好。


很多的 state-of-the-art 方法都是基于BOW,主要是因为BoW具有局部不变性的特征以及large视觉词汇。

  • initial filtering stage :根据相似度对图像数据集排序
    • improve
      • incorporating weak geometric information
      • compact approximations of the local descriptors
      • learning smart codebooks
  • re-ranking stage:进一步细化排序
    • Geometric matching models 几何匹配模型
  • query expansion

CNN-based 特征有时比预训练的CNN效果还要好。


  • 根据卷积层激励提出一个紧致图像表示,不需要重复输入图像到网络中。在初始检索以及重排序中都使用图像的原始表示。就是说,CNN表示的特征向量用在这俩个过程中。
  • 使用了积分图像来近似max-pooling,用于物体定位
  • 定位的方法用于图像重排序,定义了查询扩张QE方法

related work

CNN based representation


有结果显示当图像表示经过白化之后,sum-pooling 效果比 max-pooling 好,但是sum-pooling仍然不是最佳选择,Kalantidis 等人提出了 spatial and feature channel weighting,大大提高了性能。


  • 两种特征:卷积层特征、全连接层特征
  • 两种池化方式:sum-pooling > max-pooling,但是sum-pooling仍然不是最优


滑动窗口原则用于物体定位,但是窗口会有很多,使用积分图像的方法来解决,积分图像适用于通过 sum-pooling 操作得到的特征向量。

Efficient Subwindow Search (ESS) 是一种全局优化方案,使用分支定界搜索避免大量的搜索操作,使用到了积分图像。

使用积分图像是因为对于图像特征执行了 sum-pooling 操作。

本文中使用了积分图像对 CNN激励(不是对整个图像)执行max-pooling操作。


Background - MAC

the feature vector constructed by a spatial max-pooling over all locations,没有位置信息。具有平移不变性(因为对卷积filters执行了max-pooling)

No crop or change of aspect ratio is required 不需要对图像进行裁剪或者长宽比变化

Encoding regions into short vectors

region feature vector

region:是指将MAC的范围缩小了,还是spatial 操作,包含有K个channel,形成多个 K 维的向量。
region feature vector 能够覆盖更多的图像区域,因为有很多的可接受域。

R-MAC:regional maximum activation of convolutions

本文提出的 区域结构 是基于CNN特征映射,不是基于原始图像

sample square regions at L different scales, 在L个不同的尺度上进行采样。均匀采样,区域重叠率为 40%

m: number of regions
在尺度 l l 中均匀采样 l×(l+m1) l × ( l + m − 1 ) 个 宽度为 2min(W,H)/(l+1) 2 m i n ( W , H ) / ( l + 1 ) 的区域

  • 获得区域之后,计算每个区域的特征向量
  • 执行 l2-normalization, PCA-whitening and l2-normalization
  • combine the collection of regional feature vectors into a single image vector by summing them and l2-normalizing in the end.

This choice keeps the dimensionality low which is equal to the number of feature channels.
However, we show in our experiments that the resulting representation, referred to as R-MAC, offers a significant better performance than the corresponding MAC with same dimensionality.

Note, the aggregation of the region vectors can be seen as a simple kernel that cross matches all possible regions, including across different scale.

object localization


Approximate integral max-pooling

  • construct the integral image of the 2D tensor whose value at position p p is equal to χi(p)α,pR χ i ( p ) α , p ∈ R

window detection

q 是相应查询图像 Q 的MAC特征向量。计算选择的每个区域的MAC与待查询单个物体的MAC的相似度。

将相似度最大的区域映射回原始图像中,精度为 (WWI,HHI) ( W W I , H H I ) ,所以区域大小不同,精度也不同,提供的是一个粗略的定位(在原始图像中定位Q中出现的物体的位置

相似度计算的时候,没有考虑到图像 I I 中所有的视觉内容, 所以免受背景杂斑(background clutter)的影响。

暴力求解optimal region 需要大量的计算,区域的数量量级在 O(W2H2) O ( W 2 H 2 )

AML: approximate max-pooling localization.

  • 对区域的数量进行限制,使用启发式方法细化最优的区域。
  • 候选区域是通过 t 次搜索均匀采样得到。
  • 如果区域的长宽比例大于 s, 则将这个区域舍弃。
  • 细化最优区域的参数是使用坐标下降的方式。- 启发式方式,允许最多 3 个units 的变化
  • refinement process 细化过程被重复 5 次

Retrieval, location and re-ranking

initial retrieval

对所有的数据图像计算他们的MAC或者R-MAC特征向量,对查询图像提取同样的特征向量,在 filtering stage,使用cosine 距离计算相似度,得到初始搜索结果。


spatial verification with local features.

查询图像被表示成 MAC 向量,因为在 AML 中会使用到,图像集合中的图像有 χ χ 表示。

filtering stage: whitened MAC or R-MAC,定位过程使用了经过 l2-normalized MAC 之后计算得到的相似度
一旦查询物体被定位了,然后,查询区域和检测到的区域之间的相似度通过 whitened MAC or R-MAC 计算得到, 依赖于 选择的 filtering method。



query expansion

重排序得到了 top ranked 的位置, 然后,收集 5 个 top-ranked 图像, 将它们和查询图像融合,计算平均值,之后,利用得到的平均值再次进行重排序,得到 top N个图像。

Implementation details

实验中发现将 χ χ 的阈值设为大于128,以及将每个值映射到与其相近的小于其的整数(floor operation) 损失不是很明显。
所以可以计算 αth α t h power with a lookup table 并且加速构建积分图像。
通过在相同的 lookup table 上执行二分法来近似 αth α t h root

通过 χ χ 得到的相应映射是稀疏的,通过将响应量化到8个值中减少存储开销。这样以来,更多的元素会映射到相同的值。所以,使用差分编码 delta coding 存储非零值的位置,每个非零元素仅仅 1 byte。
一个 1024 * 768 的图像对应于 30 * 22 特征通道响应映射
最终,需要 32kB 存储一幅图像。
在重排序的时候,每次构建一个积分图像 at a time,使用 双精度 来表示积分图像中的元素。


Experimental setup

  • datasets
    • Oxford Buildings
    • Paris dataset
    • Oxford105k
    • Paris106k
  • 使用mAP
  • localization accuracy: bounding boxes
  • PCA learn on Paris6k and test on Oxford5k and vice versa 反之亦然
  • pre-CNN
    • AlexNet
    • VGG16
    • extracted representation from the last pooling layer
      • 256 feature channels for AlexNet
      • 512 feature channels for VGG16.

Localization accuracy

  • first,perform exhaustive search 穷举搜索 to detect the globally optimal window.
  • then,使用本文提出的方法得到少量的区域,对最好的一个进行细化。
  • provide a large speed-up while maintaining a high overlap with the optimal detection

  • evaluate the localization accuracy

    • cross-match all 5 query images that exist per building
    • Exhaustive evaluation achieves an IoU equal to 52.6% (52.9%) and the speeded-up approach achieves 51.3% (51.4%) on Oxford5k (Paris6k) datasets

Retrieval and re-ranking

  • The MAC vectors are l2-normalized, PCA-whitened and l2-normalized once more
  • original image size (1024) provides higher performance
  • In order to decompose the components of R-MAC, we construct R-MAC by aggregating only regions of l=3 l = 3 .
  • l 不同得到的mAP不同

Comparison to the state of the art

Discussion about other CNN-based approaches

