《《《翻译》》》MV3D

编程入门行业动态更新时间:2024-10-24 12:31:13

《《《翻译》》》MV3D

摘要

本文针对自主驾驶场景中的高精度三维目标检测问题进行了研究。我们提出了多视图三维网络（MV3D），一个感官融合框架，以激光雷达点云和RGB图像为输入，预测定向三维边界框。我们用一个紧凑的多视图表示对稀疏的三维点云进行编码。

该网络由两个子网络组成：一个子网络用于生成三维对象方案，另一个子网络用于多视图特征融合。提案网络从三维点云的鸟瞰图表示中高效地生成三维候选框。我们设计了一个深度融合方案，将来自多个视图的区域特征结合起来，实现不同路径的中间层之间的交互。对具有挑战性的Kitti基准测试的实验表明，在3D定位和3D检测任务上，我们的方法比最先进的方法快25%和30%。此外，对于二维检测，我们的方法在基于激光雷达的方法中获得了比最新技术高10.3%的AP。

1。介绍

三维目标检测在自主驾驶汽车视觉感知系统中占有重要地位。现代自动驾驶汽车通常配备多个传感器，如激光雷达和摄像头。激光扫描器的优点是深度信息准确，而相机可以保存更详细的语义信息。激光雷达点云图像和RGB图像的融合，应能实现对自驾汽车的更高性能和安全性。本文的重点是利用激光雷达和图像数据进行三维目标检测。我们的目标是高度精确的三维定位和识别物体的道路场景。最新的基于激光雷达的方法将3D窗口放置在3D体素网格中，以对点云进行评分[26，7]或将卷积网络应用于密集盒预测方案中的前视图点地图[17]。基于图像的方法[4，3]通常首先生成3D框建议，然后使用快速RCNN[10]管道执行基于区域的识别。基于激光雷达点云的方法通常可以获得更精确的三维位置，而基于图像的方法在二维盒体评估方面具有更高的精度。[11，8]结合激光雷达和图像进行二维检测，采用早期或晚期融合方案。然而，对于更具挑战性的三维目标检测任务，需要一个设计良好的模型来充分利用多种模态的强度。

本文提出了一种以多模数据为输入，预测三维空间中物体的全三维范围的多视图三维物体检测网络（MV3D）。利用多模信息的主要思想是进行基于区域的特征融合。我们首先提出一个多视点编码方案，以获得一个紧凑和有效的稀疏三维点云表示。如图1所示，多视图三维检测网络由两部分组成：

一个三维提议网络和一个基于区域的融合网络。3D提案网络利用点云的鸟瞰图来生成高精度的3D候选框。三维对象建议的好处在于它可以投影到三维空间中的任何视图。多视图融合网络通过将三维方案从多个视图投影到特征图中来提取区域特征。我们设计了一种深度融合方法，以实现不同视图中中间层的交互。结合跌落路径训练[15]和辅助损耗，我们的方法显示出优于早期/晚期融合方案的性能。在多视图特征表示下，网络进行定向三维盒回归，预测三维空间中物体的精确位置、大小和方向。

我们评估了我们在具有挑战性的Kitti[9]目标检测基准上的3D提案生成、3D定位、3D检测和2D检测任务的方法。实验表明，我们的三维方案明显优于最近的三维方案方法3dop[4]和mono3d[3]。特别是，只有300个方案，我们在联合（IOU）阈值0.25和0.5的交叉口获得99.1%和91%的三维召回。基于激光雷达的变种方法在三维定位任务中的精度提高了25%左右，在三维目标检测任务中的平均精度提高了30%。在Kitti的硬测试集上，它比所有其他基于激光雷达的方法在二维检测方面都强10.3%。当与图像结合时，基于激光雷达的结果将得到进一步的改进。

2. 相关工作

我们简要回顾了从点云和图像、多模式融合方法和三维物体的建议来进行三维物体检测的现有工作。

点云中的三维物体检测。大多数现有的方法都使用体素网格表示对三维点云进行编码。滑动形状[22]和vote3d[26]在使用几何特征编码的三维网格上应用SVM分类器。最近提出的一些方法[23，7，16]改进了3D卷积网络的特征表示，但这需要昂贵的计算。除了三维体素表示之外，velofcn[17]还将点云投影到前视图，从而获得二维点地图。他们在二维点图上应用完全卷积网络，并从卷积特征图中密集预测三维框。【24、18、12】研究三维对象分类的点云的体积和多视图表示。在这项工作中，我们使用多视图特征图对三维点云进行编码，从而实现基于区域的多模融合表示。

图像中的三维物体检测。3DVP[28]引入了三维体素模式，并采用了一组ACF探测器来进行二维检测和三维姿态估计。3DOP[4]从立体图像重建深度，并使用能量最小化方法生成3d盒方案，这些方案被送入R-CNN[10]管道进行对象识别。虽然mono3D[3]与3dop共享相同的管道，但它可以从单目图像生成3D建议。[31，32]介绍了使用三维线框模型的对象的详细几何表示。为了整合时间信息，一些工作[6，21]结合了从运动和地面估计到提升二维检测盒到三维边界盒的结构。基于图像的方法通常依赖于精确的深度估计或地标检测。我们的工作展示了如何结合激光雷达点云，以改善三维定位。

多模融合 在自主驾驶的环境中，只有少数工作可以利用多种数据模式。[11]结合图像、深度和光流，使用混合专家框架进行二维行人检测。[8]融合早期的RGB和深度图像，训练基于姿势的分类器进行二维检测。本文以分形网络[15]和深度融合网络[27]为灵感，设计了一种深度融合方法。在fractalnet中，基模块被迭代地重复，以构造一个路径呈指数增长的网络。同样地，[27]通过组合浅子网和深子网来构造深度融合的网络。我们的网络不同于它们，在每列中使用相同的基础网络，并添加辅助路径和损失以进行正则化。

3D对象建议类似于2D对象建议[25，33，2]，3D对象建议方法生成一组小的3D候选框，以覆盖3D空间中的大多数对象。为此，3DOP[4]在立体点云中设计了一些深度特性，以获得一大组3D候选框。mono3d[3]利用之前的地平面，利用一些分割特征从单个图像生成3d建议。3DOP和Mono3D都使用手工板条箱功能。深度滑动形状[23]利用了更强大的深度学习功能。然而，它在三维体素网格上运行，并使用计算上昂贵的三维卷积。我们提出了一种更有效的方法，通过引入点云的鸟瞰图表示和使用二维卷积生成精确的三维方案。

三。MV3D网络

MV3D网络以三维点云的多视图表示和图像作为输入。它首先从鸟瞰图生成3D对象建议，并通过基于区域的表示方式深度融合多视图功能。融合特征用于分类和定向三维盒回归。

3.1。三维点云表示

现有的工作通常将三维激光雷达点云编码为三维网格[26，7]或前视图地图[17]。虽然三维网格表示保留了点云的大部分原始信息，但通常需要更复杂的计算来进行后续特征提取。我们提出了一种更紧凑的表示方法，将三维点云投影到鸟瞰图和前视图。图2显示了点云表示。

鸟瞰图表示。鸟瞰图的表示是由高度、强度和密度编码的。我们将投影的点云离散为分辨率为0.1米的二维网格。对于每个单元，高度特征被计算为单元中点的最大高度。为了对更详细的高度信息进行编码，点云被等分为m个切片。计算出每片的高度图，得到m高度图。强度特征是每个单元中具有最大高度的点的反射值。点云密度表示每个单元中的点的数量。要规范化该功能，将其计算为min（1:0；日志（n（64）+1）），其中n是单元中的点数。请注意，强度和密度特征是为整个点云计算的，而高度特征是为m切片计算的，因此，总的来说，鸟瞰图被编码为（m+2）-通道特征。

前视图表示。前视图表示为鸟瞰图表示提供补充信息。由于激光雷达点云非常稀疏，将其投影到图像平面会产生稀疏的二维点地图。相反，我们将其投影到一个柱面，以生成一个密集的前视图地图，如[17]所示。给定一个三维点p=（x；y；z），其在前视图地图中的坐标pfv=（r；c）可以使用

在∆θ和∆φ是水平和垂直分辨率的激光束），分别为。在前面的图与三视图编码通道的功能，这是高度，距离和强度，作为对在图2。

3.2。3D提案网络

受区域建议网络（RPN）的启发，该网络已成为最先进的二维物体探测器[19]的关键组成部分，我们首先设计了一个网络来生成三维物体建议。我们使用鸟瞰图作为输入。在三维目标检测中，鸟瞰图比前视图/图像平面有几个优点。首先，当投影到鸟瞰图时，物体保持物理尺寸，因此尺寸变化很小，而在前视图/图像平面中则不是这样。其次，鸟瞰图中的对象占用不同的空间，从而避免了遮挡问题。第三，在道路场景中，由于对象通常位于地平面上，并且垂直位置的变化很小，因此鸟瞰位置对于获得准确的三维边界框更为关键。因此，采用显式鸟瞰图作为输入，使得三维位置预测更加可行。

给出了鸟瞰图。网络从一组三维优先框生成三维框建议。每个3D盒子都由（x；y；z；l；w；h）参数化，这是激光雷达坐标系中3D盒子的中心和尺寸（以米为单位）。对于每个3D先验框，可以通过离散化（x；y；l；w）获得相应的鸟瞰锚（xbv；ybv；lbv；wbv）。通过对训练集中的地面真值对象大小进行聚类，设计了N个三维先验盒。在车辆检测中，（l；w）先验箱取f（3:9；1:6）；（1:0；0:6）g，高度h设为1.56m，旋转鸟瞰锚90度，得到n=4先验箱。（x；y）是鸟瞰图功能图中的不同位置，z可以根据相机高度和对象高度计算。我们不在提案生成中进行定向回归，而将其留给下一个预测阶段。三维框的方向限制为f0 90 g，这接近大多数道路场景对象的实际方向。这种简化使得建议回归的培训变得更容易。

失修分辨率为0.1米，鸟瞰图中的对象框仅占5～40像素。对于深度网络来说，检测如此微小的物体仍然是一个难题。一种可能的解决方案是使用更高的输入分辨率，然而，这将需要更多的计算。我们选择像[1]中所示的特征图升序。在方案网络的最后一个卷积层之后，我们使用2X双线性上采样。在我们的实现中，前端卷积只进行三个池操作，即8x降采样。因此，结合2X反褶积，提供给提案网络的特征地图相对于鸟瞰图输入降低了4X采样。

我们通过回归到t=∆x；∆y；∆z；∆l；∆w；∆h进行三维盒回归，类似于rpn[19]。（∆x；∆y；∆z）是由锚定尺寸归一化的中心偏移，并且（∆l；∆w；∆h）计算为

我们使用多任务丢失来同时对对象/背景进行分类，并进行三维盒回归。特别地，我们使用类熵来表示“对象性”损失，使用平滑的'1[10]来表示三维盒回归损失。计算盒回归损失时忽略背景锚。在训练过程中，我们计算锚点和地面实况鸟瞰图框之间的IOU重叠。如果锚的重叠度高于0.7，则认为锚为正；如果锚的重叠度低于0.5，则认为锚为负。由于激光雷达点云稀疏，导致许多空锚，因此在训练和测试过程中，我们去除了所有空锚，以减少计算量。这可以通过计算点占用地图上的整体图像来实现。

对于最后一个卷积特征图的每个位置上的每个非空锚点，网络生成一个3D框。为了减少冗余，我们在鸟瞰图框上应用非最大抑制（NMS）。与[23]不同，我们没有使用3D NMS，因为物体在地平面上应该占据不同的空间。我们对NMS使用0.7的IOU阈值。前2000个盒子是在培训期间保存的，而在测试中，我们只使用300个盒子。

3.3。基于区域的融合网络

我们设计了一个基于区域的融合网络，可以有效地将多个视图中的特征结合起来，共同对目标方案进行分类，并进行面向对象的三维盒回归。

多视图ROI池。由于来自不同视图/模式的特征通常具有不同的分辨率，我们对每个视图使用ROI池[10]来获得相同长度的特征向量。根据生成的三维建议，我们可以将它们投影到三维空间中的任何视图。在我们的例子中，我们将它们投影到三个视图，即鸟瞰图（bv）、前视图（fv）和图像平面（rgb）。给定一个3D提案p3d，我们通过以下方式获得每个视图的ROI：

在那里，从激光雷达的坐标系统到鸟类的眼景，前景，以及图像平面，在哪里都能得到尊重。

根据每个视图前端网络的输入特征图x，我们通过ROI池获得固定长度的特征fv：

深度融合。为了组合来自不同特征的信息，前期工作通常使用早期融合[1]或晚期融合[23，13]。在[15，27]的启发下，我们采用了一种深度融合方法，将多视图功能分层融合。我们的深度融合网络和早期/晚期融合网络的架构比较如图3所示。对于具有L层的网络，早期融合在输入阶段将来自多个视图的功能ffvg结合在一起：

fhl；l=1；····；l g是特征转换函数，是连接操作（例如连接、求和）。相比之下，后期融合使用单独的子网络独立学习特征转换，并在预测阶段将其输出结合起来：

为了使不同视图的中间层特征之间的交互作用更加明显，我们设计了以下深度融合过程：

我们对深熔合的连接操作使用了元素方式，因为它与熔滴路径训练结合时更灵活[15]。

盒型3D 给定的回归特征融合的多视图的网络，我们从三维方案回归到定向三维方案。尤其是，回归目标是三维框的8个角：t=（∆X0；；∆X7；∆Y0；；∆Y7；∆Z0；∆Z7）。它们被编码为通过建议框的对角线长度归一化的角偏移量。尽管这种24-D矢量表示在表示定向的三维盒时是多余的，但我们发现这种编码方法比中心和大小编码方法更有效。请注意，我们的三维盒回归与[23]不同，后者回归到轴对齐的三维盒。在我们的模型中，可以从预测的三维盒角计算出物体的方向。我们使用多任务损失来联合预测对象类别和定向3D框。与提案网络一样，类别损失使用交叉熵，而3D方框损失使用平滑'1。在培训过程中，根据Brid眼睛观察盒的IOU重叠确定正/负ROI。如果鸟瞰IOU重叠超过0.5，则认为3D建议为正，否则为负。在推理过程中，我们将NMS应用于三维边界框回归后的三维框。我们将3D框投射到鸟瞰图中，以计算它们的IOU重叠。我们使用0.05的IOU阈值来移除多余的盒子，这样可以确保物体在鸟瞰图中不会占据相同的空间。

网络规范化我们采用两种方法来规范基于区域的融合网络：跌落路径训练[15]和辅助损耗。对于每个迭代，我们随机选择全局放置路径或局部放置路径，概率为50%。如果选择全局放置路径，我们将从三个概率相等的视图中选择一个视图。如果选择本地放置路径，则以50%的概率随机删除输入到每个连接节点的路径。我们确保每个连接节点至少保留一个输入路径。为了进一步增强每个视图的表示能力，我们在网络中添加了辅助路径和损耗。如图4所示，辅助路径与主网络具有相同的层数。辅助路径中的每个层与主网络中的相应层共享权重。我们使用相同的多任务损失，即分类损失加上三维盒回归损失，来反向传播每个辅助路径。我们对包括辅助损失在内的所有损失进行平均加权。在推理过程中会删除辅助路径。

3.4。实施

网络架构。在我们的多视图网络中，每个视图都有相同的体系结构。基础网络构建在16层VGG网络[20]上，并进行以下修改：

•信道减少到原始网络的一半。

•为了处理超小型物体，我们使用特征近似法获得高分辨率特征图。特别是，我们在将最后一个卷积特征图输入到3D提案网络之前插入一个2X双线性上采样层。同样，我们在bv/fv/rgb分支的ROI池层之前插入一个4x/4x/2x上采样层。

•我们删除了原始VGG网络中的第4个池操作，因此我们网络的卷积部分进行8次降采样。

•在多视图融合网络中，除了最初的F C6和F C7层之外，我们还添加了一个额外的完全连接层F C8。

我们通过对图像网预训练的VGG-16网络进行加权采样来初始化参数。尽管我们的网络有三个分支，但参数的数量约为VGG-16网络的75%。在Geforce Titan x GPU上，一幅图像的网络推断时间约为0.36s。

输入表示。在Kitti的例子中，它只为前视图中的对象提供注释（大约90视场），我们使用[0，70.4]×40，40]米范围内的点云。当投影到图像平面时，我们也会删除超出图像边界的点。对于鸟瞰图，离散化分辨率设置为0.1米，因此鸟瞰图输入的大小为704×800。由于Kitti使用64束Velodyne激光扫描仪，我们可以获得64×512的前视图点地图。RGB图像是按比例放大的，因此最短的大小是500。

培训。该网络以端到端的方式进行培训。对于每个小批量，我们使用1张图像和128个ROI样本，大致保持25%的ROI为正。我们使用学习率为0.001的SGD对网络进行100K迭代训练。然后我们将学习率降低到0.0001，并训练另外的20K迭代。

4。实验

我们在具有挑战性的Kitti对象检测基准上评估我们的MV3D网络[9]。数据集提供7481张用于培训的图像和7518张用于测试的图像。由于测试服务器只评估二维检测，所以我们按照[4]将训练数据分为训练集和验证集，每个训练集大约包含整个训练数据的一半。我们对验证集进行三维盒评估。我们将实验重点放在汽车类别上，因为Kitti为我们基于深度网络的方法提供了足够的汽车实例。在Kitti设置之后，我们对三种困难状态进行评估：简单、中等和困难。

韵律学。我们使用三维框调用作为度量来评估三维对象建议。与二维盒回忆[14]不同，我们计算了两个长方体的IOU重叠。注意，长方体不需要与轴对齐，也就是说，它们可以是面向三维框的。在我们的评估中，我们将3D IOU阈值分别设置为0.25和0.5。对于最终的三维检测结果，我们使用两个指标来测量三维定位和三维边界框检测的精度。对于3D定位，我们将3D框投影到地平面（即鸟瞰图），以获得定向鸟瞰框。我们计算了鸟瞰图框的平均精度。对于三维边界框检测，我们还使用平均精度（AP3D）度量来评估整个三维边界框。请注意，鸟瞰图框和三维框都是定向的，因此在这两个度量中隐式地考虑了对象方向。我们还通过将三维盒投影到图像平面来评估二维检测的性能。平均值（ap2d）也用作度量标准。按照Kitti惯例，对于二维框，IOU阈值设置为0.7。

基线。由于这项工作的目标是三维物体检测，我们主要比较了我们的方法与基于激光雷达的方法Velofcn[17]、3d fcn[16]、Vote3deep[7]和Vote3d[26]以及基于图像的方法3dop[4]和Mono3d[3]。为了进行公平的比较，我们将重点放在我们方法的两个变体上，即使用鸟瞰图和前视图作为输入（bv+fv）的基于激光雷达的纯变体，以及结合激光雷达和RGB数据（bv+fv+rgb）的多模式变体。对于3D盒评估，我们将其与VelofCN、3DOP和Mono3D进行比较，因为它们提供了验证集的结果。对于没有公开结果的3dfcn、vote3deep和vote3d，我们只对测试集的2d检测进行比较。

3D提案召回。图5所示为三维盒子调用。我们使用300个提案将召回作为IOU阈值的函数。我们的方法在所有IOU阈值上显著优于3DOP[4]和Mono3D[3]。图5还显示了在IOU阈值分别为0.25和0.5的情况下，作为提案编号函数的3D调用。仅使用300个提案，我们的方法在IOU阈值为0.25时获得99.1%的召回，在IOU阈值为0.5时获得91%的召回。相反，当使用0.5的IOU时，3DOP的最大召回率仅为73.9%。巨大的利润表明我们基于激光雷达的方法比基于图像的方法的优势。

3D定位。我们使用0.5和0.7的IOU阈值进行3D定位评估。表1显示了Kitti验证集上的aploc。正如预期的那样，所有基于激光雷达的方法都比基于立体的方法3dop[4]和单目方法mono3d[3]表现得更好。在基于激光雷达的方法中，在IOU阈值为0.5的情况下，我们的方法（bv+fv）优于velofcn[17]的~25%APLOC。当使用IOU=0.7作为标准时，我们的改进更大，在容易、中等和困难的情况下，APLOC提高了～45%。通过与RGB图像的结合，我们的方法得到了进一步的改进。我们将图6中的一些示例的定位结果可视化。

三维物体检测。对于三维重叠标准，我们将重点放在基于激光雷达方法的0.5和0.7的三维IOU上。由于这些IOU阈值对基于图像的方法相当严格，因此我们也使用0.25的IOU进行评估。如表2所示，当使用0.5的IOU时，我们的“bv+fv”方法的ap3d比velofcn高出~30%，在中等设置下达到了87.65%的ap3d。在IOU=0.7的条件下，我们的多模式方法仍然可以在简单数据上实现71.29%的AP3D。在中等设置下，使用IOU=0.25的3DOP所能达到的最佳AP3D为68.82%，而我们的方法是使用IOU=0.5的AP3D达到89.05%。一些三维检测结果如图6所示。

消融研究。我们首先将深度融合网络与早期/晚期融合方法进行比较。与文献中常用的一样，连接操作在早期/晚期融合方案中通过连接进行实例化。如表3所示，早期和晚期融合方法具有非常相似的性能。在不使用辅助损耗的情况下，深度融合方法比早期和晚期融合方法提高了～0.5%。附加附加损耗进一步提高了深度融合网络的1%左右。

为了研究不同视角下特征的贡献，我们对鸟瞰图（BV）、前视图（FV）和RGB图像（RGB）的不同组合进行了实验。所有变体的3D提案网络都相同。详细比较见表4。如果只使用一个视图作为输入，鸟瞰图功能的效果最好，而前视图功能的效果最差。组合这两个视图中的任何一个都可以改进单个视图。这证明了我们的假设，即来自不同观点的特征是互补的。在融合所有三个视图的特性时，可以获得最佳的总体性能。

二维物体检测。最后对基蒂测试集的二维检测性能进行了评价。结果如表5所示。在基于激光雷达的方法中，我们的“bv+fv”方法比最近提出的3dfcn[16]方法在硬设置下的ap2d高10.31%。总的来说，基于图像的方法在二维检测方面通常比基于Lidarbased的方法性能更好。这是因为基于图像的方法直接优化二维盒，而基于激光雷达的方法优化三维盒。请注意，尽管我们的方法优化了3D盒，但与最先进的二维检测方法相比，它也获得了具有竞争力的结果。定性结果。如图6所示，与基于立体的方法3dop[4]和基于激光雷达的方法velofcn[17]相比，我们的方法获得了更精确的三维位置、大小和物体的方向。

5。结论

提出了一种用于道路场景中三维目标检测的多视图感觉融合模型。我们的模型利用了激光雷达点云和图像。我们通过生成三维建议并将其投影到多个视图中以进行特征提取，来对齐不同的模式。提出了一种基于区域的融合网络，实现了多视图信息的深度融合和面向对象的三维盒回归。我们的方法在Kitti基准测试的3D定位和3D检测任务上显著优于现有的基于Lidarbase和图像的方法[9]。我们从三维检测中获得的二维盒结果与最先进的二维检测方法相比，也显示出竞争性的性能。

knowledge。国家重点基础研究计划（2016YFB0100900号）和国家自然科学基金61171113资助。

References
[1] Z. Cai, Q. Fan, R. Feris, and N. Vasconcelos. A unified multi-scale deep convolutional neural network for fast object detection. In ECCV, 2016. 4, 5, 7
[2] J. Carreira and C. Sminchisescu. Cpmc: Automatic object segmentation using constrained parametric min-cuts. PAMI, 34(7):1312–1328, 2012. 3
[3] X. Chen, K. Kundu, Z. Zhang, H. Ma, S. Fidler, and R. Urtasun. Monocular 3d object detection for autonomous driving.In CVPR, 2016. 1, 2, 3, 6, 7
[4] X. Chen, K. Kundu, Y. Zhu, A. Berneshawi, H. Ma, S. Fidler, and R. Urtasun. 3d object proposals for accurate object class detection. In NIPS, 2015. 1, 2, 3, 6, 7, 8
[5] X. Chen, K. Kundu, Y. Zhu, H. Ma, S. Fidler, and R. Urtasun. 3d object proposals using stereo imagery for accurate object class detection. In PAMI, 2017. 6
[6] V. Dhiman, Q. H. Tran, J. J. Corso, and M. Chandraker. A continuous occlusion model for road scene understanding. In CVPR, pages 4331–4339, 2016. 2
[7] M. Engelcke, D. Rao, D. Zeng Wang, C. Hay Tong, and I. Posner. Vote3Deep: Fast Object Detection in 3D Point Clouds Using Efficient Convolutional Neural Networks. arXiv:1609.06666, 2016. 1, 2, 3, 7
[8] M. Enzweiler and D. M. Gavrila. A multilevel mixture-ofexperts framework for pedestrian classification. IEEE Transactions on Image Processing, 20(10):2967–2979, 2011. 1, 2
[9] A. Geiger, P. Lenz, and R. Urtasun. Are we ready for autonomous driving? the kitti vision benchmark suite. In CVPR, 2012. 1, 6, 8
[10] R. Girshick. Fast R-CNN. In ICCV, 2015. 1, 2, 4
[11] A. Gonzalez, D. Vazquez, A. Lopez, and J. Amores. Onboard object detection: Multicue, multimodal, and multiview random forest of local experts. In IEEE Transactions on Cybernetics, 2016. 1, 2
[12] V. Hegde and R. Zadeh. Fusionnet: 3d object classification using multiple data representations. CoRR, abs/1607.05695, 2016. 2
[13] J. Hoffman, S. Gupta, and T. Darrell. Learning with side information through modality hallucination. In CVPR, 2016.5
[14] J. Hosang, R. Benenson, P. Dollar, and B. Schiele. What ´makes for effective detection proposals? PAMI, 2015. 6 [15] G. Larsson, M. Maire, and G. Shakhnarovich. Fractalnet: Ultra-deep neural networks without residuals. arXiv:1605.07648, 2016. 1, 2, 5
[16] B. Li. 3d fully convolutional network for vehicle detection in point cloud. IROS, 2017. 2, 7, 8
[17] B. Li, T. Zhang, and T. Xia. Vehicle detection from 3d lidar using fully convolutional network. In Robotics: Science and Systems, 2016. 1, 2, 3, 6, 7, 8
[18] C. R. Qi, M. N. H. Su, A. Dai, M. Yan, and L.Guibas. Volumetric and multi-view cnns for object classification on 3d data. In CVPR, 2016. 2
[19] S. Ren, K. He, R. Girshick, and J. Sun. Faster R-CNN: Towards real-time object detection with region proposal networks.In NIPS, 2015. 3, 4, 7
[20] K. Simonyan and A. Zisserman. Very deep convolutional networks for large-scale image recognition. In arXiv:1409.1556, 2014. 6
[21] S. Song and M. Chandraker. Joint sfm and detection cues for monocular 3d localization in road scenes. In Computer Vision and Pattern Recognition, pages 3734–3742, 2015. 2
[22] S. Song and J. Xiao. Sliding shapes for 3d object detection in depth images. In ECCV. 2014. 2
[23] S. Song and J. Xiao. Deep sliding shapes for amodal 3d object detection in rgb-d images. In CVPR, 2016. 2, 3, 4, 5
[24] H. Su, S.Maji, E.Kalogerakis, and E. Learned-Miller. Multiview convolutional neural networks for 3d shape recognition. In ICCV, 2015. 2
[25] K. Van de Sande, J. Uijlings, T. Gevers, and A. Smeulders. Segmentation as selective search for object recognition. In ICCV, 2011. 3
[26] D. Z. Wang and I. Posner. Voting for voting in online point cloud object detection. In Proceedings of Robotics: Science and Systems, 2015. 1, 2, 3, 7
[27] J. Wang, Z. Wei, T. Zhang, and W. Zeng. Deeply-fused nets. arXiv:1605.07716, 2016. 2, 5
[28] Y. Xiang, W. Choi, Y. Lin, and S. Savarese. Data-driven 3d voxel patterns for object category recognition. In CVPR, 2015. 2
[29] Y. Xiang, W. Choi, Y. Lin, and S. Savarese. Subcategoryaware convolutional neural networks for object proposals and detection. In arXiv:1604.04693. 2016. 7
[30] F. Yang, W. Choi, and Y. Lin. Exploit all the layers: Fast and accurate cnn object detector with scale dependent pooling and cascaded rejection classifiers. In CVPR, 2016. 7
[31] M. Z. Zia, M. Stark, B. Schiele, and K. Schindler. Detailed 3d representations for object recognition and modeling. PAMI, 2013. 2
[32] M. Z. Zia, M. Stark, and K. Schindler. Are cars just 3d boxes? jointly estimating the 3d shape of multiple objects. In CVPR, pages 3678–3685, 2014. 2
[33] L. Zitnick and P. Dollar. Edge boxes: Locating object pro- ´ posals from edges. In ECCV. 2014. 3