admin管理员组文章数量:1602103
Paper name
HDMapNet: An Online HD Map Construction and Evaluation Framework
Paper Reading Note
URL: https://arxiv/pdf/2107.06307.pdf
TL;DR
- HDMapNet 编码环视相机 and/or 雷达点云,预测 BEV 视角下的向量化地图元素,所提出的方法不是用来替代传统的全局高精地图,而是提供一个预测局部语义地图的简单方案,用于实时的运动预测和规划
Introduction
- 高精地图在自动驾驶领域有广泛应用,但是传统的高精地图构建需要大量的人工参与标注,本文提出一种根据端上 sensor 采集数据自耦东构建局部地图的方法 HDMapNet
- 传统构建高精地图一般是先基于激光雷达采集点云信息,然后基于 SLAM 构建全局一致的地图,利用人工标注地图中的语义信息
- 所提出的方法不是用来替代传统的全局高精地图,而是提供一个预测局部语义地图的简单方案,用于实时的运动预测和规划
- HDMapNet 编码环视相机 and/or 雷达点云,预测 BEV 视角下的向量化地图元素
- 提出了一种 sematic-level 和 instance-level metric 用于评估地图学习的性能
Dataset/Algorithm/Model/Experiment Detail
实现方式
- 模型输入为单帧rgb图片、雷达点云,输出为预测的向量化地图元素(车道分隔线,车道边界,人行横道),模型分为四个主要模块
- Perspective view image encoder:对于环视图片逐个提取图像特征
- Neural view transformer:将图片特征转换到相机坐标系下,然后组转换到 BEV 视角,其中转换 perspective view 到 camera coodinate 下的方式使用过一个全连接层实现
然后通过相机外参将相机坐标系下特征转换到 BEV 视角(车辆坐标系)下的特征;最终的图像特征是将所有环视图像的 BEV 视角特征加起来 - Point cloud encoder:使用了增加 dynamic voxelization 的PointPillar 的变种,将 3d space 分割为多个柱状空间,然后对柱状空间的点云提取 pillar-wise 特征,对于每个点的输出为 K+3(特征维度K + 三维位置信息3);将提取的特征投影到 BEV 视角下,因为多个点可能会被投影到同一个圆柱空间中,所以这里使用了 PointNet 聚合点特征到圆柱特征;最后通过一个卷积网络提取特征
- Bird’s-eye view decoder:输入是 BEV 下的图像 and/or BEV 下的点云特征(concat),bev decoder 输出车道线的语义分割,同时还会预测 instance embedding 和 semantic segmentation,分别是由三个 FCN 分支得到
- decoder 训练
- Semantic prediction:语义分割基于 cross-entropy loss
- Instance embedding:将 BEV 下的 embedding 进行聚类,主要是在距离和方差层面计算聚类的损失,提升类内紧凑性和类间区分度,其中 C 是真值中的聚类数,Nc 是 c 类别中的元素数量,uc 是 c 类别的 mean embedding,
δ
\delta
δ 是定义的 margin
- Direction prediction:预测每个车道线中每个像素的朝向,朝向转换为一个圆形空间中离散后的方向表示,正向和反向的方向在训练中设置为1,其他的方向设置为0。
- 测试阶段
- Vectorization:首先预测 BEV 下的车道线语义分割,然后基于Density-Based Spatial Clustering of Applications with Noise (DBSCAN) 进行 instance embedding 聚类,然后经过 nms 去除冗余预测,最后通过预测的车道线的像素朝向将车道线表示成向量
实验结果
评估设置
- semantic metrics
- Eulerian metrics:基于 IOU 进行密集评测像素层面的评测
- Lagrangian metrics:基于 chamfer 距离评估车道线边缘上的采样点,从而评估 shape 的差异
- Eulerian metrics:基于 IOU 进行密集评测像素层面的评测
- Instance metrics:基于 Chamfer distance 的预设定阈值,低于该阈值的判断为一个正确的 instance,否者是 fp
nuscenes 数据集实验
- 可视化对比,IPM 是在perspective 图像上预测然后将地图分割结果转换到 BEV 下, IPM(B) 是直接在 BEV 下进行分割预测,IPM(CB) 是perspective图像上提取特征然后在 BEV 下进行分割预测,Lift-Splat-Shoot 是基于深度估计的结果将2d图像映射到3d点云(最后映射到车辆坐标系),VPN 是一种以及 view transformeation module 的方法;- HDMapNet(Surr), HDMapNet(LiDAR), HDMapNet(Fusion) 是本文的方法,分别代表仅使用环视图片输入、仅使用雷达点云输入、同时使用环视图片和雷达点云输入
- 定量对比实验,可以看出 fusion(同时使用图像和激光雷达)有最佳结果(超过 baseline或者仅使用 camera 数据 50% 左右),另外不同模态数据可能有各自擅长的任务
- temporal fusion:基于 ego poses 拼接时序上的特征,经过 maxpooling 后送入 decoder,时序 fusion 能够提升 iou
Thoughts
- 提供的局部地图构建方法虽然大部分模块都是复用之前工作,但系统性很强,训练评测都提出了针对性的优化
- 多模态融合的精度提升非常明显
本文标签: HDOnlineHDMapNetmapFramework
版权声明:本文标题:HDMapNet: An Online HD Map Construction and Evaluation Framework 内容由热心网友自发贡献,该文观点仅代表作者本人, 转载请联系作者并注明出处:https://www.elefans.com/dongtai/1728396093a1157022.html, 本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容,一经查实,本站将立刻删除。
发表评论