mmdetection3d

编程入门行业动态更新时间:2024-10-28 06:22:15

mmdetection3d

本内容分为两部分

1. waymo数据集转KITTI格式
2. FCOS3D训练KITTI格式的waymo数据集

1 waymo数据集转kitti格式

1.1 waymo数据集简介

1.1.1 waymo数据集下载

waymo数据集v1.2.0可以从这里下载。其中，train（32个压缩包），test（8个压缩包），val（8个压缩包）。这里的文件都是压缩包，每个都有20个G左右。

如果不想下载压缩包，可以下载解压好individual的segments。

waymo数据集的解析代码在这里，可以按照demo进行解析与可视化。GitHub - waymo-research/waymo-open-dataset: Waymo Open Dataset

1.1.2 waymo数据集分析

waymo(v1.2.0)数据集包含train（32个压缩包），test（8个压缩包），val（8个压缩包）。每个压缩包解压得到24个左右的tfrecord文件。一个tfrecord文件中包含20s的连续驾驶画面，具有199帧数据，是连续时间段的数据帧，一帧中包含了车上所有传感器的数据以及相应的label，连续镜头内容可以使得研究人员开发模型来跟踪和预测其他道路使用者的行为。

下图是一帧5个相机的画面：

解析指导参考这里：Waymo数据集解析_waymo筛选前向雷达标签_ARIC_TXB的博客-CSDN博客

1.2 waymo转kitti格式

我这里使用的是mmdetection3d的master分支,

准备工作

1. 创建waymo-kitti/kitti_format文件夹，用于将waymo数据集转到kitti数据集。

2. 将 ImageSets 放到waymo-kitti2/kitti_format/文件夹下

step1.

pip install waymo-open-dataset-tf-2-5-0

step2 run create_data.py

1.3 waymo数据集中的坐标系

内参|原点_Waymo dataset+mmdet3d的坐标系问题

问题记录

问1 ：frame_based、mv_image_based、fov_image_based分别是什么意思？

答：frame_based会使用周视的雷达数据，mv_image_based使用多个视角的camera图像，fov_image_based只是用一个默认视角的图像，可以理解为使用前视角

问2：报错内容“ BaseMono3DDenseHead.loss() - bboxes (:obj:`BaseInstance3DBoxes`): Contains a tensor with shape (num_instances, C), the last dimension C of a 3D box is (x, y, z, x_size, y_size, z_size, yaw, ...), where C >= 7. C = 7 for kitti and C = 9 for nuscenes with extra 2 dims of velocity.

答：nuscenes数据集的label有9个项目，最后两个是速度，而kitti和waymo是没有的，所以需要将初始化数据集类属性为7

问3：报错的原因在于 instances[0].keys() 中没有 attr_label ，这是不对的，框没有类别！这个attr_label标识的是nuscence数据集中，目标的运动属性，运动、停止、等。kitti和waymo是没有的，所以，将代码屏蔽，同时关闭属性预测功能。
train_pipeline = [dict(type='LoadImageFromFileMono3D'),dict(type='LoadAnnotations3D',with_bbox=True,with_label=True,with_attr_label=False,with_bbox_3d=True,with_label_3d=True,with_bbox_depth=True),
这样，就不会执行这一句【】
# mmdet3d/datasets/pipeline/loading.LoadAnnotations3D.__call__（）
if self.with_attr_label:results = self._load_attr_labels(results)