Occupancy占据网络论文讲解与分析

编程入门行业动态更新时间:2024-10-14 22:20:31

Occupancy占据网络<a href=https://www.elefans.com/category/jswz/34/1770125.html style= 论文讲解与分析"/>

Occupancy占据网络论文讲解与分析

一、MonoScene

1.概要

a.使用单目相机，不用深度估计和点云来实现占据网络。

b.提出了一种2D-3D的一种转换方法。

c.在3D-unet底部加入3DCRP来捕获长距离的一个信息。

2.模型结构

图像先经过一个2D的unet结构，这里论文里用的预训练的EfficientNet，然后经过一个论文里提出的FLOSP模块，从2D到3D，不过是一个多尺度的投影，再上采样concate。这里的转换模块个人感觉和FastBEV一样。后续3Dunet是一个简单的编解码网络，加入了空洞卷积和作者提出的一个3DCRP的结构。最后加入一个head完成多类别的一个语义分割。

3.2D到3D转换(FLoSP)

说实话我感觉这个和FastBEV一样，这个多尺度的图片投影到不同的尺度的3D体素中，然后再聚合不同尺度的3D特征。

4.3D CRP

因为语义分割场景高度依赖于上下文的一个关系，所以论文里在3Dunet底部加入了一个CRP的结构，从而为网络提供了一个全局的感受野。这里因为全局语义分割存在极度的不均衡，所以单纯的二分类其实是次要的，论文里提出了体素与体素之间的一个关系，从而增强模型的上下文之间的关联。这里怎么划分体素之间的关系我有点看不懂原文的描述，原文这里很乱。