Occupancy占据网络论文讲解与分析

编程入门 行业动态 更新时间:2024-10-14 22:20:31

Occupancy占据网络<a href=https://www.elefans.com/category/jswz/34/1770125.html style=论文讲解与分析"/>

Occupancy占据网络论文讲解与分析

一、MonoScene

1.概要

a.使用单目相机,不用深度估计和点云来实现占据网络。

b.提出了一种2D-3D的一种转换方法。

c.在3D-unet底部加入3DCRP来捕获长距离的一个信息。

2.模型结构 

图像先经过一个2D的unet结构,这里论文里用的预训练的EfficientNet,然后经过一个论文里提出的FLOSP模块,从2D到3D,不过是一个多尺度的投影,再上采样concate。这里的转换模块个人感觉和FastBEV一样。后续3Dunet是一个简单的编解码网络,加入了空洞卷积和作者提出的一个3DCRP的结构。最后加入一个head完成多类别的一个语义分割 。

3.2D到3D转换(FLoSP)

说实话我感觉这个和FastBEV一样,这个多尺度的图片投影到不同的尺度的3D体素中,然后再聚合不同尺度的3D特征。 

4.3D CRP

因为语义分割场景高度依赖于上下文的一个关系,所以论文里在3Dunet底部加入了一个CRP的结构,从而为网络提供了一个全局的感受野。这里因为全局语义分割存在极度的不均衡,所以单纯的二分类其实是次要的,论文里提出了体素与体素之间的一个关系,从而增强模型的上下文之间的关联。这里怎么划分体素之间的关系我有点看不懂原文的描述,原文这里很乱。

二、 VoxFormer

1.摘要

a.提出一种两阶段的框架,使用图像生成完整的3D体素化语义场景。

b.预测图像深度,再生成稀疏的体素,使用transformer进一步得到完整的体素语义场景 。

2.模型结构

 

 先对图像的特征进行提取,同时对其深度也进行估计,根据相机内外参投影到体素里,得到一个稀疏的Q,这个Q与图像特征进行交叉注意力机制,加上mask token后再做一个自注意力的操作,最后上采样做多类别语义分割。 

更多推荐

Occupancy占据网络论文讲解与分析

本文发布于:2023-12-06 07:35:04,感谢您对本站的认可!
本文链接:https://www.elefans.com/category/jswz/34/1666887.html
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。
本文标签:论文   网络   Occupancy

发布评论

评论列表 (有 0 条评论)
草根站长

>www.elefans.com

编程频道|电子爱好者 - 技术资讯及电子产品介绍!