首页 > 编程入门文章详情

MVFusion: Multi

编程入门行业动态更新时间:2024-10-21 04:17:35

MVFusion: <a href=https://www.elefans.com/category/jswz/34/1769658.html style= Multi"/>

MVFusion: Multi

这是纵目科技和复旦大学发表在ICRA2023上的文章：.10511

一、目的和创新点

Present a novel multi-view radar-camera fusion method to achieve semantic-aligned radar features and enhance the cross-modal information interaction from the global scope.

1. 提出了一个多相机+radar的3D目标融合检测方案

2. 提出了两个新结构：SARE (Semantic-aligned radar radar encoder)和RGFT（radar-guided fusion transformer); SARE通过视觉语义特征对radar数据进行对齐；RGFT：使用互注意力机制从全局视角对增强后的radar特征和高层级视觉特征进行融合；这两个模块把noisy的radar数据用起来，融合好。

3. nuScenes排名靠前，代码准备开源

二、精度

三、实现

radar数据前处理：拉伸成pillar，投影到对应的图片上，每个pixel 五个channel: 0/1 mask, RCS, 距离，x方向速度， y方向速度。

image encoder: 正常的骨干网络，文中用了resnet和VoVNetV2

SARE: 图像feature 通过DeConv山采样，和预处理之后的radar数据concat, 然后通过self-attention进行增强

RGFT: 用增强后的radar feature concat上图片feature做query, 用图片feature 做key, value，进行cross attention融合；

detection network参考PETR

四、消融实验

注意Table V 中，如果只用radar feature做feature，训练时会exploding gradient，不稳定

五、重要参考文献

(2019, sdf) A Deep Learning-based Radar and Camera Sensor Fusion Architecture for Object Detection

(2022, eccv) PETR: Position embedding transformation for multi-view 3d object detection

更多推荐

MVFusion: Multi

本文发布于:2024-03-12 17:17:06，感谢您对本站的认可！

本文链接:https://www.elefans.com/category/jswz/34/1732007.html

版权声明:本站内容均来自互联网，仅供演示用，请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系，我们将在24小时内删除。

MVFusion Multi

上一篇：关于bit3的笔试题
下一篇： “政会银企”齐聚纵目科技，探索四方合作新模式

发布评论取消回复

评论列表（有 0 条评论）

热门文章