Multi"/>
MVFusion: Multi
这是纵目科技和复旦大学发表在ICRA2023上的文章:.10511
一、目的和创新点
Present a novel multi-view radar-camera fusion method to achieve semantic-aligned radar features and enhance the cross-modal information interaction from the global scope.
1. 提出了一个多相机+radar的3D目标融合检测方案
2. 提出了两个新结构:SARE (Semantic-aligned radar radar encoder)和RGFT(radar-guided fusion transformer); SARE通过视觉语义特征对radar数据进行对齐;RGFT:使用互注意力机制从全局视角对增强后的radar特征和高层级视觉特征进行融合;这两个模块把noisy的radar数据用起来,融合好。
3. nuScenes排名靠前,代码准备开源
二、精度
三、实现
radar数据前处理:拉伸成pillar,投影到对应的图片上,每个pixel 五个channel: 0/1 mask, RCS, 距离,x方向速度, y方向速度。
image encoder: 正常的骨干网络,文中用了resnet和VoVNetV2
SARE: 图像feature 通过DeConv山采样,和预处理之后的radar数据concat, 然后通过self-attention进行增强
RGFT: 用增强后的radar feature concat上图片feature做query, 用图片feature 做key, value,进行cross attention融合;
detection network参考PETR
四、消融实验
注意Table V 中,如果只用radar feature做feature,训练时会exploding gradient,不稳定
五、重要参考文献
(2019, sdf) A Deep Learning-based Radar and Camera Sensor Fusion Architecture for Object Detection
(2022, eccv) PETR: Position embedding transformation for multi-view 3d object detection
更多推荐
MVFusion: Multi
发布评论