成功检测远距离目标，将点云与RGB图像结合，谷歌&Waymo提出新算法：4D-Net|电子爱好者

admin管理员组
文章数量:1643202

本文选自Google Blog，作者：AJ Piergiovanni 等

转自机器之心

编辑：陈萍、杜伟

来自谷歌的研究者提出了一种利用 3D 点云和 RGB 感知信息的 3D 物体检测方法：4D-Net。4D-Net 能够更好地使用运动线索和密集图像信息，成功地检测遥远的目标。

如今自动驾驶汽车和机器人能够通过激光雷达、摄像头等各种传感捕获信息。作为一种传感器，LiDAR 使用光脉冲测量场景中目标的 3D 坐标，但是其存在稀疏、范围有限等缺点——离传感器越远，返回的点就越少。

这意味着远处的目标可能只得到少数几个点，或者根本没有，而且可能无法单独被 LiDAR 采集到。同时，来自车载摄像头的图像输入非常密集，这有利于检测、目标分割等语义理解任务。凭借高分辨率，摄像头可以非常有效地检测远处目标，但在测量距离方面不太准确。

自动驾驶汽车从 LiDAR 和车载摄像头传感器收集数据。每个传感器测量值都会被定期记录，提供 4D 世界的准确表示。然而，很少有研究算法将这两者结合使用。当同时使用两种传感模式时会面临两个挑战

1) 难以保持计算效率

2) 将一个传感器的信息与另一个传感器配对会进一步增加系统复杂性，因为 LiDAR 点和车载摄像头 RGB 图像输入之间并不总是直接对应。

在发表于 ICCV 2021 的论文《 4D-Net for Learned Multi-Modal Alignment 》中，来自谷歌、Waymo 的研究者提出了一个可以处理 4D 数据（3D 点云和车载摄像头图像数据）的神经网络：4D-Net。

这是首次将 3D LiDAR 点云和车载摄像头 RGB 图像进行结合的研究。此外，谷歌还介绍了一种动态连接学习方法。最后，谷歌证明 4D-Net 可以更好地使用运动线索（motion cues）和密集图像信息来检测远处目标，同时保持计算效率。

论文地址：https://openaccess.thecvf/content/ICCV2021/papers/Piergiovanni_4D-Net_for_Learned_Multi-Modal_Alignment_ICCV_2021_paper.pdf

▊ 4D-Net

谷歌使用 4D 输入进行目标 3D 边框检测。4D-Net 有效地将 3D LiDAR 点云与 RGB 图像及时结合，学习不同传感器之间的连接及其特征表示。

谷歌使用轻量级神经架构搜索来学习两种类型的传感器输入及其特征表示之间的联系，以获得最准确的 3D 框检测。在自动驾驶领域，可靠地检测高度可变距离的目标尤为重要。

现代 LiDAR 传感器的检测范围可达数百米，这意味着更远的目标在图像中会显得更小，并且它们最有价值的特征将在网络的早期层中，与后面的层表示的近距离目标相比，它们可以更好地捕捉精细尺度的特征。

基于这一观察，谷歌将连接修改为动态的，并使用自注意力机制在所有层的特征中进行选择。谷歌应用了一个可学习的线性层，它能够将注意力加权应用于所有其他层的权重，并学习当前任务的最佳组合。

连接学习方法示意图。

▊ 结果

谷歌在 Waymo Open Dataset 基准中进行了测试，之前的模型只使用了 3D 点云，或单个点云和相机图像数据的组合。4D-Net 有效地使用了两种传感器输入，在 164 毫秒内处理 32 个点云和 16 个 RGB 帧，与其他方法相比性能良好。相比之下，性能次优的方法效率和准确性较低，因为它的神经网络计算需要 300 毫秒，而且比 4D-Net 使用更少的传感器输入。

3D 场景的结果。上图：与检测到的车辆相对应的 3D 框以不同颜色显示；虚线框代表丢失的目标。底部：出于可视化目的，这些框显示在相应的摄像机图像中。

检测远处的目标

4D-Net 的另一个优点是，它既利用了 RGB 提供的高分辨率，可以准确地检测到图像上的目标，又利用了点云数据提供的精确深度。因此，点云方法无法探测到的远距离目标可以被 4D-Net 探测到。这是由于相机数据的融合，能够探测到遥远的目标，并有效地将这一信息传播到网络的 3D 部分，以产生准确的探测。

为了了解 4D-Net 带来的优势，谷歌进行了一系列消融研究。实验发现，如果至少有一个传感器输入是及时流的，则可以显着提高检测准确率。及时考虑两个传感器输入可以最大程度地提高性能。

使用点云 (PC)、时间点云 (PC + T)、RGB 图像输入 (RGB) 和时间 RGB 图像 (RGB + T) 时，以平均精度 (AP) 测量 3D 目标检测的 4D-Net 性能。

▊ 多流 4D-Net

由于 4D-Net 动态连接学习机制是通用的，因此谷歌并没有局限于仅将点云流与 RGB 视频流结合起来。实际上，谷歌发现提供一个高分辨率单图像流以及一个与 3D 点云流输入结合的低分辨率视频流非常划算。因此，谷歌在下图中展示了四流（four-stream）架构的示例，该架构比具有实时点云和图像的两流架构性能更好。

动态连接学习选择特定的特征输入以连接在一起。依托多个输入流，4D-Net 必须学习多个目标特征表示之间的连接，这一点很好理解，因为算法没有改变并且只需要从输入中选择特定的特征。这是一个使用可微架构搜索的轻量级过程，可以发现模型架构内部新的连接，并进而高效地找到新的 4D-Net 模型。

多流 4D-Net 架构包含一个实时 3D 点云流以及多个图像流（高分辨率单图像流、中分辨率单图像流和更低分辨率视频流图像）。

谷歌展示了 4D-Net 是一种高效的目标检测方法，尤其适合检测远距离目标。研究者希望这项工作为未来的 4D 数据研究提供珍贵的资源。

原文链接：

https://ai.googleblog/

本文仅做学术分享，如有侵权，请联系删文。

3D视觉精品课程推荐：

1.面向自动驾驶领域的多传感器数据融合技术

2.面向自动驾驶领域的3D点云目标检测全栈学习路线！(单模态+多模态/数据+代码)
3.彻底搞透视觉三维重建：原理剖析、代码讲解、及优化改进
4.国内首个面向工业级实战的点云处理课程
5.激光-视觉-IMU-GPS融合SLAM算法梳理和代码讲解
6.彻底搞懂视觉-惯性SLAM：基于VINS-Fusion正式开课啦
7.彻底搞懂基于LOAM框架的3D激光SLAM: 源码剖析到算法优化
8.彻底剖析室内、室外激光SLAM关键算法原理、代码和实战(cartographer+LOAM +LIO-SAM)

9.从零搭建一套结构光3D重建系统[理论+源码+实践]

10.单目深度估计方法：算法梳理与代码实现

11.自动驾驶中的深度学习模型部署实战

12.相机模型与标定(单目+双目+鱼眼）

13.重磅！四旋翼飞行器：算法与实战

14.ROS2从入门到精通：理论与实战

重磅！3DCVer-学术论文写作投稿 交流群已成立

扫码添加小助手微信，可申请加入3D视觉工坊-学术论文写作与投稿微信交流群，旨在交流顶会、顶刊、SCI、EI等写作与投稿事宜。

同时也可申请加入我们的细分方向交流群，目前主要有3D视觉、CV&深度学习、SLAM、三维重建、点云后处理、自动驾驶、多传感器融合、CV入门、三维测量、VR/AR、3D人脸识别、医疗影像、缺陷检测、行人重识别、目标跟踪、视觉产品落地、视觉竞赛、车牌识别、硬件选型、学术交流、求职交流、ORB-SLAM系列源码交流、深度估计等微信群。

一定要备注：研究方向+学校/公司+昵称，例如：”3D视觉 + 上海交大 + 静静“。请按照格式备注，可快速被通过且邀请进群。原创投稿也请联系。

▲长按加微信群或投稿

▲长按关注公众号

3D视觉从入门到精通知识星球：针对3D视觉领域的视频课程（三维重建系列、三维点云系列、结构光系列、手眼标定、相机标定、激光/视觉SLAM、自动驾驶等）、知识点汇总、入门进阶学习路线、最新paper分享、疑问解答五个方面进行深耕，更有各类大厂的算法工程人员进行技术指导。与此同时，星球将联合知名企业发布3D视觉相关算法开发岗位以及项目对接信息，打造成集技术与就业为一体的铁杆粉丝聚集区，近4000星球成员为创造更好的AI世界共同进步，知识星球入口：

学习3D视觉核心技术，扫描查看介绍，3天内无条件退款

圈里有高质量教程资料、答疑解惑、助你高效解决问题

觉得有用，麻烦给个赞和在看~

本文标签：算法图像目标将点云 RGB

版权声明：本文标题：成功检测远距离目标，将点云与RGB图像结合，谷歌&Waymo提出新算法：4D-Net 内容由热心网友自发贡献，该文观点仅代表作者本人，转载请联系作者并注明出处：https://www.elefans.com/xitong/1729352098a1198054.html，本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，一经查实，本站将立刻删除。

更多相关文章

xp系统

电子爱好者 - 最新技术资讯及电子产品介绍！

成功检测远距离目标，将点云与RGB图像结合，谷歌&amp;Waymo提出新算法：4D-Net

更多相关文章

算法图解与算法分析

基础总结：计算机网络、操作系统、Java基础、JVM、JUC、SSM框架、数据结构和算法、MySQL、Redis技术栈、Linux常用命令

腾讯发布国内首份可解释 AI 报告：详解打开算法黑箱的理念与实践｜附报告下载...

格式工厂将视频导出Maya需要的图像序列帧

多目标追踪综述阅读（2021）

使用TextRank算法进行文本摘要提取（python代码）

目标检测算法——YOLOV8——算法详解

信创操作系统--统信UOS桌面版（多媒体软件：图像查看、处理，音频播放、录音机）

本机连接目标主机的redis服务器

Istio 目标规则 (Destination Rule)

爱奇艺视频wasm转js分析，cmd5x算法脱离环境限制

java算法之简单的Implement strStr

VC++使用DES算法进行文件加密和解密

python3 RSA算法生成秘钥对、文件加密解密

Android 采用AES加解密大文件，以及Android使用AES算法加解密大文件时OOM

【算法分析与设计】分治算法解决归并排序问题

利用ABB机器人的CRobT写一个判断机器人是否移动至目标位置的函数

数据结构与算法分析——第3章考试题

深度学习优化算法大全系列6:Adam

成功检测远距离目标，将点云与RGB图像结合，谷歌&amp;Waymo提出新算法：4D-Net

发表评论

推荐文章

mysql table_rows,MySQL的行数count（*）与information_schema中的table.table_rows不一致

自用推荐！新学期开始了，5款开学装备精选推荐

暴风影音无法播放rmvb格式的视频

【VMware】WIN11WIN11家庭版禁用Device Guard

web前端学习笔记2

热门文章

编写一个信息类information。使用shezhi方法设置会员的姓名、年龄、学校信息。使用xianshi方法将会员的姓名、年龄、学校信息显示出来。

干货|使用Python将PDF转换成Word

揭秘最佳文件加密软件排行榜前十名：企业级与个人优选全解析

制作U盘启动-----计算机经验

Win10启动项设置在哪里

iOS开发技术之蓝牙通信功能的实现

android BLE蓝牙功能笔记

linux 防火墙操作

免费论文查找网站：SCI-Hub（免费）、arxiv（免费）、谷歌学术镜像（免费）、知网、万方

java毕设项目教育辅导班信息网服务端（附源码）

最新文章

如何简单快速的恢复U盘误删的文件？

了解这些不收费数据恢复软件，保障数据安全

Win10电脑无法识别u盘？这样做有效恢复数据

数据丢失不再怕：2024年4款好用的数据恢复工具，一起试试

电子邮件数据不小心删除后如何使用EasyRecovery恢复呢

4款专业电脑数据恢复软件，帮你保障数据安全。

u盘显示0字节怎么办？数据怎么恢复？

优盘数据丢失怎么办？本文带你一览优盘数据恢复

u盘中毒数据还能恢复吗？

热门数据恢复软件大盘点

WinHex数据恢复笔记-数据恢复与硬件维护-第0章节-了解

U盘删除文件怎么恢复？不小心删了u盘里面的文件怎么恢复？

top4的硬盘数据恢复神器来袭！助你轻松找回遗失文件

WinHex数据恢复笔记-数据恢复与硬件维护-第2章节-FAT32-20-30课时数据恢复

四款数据软件！搞定格式化数据恢复！

小米手机肿么还原时钟

15000流明是多少瓦

一般普通投影机功率多大?

苹果绿联转换器有些投影机不能用

坚果V9投影机具体参数?

有关九年级作文850字精选

80后90后_高一作文

中级卫生专业资格中医全科学主治医师中级模拟题2021年(9)案与解析

(精品)师范大学招考硕士研究生课程八六0试卷

ZXMVC8900(V3

【模拟人生4（The Sims 4）性感露背黑色亮片礼服MOD V20190313】模拟人生4（The Sims 4）性感露背黑色亮片礼服MOD V20190313 官方免费下载

【生化危机2：重制版（Resident Evil 2 Remake）克莱尔红头发深色服装MOD】生化危机2：重制版（Resident Evil 2 Remake）克莱尔红头发深色服装MOD 官方免费下载

【模拟人生4（The Sims 4）性感露背深V领吊带裙MOD V20190311】模拟人生4（The Sims 4）性感露背深V领吊带裙MOD V20190311 官方免费下载

【模拟人生4（The Sims 4）科幻风宇宙飞船家庭住宅MOD V20190311】模拟人生4（The Sims 4）科幻风宇宙飞船家庭住宅MOD V20190311 官方免费下载

【鬼泣5（Devil May Cry V）v1.0十四项修改】鬼泣5（Devil May Cry V）v1.0十四项修改 官方免费下载

如何实现高效的treenode搜索算法

treenode与链表有何本质区别

在哪些场景下应优先考虑使用treenode

treenode在树形结构中的角色是什么

如何通过treenode实现二叉树

成功检测远距离目标，将点云与RGB图像结合，谷歌&Waymo提出新算法：4D-Net

成功检测远距离目标，将点云与RGB图像结合，谷歌&Waymo提出新算法：4D-Net

【鬼泣5（Devil May Cry V）v1.0十四项修改】鬼泣5（Devil May Cry V）v1.0十四项修改官方免费下载