北京大学长安汽车发布毫米波与相机融合模型RCBEVDet:最快能达到每秒28帧

Abstract

三维目标检测是自动驾驶中的关键任务之一。为了在实际应用中降低成本,提出了利用低成本的多视角相机进行3D目标检测,以取代昂贵的LiDAR传感器。然而,仅依靠相机很难实现高精度和鲁棒性的3D目标检测。解决这一问题的有效方法是将多视角相机与经济的毫米波雷达传感器相结合,以实现更可靠的多模态3D目标检测。在本文中,我们介绍了RCBEVDet,这是一种在鸟瞰视角(BEV)下的雷达-相机融合3D目标检测方法。具体而言,我们首先设计了RadarBEVNet用于雷达BEV特征提取。RadarBEVNet由一个双流雷达骨干网和一个RCS(雷达截面)感知的BEV编码器组成。在双流雷达骨干网中,提出了基于点的编码器和基于Transformer的编码器用于提取雷达特征,并通过注入和提取模块来促进两个编码器之间的通信。RCS感知的BEV编码器以RCS作为对象大小的先验信息,将点特征散布在BEV中。此外,我们提出了跨注意力多层融合模块,利用可变形注意力机制自动对齐来自雷达和相机的多模态BEV特征,然后通过通道和空间融合层进行融合。实验结果表明,RCBEVDet在nuScenes和view-of-delft(VoD)3D目标检测基准测试中实现了新的最先进的雷达-相机融合结果。此外,RCBEVDet在21~28 FPS的更快推理速度下,实现了比所有实时相机仅和雷达-相机3D目标检测器更好的3D检测结果。源代码将发布在https://github.com/VDIGPKU/RCBEVDet。

图片

Introction

3D目标检测技术在自动驾驶领域迅速发展,多视角相机因其成本效益和提供高分辨率语义信息而受到青睐。但单一相机存在深度信息捕捉不精确和在恶劣环境下性能下降的问题。结合经济的毫米波雷达传感器,可以提供距离和速度的高精度测量,且不受天气和光照影响,实现更可靠的多模态目标检测。

毫米波雷达虽然数据稀疏且缺乏语义信息,但作为辅助传感器,与多视角相机结合使用,可提供互补信息,提高3D目标检测的准确性。近年来,这种融合方法受到广泛关注。

Method

1、RadarBEVNet

RCBEVDet的整体流程如下图所示。多视角图像被发送到图像编码器以提取特征。然后,应用视图转换模块将多视角图像特征转换为图像BEV特征。同时,通过提出的RadarBEVNet将对齐的雷达点云编码为雷达BEV特征。随后,通过跨注意力多层融合模块融合图像和雷达BEV特征。最后,融合的多模态BEV特征用于3D目标检测任务。

图片

先前的雷达-相机融合方法主要采用为LiDAR点云设计的雷达编码器,如PointPillars。相反,我们提出了RadarBEVNet,特别是用于高效的雷达BEV特征提取。

1.1 双流雷达骨干网(Dual-stream radar backbone:双流雷达骨干网有两个骨干网,即基于点的骨干网和基于Transformer的骨干网。基于点的骨干网学习局部雷达特征,而基于Transformer的骨干网捕获全局信息。具体来说,对于基于点的骨干网,我们采用类似于PointNet的简单结构。如下图所示,基于点的骨干网有S个块,每个块包含一个MLP和一个最大池化操作。输入的雷达点特征首先发送到MLP以增加其特征维度。然后,通过对所有雷达点的最大池化操作提取全局信息,并将其与高维雷达特征连接。至于基于Transformer的骨干网,它包含S个标准的Transformer块,具有注意力机制、前馈网络和归一化层,如下图所示。由于自动驾驶场景的广泛性,直接使用标准的自注意力机制可能使模型优化变得困难。为了解决这个问题,我们提出了一种距离调制自注意力机制(DMSA),以使模型在早期训练迭代中聚合邻近信息,从而促进模型收敛

图片

图片

1.2 RCS感知的BEV编码器:目前的雷达BEV编码器通常根据点的3D坐标将点特征散布到体素空间,并压缩z轴以生成BEV特征。然而,生成的BEV特征是稀疏的,也就是说,大多数像素的特征是零。有些像素很难聚集特征,这可能会影响检测性能。一种解决方案是增加BEV编码器层的数量,但这通常会导致小物体的特征被背景特征平滑掉。为了解决这个问题,我们提出了一种RCS感知的BEV编码器。雷达截面积(RCS)衡量物体被雷达检测到的能力。通常,较大的物体会产生较强的雷达波反射,导致较大的RCS测量值。因此,RCS可以提供物体大小的粗略测量。RCS感知的BEV编码器的关键设计是RCS感知散布操作,它利用RCS作为物体大小的先验,将一个雷达点的特征散布到多个像素,而不是在BEV空间中的一个像素,如图5所示。

图片

2、跨注意力多层融合模块

2.1 利用跨注意力机制进行多模态特征对齐(Multi-modal Feature Alignment with Cross-Attention)。雷达点云经常受到方位误差的影响。因此,雷达传感器可能会获取超出物体边界的雷达点。结果,由RadarBEVNet生成的雷达特征可能会分配到相邻的BEV网格上,导致来自相机和雷达的BEV特征对齐错误。为了解决这个问题,我们使用跨注意力机制动态对齐多模态特征。由于未对齐的雷达点会偏离其真实位置一定距离,我们建议使用可变形跨注意力机制来捕捉这种偏差。

图片

2.2 通道和空间融合(Channel and Spatial Fusion)。在通过交叉注意力对齐来自相机和雷达的BEV特征后,我们提出了通道和空间融合层来聚合多模态BEV特征.

Experiment

1.NuScenes 结果 :我们在 nuScenes 验证集和测试集上将提出的 RCBEVDet 与之前的最先进的 3D 检测方法进行了比较,如表 1 和表 2 所示。在各种主干设置下,RCBEVDet 在推理速度更快的情况下显示出具有竞争力的 3D 物体检测性能。值得注意的是,与之前最好的仅使用相机的方法(SOLOFusion)和雷达-相机方法(CRN)相比,RCBEVDet 使用 ResNet-50 将速度误差(mAVE)分别减少了 14.7% 和 37.5%。此外,RCBEVDet 超越了所有基于相机的 3D 检测方法,展示了使用互补雷达信息以实现更好的 3D 检测的有效性。

图片

如表 1 所示,RCBEVDet 尤其在整体指标(NDS)和速度误差(mAVE)方面显示出竞争力。具体来说,RCBEVDet 在之前的雷达-相机融合方法中表现出色。

图片

2.VoD 结果:为了进一步证明 RCBEVDet 的有效性,我们在 4D 毫米波雷达数据集 view-of-delft (VoD) 上训练了 RCBEVDet。我们在 VoD 验证集上的结果如表 3 所示。在整个区域内,RCBEVDet 比 RCFusion 高出 0.34 mAP。在感兴趣区域,RCBEVDet 也以 69.80 mAP 达到了最先进的结果。

图片

总结

文章的主要贡献可以概括为以下几点:

  1. 提出了一种名为RCBEVDet的雷达-相机多模态3D目标检测器,旨在实现高精度、高效且鲁棒的检测。
  2. 设计了一种高效的雷达特征提取器RadarBEVNet,它包含双流雷达骨干网络,用于提取并编码雷达特征到鸟瞰视图(BEV)中。
  3. 引入了跨注意力多层融合模块,通过可变形跨注意力机制实现雷达和相机特征的鲁棒对齐和融合。
  4. RCBEVDet在nuScenes和VoD数据集上取得了雷达-相机多模态3D目标检测的先进结果,并在实时检测器中实现了精度和速度的最佳平衡。5. RCBEVDet在传感器故障情况下展现出良好的鲁棒性。

引用CVPR2024文章: RCBEVDet: Radar-camera Fusion in Bird’s Eye View for 3D Object Detection

欢迎关注我的公众号auto_driver_ai(Ai fighting), 第一时间获取更新内容。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://xiahunao.cn/news/3223827.html

如若内容造成侵权/违法违规/事实不符,请联系瞎胡闹网进行投诉反馈,一经查实,立即删除!

相关文章

游戏AI的创造思路-技术基础-蒙特卡洛树搜索(1)

本篇介绍蒙特卡洛树搜索算法,AlphaGo用于围棋计算的应用就是基于蒙特卡洛树搜索研发的~~~ 目录 1. 定义 2. 发展历史 3. 公式和函数 3.1.算法的公式和函数 3.2. Python实现公式和函数 4. 运行原理 4.1. 运行原理 4.2. 各步骤用Python代码 5. 优缺点和缺陷的…

一文实践强化学习训练游戏ai--doom枪战游戏实践

一文实践强化学习训练游戏ai–doom枪战游戏实践 上次文章写道下载doom的环境并尝试了简单的操作,这次让我们来进行对象化和训练、验证,如果你有基础,可以直接阅读本文,不然请你先阅读Doom基础知识,其中包含了下载、动作…

需求分析|泳道图 ProcessOn教学

文章目录 1.为什么使用泳道图2.具体例子一、如何绘制确定好泳道中枢的角色在中央基于事实来绘制过程不要纠结美观先画主干处理流程再画分支处理流程一个图表达不完,切分子流程过程数不超25 ,A4纸的幅面处理过程过程用动词短语最后美化并加上序号酌情加上…

vb.netcad二开自学笔记8:界面之任务窗格

使用net可以创建一个类似属性面板的自定义的任务窗格,从而实现应用程序更丰富的人机交互。 1、添加一个自定义控件 2、在前面创建的代码框架内增加一个命令函数ShowMyPalette Imports System.Windows.Media.Imaging Imports Autodesk.AutoCAD.ApplicationServices …

解码技术债:AI代码助手与智能体的革新之道

技术债 技术债可能来源于多种原因,比如时间压力、资源限制、技术选型不当等。它可以表现为代码中的临时性修补、未能彻底解决的设计问题、缺乏文档或测试覆盖等。虽然技术债可以帮助快速推进项目进度,但长期来看,它会增加软件维护的成本和风险…

PID控制与模糊PID控制的比较

一、PID控制器的设计 1.PID控制原理图: PID控制其结构框图如下图所示: 图1:PID控制器结构框图 2.PID控制器传递函数的一般表达式 PID控制器传递函数的一般表达形式为: 其中kp为比例增益;ki为积分增益;k…

html H5 dialog弹窗学习,实现弹窗显示内容 替代confirm、alert

html H5 dialog弹窗学习,实现弹窗内容 替代confirm 框架使用的mui,使用mui.confirm() 弹窗内容过多时,弹窗被撑的到屏幕外去了,使用H5 dialog 标签自定义一个固定大小的弹窗,内容过多时可下拉显示 效果展示 隐私政策内容很多,可以下拉显示 代码 myDialog.css dialog{p…

2024年信息系统项目管理师1批次上午客观题参考答案及解析(3)

51、探索各种选项,权衡包括时间与成本、质量与成本、风险与进度、进度与质量等多种因素,在整个过程中,舍弃无效或次优的替代方案,这种不确定性应对方法是()。 A.集合设计 B.坚韧性 C.多种结果…

odoo17 常见升级问题

通用问题 模型名变更 字段变更 方法名变更 方法参数变更 xml数据结构定义变化 xml的id变更 view视图变化,导致xpath路径出差 template结构变化,,导致xpath路径出差,或者id不存在 升16问题 前端owl的架构变化 升17问题 前端 标…

db期末复习自用[应试向 附习题]

第一章 数据库系统实现整体数据的结构化,主要特征之一,是db区别于文件系统的本质区别。 数据库系统三个阶段:人工、文件、数据库系统。 数据库管理系统的功能:数据库定义、操纵 、(保护、存储、维护)、数…

招投标信息采集系统:让您的企业始终站在行业前沿

一、为何招投标信息如此关键? 在经济全球化的大背景下,招投标活动日益频繁,成为企业获取项目、拓展市场的主流方式之一。招投标信息采集,作为企业战略决策的前置环节,其重要性不言而喻。它不仅关乎企业能否第一时间发…

Open3D 点对面的ICP算法配准(精配准)

目录 一、概述 1.1核心思想 1.2实现步骤 二、代码实现 2.1关键函数 2.2完整代码 三、实现效果 3.1原始点云 3.2配准后点云 3.3计算数据 一、概述 基于点对面的ICP(Iterative Closest Point)配准算法是ICP的一种变体,它通过最小化源…

昇思MindSpore学习总结十二 —— ShuffleNet图像分类

当前案例不支持在GPU设备上静态图模式运行,其他模式运行皆支持。 1、ShuffleNet网络介绍 ShuffleNetV1是旷视科技提出的一种计算高效的CNN模型,和MobileNet, SqueezeNet等一样主要应用在移动端,所以模型的设计目标就是利用有限的计算资源来达…

数学建模中常用的数据处理方法

常用的数据处理方法 本文参考 B站西电数模协会的讲解视频 ,只作笔记提纲,想要详细学习具体内容请观看 up 的学习视频。一般来说国赛的 C 题一般数据量比较大。 这里介绍以下两种方法: 数据预处理方法 数据分析方法 数据预处理方法 1. 数据…

【电脑应用技巧】如何寻找电脑应用的安装包华为电脑、平板和手机资源交换

电脑的初学者可能会直接用【百度】搜索电脑应用程序的安装包,但是这样找到的电脑应用程序安装包经常会被加入木马或者强制捆绑一些不需要的应用装入电脑。 今天告诉大家一个得到干净电脑应用程序安装包的方法,就是用【联想的应用商店】。联想电脑我是一点…

alibabacloud学习笔记11

讲解什么是配置中心及使用前后的好处 讲解Nacos作为配置中心面板介绍 官方文档 Nacos config alibaba/spring-cloud-alibaba Wiki GitHub 加入依赖: 订单服务和视频服务也加上这个依赖。 讲解Nacos作为配置中心实战 订单服务添加配置。 我们注释掉之前的配置。 …

现代化3D Web轻量引擎HOOPS Communicator:基于ESM的代码库转型!

HOOPS Communicator自2024.2.0版本起,向基于ECMAScript Modules (ESM)的系统迁移的决策和技术细节。文章分析了这一转型对代码组织、封装、依赖管理、性能以及与现代JavaScript开发实践兼容性的积极影响,并讨论了IIFE和UMD的兼容性支持。 引言 随着Jav…

Dynamics365 UCI下的高级查找(不要留恋Classic了)

UCI界面已经用了多年了,在Classic下的的高级查找按钮(漏斗icon)已不见踪影 但因为使用习惯问题,还是有人会通过右上角高级设置,进入Classic界面找到漏斗Icon来使用高级查找 但新的UCI风格下已经没了高级查找的概念,取而代之的是基…

C++代码编程学习:基于对象的编程风格——习题4.5(Essential C++ 第四章)

C中基于对象的编程风格的学习,非常有难度,概念很抽象,操作起来也比较费脑子,这里主要把一些知识点和习题给过一遍! 一、前言 C中基于对象的编程风格的学习(Essential C 第四章)。 二、例题 -…

设计无缝体验:交互设计流程全解析

完整的产品交互设计流程是什么?完整的产品交互设计流程包括研究用户需求、指定信息架构、制作产品原型、进行用户测试和实时发布产品。交互设计就是从人与产品之间的关系入手,通过产品设计来满足大众的日常需求。随着网络技术的流行,产品交互…