榜单上的模型还没有达到很成熟
规划控制也在bev中处理
BEVDet
以分类的方式预测一个深度。
前端图像主干网络提取特征的输入的图像是经过数据增强的,进入BEV Encoder之前,需要将图像逆变回来。图像的变化不会影响BEV空间的特征。BEV Encoder没有经过预训练,更容易陷入过拟合。
BEV Space数据增广比image space 数据增广影响更大。
scale-NMS
BEV space不同目标分布尺寸是有差异的。
横截面积越小越明显。
调整预测的结果的尺度,调整不同类别预测结果之间的IOU
视角转换模块 进行体素特征聚合时 使用累计求和 是顺序执行,不是并行。
通过额外引入一个辅助索引,记录属于同一个体素内特征的出现的次数,需要额外的显存。实现并行计算。
检测效果严重依赖图像分辨率。
bev query 从上到下 3D --》2D
Lift 从下到上 3D --》2D
Resnet 、swin transformer、 FPN
BEV空间过拟合, BEV Encoder的输入进行数据增广后有提升。
BEV space不同类别的空间分布和图像空间中不同类别的分布是不同的。图像中不同类别共享相似空间分布,图像空间中两个实例的bbox的IOU总是低于0.5的。BEV空间中实例间的重叠近似0,有些物体横截面积很小(如人、交通锥),冗余的框和gt之间没有交集。正样本、负样本空间关系如果依赖于IOU NMS是失效的。
先根据不同类别,对预测结果进行放大。
BEVDet4D
超过BEVformer
加入时序
历史帧数据怎么用到当前帧?
g:gloabl全局坐标 世界坐标
e: Ego Vehicle