一、什么是BEV?
鸟瞰视角(Bird's Eye View,简称BEV)是一种从上方观看对象或场景的视角,就像鸟在空中俯视地面一样。在自动驾驶和机器人领域,通过传感器(如LiDAR和摄像头)获取的数据通常会被转换成BEV表示,以便更好地进行物体检测、路径规划等任务。BEV能够将复杂的三维环境简化为二维图像,这对于在实时系统中进行高效的计算尤其重要。
二、BEV的优势
简化的视角: BEV将三维空间简化为二维,这样可以在计算和存储上节省大量资源。
视觉效果: BEV提供了一种独特的视觉效果,使得场景中的物体和空间关系更加清晰可见。
方便处理: 在BEV中处理物体检测、跟踪和分类等任务相较于直接在原始3D数据中处理要简单得多。
便于融合和下游任务处理:与lidar融合更为方便,对下游路径规划控制等任务也更友好。通用坐标系
尺度一致:相机检测会出现近大远小的情况,BEV同类目标尺度差异几乎没有,更容易学习特征尺度一致性
BEV 是特斯拉自动驾驶系统中的一种模型,是一种基于图像的模型,用于将车辆周围的环境信息转换为平面图。BEV 模型可以通过多个摄像头捕捉到的图像来生成车辆周围的环境信息,然后将这些信息转换为平面图,以便自动驾驶系统进行处理和分析。
特斯拉采用 8 个摄像头采集图像进行有效融合,通过校正后,一并输入到神经网络。顺便科普一下,神经网络就是通过一组算法模拟人脑,是一种称为深度学习过程,还可以从错误中不断改进。
在自动驾驶中,神经网络 对采集到的图像提取特征,进行关联后,投影到一个矢量空间,就可以实现反映周围环境的鸟瞰图BEV的效果
三、目前最火最常用的视觉BEV模型是哪一个?
目前最火和常用的视觉BEV(Bird's Eye View)模型之一是BEVDet。这个模型特别受到关注,尤其是在自动驾驶领域,因为它直接在BEV空间中进行目标检测,能够有效整合来自多个摄像头的视觉信息,实现对环境的3D理解。BEVDet因其在车辆环视视频中的应用和能输出目标的3D检测框而广受好评,适用于需要精确空间感知的场景。
除了BEVDet,还有其他一些流行的BEV相关算法如DETR3D、BEVFormer、BEVDet4D、PETR和BEVDepth等,它们各自在不同的应用场景和性能指标上有其独特优势,但BEVDet以其实际应用中的表现和广泛的接纳度,可以视为当前一个亮点。不过,具体哪个模型最火或最常用可能还会随时间、最新研究进展及实际应用需求的变化而变化,因此持续关注最新的研究成果和行业动态是很重要的。
四、BEVFormer技术
对于自动驾驶车辆来说,对BEV空间中目标的类型可以大概分为以下两类:
不经常变化的目标: 如可行使区域,路面,车道,建筑物,植被,信号灯等一些其他未分类的静态物体
可变的目标: 即可以移动的物体,如行人、骑行人、汽车、卡车、锥桶等。
这种分类的目的是方便自动驾驶系统进行后续的驾驶规划和控制。在BEV的感知阶段,算法根据物体出现在BEV网格上的概率进行打分,并通过Softmax函数对概率进行归一化处理,最后选择概率最高的物体类型对应的网格的类别预测结果
五、多传感器融合
BEV 融合派在自动驾驶领域的主要任务是融合各类传感器的数据,包括摄像头、激光雷达、毫米波雷达以及高精度地图等。这种融合机制可以充分利用各个传感器的优势,提高自动驾驶系统对周围环境的感知和理解能力。
激光雷达的优势在于可以直接测量物体的距离,其精度远高于视觉推测的场景深度。激光雷达通常将测量结果转化为深度数据或点云,这两种数据形式的应用历史悠久,成熟的算法可以直接借用,从而减少了开发的工作量。
此外,激光雷达在夜间或恶劣天气条件下仍能正常工作,而在这种情况下,摄像头可能会受到很大影响,导致无法准确感知周围环境。
总之,融合派的目标是有效整合多传感器数据,使自动驾驶系统在各种复杂条件下获得更全面、更准确的环境感知,从而提高驾驶的安全性和可靠性。融合技术在自动驾驶领域发挥着关键作用。它融合了来自不同传感器的信息,使整个系统能更好地感知和理解周围环境,做出更准确的决策和规划。
六、数据需求
数据量需求较大:
由于2D -> 3D 的部分我们使用的是 MLP,非常容易过拟合。
视觉上 3D 本身的 augmentation 很难做,而且对于硬件标定有依赖。
生成难度也较大:目前阶段还大量使用激光来辅助数据生成,但是这样的方案由于传感器的原因,在未来是没法扩展的。这也是目前阶段我们在尝试考虑的一个问题。
随着多目任务的引入,带来了一个很难避免的问题:模型和相机的布置基本处于一个硬绑定的状态。对于普通的公司,必须面对这个问题:怎么样可以用尽量少的数据、更快的适配新的车型。在我看来这是一个体系化的解决方案,数据、硬件、算法、工程,都需要针对这一问题作出适应。
目前来看,特斯拉的 4D 标注在静态元素上确实是一个比较符合逻辑的方案,成本和效率都比较高(当然也会有一些问题)。但是动态元素上的工作,我们还在考虑。
七、小结
总的来说,自下而上和自上而下两种方法在 BEV 研究中都得到了广泛应用。自下而上的方法适用于早期的 BEV 研究,如 LSS 和 BEVDet 等。自上而下法更倾向于使用 Transformer 等模型,利用全局感知能力,并在一些最新工作中取得了显著成果,如上海 AILab 团队的 BEVFormer。这两种方法各有优势,可以互为补充,为自动驾驶中的 BEV 感知发展提供丰富的技术选择