在线高精地图构建-ScalableMap

2023-11-27 16:40:26 浏览数 (2)

《ScalableMap:Scalable Map Learning for Online Long-Range Vectorized HD Map Construction》

1.核心思路和方案

现有的在线高精地图构建都基于Dynamic Object Detection的方案,忽略了地图元素内部的结构化约束,导致在Long Range场景(Long Range Scenarios)下的Performance下降。

ScalableMap的解决方案:

1)Structure-Guided Hybrid BEV Feature Extractor。融合结构化(Structure-Guided)的信息用于提取BEV Features。

2)Progressive Decoder & Progressive Supervision。基于HSMR(Hierarchical Sparse Map Representation)逐层渐进的Decoder和Supervision Strategy,强化了结构化信息的约束,提升了模型推理的效果。

ScalableMap在nuScenes数据集上取得了SOTA Performance,尤其是在Long Range场景中,超过SOTA模型6.5 mAP达到了18.3FPS。

2. Structure-Guided Hybrid BEV Feature Extractor

如下图所示,ScalableMap的BEV Feature Extractor包含两个Branch。

Branch 1:Position-Aware Bev Features Extractor

它利用可变形注意力(Deformable Attention)来实现基于预定义的3D Grid和的BEV Queries和对应的Images Features之间的Spatial Interaction,这与BEVFormer提出的方法是一致的。

Branch 2: Instance-Aware BEV Features Extractor

MLP擅长在Image Space中获取Continuous Features,因此这里使用MLP来提取结构化的信息.

具体实现上,它使用K个MLP分别将K个Image Features转换到Top Views,然后使用Linear Layer将多个Top-View Features转换成Unified BEV Feature,来提升Cross View的Feature Continuity。

Fusion Hybrid BEV Features

Position-Aware Bev Features包含准确的Map Vertices的相对位置信息;Instance-Aware BEV Features包含地图元素的结构和形状信息,二者相互校正融合,协同提升在线地图构建的效果。

3.Progressive Decoder & Progressive Supervision

3.1 Progressive Decoder

Hierarchical Sparse Map Representation

HSMR(Hierarchical Sparse Map Representation)引入Map Density来表达每个地图要素的顶点数,通过上/下采样方式保证地图要素的Map Density一致。通过控制Density就可以获得同一个地图要素的不同几何表达。这样就很容易得到一个分层的地图要素表达。

分层的稀疏地图表达也提升了ScalableMap的推理速度。

Structural Query Generation and Dynamic Query Insertion

以前的方式都是初始化一堆Queries,然后迭代的更新它们。ScalableMap采用先对每个元素初始化限定数量的Queries,然后根据Map Density逐层逐渐增加Queries的数量。这种设计使网络更聚焦于初始的稀疏特征,并充分利用地图的结构化信息,提升Long Range的感知能力。

3.2 Progressive Supervision

ScalableMap使用Bipartite Matching实现GroundTruth和Prediction的匹配。

Loss函数:

考虑到HSMR涉及子采样过程,区分Origin Vertices和Newly Added Vertices分别计算Vertex Loss和Edge Loss。

Vertex Loss:

Edge Loss:

4.Experiments

在Camera Modality下,在[-30.0m, 30.0m]场景下,ScalableMap比MapTR表现稍微好一点(1.9 higher mAP and faster inference speed);在[-60m, 60m]场景下,ScalableMap显著优于MapTR(45.6mAP, 18.3FPS VS 39.1mAP, 11.2FPS)。

ScalableMap在NuScenes验证数据集上的Long Range的测试Case如下。可以看到,它在路口、拥挤的道路、夜间等场景都有不错的表现。

左侧列是Surround Views,中间列是ScalableMap的Inference Result,右侧列是Ground Truth。绿色的线是Boundaries,红色的线是Lane Dividers,蓝色的线是Pedestrian Crossings

通过对比MapTR和ScalableMap三个Decoder Layers的输出,可以看出ScalableMap能够更快聚焦到Instance Features,并通过渐进式的迭代生成了更准确的元素几何。

浅色的线代表Ground Truth,深色的线代表Inference Result

5.Ablation Studies

下表表明了HSMR的Sparse Representation在Long Range Perception中的有效性、SQG&DQ对地图要素结构化信息的前后作用、SGFF对地图构建效果的限制效果。

6.夜景下的效果

参考材料

  1. https://arxiv.org/pdf/2310.13378.pdf

0 人点赞