在线高精地图构建-ScalableMap

《ScalableMap：Scalable Map Learning for Online Long-Range Vectorized HD Map Construction》

1.核心思路和方案

现有的在线高精地图构建都基于Dynamic Object Detection的方案，忽略了地图元素内部的结构化约束，导致在Long Range场景(Long Range Scenarios)下的Performance下降。

ScalableMap的解决方案：

1）Structure-Guided Hybrid BEV Feature Extractor。融合结构化(Structure-Guided)的信息用于提取BEV Features。

2）Progressive Decoder & Progressive Supervision。基于HSMR(Hierarchical Sparse Map Representation)逐层渐进的Decoder和Supervision Strategy，强化了结构化信息的约束，提升了模型推理的效果。

ScalableMap在nuScenes数据集上取得了SOTA Performance，尤其是在Long Range场景中，超过SOTA模型6.5 mAP达到了18.3FPS。

2. Structure-Guided Hybrid BEV Feature Extractor

如下图所示，ScalableMap的BEV Feature Extractor包含两个Branch。

Branch 1：Position-Aware Bev Features Extractor。

它利用可变形注意力(Deformable Attention)来实现基于预定义的3D Grid和的BEV Queries和对应的Images Features之间的Spatial Interaction，这与BEVFormer提出的方法是一致的。

Branch 2: Instance-Aware BEV Features Extractor。

MLP擅长在Image Space中获取Continuous Features，因此这里使用MLP来提取结构化的信息.

具体实现上，它使用K个MLP分别将K个Image Features转换到Top Views，然后使用Linear Layer将多个Top-View Features转换成Unified BEV Feature，来提升Cross View的Feature Continuity。

Fusion Hybrid BEV Features

Position-Aware Bev Features包含准确的Map Vertices的相对位置信息；Instance-Aware BEV Features包含地图元素的结构和形状信息，二者相互校正融合，协同提升在线地图构建的效果。

3.Progressive Decoder & Progressive Supervision

3.1 Progressive Decoder

Hierarchical Sparse Map Representation

HSMR(Hierarchical Sparse Map Representation)引入Map Density来表达每个地图要素的顶点数，通过上/下采样方式保证地图要素的Map Density一致。通过控制Density就可以获得同一个地图要素的不同几何表达。这样就很容易得到一个分层的地图要素表达。

分层的稀疏地图表达也提升了ScalableMap的推理速度。

Structural Query Generation and Dynamic Query Insertion

以前的方式都是初始化一堆Queries，然后迭代的更新它们。ScalableMap采用先对每个元素初始化限定数量的Queries，然后根据Map Density逐层逐渐增加Queries的数量。这种设计使网络更聚焦于初始的稀疏特征，并充分利用地图的结构化信息，提升Long Range的感知能力。

3.2 Progressive Supervision

ScalableMap使用Bipartite Matching实现GroundTruth和Prediction的匹配。

Loss函数:

考虑到HSMR涉及子采样过程，区分Origin Vertices和Newly Added Vertices分别计算Vertex Loss和Edge Loss。

Vertex Loss:

Edge Loss:

4.Experiments

在Camera Modality下，在[-30.0m, 30.0m]场景下，ScalableMap比MapTR表现稍微好一点(1.9 higher mAP and faster inference speed)；在[-60m, 60m]场景下，ScalableMap显著优于MapTR(45.6mAP, 18.3FPS VS 39.1mAP, 11.2FPS)。

ScalableMap在NuScenes验证数据集上的Long Range的测试Case如下。可以看到，它在路口、拥挤的道路、夜间等场景都有不错的表现。

左侧列是Surround Views，中间列是ScalableMap的Inference Result，右侧列是Ground Truth。绿色的线是Boundaries，红色的线是Lane Dividers，蓝色的线是Pedestrian Crossings

通过对比MapTR和ScalableMap三个Decoder Layers的输出，可以看出ScalableMap能够更快聚焦到Instance Features，并通过渐进式的迭代生成了更准确的元素几何。

浅色的线代表Ground Truth，深色的线代表Inference Result

5.Ablation Studies

下表表明了HSMR的Sparse Representation在Long Range Perception中的有效性、SQG&DQ对地图要素结构化信息的前后作用、SGFF对地图构建效果的限制效果。

6.夜景下的效果

参考材料

https://arxiv.org/pdf/2310.13378.pdf

map 地图模型设计数据

0 人点赞