浙大最新开源：MGMap-掩码引导学习的在线矢量化高精地图构建方法

论文标题：

MGMap: Mask-Guided Learning for Online Vectorized HD Map Construction

论文作者：

Xiaolu Liu, Song Wang, Wentong Li, Ruizi Yang, Junbo Chen, Jianke Zhu

作者单位：浙江大学，有鹿科技

开源地址：

https://github.com/xiaolul2/MGMap

导读：

本作提出了一种名为MGMap的新方法，旨在改进高精地图的在线构建过程，特别是解决当前技术在定位地图要素和保留细节结构方面的不足。©️【深蓝AI】编译

1. 摘要

MGMap利用学习到的掩码，通过一种mask-guided策略，在不同尺度的鸟瞰特征图上实现更精确的地图要素定位。该方法包含两个核心部件：一是Mask-activated instance (MAI)解码器，它整合全局实例与结构信息来增强实例级别的特征识别；二是位置引导的掩码补丁细化（PG-MPR，Position-guided mask patch refinement）模块，从点级别细化信息，提高定位精度。实验结果显示，与现有基线方法相比，MGMap能显著提升约10个mAP，彰显出更好的鲁棒性和泛化性。

2. 介绍

高精地图在自动驾驶中扮演着关键角色，它为自我定位、路径规划及其他下游任务提供厘米级的路面信息。如VectorMapNet和MapTR等高效直接的方法被提出以构建矢量地图，这些方法用稀疏点集表示地图元素，并直接采用基于Transformer的架构更新实例查询和回归点位置。尽管已取得可喜的成果，但仍受内在问题限制。

在这里插入图片描述
图1｜展示了对于某些精细结构，本文提出的MGMap方法能够通过学习到的掩码突出信息丰富的区域，从而实现地图要素的有效定位©️【深蓝AI】编译

如图1所示，道路边缘、分隔线及人行横道等地图要素具有强烈的形状先验。模糊的特征和粗略的位置易导致预测中丢失详细信息，特别是不规则边界和转角的突然变化。

针对上述问题，本文提出了一种细粒度方法MGMap，旨在通过融合学习到的地图掩码来改进定位并突出特定特征。MGMap在nuScenes和Argoverse2数据集上的广泛实验表明，它达到了最先进的性能。不同设置下的实验结果彰显了所提模型的鲁棒性和泛化能力。本工作的主要贡献总结如下：

●提出了一种有效的在线HD地图矢量化方法，借助学习到的掩码实现精确定位，有效提取实例掩码和二进制掩码特征以学习独特的车道线和形状。

●设计了掩码激活实例解码器和创新的位置引导掩码补丁细化模块，充分利用掩码特征从实例和点层面解码地图要素。

●在两大测试平台上展现的优异结果证明，本文的MGMap大幅超越先前方法，具有强大的鲁棒性和泛化能力。

3. 相关工作

3.1 在线高精地图构建

包括将地图构建视为图像分割任务、使用自回归解码器连接顶点的两阶段框架、通过实例点间连接构建地图，以及采用Transformer架构同时预测固定数量点位等。相关工作有：VectorMapNet，MapTR，BeMapNet，PivotMap。

3.2 基于相机的BEV感知

高精地图构建依赖于高质量的BEV特征，这些特征也是大多数三维感知任务的基础。通常，BEV特征是从透视视角图像中提取并转换而来。相关工作有：BEVFormer，BEVFusion。

3.3 分割的掩码细化

掩码细化技术被用于改善分割任务中的实例或语义特征质量，通过各种策略如边界增强、实例特征互动和基于Transformer的注意力机制来优化掩码质量。

4. MGMap

在这里插入图片描述
图2｜MGMap框架概述©️【深蓝AI】编译

4.1 BEV特征提取

首先，使用共享的卷积神经网络（CNN）骨干网络从透视视图图像中抽取2D特征。然后，通过透视图与周围视图图像特征的交互，运用可变形注意力机制，将这些特征转换为BEV表示。

增强型多层次颈部。为了获得富含语义和位置信息的BEV特征，在BEV空间，本文设计了一个包含三层的增强型多层次（EML）颈部，它利用融合注意力来构建统一的BEV特征。通过这一设计，本文可以得到具有更大感受野的多尺度BEV特征，以便更好地理解整体结构。可学习注意力图的计算可形式化表示如下：

$F_{i+1}=(CA(F_i) \times F_i) \times SA(F_i)$

之后就可以获得多层BEV特征 $(F_i)^3_{i=1}$ ，最后，通过拼接后的一个3×3卷积层来聚合多级特征，从而获得增强的BEV特征 $F_c$ 。

4.2 基于掩码激活的实例解码器

针对每个车道实例，需要带有实例和结构信息的特定查询嵌入，以便对车道形状和位置进行回归。在丰富了BEV特征的基础上，本节重点讨论了掩码激活车道查询的设计，以及随后的更新过程。

掩码激活查询： 为了实现更详细且特定的表示，MGMap采用了一种混合方法，该方法结合了车道查询Qlane和点查询Qpoint来对单个地图实例进行编码。

在这里插入图片描述
图3｜展示了不同阶段掩码构建的示意图©️【深蓝AI】编译

可变形解码器： 通过增强后的多尺度BEV特征，使用级联可形变Transformer解码器更新这些掩码激活的实例查询。这有助于根据全局上下文和局部细节逐步优化查询嵌入，从而提高对车道线等复杂结构的理解和定位能力。

4.3 位置引导的掩码块细化

尽管在实例级别上可以大致回归地图元素的形状和结构，但某些细节信息仍然难以精确构建。因此，本节提出了一种细化模块，旨在从更精细的点级别上利用二进制掩码特征进行优化。

掩码特征构建：

●首先，通过在摄像机特征（Fc）上应用基本卷积和sigmoid函数，获得二进制掩码Mb，它能突出显示与车道线相关的特征，而背景特征则相对减弱。训练阶段辅以栅格化监督的辅助损失来优化掩码学习。

●接着，基于二进制掩码Mb构建掩码特征Fm。具体操作包括：首先通过D(·)操作将掩码的维度从2扩展到32，然后将扩展后的二进制掩码、摄像机特征Fc及包含空间局部信息的二维归一化位置网格Gbev进行拼接，最后通过卷积操作融合这些特征，以强调车道线周围的具体位置和语义信息。

块提取和细化：

●该模块设计用于从局部块特征中提取更精确的点位置。通过上述构建的掩码特征，模型能够在更小的局部范围内精炼点的位置信息，从而提高预测的精度。

●利用掩码特征的指引，模型能够关注到车道线上的细微变化，对于复杂环境下的车道线检测尤为重要，它帮助模型在点级别上区分和精确定位车道结构，尤其是在实例级别处理难以捕获的细节时。

在这里插入图片描述
图4｜(a) 传统的可变形注意力从采样点提取稀疏特征，可能会选择不相关的特征；(b) 本文提出的掩码区块精细化从可靠区块的区域中提取更多相关特征©️【深蓝AI】编译

4.4 训练损失

MGMap采用端到端的方式进行训练。为了将预测的地图实例与其真实标注配对，采用了二分匹配法。在点的回归和类别标签预测之外，还需要辅助损失来指导掩码分割任务。具体而言，总损失是检测损失和掩码分割损失之和，即 $L = L_{det} + L_{mask}$ 。

检测损失： 车道检测旨在回归车道坐标和分类标签。

$L_{\text{lane}} = \sum_{i=0}^{M} \sum_{j=0}^{N} \lambda_{\text{dis}} \cdot \text{Dis}(\hat{p}_{ij}, p_{ij}) + \lambda_{\text{dir}} \cdot \text{CosSim}(\hat{e}_{ij}, e_{ij})$
$L_{\text{det}} = L_{\text{lane}} + \lambda_{\text{cls}} \sum_{i=0}^{M} L_{\text{local}}(\hat{c}_i, c_i)$

掩码构建损失： 掩码学习通过像素级别的密集监督减少了过拟合的风险。

$L_{\text{mask}} = \lambda_{\text{ins}} L_{\text{ins}}(\hat{M}_{\text{ins}}, M_{\text{ins}}) + \lambda_{b} L_{b}(\hat{M}_{b}, M_{b})$

5. 实验

5.1 数据集与基准测试

本文在两个公开数据集上进行了广泛的实验，分别是nuScenes和Argoverse2。nuScenes数据集包含了从波士顿和新加坡收集的1000个驾驶场景。其中，750个和150个场景序列分别用于训练和验证，每个场景序列包含40帧关键帧数据，采样率为2Hz。对于每一帧关键帧，都有6张前视图像以及来自32线激光雷达的相应点云数据。Argoverse2数据集包含了来自六个城市的1000个场景，并提供了7张前视图像。本文使用的Argoverse2子集是由在线高精地图构建挑战赛提供的。本文的主要关注点集中在三种地图要素上，包括车道分隔线（div.）、人行横道（ped.）和道路边界（bou.）。

5.2 精度评估

为了进行全面的评估，本文采用了基于Chamfer距离的指标，包括平均精度 $AP_{chamfer}$ 和基于IoU的平均精度 $AP_{raster}$ 。这些指标从点坐标角度出发，同时将每个地图要素视为独立的整体单元进行评估，确保地图矢量化质量能从不同视角得到评判。

5.3 实现细节

为了确保公平的比较，本文选用ResNet50作为图像模态的主干网络。对于激光雷达模态，本文采用SECOND作为主干网络。定义的鸟瞰图（BEV）尺寸，即高HBEV乘以宽WBEV，设置为200×100。最大实例数量和点查询数量分别设置为50和20。

5.4 主要结果

在nuScenes数据集上的性能：

如表1所示，本文在nuScenes验证集的不同设置下，将MGMap方法与最先进的方法进行了对比。可以看出，本文提出的方法超越了以往的方法，取得了最佳性能。与基线MapTR相比，在使用ResNet-50和训练30轮的相同设置下，基于多视角摄像头输入的MGMap实现了10.3mAP的提升。值得注意的是，MGMap在仅使用LiDAR时达到67.9mAP，在融合摄像头数据与LiDAR时达到71.7mAP，这证明了本文方案的强大泛化能力。此外，图5展示了MGMap在几种驾驶场景下的视觉效果。

在Argoverse2数据集上的性能：

按照在线高精地图构建挑战赛的设置，本文在Argoverse2数据集上重新实现了MapTR和MGMap。表2展示了本文的实验结果。可以观察到，本文的方法在Argoverse2数据集上表现出了竞争力，与MapTR相比，MGMap实现了5.4 mAP的提升，进一步证明了本文所提方法的有效性。

扩大感知范围的性能评估：

为了评估模型的鲁棒性，本文在扩大的感知范围内进行了实验。在相同的设置下，本文针对BEV空间中X轴和Y轴上的60m×60m和30m×90m感知范围，重新实现了MapTR和本文的MGMap，此时查询数量按比例增大以保持基本属性。所有模型均训练了30个周期。表3报告了实验结果。与MapTR相比，本文的MGMap在两种设置下都持续表现出性能提升，对于60m×60m的感知范围提升了9.5mAP，对于30m×90m的范围则提升了10.2mAP。

5.5 消融实验

掩码引导设计的消融实验： 这部分验证了掩码引导设计（包括MAI解码器和PG-MPR模块）的重要性。MAI解码器通过掩码捕获全局结构信息，而PG-MPR模块专注于局部细节。结果显示，分别添加这两个模块可提升1.9mAP和2.6mAP，组合使用时达到最高mAP为61.4，证明了该设计在理解和定位目标方面的有效性。

EML颈部设计的消融实验： 探索了EML（多尺度特征融合颈部）设计相较于传统FPN在PV和BEV空间的应用效果。实验发现，BEV空间中的EML设计显著提高了性能，特别是在处理复杂形状物体的检测上，而PV空间的直接应用效果不佳。此外，EML设计还增强了掩码生成的质量，进一步优化了掩码引导流程的性能。

PG-MPR设计的消融实验： 针对位置引导的掩码补丁细化模块，研究了补丁大小和细化阶段数对性能的影响。实验结果显示，合理的补丁大小（例如0.1）和适当的细化阶段（两阶段）能最大化模型性能。过小或过大的补丁尺寸都会导致性能下降，表明了在保持信息相关性和细节捕捉之间的平衡是至关重要的。

6. 结论

本文提出了MGMap这一有效方法，旨在学习掩码的指导下实现在线高精地图矢量化。通过在实例和点两个层级利用掩码，本文缓解了由于高精地图中细微且稀疏标注所带来的粗略检测与细节丢失难题。所提出的MGMap不仅展现了当前最优的性能表现，还在多种实验设定下展示了在线地图矢量化方面的强大鲁棒性。对于未来研究，融合其他感知任务以构建更全面的表示形式仍是一个值得探索的方向，这有望为自动驾驶技术带来进一步的发展与进步。

编译｜蒙牛二锅头

审核｜Los

移步公众号【深蓝AI】，第一时间获取自动驾驶、人工智能与机器人行业最新最前沿论文和科技动态。