【论文笔记】FSD V2: Improving Fully Sparse 3D Object Detection with Virtual Voxels

原文链接：https://arxiv.org/abs/2308.03755

1. 引言

完全稀疏检测器在基于激光雷达的3D目标检测中有较高的效率和有效性，特别是对于长距离场景而言。

但是，由于点云的稀疏性，完全稀疏检测器面临的一大困难是中心特征丢失（CFM），即因为点云往往分布在物体表面，物体的中心特征通常会缺失。FSD引入实例级表达，通过聚类获取实例，并提取实例级特征进行边界框预测，以避免使用物体中心特征。但由于实例级表达有较强的归纳偏好，其泛化性不足。例如，聚类时需要对各类预定义阈值，且难以找到最优值；在拥挤的场景中可能使得多个实例被识别为一个实体，导致漏检。

本文提出FSDv2，丢弃了FSD中的实例级表达，以追求更高的泛化性。本文引入虚拟体素以替代FSD中的实例，这些虚拟体素通过体素化投票中心得到。为减轻投票质量低带来的影响，虚拟体素被输入轻量级的稀疏虚拟体素混合器（VVM）增强特征，聚合属于同一物体不同虚拟体素的特征，得到覆盖整个实例的特征。VVM模拟了FSD中的实例级特征提取，但不显式地生成实例，以避免产生手工的归纳偏好。由于虚拟体素位于物体中心附近，可将虚拟体素作为“锚点”，从中预测边界框；这可减轻正负样本的不平衡性。

2. 相关工作

2.1 密集检测器

密集检测器（如VoxelNet和PointPillars）将点云转化为密集的3D体素或2D BEV，并使用密集的3D卷积或2D卷积处理。

2.2 半密集检测器

半密集检测器（如SECOND和CenterPoint）将点云转化为稀疏3D体素，使用稀疏3D卷积处理后得到2D密集BEV特征，输入检测头进行检测。其余方法使用Transformer结构增强稀疏主干。

2.3 完全稀疏检测器

完全稀疏检测器（如PointRCNN和VoteNet）基于点云进行检测，无需将点云转化为体素。FSD避免了点云处理中耗时的操作。

3. 准备知识

3.1 FSDv1的整体设计

FSDv1主要包含3部分：（1）点特征提取：使用稀疏体素特征提取器提取体素特征，然后使用基于MLP的颈部网络将体素特征转化为点特征。最后使用轻量级的逐点MLP进行逐点分类和中心投票。（2）聚类：将连接组件标签（CCL）应用在投票的中心，以将点聚类为实例。（3）实例特征提取和边界框预测：详见下文。

3.2 稀疏实例识别

FSDv1实例特征提取的核心是稀疏实例识别（SIR）。

首先，初始的实例点特征输入MLP，并通过最大池化得到实例特征，与实例各点的特征拼接，输入到另一MLP压缩通道维度。迭代执行上述步骤后，将最大池化的结果用于边界框预测。该方法类似一系列PointNet层。

4. 方法

4.1 总体结构

如下图所示，首先使用稀疏体素特征提取器作为主干，并使用MLP用于逐点分类和中心投票（与FSDv1相同）。FSDv2使用虚拟体素化替代聚类，并使用虚拟体素混合器混合不同虚拟体素的特征，用于预测边界框。
在这里插入图片描述

4.2 虚拟体素化

4.2.1 虚拟体素

使用投票中心创建虚拟体素。具体来说，对于每个前景点，预测偏移量得到投票中心。然后将各投票中心与原始点云的并集体素化。虚拟体素即至少包含一个投票中心的体素，而仅含真实点的体素则称为真实体素。

虽然投票中心可能有很多，但虚拟体素一般较少，因为投票中心往往彼此接近，且体素大小会设置得比通常更大（主干已经捕捉了细粒度特征，此处无需高分辨率）。

4.2.2 虚拟体素特征编码

引入虚拟体素编码器，类似FSDv1中的SIR结构，区别在于FSDv1提取实例特征而本文提取体素特征。首先为投票中心生成特征，此处将生成投票中心的点的（经过主干编码后的）特征作为投票中心特征，并将预测偏移量作为额外特征以与真实点区分。对于真实点则设置虚拟偏移量0。然后使用SIR结构聚合虚拟体素内真实点和虚拟点的特征。

4.3 虚拟体素混合器

虚拟体素混合器（VVM）用于混合虚拟体素特征、真实体素特征和主干输出的多尺度特征。

4.3.1 混合虚拟体素特征的动机

当中心投票效果不佳时，一个物体的中心附近可能会有多个虚拟体素，但这些体素没有交互。

4.3.2 混合虚拟体素与真实体素的动机

由于虚拟体素来自预测的前景点，当预测不准时会有前景信息损失。

4.3.3 混合多尺度特征

多尺度特征包含主干输出的多尺度真实体素特征和4.1节中得到的虚拟/真实体素特征。由于特征是稀疏而不规则的，多尺度特征融合不能像图像一样进行通道维度的拼接。

设（相对于虚拟体素特征的）步长 $s$ 下的稀疏特征为 $F_s\in\mathbb{R}^{N_s\times C_s}$ ，其中 $N_s$ 为体素数， $C_s$ 为通道数。体素的坐标为 $I_s\in\mathbb{R}^{N_s\times 3}$ ，转化到 $\tilde{s}$ 步长下的坐标为 $I_s^{\tilde{s}}$ 。虚拟体素化得到的特征为 $F_1$ 。首先将 $I_s$ 转化为 $I_s^1$ ：
$I_s^1=I_s\times s+\lfloor{s/2}\rfloor$
按下式得到聚合的稀疏特征和体素坐标：
$F_{agg}=\text{Concat}(\text{Linear}(F_1),\text{Linear}(F_2),\cdots,\text{Linear}(F_L))\\ I_{agg}=\text{Concat}(I_1,I_2^1,\cdots,I_L^1)$
其中线性层用于将特征转换为相同的通道数。

注意 $I_{agg}$ 可能包含重复元素，因为不同尺寸的体素可能有相同的坐标。本文使用动态池化操作DP来去除重复坐标，将重复坐标对应的特征求取均值，得到单一特征。

4.3.4 VVM的模型结构

使用SparseUNet处理上述聚合结果。

4.4 讨论：聚类v.s.虚拟体素

当中心投票一致时，所有投票中心位于同一虚拟体素内，假设聚类是完美的，则本文的虚拟体素化方法与FSDv1的实例表达类似。

但当中心投票不一致时，会导致多个虚拟体素，每个体素编码了物体的部分形状。虚拟体素混合器使得虚拟体素之间可以交互，以编码完整几何信息。此时也与FSDv1的实例表达类似。

总的来说，本文的方法可以避免SIR中的手工参数设计，使得模型更简单通用。

4.5 虚拟体素分配

4.5.1 潜在的设计选择

传统的分配方法对于虚拟体素而言是次优的。因为：

虚拟体素不总是填充物体中心，特别是对于远处或大型物体。因此，基于中心的分配方法是不可行的。
基于锚框的方法需要逐类的超参数（如锚框大小），这和本文提高泛化性的设计思路冲突。
最近体素分配方法（将离中心最近的体素分配给对应的物体）会导致模糊性且阻碍优化。因为多个虚拟体素可能位于同一物体中心附近，但只有一个能作为匹配结果。

4.5.2 本文的方法：边界框内体素分配

本文将边界框内的所有虚拟体素作为正样本。

由于虚拟体素数远少于真实体素数，不会导致不同物体的正样本数不平衡。且能提高点很少的物体的召回率。
由于虚拟体素分布于物体中心附近，考虑所有虚拟体素不会导致回归目标有较大方差。
由于真实的边界框标注不会重叠，且点云的稀疏性保证边界框内不包含背景噪声，使得这种分配方法可靠。这解释了为什么基于图像的2D检测需要更加复杂的策略。

4.5.3 虚拟体素位置定义

直接的方法是将体素的几何中心作为虚拟体素的位置，但会导致不精确性和模糊性，因为体素的大小可能会超过一些小物体的大小。

本文考虑体素内点的分布，将体素的位置定义为所含点的加权中心：
$\bar{x}=\frac{\sum_{i=0}^{N-1}I(x_i)x_i}{\sum_{i=0}^{N-1}I(x_i)}$
其中
$I(x)=\left\{\begin{matrix}1,& 若x\in \mathbb{F}\\\alpha,&若x\notin \mathbb{F}\end{matrix}\right.$
其中 $\mathbb{F}$ 为前景点（包含原始点和投票中心）集合， $\alpha\in[0,1]$ 。