【计算机视觉】四篇基于Gaussian Splatting的SLAM论文对比

本文对比四篇论文：

[1] Gaussian Splatting SLAM
[2] SplaTAM: Splat, Track & Map 3D Gaussians for Dense RGB-D SLAM
[3] Gaussian-SLAM: Photo-realistic Dense SLAM with Gaussian Splatting
[4] GS-SLAM: Dense Visual SLAM with 3D Gaussian Splatting

文章目录

一、文章概括
- [1] Gaussian Splatting SLAM
- - 1. 相机追踪（Tracking）
  - 2. 关键帧选取（Keyframing）
  - 3. Gaussian的新增和删除
  - 4. 三维重建
- [2] SplaTAM
- - 1. 初始化（Initialization）
  - 2. 相机追踪（Tracking）
  - 3. 高斯致密化（Gaussian Densification）
  - 4. 高斯场景更新（Gaussian Map Updating）
- [3] Gaussian-SLAM
- - 1. 子场景（Sub-map）
  - 2. 形状和颜色编码（Geometry and Color Encoding）
  - 3. 相机追踪（Tracking）
- [4] GS-SLAM
- - 1. 自适应3D高斯扩张重建（Adaptive 3D Gaussian Expanding Mapping）
  - 2. 相机追踪（Tracking）
  - 3. 关键帧选取
  - 4. Bundle Adjustment
二、方法的异同
- - 共同点
  - 不同点
三、性能对比
- 1. 相机追踪精度
- 2. 重渲染精度
- 3. 训练和渲染FPS
附录
- 文章局限性
- 迭代次数

一、文章概括

[1] Gaussian Splatting SLAM

这篇论文主要解决的是RGB-D或单目相机的三维重建问题。

1. 相机追踪（Tracking）

在估计相机外参时，该方法最小化以下目标函数：
其中 $\lambda_{pho}$ 是权重超参数，，。
$I(\mathcal{G},\boldsymbol{T}_{CW})$ 表示从外参为 $\boldsymbol{T}_{CW}$ 的相机渲染高斯集合 $\mathcal{G}$ 所得的图片， $\bar{I}$ 是真实图片； $E_{pho}$ 为图片误差。
$E_{geo}$ 为深度误差，仅在深度信息可用时引入， $D(\mathcal{G},\boldsymbol{T}_{CW})$ 是渲染出来的深度（渲染方式和RGB值类似，均为按不透明度和透光率加权平均）， $\bar{D}$ 是深度数据。

2. 关键帧选取（Keyframing）

该方法选取关键帧窗口 $\mathcal{W}_k$ ，选取依据是两帧之间共同可见Gaussians的比例（判断Gaussian是否可见的方法就是判断到该Gaussian的透光率是否达到0.5）。定义共同可见度（covisibility）为当前帧 $i$ 与上一个关键帧 $j$ 之间可见Gaussians集合的IoU。若共同可见度低于某个阈值，或相对平移 $t_{ij}$ 相对于深度中位数较大，则帧 $i$ 被视为关键帧。

同时，在当前帧 $i$ 被加入关键帧窗口时，也要移除 $\mathcal{W}_k$ 中已经陈旧的关键帧。当帧 $j\in\mathcal{W}_k$ 与当前帧 $i$ 可见Gaussians的重叠系数（OC, Overlapping Coefficient）小于某个阈值时，就将其移除。OC的定义如下：

3. Gaussian的新增和删除

每个关键帧都会添加新Gaussians。该方法用关键帧中每个像素点的深度 $D$ （在单目相机的情形该方法会渲染深度来估计 $D$ 的值）作为新增Gaussians的参考位置。由于 $D$ 不一定准确，新Gaussians的深度服从一个均值为 $D$ 、方差较小的正态分布；对于没有深度估计的像素，新Gaussians的深度服从均值为渲染图像深度中位数、方差较大的正态分布。在一开始还没有Gaussian时，新增Gaussian的位置是随机的。

当关键帧窗口 $\mathcal{W}_k$ 已满，该方法执行删除操作。如果最近三个关键帧内新增的Gaussians没有在其他至少三帧内观察到，那就将它们移除。不透明度小于 $0.7$ 的Gaussians也会被移除。

4. 三维重建

这部分的目的是维持一个协调的3D结构并优化新插入的Gaussians。参与优化的帧集合为 $\mathcal{W}=\mathcal{W}_k\cup \mathcal{W}_r$ ，其中 $\mathcal{W}_r$ 是随机选取的两个以往的帧。3D Gaussians的渲染过程没有对沿光线方向的Gaussian进行约束，这可能会导致SLAM过程中出现伪影。因此，该方法惩罚“拉得太长”的Gaussians，方法是引入各向同性约束（isotropic regularization）：
其中 $\mathbf{s}_i$ 是第 $i$ 个Gaussian的缩放参数， $\tilde{\mathbf{s}}_i$ 是其在各个方向的均值。

对于三维重建部分，该方法求解以下最优化问题： $\min\limits_{\underset{\forall k\in\mathcal{W}}{\boldsymbol{T}_{CW}^k\in\mathbf{SE}(3)},\mathcal{G}} \sum\limits_{\forall k\in\mathcal{W}}E_{pho}^k+\lambda_{iso}E_{iso}$ 其中上标中的 $k$ 代表第 $k$ 帧， $\lambda_{iso}$ 为 $E_{iso}$ 的系数（是一个超参数）。

[2] SplaTAM

这篇论文处理的对象是“single unposed RGB-D camera”。

该方法引入了“silhouette image”（一种灰度图？）的概念，其计算公式如下：

其中 $f_i(\mathbf{p})$ 代表Gaussian $i$ 投影到于像素 $\mathbf p$ 的不透明度。令 $\alpha_i=f_i(\mathbf{p})$ 。注意到 $\begin{aligned} 1-S(\mathbf{p})&=1-\sum\limits_{i=1}^n \alpha_i\prod\limits_{j=1}^{i-1}[1-\alpha_j]\\ &=1-\alpha_1-(1-\alpha_1)\alpha_2-(1-\alpha_1)(1-\alpha_2)\alpha_3 - (1-\alpha_1)(1-\alpha_2)\cdots(1-\alpha_{n-1})\alpha_n\\ &=(1-\alpha_1)[1-\alpha_2-(1-\alpha_2)\alpha_3-\cdots-(1-\alpha_2)\cdots(1-\alpha_{n-1})\alpha_n]\\ &=(1-\alpha_1)(1-\alpha_2)[1-\alpha_3-\cdots-(1-\alpha_3)\cdots(1-\alpha_{n-1})\alpha_n]\\ &=\cdots\\ &=(1-\alpha_1)(1-\alpha_2)\cdots(1-\alpha_n) \end{aligned}$ 这就是光线穿过所有Gaussians后的透光率，所以 $S(\mathbf p)$ 也就是所有Gaussians（叠加）的不透光率。显然 $S(\mathbf p)<1$ 。当 $S(\mathbf p)\ne 1$ 时，背景颜色将会对像素颜色有贡献。但是一个完全重建的场景不应该体现出背景颜色，故 $S(\mathbf p)$ 是否接近 $1$ 可以判断该像素点所对光线上的Gaussian重建程度，进而反映置信度。

值得注意的是，该方法中仅用RGB三个数表示Gaussian的颜色（不考虑从不同方向观察Gaussian颜色不同的问题），仅用一个半径 $r$ 表示Gaussian的尺度（即各向同性的）。

1. 初始化（Initialization）

第一帧不进行相机追踪，把RT矩阵设置为单位阵。第一帧的所有像素都用来初始化Gaussians。对于每个像素，新增一个颜色为该像素颜色、不透明度为 $0.5$ 、中心深度为该像素的深度值、半径满足投影到图像上的半径为一像素的Gaussian。换言之，Gaussian的半径等于 $r=\frac{D}{f}$ ，其中 $D$ 、 $f$ 分别为深度和焦距。

2. 相机追踪（Tracking）

第 $t + 1$ 帧，相机的位姿被初始化为第 $t$ 帧的位姿+一个恒定的速度，例如 $E_{t+1}=E_t+(E_t-E_{t-1})$ 其中 $E_t$ 是第 $t$ 帧相机的位置坐标和旋转四元数。然后相机的位姿会经过梯度下降优化，目标函数为 $L_t=\sum\limits_{\forall\text{pixel }\mathbf p} [S(\mathbf p)>0.99] [L_1(D(\mathbf p))+0.5L_1(C(\mathbf p))]$ 其中 $L_1$ 代表 $L_1\text{ loss}$ ， $D(\mathbf p)$ 和 $C(\mathbf p)$ 分别代表像素 $\mathbf p$ 的深度和颜色。 $0.5$ 是颜色误差的权重（类似于论文[1]中的 $\lambda_{pho}$ ）。一个很重要的点是loss只计算 $S(\mathbf p)$ 较高的像素，因为这部分的重建已经是较完善的了。如果某一点的深度信息不存在，则 $L_1\text{ loss}$ 返回 $0$ 。

3. 高斯致密化（Gaussian Densification）

每一帧都会在重建不完全的地方插入新的Gaussians。该方法定义了以下“致密化掩码”来确定应该在哪里插入新Gaussians（其中的乘法和加法应理解为与和或）：
也就是说会在两种情况下新增Gaussian：像素 $\mathbf p$ 处的 $S$ 值太小（后面的背景都露出来了），或者此处由Gaussians给出的预测深度 $D$ 小于真实深度 $D_{\mathrm{GT}}$ 且深度的 $L_1$ 误差大于 $\lambda$ （设为 $50$ ）乘以深度中位数误差（Median Depth Error, MDE）。对每个像素，如果该掩码为真，则以与初始化相同的方式插入新Gaussians。

4. 高斯场景更新（Gaussian Map Updating）

该方法从最新重建结果开始优化。每 $n$ 帧选取一帧作为关键帧。该方法选取 $k$ 帧指导优化，包括当前帧，上一帧和 $k - 2$ 个与当前帧有高度重叠的以前的关键帧。重叠的判别方式是取当前帧深度图的点云并检查多少个点在每一个关键帧的视锥中。

这部分优化的loss与相机追踪阶段类似，只不过该方法不用 $S(\mathbf p)$ （silouette mask）了，因为该方法想利用所有像素进行优化。此外，该方法还为RGB渲染添加了一个SSIM loss，并移除不透明度接近 $0$ 或者体积太大的Gaussians，就像Gaussian Splatting原论文所做的那样。

_{GS原论文中的loss公式：}

[3] Gaussian-SLAM

该论文处理的对象依然是真实世界单个相机拍摄的RGBD视频。该方法对好的深度数据有较高要求（见论文14页Limitations and Future Work）。

1. 子场景（Sub-map）

为了避免灾难性遗忘、过拟合和计算复杂度过高，该方法将输入分块处理，对应不同的子场景。当前的子场景被称为活动子场景（active sub-map）。在当前帧相对于活动子场景首帧的平移超过阈值 $d_{\rm thre}$ 或欧拉角超过阈值 $\theta_{\rm thre}$ 时，就新建一个子场景作为活动子场景。任何时候，算法都只会处理活动子场景。

每5帧取一帧作为关键帧（见Experiments的Implementation Details）。每个关键帧都可能会添加新Gaussians。对于每个子场景的第一帧，算法在帧中颜色梯度较高的区域均匀地选取 $M_c$ 个点。在随后的关键帧中，算法在渲染的 $\alpha$ 值低于一个阈值 $\alpha_n$ 的区域随机选取 $M_k$ 个点。新Gaussian的中心位置是随机选取的点，但还要满足以下要求：在当前子场景、半径为 $\rho$ 的邻域内没有其他Gaussian。新Gaussian是各向异性的（即不是球体），它们的缩放参数取当前子场景内离它最近的Gaussian的距离。

算法不会复制或删除Gaussian。算法会渲染一个子场景内的所有关键帧来进行优化，并将40%的迭代次数用在新的关键帧上。

2. 形状和颜色编码（Geometry and Color Encoding）

该论文与[2]一样使用 $L_1$ 范数定义深度误差 $L_{\mathrm{depth}}$ 和颜色误差 $L_{\mathrm{color}}$ ，并且也加入了SSIM loss（颜色的 $L_1$ 误差与SSIM之间的权重比例为 $4 : 1$ ）。同时，该论文也与[1]类似使用了各向同性正则化来惩罚拉得太长的Gaussians： $L_{\mathrm{reg}} = \cfrac{\sum\limits_{k\in K}|s_k-\bar s_k|_1}{|K|}$ 其中 $s_k$ 是Gaussian的缩放参数， $\bar s_k$ 是子场景中所有Gaussian缩放参数的均值（这一点与论文[1]不同，[1]中 $\bar s_k$ 是单个Gaussian缩放的均值）， $k$ 是该子场景中Gaussian的ID， $∣ K ∣$ 是子场景中Gaussian的个数。

该方法以下面的式子作为目标函数优化当前子场景的Gaussians：

3. 相机追踪（Tracking）

这部分优化的是第 $i$ 帧相机相对于第 $i - 1$ 帧的相对位姿（relative camera pose）。相机外参的初始值也遵循[2]中的“恒定速度假设”，即当前帧、上一帧和上上一帧的外参呈等差数列（就平移向量和旋转四元数而言）。在优化这部分时，Gaussians的参数是冻结的。这部分的目标函数是
其中 $M_{\mathrm{inlier}}$ 是两一个布尔掩码，用于排除一些重建不完全的像素，这些像素的深度误差大于当前重渲染深度图中深度误差中位数的 $50$ 倍； $M_{\mathrm{alpha}}=\alpha^3$ （称为soft alpha mask，其中 $\alpha$ 是渲染出来的 $\alpha$ 值，相当于[2]中的 $S(\mathbf p)$ ），用于排除对于光线透明度较高的像素。

[4] GS-SLAM

这篇论文是最早的（2023年11月），其核心是“RGB-D re-rendering”。论文提出的方法也依赖高质量的深度数据。

1. 自适应3D高斯扩张重建（Adaptive 3D Gaussian Expanding Mapping）

对于每个关键帧，算法更新并优化3D高斯场景。优化的目标是最小化深度和颜色的 $L_1$ 误差。

自适应3D高斯扩张策略：对于RGB-D序列的第一帧，算法从分辨率为 $H\times W$ 的图片中随机选取一半像素并利用深度数据将像素点反投影（back-projecting）到三维空间去，并以这些3D位置初始化Gaussians的中心坐标，此时Gaussians的球谐度数设置为0，颜色（直流分量）设置为像素点的颜色。在第一帧，场景通过重投影误差进行优化。另一半的像素用于将大Gaussians分解成小Gaussians并且从不同方向复制它们，从而弥补缺失的细节。

增加Gaussians：在每个关键帧，新的Gaussians会在不可靠的像素的反投影上创建。判断像素点是否可靠的方法是：检查其累积不透明度 $T$ （等于[2]中的 $S_\mathbf p$ ）是否小于阈值 $\tau_T$ 或重渲染深度 $\hat D$ 的误差 $|D-\hat D|$ 是否大于 $\tau_D$ 。这些不可靠的像素点主要就是新观察到的区域。

删除Gaussians：由于自适应方法是不稳定的，有的时候会出现浮游（floating）的Gaussians。为了解决这个问题，算法在新增Gaussians后会检查当前相机视锥内的所有可见Gaussians并大幅度地减小位置不在场景表面的Gaussians的不透明度。准确的说，算法检查每个Gaussian中心投影到像平面后对应像素点的真实深度，并比较Gaussian深度与真实深度：若二者之差大于阈值 $\gamma$ ，则给该Gaussian的不透明度乘以 $\eta$ （ $\eta<<1$ ）。

2. 相机追踪（Tracking）

该论文依然遵循[2]中的“恒定速度假设”对相机位姿进行初始化。相机位姿优化的目标函数是颜色误差（注意这里没有用到深度误差）。

由粗到细的相机追踪：为了解决重投影时伪影影响相机位姿估计的问题，论文提出了Coarse-to-Fine Camera Tracking。首先渲染一个长宽各为原来一半的粗粒度图像（像素点是随机选取的），并迭代优化相机位姿 $T_c$ 次。再用目前得到的相机位姿进行全分辨率的细粒度重投影，并像删除Gaussians的方法一样排除深度不对劲的Gaussians的影响。最后用细粒度图像迭代优化位姿 $T_f$ 次。注意算法只投影以前观察到的区域。

3. 关键帧选取

选取的标准有两个：

图像可靠部分与总大小的比例；
当前帧与最近关键帧的差异是否达到阈值 $\mu_k$ 。

4. Bundle Adjustment

这一阶段算法共同优化相机位姿和3D Gaussians的参数。在关键帧数据库中随机选取 $K$ 个关键帧用于优化，目标函数和三维重建阶段类似。前一半迭代只优化3D Gaussians，后一半同时优化Gaussians和相机位姿。目标函数如下：

二、方法的异同

共同点

整体框架相同。方法都包含基于梯度下降的相机位姿优化、用3D Gaussians集合表示场景、动态增删Gaussians的策略，并且都用到了关键帧的概念；都在loss中引入了颜色误差和深度误差。
均简化了球谐（spherical harmonics）的表示（目的是提升速度）。[1][2][3]直接省略了球谐，用RGB值表示Gaussian的颜色。[4]用最大度数为 $1$ 的球谐，使得表示颜色的系数共有 $12$ 个。
深度和颜色误差均采用 $L_1$ 范数；[2][3]均在计算颜色误差时引入了SSIM loss。
[1][2][3]均注重Gaussian的各向同性（即趋近于球形，不能拉得太长）。其中[2]直接强制使用球形Gaussians，并进行了消融实验：如果采用各向异性的Gaussians，那么性能有可以忽略不计的提升，但时间和内存占用大幅升高（见[2]附录的S3）。[1][3]对控制Gaussian各向同性的loss做了消融实验，实验证明对于真实世界的数据这种loss可以显著优化场景并提高相机追踪的精度。
[2][3][4]均以重建是否完全作为相机追踪和Gaussian新增的判断标准。[2]引入了“silhouette image” $S(\mathbf p)$ 来判断哪些像素参与相机追踪并辅助选取新Gaussian插入的位置。[3]引入了掩码 $M_{\mathrm{inlier}}$ 和 $M_{\mathrm{alpha}}$ 分别从深度误差和不透明度的角度选取参与相机追踪的像素点；[4]用深度误差决定增删哪些Gaussians并判断哪些Gaussians在相机追踪时不予考虑（其中增加Gaussians时还考虑了不透明度是否小于一个阈值）。
在优化Gaussians均选取少量关键帧参与颜色误差的计算。[1]中用的是当前的关键帧窗口和随机选取的以往的两帧。[2]中用的是当前帧，上一帧和一些与当前帧有高度重叠的以前的关键帧。[3]中用的是当前子场景的所有关键帧。[4]中用的是随机选取的 $K$ 个关键帧。
[1][2][4]中，新增Gaussian的深度均以图片像素反投影到三维空间中的深度为参考；其中[2][4]新增Gaussians的颜色为像素颜色。
文章的弱点相近。[2][3][4]均要求高质量的深度数据；四篇论文对轨迹偏移、移动模糊、突然旋转等极端场景效果均不好。

不同点

仅[1]可以处理不含深度的数据。
关键帧选取的策略不同。[1]的选取策略注重当前帧与上一个关键帧共同可见Gaussian的比例；[2][3]每隔固定的帧数（分别为 $n$ 、5）选一帧作为关键帧；[4]的选取依据是图像可靠部分的比例和当前帧与上一关键帧的差异。
Gaussian增删的策略不同。[1][2][4]都围绕某些像素点的反投影创建像素，区别在于：[1]以一个围绕深度的正态分布插入Gaussians，删除在最近几帧无法观察到的Gaussians；[2]在满足致密化掩码条件的像素的反投影上创建新Gaussians，删除不透明度接近 $0$ 或体积过大的Gaussians；[4]在不透明度较小以及深度误差过大的像素的反投影创建Gaussians，并降低浮游Gaussians的不透明度。[3]则随机选点，并在比较“空”的位置创建新Gaussians。[3]不删除Gaussians。
[1][4]共同优化相机位姿和Gaussians（即“bundle adjustment”）；[2][3]分别优化位姿和Gaussians，优化其中一个的时候固定另一个。
只有[3]将输入序列分为多个子场景。当要完成时，[3]的算法会把所有子场景合并起来，方法是检查最近邻居，与子场景构建类似。最后的最后会执行一个颜色优化，迭代10000次。

三、性能对比

1. 相机追踪精度

指标为ATE (Absolute Trajectory Error) RMSE (Root Mean Square Error) (cm)。

论文\数据集（平均）	TUM-RGBD	Replica
[1] Gaussian Splatting SLAM	1.58	0.79
[2] SplaTAM	3.25	0.36
[3] Gaussian SLAM	2.9	0.31
[4] GS-SLAM	3.7	0.5

可以看到[1]在TUM-RGBD数据集上效果最好，[3]在Replica上效果最好。

注意：TUM-RGBD数据集的平均数我只统计了fr1/desk、fr2/xyz、fr3/office三个场景，与[2]中计算的平均数不同（[2]中还统计了其他场景，但这些场景在其他论文中没有出现）。

2. 重渲染精度

下表是各方法在Replica数据集上的渲染精度：

论文\度量	PSNR[dB] $\uparrow$	SSIM $\uparrow$	LPIPS $\downarrow$
[1] Gaussian Splatting SLAM	34.83	0.954	0.068
[2] SplaTAM	34.11	0.97	0.10
[3] Gaussian SLAM	38.88	0.993	0.017
[4] GS-SLAM	31.56	0.968	0.094

可以看出[3]全面超越其他方法。

3. 训练和渲染FPS

论文\指标	训练FPS	渲染FPS
[1] Gaussian Splatting SLAM (RTX 4090)	3.2（TUM单目相机数据集的fr3/office场景）	769（Replica）
[2] SplaTAM (RTX 3080)	0.4	2175
[3] Gaussian SLAM (RTX A6000)	0.57	2175
[4] GS-SLAM	8.34（Replica数据集中的Room 0场景）	386