【论文阅读】Neuralangelo：高保真神经表面重建

Abstract
1. Introduction
2. Related work
3. Approach
- 3.1.预备工作
- 3.2.数值梯度计算
- 3.3.渐进细节层次
- 3.4.优化
4. Experiments
- 4.1. DTU Benchmark
- 4.2. Tanks and Temples
- 4.3.细节水平
- 4.4.消融
5. Conclusion

在这里插入图片描述
paper project

Abstract

神经表面重建已被证明对于通过基于图像的神经渲染恢复密集的 3D 表面非常有效。然而，当前的方法难以恢复真实场景的详细结构。为了解决这个问题，我们提出了 Neuralangelo，它将多分辨率 3D 哈希网格的表示能力与神经表面渲染相结合。两个关键因素使我们的方法成为可能：(1) 用于计算高阶导数的数值梯度作为平滑操作，以及 (2) 控制不同细节层次的散列网格上的粗到精优化。即使没有深度等辅助输入，Neuralangelo 也可以从多视图图像中有效地恢复密集的 3D 表面结构，其保真度大大超过以前的方法，从而可以从 RGB 视频捕获中进行详细的大规模场景重建。

1. Introduction

3D 表面重建旨在从不同视点观察到的多幅图像中恢复密集的几何场景结构 [9]。恢复的表面提供对许多下游应用有用的结构信息，例如用于增强/虚拟/混合现实的 3D 产品生成或用于机器人自主导航的环境映射。使用单目 RGB 相机进行摄影测量表面重建特别令人感兴趣，因为它使用户能够使用无处不在的移动设备随意创建现实世界的数字孪生。

传统上，多视图立体算法 [6、16、29、34] 一直是稀疏 3D 重建的首选方法。然而，这些算法的一个固有缺点是它们无法处理模糊的观察结果，例如具有大面积均匀颜色、重复纹理图案或强烈颜色变化的区域。这将导致带有噪声或缺失表面的不准确重建。最近，神经表面重建方法 [36、41、42] 在解决这些限制方面显示出巨大潜力。这类新方法使用基于坐标的多层感知器 (MLP) 将场景表示为隐式函数，例如占用场 [25] 或符号距离函数 (SDF) [36、41、42]。利用 MLP 和神经体积渲染 [22] 的固有连续性，这些技术允许优化的表面在空间位置之间进行有意义的插值，从而产生平滑和完整的表面表示。

尽管神经表面重建方法优于经典方法，但当前方法恢复的保真度于是 MLP 的容量不能很好的适应。最近，Müller 等人 [23] 提出了一种新的可扩展表示，称为 Instant NGP（Neural Graphics Primitives）。 Instant NGP 引入了具有多分辨率哈希编码的混合 3D 网格结构和轻量级 MLP，后者的内存占用与分辨率呈对数线性关系，更具表现力。所提出的混合表示极大地提高了神经域的表示能力，并在表示各种任务的非常细粒度的细节方面取得了巨大成功，例如对象形状表示和新颖的视图合成问题。

在本文中，我们提出了用于高保真表面重建的 Neuralangelo（图 1）。 Neuralangelo 采用 Instant NGP 作为底层 3D 场景的神经 SDF 表示，通过神经表面渲染 [36] 从多视图图像观察中进行优化。我们提出了两个对于完全释放多分辨率哈希编码的潜力至关重要的发现。首先，使用数值梯度计算高阶导数，例如 eikonal 正则化的表面法线 [8、12、20、42]，对于稳定优化至关重要。其次，渐进式优化方案在恢复不同细节层次的结构中起着重要作用。我们结合了这两个关键要素，并通过对标准基准和真实场景的广泛实验，证明了在重建精度和视图合成质量方面比基于图像的神经表面重建方法有显著改进。
在这里插入图片描述
图 1. 我们展示了 Neuralangelo，这是一个使用神经体积渲染从 RGB 图像重建高保真 3D 表面的框架，即使没有辅助数据，如语义分割或深度。图中显示的是法院提取的 3D 网格。

总之，我们提出了以下贡献：
• 我们提出了Neuralangelo 框架，以自然地将多分辨率哈希编码[23] 的表示能力合并到神经SDF 表示中。
• 我们提出了两种简单的技术来提高哈希编码表面重建的质量：具有数值梯度的高阶导数和从粗到精优化的渐进细节层次。
• 我们凭经验证明了 Neuralangelo 在各种数据集上的有效性，显示出比以前的方法显著改进。

2. Related work

多视图表面重建。
早期基于图像的摄影测量技术使用体积占用网格来表示场景 [4、16、17、29、32]。如果满足相应投影图像像素之间的严格颜色一致性，则访问每个体素并标记为已占用。由于在现实世界中普遍存在的自动曝光或非朗伯材料，光度一致性假设通常会失败。放宽视图间的这种颜色一致性约束对于逼真的 3D 重建很重要。
后续方法通常从多视图立体技术 [6、7、28、34] 的 3D 点云开始，然后执行密集表面重建 [13、14（泊松表面重建）]。依赖于生成的点云的质量通常会导致表面缺失或出现噪声。最近基于学习的方法通过学习图像特征和成本体积构建来增强点云生成过程 [2、10、40]。然而，这些方法本质上受到体积分辨率的限制，并且无法恢复几何细节。

神经辐射场 (NeRF)。

NeRF [22] 实现了具有视图相关显著效果的照片级真实感视图合成。 NeRF 使用 MLP 将 3D 空间位置映射到颜色和体积密度来编码 3D 场景。使用神经体积渲染将这些预测合成为像素颜色。然而，NeRF 及其变体 [1、30、43、46] 的一个问题是如何定义体积密度的等值面来表示底层 3D 几何形状。目前的做法通常依赖于密度值的启发式阈值；然而，由于对水平集的约束不足，这样的表面通常很嘈杂，可能无法准确地模拟场景结构 [36, 41]。因此，对于摄影测量表面重建问题，首选更直接的表面建模。

神经表面重建。

对于具有更好定义的 3D 表面的场景表示，占用网格 [24、25] 或 SDF [42] 等隐式函数优于简单的体积密度场。为了与神经体积渲染 [22] 集成，已经提出了不同的技术 [36、41] 来将底层表示重新参数化回体积密度。这些神经隐式函数的设计可以通过不牺牲质量的视图合成能力实现更准确的表面预测 [42]。

后续工作以表面保真度为代价将上述方法扩展到实时 [18、37]，而其他 [3、5、44] 使用辅助信息来增强重建结果。值得注意的是，NeuralWarp [3] 使用补丁变形给定来自运动结构 (Sf M) 的共同可见性信息来指导表面优化，但补丁平面假设无法捕获高度变化的表面 [3]。其他方法 [5、45] 利用来自 SfM 的稀疏点云来监督 SDF，但与经典方法 [45] 一样，它们的性能上限受点云质量的限制。单眼深度和语义分割作为辅助数据的使用也已通过无约束图像集合 [31] 或使用具有哈希编码的场景表示 [44] 进行了探索。相比之下，我们的工作 Neuralangelo 建立在哈希编码 [23] 的基础上来恢复表面，但不需要先前工作 [3、5、31、44、45] 中使用的辅助输入。并行工作 [38] 还提出了从粗到精的优化以改善表面细节，其中位移网络纠正了粗网络预测的形状。相比之下，我们使用分层哈希网格并根据我们对高阶导数的分析来控制细节级别。

3. Approach

Neuralangelo 从多视图图像重建场景的密集结构。 Neuralangelo 沿相机视图方向对 3D 位置进行采样，并使用多分辨率哈希编码对位置进行编码。编码后的特征被输入到 SDF MLP 和颜色 MLP，以使用基于 SDF 的体积渲染来合成图像。

3.1.预备工作

神经体积渲染。
NeRF [22] 将 3D 场景表示为体积密度和颜色场。给定相机姿势和光线方向，体积渲染方案会沿光线整合采样点的颜色辐射。第 i 个采样的 3D 位置 $x_i$ 与相机中心的距离为 $t_i$ 。使用坐标 MLP 预测每个采样点的体积密度 $σ_i$ 和颜色 $c_i$ 。给定像素的渲染颜色近似为黎曼和：

在这里插入图片描述

这里， $α_i = 1 − exp(−σ_iδ_i)$ 是第 i 个射线段的不透明度， $δ_i = t_{i+1} − t_i$ 是相邻样本之间的距离， $T_i = Π^{i−1}_{ j=1}(1 − α_j)$ 是累积透射率，表示到达相机的光的分数。为了监督网络，在输入图像 $c$ 和渲染图像 $\hat{c}$ 之间使用颜色损失：

在这里插入图片描述
然而，这种密度公式并未明确定义表面。从基于密度的表示中提取表面通常会导致嘈杂和虚假的结果 [36, 41]。

SDF 的体绘制。
SDF是最常见的表面表示之一。 SDF 的表面 $S$ 可以由其零水平集隐式表示，即 $S = {x ∈ R^3|f (x) = 0}$ ，其中 $f (x)$ 是 SDF 值。在神经 SDF 的背景下，Wang 等人 [36] 提出将 NeRF 中的体积密度预测转换为具有逻辑函数的 SDF 表示，以允许使用神经体积渲染进行优化。给定一个 3D 点 $x_i$ 和 SDF 值 $f (x_i)$ ，相应的不透明度值 $α_i$ 在方程式（1）中有提到，可用下式计算：
在这里插入图片描述
其中 $Φ_s$ 是 sigmoid 函数。在这项工作中，我们使用与[36，NeuS]相同的基于 SDF 的体绘制公式。

多分辨率哈希编码。

最近，Müller 等人[23]提出的多分辨率哈希编码已经显示出神经场景表示、生成细粒度细节等任务（如新视图合成）的巨大可扩展性。在 Neuralangelo 中，我们采用哈希编码的表示能力来恢复高保真表面。

哈希编码使用多分辨率网格，每个网格单元角都映射到一个哈希条目。每个散列条目存储编码特征。令 ${V_1, ..., V_L}$ 为不同空间网格分辨率的集合。给定输入位置 $x_i$ ，我们将其映射到每个网格分辨率 $V_l$ 的相应位置，如 $x_{i,l} = x_i · V_l$ 。给定分辨率 $V_l$ 的特征向量 $γ_l(x_i,l) ∈ R^c$ 是通过网格单元角处的哈希条目的三线性插值获得的。所有空间分辨率的编码特征连接在一起，形成 $γ(x_i) ∈ R^{cL}$ 特征向量：

在这里插入图片描述

然后将编码后的特征传递给浅层 MLP。
散列编码的一种替代方法是稀疏体素结构 [30、33、39、43]，其中每个网格角都是唯一定义的，不会发生冲突。然而，体积特征网格需要分层空间分解（例如八叉树）以使参数计数易于处理；否则，内存将随着空间分辨率呈立方体增长。给定这样的层次结构，通过设计更精细的体素分辨率无法恢复被被较粗的分辨率误导的表面[33]。相反，哈希编码假定没有空间层次结构，并根据梯度平均 [23] 自动解决冲突。

在这里插入图片描述
图 2. 对高阶导数使用数值梯度将反向传播更新分布到局部哈希网格单元之外，从而成为解析梯度的平滑版本。

3.2.数值梯度计算

我们在本节中表明，哈希编码的位置解析梯度存在局部性问题。因此，优化更新只传播到局部哈希网格，缺乏非局部平滑性。我们通过使用数值梯度提出了对这种局部性问题的简单修复。概述如图 2 所示。
SDF 的一个特殊属性是它在单位范数梯度下的可微性。 SDF的梯度满足eikonal方程 $∥\nabla f (x) ∥2 = 1$ （几乎无处不在）。为了将优化的神经表示转为成为有效的 SDF，通常将 eikonal 损失 [8] 强加于 SDF 预测：

在这里插入图片描述

其中 $N$ 是采样点的总数。为了允许端到端优化，需要对 SDF 预测 $f (x)$ 进行双重后向操作。

计算 SDF 表面法线 $\nabla f (x)$ 的实用方法是使用解析梯度 [36, 41, 42]。然而，在三线插值的情况下，哈希编码的分析梯度在整个空间中是不连续的。为了找到体素网格中的采样位置，每个 3D 点 $x i$ 将首先按网格分辨率 $V l$ 进行缩放，写为 $x_{i,l} = x_i · V_l$ 。令三线性插值的系数为 $β = x_{i,l} − ⌊x_{i,l}⌋$ 。得到的特征向量是

在这里插入图片描述
其中舍入的位置 $⌊ x i, l ⌋, ⌈ x i, l ⌉$ 对应于局部网格单元角。我们注意到舍入操作 $⌊ \cdot ⌋$ 和 $⌈ \cdot ⌉$ 是不可微分的。因此，该位置的哈希编码的导数可以通过下式获得：

在这里插入图片描述
散列编码的导数是局部的，即当 $x_i$ 越过网格单元边界时，对应的散列条目将不同。因此，等式（5）中定义的 eikonal 损失仅反向传播到局部采样的哈希条目，即 $γ_l(⌊x_{i,l}⌋)$ 和 $γ_l(⌈x{i,l}⌉)$ 。当连续表面（例如平面墙）跨越多个网格单元时，这些网格单元应产生连贯的表面法线而不会突然过渡。为了确保表面表示的一致性，需要对这些网格单元进行联合优化。然而，解析梯度仅限于局部网格单元，除非所有相应的网格单元恰好同时被采样和优化（不能保证能采样一定会实现）。

为了克服哈希编码解析梯度的局部性，我们提出使用数值梯度来计算表面法线。如果数值梯度的步长小于哈希编码的网格大小，则数值梯度等价于解析梯度；否则，多个网格单元的哈希条目将参与表面法线计算。因此，通过表面法线反向传播允许多个网格的哈希条目同时接收优化更新。直观地，具有精心选择的步长的数值梯度可以解释为对解析梯度表达式的平滑操作。正常监督的另一种选择是师生课程（teacher-student curriculum） [35, 47]，其中预测的噪声法线被驱动到 MLP 输出以利用 MLP 的平滑性。然而，这种师生损失的分析梯度仍然只能反向传播到局部网格单元进行哈希编码。相比之下，数值梯度无需额外的网络即可解决局部性问题。
要使用数值梯度计算表面法线，需要额外的 SDF 样本。给定一个采样点 x $_i = (x_i, y_i, z_i)$ ，我们在 $ε$ 的步长附近沿 $x_i$ 周围的规范坐标的每个轴另外采样两个点。例如，表面法线的 $x$ 分量可以表示为
在这里插入图片描述
其中 $ε x = [ε, 0, 0]$ 。数值表面法线计算总共需要六个额外的 SDF 样本。

3.3.渐进细节层次

从粗到细的优化可以更好地塑造全局损失，避免陷入错误的局部极小值。这种策略已经在计算机视觉中找到了许多应用，例如基于图像的配准 [19、21、26]。 Neuralangelo 还采用由粗到精的优化方案来重建具有渐进细节层次的表面。对高阶导数使用数值梯度，自然地使 Neuralangelo 从两个角度执行由粗到精的优化。

步长 ε。
如前所述，数值梯度可以解释为一种平滑操作，其中步长 $ε$ 控制分辨率和恢复细节的数量。为数值表面法线计算施加较大 $ε$ 的 $L_{eik}$ 可确保表面法线在更大范围内保持一致，从而产生一致且连续的表面。另一方面，施加具有较小 $ε$ 的 $L_{eik}$ 会影响较小的区域并防止平滑细节。在实践中，我们将步长 $ε$ 初始化为最粗糙的哈希网格大小，并在整个优化过程中以指数方式减小它以匹配不同的哈希网格大小。

哈希网格分辨率 V 。
如果从优化开始时所有哈希网格都被激活，为了捕获几何细节，精细哈希网格必须首先从具有大步长 $ε$ 的粗优化中“忘却”，并以较小的 $ε$ “重新学习”。如果这样的过程由于收敛优化而失败，几何细节将会丢失。因此，我们只启用一组初始的粗哈希网格，并在整个优化过程中当 $ε$ 减小到它们的空间大小时逐步激活更精细的哈希网格。因此可以避免重新学习过程以更好地捕捉细节。在实践中，我们还对所有参数应用权重衰减，以避免单一分辨率特征主导最终结果。

3.4.优化

为了进一步鼓励重建表面的平滑性，我们通过规范化SDF的平均曲率来施加先验。平均曲率由离散拉普拉斯计算得出，与表面法线计算类似，否则，在使用三线插值时，哈希编码的二阶分析梯度在任何地方都是零。曲率损失 $L_{curv}$ 定义为：
在这里插入图片描述
我们注意到用于等式（8）中表面法线计算的样本足以进行曲率计算。总损失定义为各损失的加权和：

在这里插入图片描述
所有的网络参数，包括 MLP 和哈希编码，都是端到端联合训练的。

4. Experiments

数据集。
按之前的工作，我们对 DTU 数据集 [11] 的 15 个以对象为中心的场景进行了实验。每个场景都有 49 或 64 张图像，由机器人手持的单目 RGB 相机拍摄。地面实况是从结构光扫描仪获得的。我们进一步对 Tanks and Temples 数据集 [15] 的 6 个场景进行实验，包括大型室内/室外场景。每个场景包含 263 到 1107 张图像，这些图像是使用手持式单目 RGB 相机拍摄的。地面实况是使用 LiDAR 传感器获得的。

实施细节。
我们的哈希编码分辨率范围为 $2^5$ 到 $2^{11}$ ，共 16 个级别。每个哈希条目的通道大小为 8。每个分辨率的最大哈希条目数为 $2^{22}$ 。由于场景比例的差异，我们在 DTU 数据集和 Tanks 和 Temples 优化开始时分别激活 4 和 8 哈希分辨率。当步长 $ε$ 等于其网格单元大小时，我们每 5000 次迭代启用一个新的哈希分辨率。对于所有实验，我们在优化过程中不使用辅助数据（如语义分割或深度）。

评价标准。
我们报告了用于表面评估的倒角距离和 F1 分数 [11、15]。我们使用峰值信噪比 (PSNR) 来报告图像合成质量。

在这里插入图片描述
图 3. DTU 基准 [11] 的定性比较。 Neuralangelo 生成更准确和更高保真度的表面。

表 1. DTU 数据集 [11] 的定量结果。 Neuralangelo 实现了最好的重建精度和图像合成质量。最好的结果。第二好的结果。 † 表示需要来自 SfM 的 3D 点。

4.1. DTU Benchmark

我们在图 3 中显示了定性结果，在表 1 中显示了定量结果。平均而言，Neuralangelo 实现了最低的倒角（ Chamfer ）距离和最高的 PSNR，即使不使用辅助输入也是如此。结果表明，在恢复表面和合成图像时，Neuralangelo 比之前的工作更普遍适用，尽管并非在每个场景中都表现最佳。

我们针对以下条件进一步消融 Neuralangelo：1) AG：解析梯度，2) AG+P：解析梯度和渐进式激活哈希分辨率，3) NG：具有不同 $ε$ 的数值梯度。图 4 定性地显示了结果。 AG 会产生嘈杂的表面，即使哈希分辨率逐渐激活 (AG+P) 也是如此。 NG 提高了表面的光滑度，牺牲了细节。我们的设置 (NG+P) 会产生光滑的表面和精细的细节。
在这里插入图片描述
图 4. 不同由粗到精优化方案的定性比较。使用解析梯度（AG 和 AG+P）时，粗糙表面通常包含伪影。虽然使用数值梯度 (NG) 会导致更好的粗糙形状，但细节也会变得平滑。我们的解决方案 (NG+P) 可产生光滑的表面和精细的细节。
在这里插入图片描述
图 5. Tanks and Temples 数据集 [15] 的定性比较。与其他基线方法相比，Neuralangelo 可以更好地捕捉场景细节，而基线方法有缺失或嘈杂的表面。

表 2. Tanks and Temples 数据集 [15] 的定量结果。 Neuralangelo 实现了最好的表面重建质量，并且在图像合成方面的平均表现最好。

4.2. Tanks and Temples

由于没有关于 Tanks and Temples 的公开结果，我们按照我们的设置训练 NeuS [36] 和 NeuralWarp [3]。我们还使用 COLMAP [27] 报告了经典的多视图立体结果。由于 COLMAP 和 NeuralWarp 不支持视图合成，我们只报告来自 NeuS 的 PSNR。结果总结在图 5 和表 2 中。

Neuralangelo 实现了最高的平均 PSNR，并且在 F1 分数方面表现最好。与 NeuS [36] 相比，我们可以恢复具有复杂细节的高保真表面。我们发现从 COLMAP 生成的密集表面对稀疏点云中的异常值很敏感。我们还发现 NeuralWarp 经常预测天空和背景的表面，这可能是由于它们遵循 VolSDF [41] 的颜色渲染方案。为背景预测的额外表面被计为异常值并显著恶化 F1 分数。相反，我们遵循 NeuS [36] 并使用额外的网络 [46] 对背景进行建模。

与 DTU 结果类似，使用分析梯度会产生噪声表面，从而导致低 F1 分数。我们进一步注意到，图 1 和 2 中所示的法院大楼的重建。图1和图5是同一个建筑的不同侧面，展示了Neuralangelo进行大规模粒度重建的能力。
在这里插入图片描述
图 6. 不同哈希分辨率下的结果。虽然一些结构，如树、桌子和自行车架，在粗分辨率（4 级）下被遗漏了。更精细的分辨率可以逐步恢复这些缺失的表面。平坦的连续表面也需要足够精细的分辨率来预测（第 8 级）。该结果激励了在使用数值梯度进行高阶导数时的非局部更新。

4.3.细节水平

随着 Neuralangelo 逐步优化提高分辨率的哈希特征，我们检查了类似于 NGLOD [33] 的渐进细节级别。我们在图 6 中展示了定性可视化。虽然一些表面完全被粗糙级别遗漏，例如树、桌子和自行车架，但这些结构可以通过更精细的分辨率成功恢复。恢复缺失表面的能力展示了我们空间无层次设计的优势。

此外，我们注意到平坦表面的预测分辨率足够高（在本例中约为 8 级）。因此，仅依靠粗分辨率局部单元的连续性不足以重建大的连续表面。结果激发了对高阶导数的数值梯度的使用，使得反向传播超出了局部网格单元。

4.4.消融

在这里插入图片描述
图 7.消融结果。 (a) 表面光滑度随着曲率正则化 $L_{curv}$ 而提高。 (c ) 通过拓扑预热更好地形成凹面形状。

曲率正则化。
我们消除了 Neuralangelo 中曲率正则化的必要性，并比较了图 7（a）中的结果。直观上， $L_{curv}$ 通过最小化表面曲率充当先验平滑度。在没有 $L_{curv}$ 的情况下，我们发现表面往往具有不希望的急剧过渡。通过使用 $L_{curv}$ ，去除了表面噪声。

拓扑预热。
我们遵循之前的工作并将 SDF 初始化为近似球体 [42]。对于初始球形，使用 $L_{curv}$ 也会使凹形难以形成，因为 $L_{curv}$ 通过防止曲率奇点来保留拓扑。因此，我们不是从优化过程开始就应用 $L_{curv}$ ，而是使用一个短的预热期来线性增加曲率损失强度。我们发现这种策略对凹区域特别有用，如图 7（b）所示。

5. Conclusion

我们介绍了 Neuralangelo，一种用于摄影测量神经表面重建的方法。 Neuralangelo 的发现简单而有效：对高阶导数使用数值梯度和从粗到精的优化策略。 Neuralangelo 解锁了多分辨率哈希编码的表示能力，用于建模为 SDF 的神经表面重建。我们展示了 Neuralangelo 以极高的保真度有效地恢复了以对象为中心的捕获和大规模室内/室外场景的密集场景结构，从而能够从 RGB 视频中进行详细的大规模场景重建。我们的方法目前从图像中随机采样像素，而不跟踪它们的统计数据和误差。因此，我们使用长时间的训练迭代来减少随机性并确保对细节进行足够的采样。探索更有效的采样策略以加速训练过程是我们未来的工作。

抛转

多分辨率哈希编码这玩意儿或许是大势所趋，在重建工作中，谁能解决多分辨率（多细节层次）的问题谁就是大哥（当然，啥都躲不过多快好省四个大字），既能重建大场景，也能重建精细小物件的通用方法才是好办法，多分辨率哈希编码既能解决多分辨率同时又能高效利用GPU，强。
重建定量评价用倒角距离（CD）和F1分数（还可以考虑以及IoU、precision、recall 和 F-score）；渲染定量评价用PSNR（以及LPIPS、SSIM）。
本文目前主要瓶颈在时间上，但其实更有效的采样策略、更合理的训练结构、更合适的损失函数等等都是值得探索的方向，怎么把这么好的技术用到实际，用到大场景下是一个问题，除了质量与效率，设法提高其迁移性和稳健性，才能进一步完成落地，逐步抢占MVS市场（升华一下，画个大饼，加个狗头🐶）。