READ: Large-Scale Neural Scene Rendering for Autonomous Driving

READ: Large-Scale Neural Scene Rendering for Autonomous Driving ：面向自动驾驶的大规模神经场景绘制
门卷积

https://www.jianshu.com/p/09fc8490104d
https://blog.csdn.net/weixin_44996354/article/details/117409438

摘要：论文提出了一种大规模神经绘制自动驾驶场景合成方法，使得在PC机上通过多种采样方案合成大规模驾驶场景成为可能。为了表示驾驶场景，提出了一个𝜔−𝑛𝑒𝑡渲染网络，用于从稀疏点云中学习神经描述符。该模型不仅可以合成真实感驾驶场景，而且可以对驾驶场景进行拼接和编辑。
介绍：
基于神经辐射场（NeRF）的方法在多视点真实感场景合成中取得了很好的效果，NeRFW 利用潜在优化编码和分割动态来合成野外场景。与纯粹依赖于每场景拟合的基于NeRF的方法不同，NPBG 从原始点云数据中学习神经描述符，对局部几何和外观进行编码，避免了经典点云在空场景空间中的采样光线，反映了真实的世界场景的几何特征。基于点的神经绘制方法通过三维点云信息初始化场景，可以用较少的捕获图像合成较大的场景。
主要工作：
论文提出了神经场景绘制方法，通过高效的蒙特卡罗采样、大规模点云筛选和patch sampling，实现了大规模驾驶场景的合成。为了从稀疏点云合成真实感驾驶场景，提出了一种𝜔−𝑛𝑒𝑡网络，通过基本门模块过滤神经元描述符，并采用不同策略融合相同尺度和不同尺度的特征。通过𝜔−𝑛𝑒𝑡，我们的模型不仅可以合成真实感场景，还可以通过神经描述子编辑和拼接场景。此外，我们还能够更新特定区域，并将它们与原始场景缝合在一起。场景编辑可用于合成来自不同视角的各种驾驶场景数据，甚至用于交通紧急情况。

1、Overview

输入一组输入图像和点云𝑃= {𝑝₁，𝑝₂，，，𝑝_N}以及相机参数，得到模拟场景，可以拼接编辑。主要分为三部分：光栅化、稀疏点云采样，𝜔−𝑛𝑒𝑡渲染网络。pipeline如下图
在这里插入图片描述
首先对输入图像进行配准，然后通过特征点匹配和稠密构造得到场景的点云。我们以几种分辨率光栅化点。给定点云𝑃、可学习的神经描述符𝐷和摄像机参数𝐶，我们提出𝜔-𝑛𝑒𝑡渲染网络通过过滤从数据中学习的神经描述符并融合相同尺度和不同尺度的特征来合成真实的驾驶场景。

稀疏3D点云𝑃_𝑖可以通过经典的sfm和MVS pipeline获得，每个点p_i有一个神经描述符编码场景内容（与NPBG相同）。点云P中的每个点有位置信息：𝑝_𝑖= {𝑥_𝑖，𝑦_𝑖，𝑧_𝑖}，外观特征通过图像像素的RGB值映射到对应的三维空间得到的，神经描述符从输入点云计算，即表示局部几何形状和光度特性的本征矢量。
通过将梯度传播到输入端来更新这些特征，从而使神经描述符的特征能够从数据中自动学习。给定摄像机的内外参数，可以通过设计8维神经描述符来表示RGB值，从而从不同的角度观察场景。在光栅化阶段，针孔摄像机𝐶采集𝑊×𝐻的图像，构造一个由光栅化图像组成的金字塔，{𝑆_𝑡}（t=1~4），空间尺寸为W/2^t ×H/2^t，该金字塔是由通过深度测试的点的神经描述符分配给每个像素而形成的。然后，在摄像机的全投影变换下将其投影到像素上。
本质上，渲染网络表示了一个局部3D功能𝑓，它输出在点𝑥具体的神经场景描述𝑓(𝑖, 𝑥) , 由其局部框架中的神经点建模。

2、Sampling with Sparse Point Cloud

为了减少内存使用提高训练效率，利用稀疏采样策略，从原始可用像素的1/4生成稀疏点云，从而只得到训练点云总数的25%。

筛选出被遮挡的点云

为了避免更新被遮挡点的描述符，近似每个点的可见性。通过构造一个Z缓冲区来使用最近的光栅化方案，仅保留像素位置处具有最低Z值的点。神经描述符避开远离当前帧的相机的点以更好地合成场景。从而减少了计算遮挡点云的计算量，大大提高了训练效率。类似于NPBG的操作。

蒙特卡罗抽样

由于场景中点云的分布不同，区域点云丰富的地方，具有明显的特征。对于天空或动态物体的区域，由于缺乏明显的特征或特征点较少，相应的区域点云较少。为了有效地训练，提出了动态训练策略，利用蒙特卡洛方法对大量驾驶场景数据进行采样。对于图像集𝑆𝑒 在训练阶段𝑒,
在这里插入图片描述
𝑄（𝐼𝑒）是图像𝐼_𝑒的综合质量，是通过感知损失来计算的。采用每个阶段性能最差的Top 𝑛 个样本作为训练数据。该模型通过动态采样的训练策略，加强了对点云稀疏区域的学习，减少了整体训练时间。

Patch sampling

通过一种采样策略将整幅图像随机划分为多个patch（图像块），该策略可以根据GPU可用内存大小选择大小为𝑤×ℎ的随机patch。patch中像素的比例𝑤 × ℎ，占整个图像𝑊×𝐻的比例小于15%。给定如下的内参K
在这里插入图片描述
𝑓_𝑥和𝑓_𝑦分别表示𝑥和𝑦轴的焦距。（𝑐_𝑥，𝑐_𝑦）是主点相对于图像平面的位置。图像坐标系（Ox-y）与像素坐标系（Ou-v）（仿射变换）的转换矩阵
对于在S_e中的每张图像I，patch集合 S_p通过以下策略获取，以确保场景中的所有区域都可以训练
在这里插入图片描述
其中𝛼是缩放比。它移动patch（𝑥_Δ，𝑦_Δ）以增强来自不同视图的场景的合成质量。

3、𝜔 − 𝑛𝑒𝑡

点云，尤其是外部重建方法，通常具有降低渲染质量的孔和异常值。受MIMOUNet 的启发，提出了𝜔-𝑛𝑒𝑡，一种基于稀疏点云合成新视图的绘制网络，它由三部分组成。
给定稀疏点云𝑃，绘制网络的目的是学习可靠的神经描述符来表示场景。然而，从点云学习的神经描述符仍然存在漏洞。为了解决这个问题，设计了一个基本的门模块来过滤不同尺度的神经描述符。
如下图所示。考虑到计算效率，首先采用3 × 3卷积层𝐶𝑂𝑁𝑉来提取神经元描述子的特征𝐷𝑖。通过sigmoid函数学习掩码以过滤神经描述符中的无效值。输出是（0，1）的取值范围，它表示特征在神经描述符中的重要性。为了提高学习效率，使用ELU激活函数。⊗ 表示元素乘法。将初始特征与过滤后的特征连接（©）为新特征。最后，使用一个额外的1 × 1卷积层来进一步细化级联特征。此外，引入门卷积以重新过滤融合的特征。
在这里插入图片描述
上图是基本门模块。从稀疏点云中学习的神经描述子可以有效地筛选出无效值。

Fusing features at different scales.

点云中缺少拓扑信息会导致 holes and bleeding。给定𝐹_𝑎带有孔洞的神经描述符的𝐷_𝑖特征，如下图中的红框所示。虽然𝐷_𝑖具有更高的分辨率和精细的细节，但它仍然遭受更大的表面bleeding。对于没有值的特征块𝐹_𝑎，可以在平均合并之后获得粗略值。𝐷_𝑖+1的分辨率较低，但能够减少表面bleeding。
对于稀疏点云，在两种不同的尺度下融合特征仍然不能完全填充该孔。因此，提出了建议𝜔-𝑛𝑒𝑡融合多尺度特征。使用了四个尺度的神经描述符，以达到效率和准确性之间的折衷。该模型通过融合不同尺度下的特征，从数据中学习稀疏点云中缺失的点，从而合成出真实感的天空、远处物体等新视图。在上采样阶段，采用双线性插值代替转置卷积。这是因为转置卷积基本上是可学习的上采样，并且可学习的参数招致额外的计算。
在这里插入图片描述

Fusing features at the same scale

神经描述符𝐷𝑖+𝑖 的特征𝐹_𝑏，来自𝐷𝑖 通过平均池化操作。神经描述符𝐷𝑖+𝑖的下采样特征𝐹_𝑑 ，将其自身与最后一个1×1层特征连接，用于细节增强以保留丢失的信息。同时，大小为𝐻/2 ×𝑊/2的特征𝐹𝑐，由使用门卷积的门模块的神经描述符𝐷𝑖获得的。融合相同尺度的𝐹𝑐 和𝐹𝑑 特征可以利用特征之间的互补信息，其中融合特征是𝐹_{𝑓𝑢𝑠𝑖𝑜𝑛} = 𝐹𝑐 + 𝐹𝑑 ⊗ 𝐹𝑐 , 如图上的红圈所示。