SSconv: Explicit Spectral-to-Spatial Convolution for Pansharpening

（SSconv：用于全色锐化的显式频谱-空间卷积）

全色锐化的目的是融合高空间分辨率的全色（PAN）图像和低分辨率的多光谱（LR-MS）图像，以获得与PAN图像具有相同空间分辨率的多光谱图像。由于卷积神经网络（CNN）的灵活结构，它们已成功地应用于泛锐化问题。然而，大多数现有方法仅简单地将上采样的LR-MS馈送到CNN中，并且忽略了由直接上采样引起的空间失真。本文提出了一种显式谱-空卷积（SSConv）算法，该算法将光谱特征聚集到空间域进行上采样操作，可以获得比直接上采样更好的性能。此外，SSconv被嵌入到一个多尺度U形卷积神经网络（MUCNN），充分利用所涉及的图像的多光谱信息。特别是，多尺度注入分支和混合损失的跨尺度水平融合逐像素的图像信息。受益于SSconv的无失真特性，所提出的MUCNN可以在从WorldView-3和GaoFen-2获得的降低分辨率和全分辨率数据集上以简单的结构产生最先进的性能。

介绍

随着光谱成像技术的发展，多光谱图像在医学、地质、农业等领域的应用越来越重要。MS图像通常由部署在卫星上的传感器获取。但由于硬件限制，传感器无法同时保证拍摄图像的光谱和空间分辨率。传感器通常获取高分辨率（HR）PAN图像或低分辨率（LR）MS图像。2006年的竞赛和许多最近的评论论文证明了pansharpening的流行。为了充分利用LR-MS图像中丰富的光谱信息和HR-PAN图像中的空间信息，研究人员提出了全色锐化的思想，试图将HR-PAN图像和LR-MS图像融合得到HR-MS图像。全色锐化的主要挑战是在避免失真的基础上实现光谱和空间信息之间的平衡。因此，有必要充分掌握HR-PAN图像和LR-MS图像的特征，以及它们之间的潜在关系，特别是它们的光谱和空间分辨率之间的差异。
最新的锐化策略可以分为四类：1）基于组分替代（CS）的方法;2）基于多分辨率分析的方法;3）基于变分模型的方法;4）基于深度学习（DL）的方法。前三类可以归类为传统方法，而最近基于卷积神经网络（CNN）的深度学习在广泛的视觉任务中取得了巨大成功，如图像识别，目标检测和单幅图像超分辨率。受LR-MS图像、HR-PAN图像和期望的HR-MS图像之间的关系的映射需求的驱动，已经提出了各种基于DL的方法来改善全色锐化的融合结果，因为它们可以在大量现有数据集上训练后生成更多细节。基于DL的方法能够取得先进结果的原因在于CNN强大的非线性拟合和特征提取能力。
全色锐化的一个不可避免的问题是减轻HR-PAN图像和LR-MS图像的空间分辨率之间差距。上采样作为一种提高空间分辨率的操作，在信息融合过程中具有重要的作用。现有的上采样方法包括线性内插、去卷积和去池化。直接线性插值上采样是最常见的一种，它基于相邻像素的平均值粗略地补充图像。虽然它简单而快速，但其结果往往会出现意想不到的平滑。与预定义的插值方法不同，具有可学习参数的反卷积已广泛用于分割任务，并取得了良好的效果。然而，在卷积运算之前，特征图需要用零填充，因此大量的信息是相当无用的，并且其计算过程在计算上是昂贵的。另一种方法，unpooling，通过直接零填充来升级特征图的分辨率，因此无法探索像素及其相邻像素之间的潜在信息。值得一提的是，上采样对于单个图像超分辨率任务同样至关重要。提出了一种用于单通道特征图的高效且有效的上采样方法。在他们的工作中，原始LR图像通过卷积和周期性shuffling重建为HR图像。受此启发，我们认为，通过类似的像素重排操作，可以在卷积的帮助下学习光谱到空间特征的映射，这非常适合于处理多光谱图像，如全色锐化。
除了上采样方法的具体操作之外，我们还考虑上采样与LR-MS的比率。大多数现有的基于DL的方法将原始LR-MS图像直接上采样到与HR-PAN图像相同的分辨率，这可能导致光谱失真和信息丢失。本文提出了一种新的具有多尺度注入分支的U形网络，充分利用了原始LR-MS图像和HR-PAN图像提供的信息。特别地，我们设计了一个频谱到空间卷积（SSconv）的上采样在泛锐化中，以避免由传统的上采样方法所造成的失真。在U型网络和多尺度注入分支的基础上，我们在网络的过程中产生了不同尺度的特征图。为了监督网络学习过程中的中间产物，提出了一种混合损失策略。最后，所提出的方法在从两颗卫星获得的多个数据集上进行了验证，即，WorldView-3和GaoFen-2。通过对降低的分辨率和全分辨率进行的实验分析，证实了所提出的多尺度U形卷积神经网络（MUCNN）能够优于各种竞争方法。

贡献

1）我们设计了一个Spectral-to-Spacial卷积来将光谱特征聚合到空间域。除了通过充分利用光谱信息来提高特征图的空间分辨率外，SSconv还有助于构建MUCNN中的特征图。
2）我们提出了一个U形卷积神经网络与多尺度注入分支融合的信息在空间和光谱域。
3）采用混合损失策略来监督具有三种不同尺度的输出MS图像，并通过反向传播进行训练，这可以利用丰富的特征层次结构。此外，我们的方法显着超过了现有的最先进的方法与一个简单的结构。

注释和相关工作

Notations

为了清楚和方便，有必要介绍本文中使用的符号。MS ∈ $R^{w×h×b}$ 表示观察到的LR-MS图像，其中w、h和b分别表示图像的宽度、高度和光谱带。P ∈ $R^{W×H×1}$ 表示观察到的PAN图像，其中H = 4h，W = 4w，GT ∈ $R^{W×H×b}$ 是地面实况图像。所需的HR-MS图像定义为^MS_4× ∈ $R^{W×H×b}$ 。除此之外，我们通过SSconv对MS进行上采样，以获得2 ↑和4 ↑ MS图像，定义为MS_2↑ ∈ $R^{2w×2h×b}$ 和MS_4↑ ∈ $R^{W×H×b}$ 。我们使用步长为2的2 × 2卷积和步长为4的4 × 4卷积对P进行下采样，从而获得2 ↓和4 ↓ P图像，定义为P_2↓ ∈ $R^{2w×2h×1}$ 和P4↓ ∈ $R^{w×h×1}$ 。

CNNs for pansharpening

正如在引言中提到的，近年来在全色锐化领域出现的大多数基于DL的方法都是基于CNN的。Masi等人提出了第一种基于DL的泛锐化方法，将其命名为PNN，它只是简单地堆叠三个卷积层并取得了显着的结果。从那时起，已经提出了越来越多的基于DL的方法。一项名为PanNet的值得注意的工作提出了一种具有一定程度的物理可解释性的简单结构，其重点是光谱和空间保存。后续工作，例如：DMDNet和FusionNet进一步探索了神经网络的潜力，并取得了令人鼓舞的结果。总体而言，CNN在全色锐化中的应用的主要框架可以被描述为非线性映射fΘ_FS，其中Θ_FS表示CNN的参数。并且它们的损失函数可以统一为如下：在这里插入图片描述
然而，现有的方法可能无法捕获由尺度和分辨率变化引起的复杂特征。他们的大多数网络结构提取和学习与HR-PAN图像相同大小的上采样LRMS图像的特征。并且只关注最终输出而不考虑中间卷积层的产物。

U-Net

U-Net 是一种为逐像素分割设计的经典网络架构，已被证明具有良好的性能。特别是，它学习不同级别的语义特征，并通过几个下采样步骤来减小特征图的大小。然后通过上采样步骤逐渐恢复特征图的大小，并成功地使用所提取的语义特征来完成最终的分割任务。在我们工作的同时，有几个原因促使我们选择它作为我们的骨干。首先，全色锐化也是一个逐像素的任务，需要细化到每个像素的特征以及与其邻域的关系。因此，我们认为U型网络强大的目标定位和描绘能力可以应用于锐化任务。其次，金字塔功能满足我们的期望，克服LR-MS和HR-PAN图像之间的空间分辨率差距。U形网络提供了通过阶段跨尺度融合图像的可能性。第三，在U-Net的结构中，特征图被渐进地传播，这与全色锐化任务的目的一致，因为可以在特征图中恢复更详细的信息。

方法

该模型采用多尺度输入和U型CNN来研究空间、光谱特征及其相互关系。所提出的MUCNN由四个部分组成，它们是：(1)SSconv用于多光谱图像的上采样操作，(2)多尺度注入分支，其将MS图像和PAN图像渐进地馈送到网络，(3)U形整体网络结构，在像素级问题上表现优异，(4)混合多尺度损失，起到加速网络反向传播的作用，并对融合结果进行分阶段检验。

Spectral-to-Spatial Convolution

由于LR-MS图像包含同一场景的不同光谱波段，可以将其视为多图像超分辨率问题。我们相信，不同光谱波段的信息聚合将有助于空间信息的重建。因此，我们提出了一种新的频谱到空间卷积来执行上采样操作。操作过程如图2所示，我们使用r²b卷积（3×3）来整合空间和光谱特征，其中r是上采样的比率。请添加图片描述
通过对每个r²b波段的像素映射，生成上采样LR-MS图像。例如，第i个特征图O_i ∈ $R^{w×h}$ 通过对X ∈ $R^{w×h×b}$ 进行以下运算获得：在这里插入图片描述
其中K_i ∈ R^1×3×3×b表示第i个卷积核，⊕表示传统CNN中的卷积运算。然后，我们可以通过映射（如图2所示）获得上采样的X：

请添加图片描述
其中SSconv(X)~ri+ cl，ri +c2，k~表示上采样图像的像素，SSconv(·)是SSconv操作。当谱带数b = 1时，问题退化为单图像超分辨率问题.此外，SSconv也退化为像素混洗。更多细节请参见图2。

Multiscale injection branch

P和MS之间的空间分辨率的比率是4。为了充分挖掘图像的潜在信息并建立P、MS和^MS_4×之间的关系模型。我们打算采用已知图像，即P、MS作为多尺度金字塔形式的输入。在这里插入图片描述
如图3所示，通过SSconv对MS进行两次上采样，获得MS_2↑ ∈ $R^{2w×2h×b}$ 和MS_4↑ ∈ $R^{4w×4h×b}$ ，如下所示：
均匀尺寸的卷积，即，2×2和4×4用于下采样图像，其有效性已得到验证。我们得到P_2↓ ∈ $R^{2w×2h×1}$ 和P_4↓ ∈ $R^{w×h×1}$ ：在这里插入图片描述
最后，我们以相同的分辨率连接图像，以获得以下三个输入：
所有这些输入都以其相应的尺度馈送到U形网络中。

MUCNN

网络架构如图4所示。它由特征提取路径（左侧）和重构路径（右侧）组成。提取路径有两个步骤，每个步骤包含一个3 × 3卷积，一个整流线性单元（ReLU）和一个最大池化操作。在每个步骤之间，在最大池化之后连接新的输入。对于重建路径，它由三个步骤组成，每个步骤包含一个SSconv操作和一个3×3卷积。重建路径通过两个跳过连接和网络底部的3 × 3卷积与提取路径连接，更多细节请参见图4。在这里插入图片描述
为了加速反向传播并促进网络学习丰富的特征层次，我们设置了三个3 × 3卷积以获得三个输出^MS_1× ∈ $R^{w×h×b}$ ，^MS_2× ∈ $R^{2w×2h×b}$ 和^MS_4× ∈ $R^{4 w × 4h ×b}$ ，而^MS_4×是所需的HR-MS图像。总体而言，MUCNN可以总结如下：在这里插入图片描述

Mixed multiscale loss

提出了混合损失策略，以充分利用丰富的特征层次。在保证还原图像可靠的前提下，将三个输出与相应尺度的GT图像进行比较，形成最终的损失函数。通过线性插值得到低分辨率GT（GT_2↓）和中分辨率GT（GT_4↓）。最后，MUCNN的混合损失函数定义如下：在这里插入图片描述

结论

本文提出了带有SSconv的MUCNN，SSconv是专门为全色锐化而设计的。与现有技术的关键区别在于我们通过SSconv将光谱特征映射到空间域，使得MUCNN的特征提取更适合HR-PAN和LR-MS图像的融合。此外，引入多尺度注入分支，以消除LR-MS图像上采样引起的失真。我们选择U-Net作为构建MUCNN的骨干。此外，混合损耗策略用于分级控制输出。大量的实验表明，我们提出的方法不仅可以捕捉HR-PAN和LR-MS图像的底层细节，而且还具有强大的能力，以平衡空间恢复和光谱保存。
当然，我们的方法仍然存在一些缺点，特别是对于图像上的极端亮点。例如，来自车顶朝向传感器的太阳反射有时会像一群分散的星星一样变得尖锐，并失去车顶的原始轮廓。除此之外，有时像素噪声点将出现在实心区域中。通过实验，我们发现几乎所有基于DL的方法都存在类似的边缘不均匀问题，而传统方法没有。这个缺点提醒我们寻找传统方法的特点，并将它们与基于DL的方法相结合。