【最新！红外小目标检测算法HCFNet】

在这里插入图片描述

文章目录

摘要
1 引言
2 相关工作
- 2.1 传统方法
- 2.2 深度学习方法
3 方法
- 3.1 PPA
- 3.2 维度感知选择性整合模块
- 3.3 多稀释通道细化器模块
- 3.4 损失函数设计
4 实验
- 4.1 数据集与评估指标
- 4.2 实现细节
- 4.3 消融和对比
5 结论

论文：HCF-Net: Hierarchical Context Fusion Network for Infrared Small Object Detection

代码：https://github.com/zhengshuchen/HCFNet.

内容核心：为了缓解了红外小目标检测中的小目标丢失和低背景区分度问题，作者提出了三个模块，分别为：并行化斑块感知注意力（PPA）模块、维度感知选择性融合（DASI）模块和多稀释通道细化器（MDCR）模块。

摘要

红外小物体检测是一项重要的计算机视觉任务，涉及红外图像中微小物体的识别和定位，红外图像通常只包含几个像素。然而，由于红外图像中物体的尺寸较小，而且背景一般比较复杂，因此在红外图像中进行小物体检测会遇到一些困难。本文提出了一种深度学习方法 HCF-Net，通过多个实用模块显著提高了红外小物体检测性能。具体来说，它包括并行化斑块感知注意力（parallelized patch-aware attention，PPA）模块、维度感知选择性整合（dimension-aware selective integration，DASI）模块和多稀释通道细化器（multi-dilated channel refiner，MDCR）模块。PPA 模块采用多分支特征提取策略，捕捉不同尺度和层次的特征信息。DASI 模块可实现自适应信道选择和融合。MDCR 模块通过多个深度分离卷积层捕捉不同感受野范围的空间特征。在 SIRST 红外单帧图像数据集上的大量实验结果表明，所提出的 HCF-Net 性能良好，超过了其他传统模型和深度学习模型。

1 引言

红外小物体检测是在红外图像中识别和检测微小物体的关键技术。由于红外传感器能够捕捉物体发出的红外辐射，因此即使在黑暗或弱光环境下，这项技术也能精确探测和识别小物体。因此，它在军事、安防、海上救援和火灾监控等各个领域都具有重要的应用前景和价值。

然而，由于以下原因，红外小物体探测仍具有挑战性。首先，目前深度学习作为红外小目标检测的主要方法，但几乎所有现有网络都采用传统的降采样方案。红外小物体由于体积小，热信号通常很弱，轮廓也不清晰。在多次降采样过程中，信息丢失的风险很大。其次，与可见光图像相比，红外图像缺乏物理信息，对比度较低，因此小物体很容易被淹没在复杂的背景中。

在这里插入图片描述

为了应对这些挑战，提出了一种名为 HCF-Net 的红外小目标检测模型。该模型旨在更精确地描述物体的形状和边界，通过将红外小物体检测作为一个语义分割问题来提高物体定位和分割的准确性。如图 1 所示，该模型包含三个关键模块：PPA、DASI 和 MDCR，从多个层面应对上述挑战。

具体来说，作为编码器-解码器的主要组成部分，PPA 采用分层特征融合和注意力机制来保持和增强小对象的表征，确保通过多个降采样步骤保留关键信息。DASI 增强了 U-Net 中的跳转连接，侧重于高维和低维特征的自适应选择和精细融合，以提高小物体的显著性。MDCR 位于网络深处，加强了多尺度特征提取和信道信息表示，捕捉不同感受野范围的特征。它对物体和背景之间的差异进行了更精细的建模，从而增强了定位小物体的能力。这些模块的有机结合使能够更有效地应对小物体检测的挑战，提高检测性能和鲁棒性。

总之，在本文中的贡献可以概括如下：

将红外小物体检测建模为一个语义分割问题，并提出了 HCF-Net，

一个可以从头开始训练的引导上下文融合网络。

提出了三个实用模块：并行化斑块感知注意力（PPA）模块、维度感知选择性融合（DASI）模块和多稀释通道细化器（MDCR）模块。这些模块有效缓解了红外小目标检测中的小目标丢失和低背景区分度问题。
在公开的单帧红外图像数据集 SRIST 上评估了所提出的 HCF-Net 的检测性能，结果表明与几种最先进的检测方法相比，HCF-Net 具有显著优势。

2 相关工作

2.1 传统方法

在红外小目标检测的早期阶段，最主要的方法是基于模型的传统方法，一般分为基于滤波器的方法、基于人类视觉系统的方法和低秩方法。基于滤波器的方法通常局限于特定和统一的场景。例如，TopHat [1] 使用各种滤波器估计场景背景，将物体从复杂的背景中分离出来。基于人类视觉系统的方法适用于具有大型物体和较强背景分辨能力的场景，例如 LCM [2]，它可以测量中心点与其周围环境的对比度。低秩方法适用于快速变化和复杂的背景，但在实际应用中缺乏实时性，通常需要 GPU 加速等额外辅助。这些方法的例子包括 IPI [3]（利用低阶分解将低阶背景与形状稀疏的物体相结合）、PSTNN [4]（采用基于张量核规范的非凸方法）、RIPT [5]（专注于重新加权的红外斑块张量）和 NIPPS [6]（一种尝试结合低阶和先验约束的高级优化方法）。传统方法虽然在特定场景下有效，但容易受到杂波和噪声的干扰。在复杂的真实世界场景中，物体建模受到模型超参数的显著影响，导致泛化性能不佳。

2.2 深度学习方法

近年来，随着神经网络的快速发展，深度学习方法极大地推动了红外小目标检测任务的发展。深度学习方法[7]-[14]在不依赖特定场景或设备的情况下，表现出比传统方法更高的识别准确率，显示出更强的鲁棒性和显著降低的成本，逐渐在该领域占据主导地位。Wang 等人[15]利用 ImageNet 大规模视觉识别挑战赛（ILSVRC）数据训练的模型完成了红外小物体检测任务。梁奎等人[16]结合超采样产生的数据，提出了一种用于小目标检测的多层网络。Zhao 等人[17]结合红外小目标的语义约束信息，提出了一种编码器-解码器检测方法（TBCNet）。Wang 等人[18]采用生成器和辨别器来解决两个不同的任务：漏检和误检，在这些方面取得平衡。Nasser 等人[19] 提出了一种用于自动物体识别（ATR）的深度卷积神经网络模型。Zhang 等人提出了 AGPCNet [20]，引入了注意力引导的上下文模块。Dai 等人提出了非对称上下文调制 ACM [21]，并引入了第一个真实世界红外小物体数据集 SIRST。Wu 等人[22]提出了一个 "U-Net 中的 U-Net "框架，以实现目标的多级表征学习。

3 方法

本节将详细讨论 HCF-Net。如图 1 所示，HCF-Net 是一种升级版 U-Net 架构，由三个关键模块组成：PPA、DASI 和 MDCR。这些模块使网络更适用于检测小型红外物体，并有效地解决了小物体丢失和背景区分度低的难题。接下来，将在第三节 3.1 部分简要介绍 PPA，在第三节 3.2 部分概述 DASI，最后在第三节3.3 部分介绍 MDCR。

3.1 PPA

在这里插入图片描述

在红外小物体检测任务中，小物体很容易在多次降采样操作中丢失关键信息。如图 1 所示，PPA 在编码器和解码器的基本组件中取代了传统的卷积运算，从而更好地应对了这一挑战。PPA主要有多分支特征提取、特征融合注意力两大优势。

多分支特征提取

PPA 的主要优势在于其多分支特征提取策略。如图 2 所示，PPA 采用并行多分支方法，每个分支负责提取不同规模和级别的特征。这种多分支策略有利于捕捉物体的多尺度特征，从而提高小物体检测的准确性。具体来说，这种策略包括三个并行分支：局部分支、全局分支和串行卷积分支。给定输入特征张量 $\mathbf{F}\in\mathbb{R}^{H^{\prime}\times W^{\prime}\times C}$ 后，首先通过逐点卷积调整得到 $\mathbf{F}^{\prime}\in\mathbb{R}^{H^{\prime}\times W^{\prime}\times C^{\prime}}$ 。然后，通过这三个分支，可以分别计算出 $\mathbf{F}_{local}\in\mathbb{R}^{H^{\prime}\times W^{\prime}\times C^{\prime}}$ 、 $\mathbf{F}_{global}\in\mathbb{R}^{H^{\prime}\times W^{\prime}\times C^{\prime}}$ 和 $\mathbf{F}_{conv}\in\mathbb{R}^{H^{\prime}\times W^{\prime}\times C^{\prime}}$ 。最后，将这三个结果相加，得到 $\tilde{\mathbf{F}}^{}\in\mathbb{R}^{H^{\prime}\times W^{\prime}\times C^{\prime}}$ 。

具体来说，局部分支和全局分支的区分是通过控制补丁大小参数 p 来实现的，而补丁大小参数 p 则是通过非重叠补丁在空间维度上的聚合和位移来实现的。此外，还计算非重叠斑块之间的注意力矩阵，以实现局部和全局特征提取和交互。

首先，采用计算效率高的操作，包括展开和重塑，将 $\mathbf{F}^{\prime}$ 分割成一组空间上连续的斑块 $\times p,H^{\prime}/p,W^{\prime}/p,C)$ 。随后，进行信道平均，得出 $\times p,H^{\prime}/p,W^{\prime}/p)$ ，然后使用 FFN 进行线性计算[23]。然后，应用激活函数来获取线性计算出的特征在空间维度上的概率分布，并相应地调整其权重。

在加权结果中，采用特征选择法[24]，从标记和通道中选择与任务相关的特征。具体来说，让 $d=\frac{H^{\prime}\times W^{\prime}}{p\times p}$ 表示加权结果为 $(\mathbf{t}_i)_{i=1}^{C^{\prime}}$ ，其中 $\mathbf{t}_{i}\in\mathbb{R}^{d}$ 表示第 i 个输出标记。特征选择对每个标记进行操作，输出结果为 $\hat{\mathbf{t}}_i = P \cdot sim(\mathbf{t}_i, ξ) \cdot \mathbf{t}_i$ ，其中 $\mathbb{R}^{C^′}$ 和 $\mathbb{R}^{C^′ \times C^′}$ 是特定任务参数， $sim(\cdot, \cdot)$ 是余弦相似度函数，边界在 [0,1] 内。在这里，ξ 起着任务嵌入的作用，指定哪些标记与任务相关。每个标记 $\mathbf{t}_i$ 都会根据其与任务嵌入的相关性（以余弦相似度衡量）进行重新加权，从而有效模拟标记选择。随后，对 P 进行线性变换，为每个标记选择通道，然后进行重塑和插值操作，最终产生 $\mathbf{F}_{local}\in\mathbb{R}^{H^{\prime}\times W^{\prime}\times C^{\prime}}$ 和 $\mathbf{F}_{global}\in\mathbb{R}^{H^{\prime}\times W^{\prime}\times C^{\prime}}$ 特征。最后，用由三个 3x3 卷积层组成的序列卷积来替代传统的 7x7、5x5 和 3x3 卷积层。这将产生三个不同的输出结果： $\mathbf{F}_{conv1}\in\mathbb{R}^{H^{\prime}\times W^{\prime}\times C^{\prime}}$ ， $\mathbf{F}_{conv2}\in\mathbb{R}^{H^{\prime}\times W^{\prime}\times C^{\prime}}$ ， $\mathbf{F}_{conv3}\in\mathbb{R}^{H^{\prime}\times W^{\prime}\times C^{\prime}}$ ，然后将它们相加得到序列卷积输出 $\mathbf{F}_{conv}\in\mathbb{R}^{H^{\prime}\times W^{\prime}\times C^{\prime}}$ 。

特征融合和注意力

通过多分支特征提取进行特征提取后，利用注意力机制进行自适应特征增强。注意力模块由一系列高效通道注意力[25]和空间注意力[26]组成。在这种情况下 $\tilde{\mathbf{F}}^{}\in\mathbb{R}^{H^{\prime}\times W^{\prime}\times C^{\prime}}$ 依次由一维通道注意力图 $\mathbf{M}_c\in\mathbb{R}^{1\times 1\times C^{\prime}}$ 和二维空间注意力图 $\mathbf{M}_s\in\mathbb{R}^{H^{\prime}\times W^{\prime}\times 1}$ 处理。这一过程可归纳如下
$\begin{gathered}\mathbf{F}_c=\mathbf{M}_c(\mathbf{\tilde{F}})\otimes\mathbf{\tilde{F}},\quad\mathbf{F}_s=\mathbf{M}_s(\mathbf{F}_c)\otimes\mathbf{F}_c,\\\mathbf{F}^{^{\prime\prime}}=\delta(\mathcal{B}(dropout(\mathbf{F}_s))),\end{gathered}$
其中，⊗ 表示元素相乘， $\mathbf{F}_{c}\in\mathbb{R}^{H\times W\times C^{\prime}}$ 和 $\mathbf{F}_{s}\in\mathbb{R}^{H\times W\times C^{\prime}}$ 表示信道和空间选择后的特征， $\delta(\cdot)$ 和 $\mathcal{B}(\cdot)$ 分别表示整流线性单元（ReLU）和批归一化（BN）， $\mathbf{F}^{{\prime}{\prime}}\in\mathbb{R}^{H\times W\times C^{\prime}}$ 是 PPA 的最终输出。

3.2 维度感知选择性整合模块

在这里插入图片描述

在红外小物体检测的多个降采样阶段，高维特征可能会丢失小物体的信息，而低维特征可能无法提供足够的背景信息。为解决这一问题，提出了一种新颖的信道分区选择机制（如图 3 所示），使 DASI 能够根据物体的大小和特征自适应地选择合适的特征进行融合。具体来说，DASI 最初通过卷积和插值等操作，将高维特征 $\mathbf{F}_{h}\in\mathbb{R}^{H_{h}\times W_{h}\times C_{h}}$ 和低维特征 $\mathbf{F}_{l}\in\mathbb{R}^{H_{l}\times W_{l}\times C_{l}}$ 与当前层的特征 $\mathbf{F}_{u}\in\mathbb{R}^{H\times W\times C}$ 对齐。随后，它将这些特征在通道维度上分成四个相等的部分，从而得到 $(\mathbf{h}_i)_{i=1}^4\in\mathbb{R}^{{H}\times W\times\frac C4},(\mathbf{l}_i)_{i=1}^4\in\mathbb{R}^{H\times W\times\frac C4},(\mathbf{u}_i)_{i=1}^4\in\mathbb{R}^{H\times W\times\frac C4}$ ，其中 $\mathbf{h}_i$ 、 $\mathbf{l}_i$ 和 $\mathbf{u}_i$ 分别表示高维、低维和当前层特征的第 i 个分区特征。这些分区的计算公式如下：
$\begin{aligned}\alpha&=sigmoid(\mathbf{u}_i),&\mathbf{u}_i^{^{\prime}}=\alpha\mathbf{l}_i+(1-\alpha)\mathbf{h}_i,\\\\\mathbf{F}_u^{\prime}&=[\mathbf{u}_1^{\prime},\mathbf{u}_2^{\prime},\mathbf{u}_3^{\prime},\mathbf{u}_4^{\prime}],&\hat{\mathbf{F}_u}=\delta\left(\mathcal{B}\left(Conv(\mathbf{F}_\mathbf{u}^{\prime})\right)\right),\end{aligned}$
其中， $\alpha\in\mathbb{R}^{H\times W\times\frac C4}$ 表示通过应用于 $\mathbf{u}_i$ 的激活函数得到的值， $\mathbf{u}_i^{\prime}\in\mathbb{R}^{H\times W\times\frac C4}$ 表示每个分区的选择性汇总结果。在通道维度上合并 $(u^′_i)^4_{i=1}$ 后，得到 $\mathbf{F}_{u}^{'}\in\mathbb{R}^{H\times W\times C}$ 。操作 Conv()、 $\mathcal{B}(\cdot)$ 和 $\delta(\cdot)$ 分别表示卷积、批量归一化（BN）和整流线性单元（ReLU），最终得到输出 $\hat{\mathbf{F}_{u}}\in\mathbb{R}^{H\times W\times C}$ 。

如果 α > 0.5，则模型优先考虑细粒度特征；如果 α < 0.5，则强调上下文特征。

3.3 多稀释通道细化器模块

在 MDCR 中，引入了多个深度可分离卷积层，以不同的稀释率捕捉各种感受野大小的空间特征，从而能够对物体和背景之间的差异进行更详细的建模，增强其分辨小物体的能力。

在这里插入图片描述

如图 4 所示，MDCR 沿着通道维度将输入特征 $\mathbf{F}_{a}\in\mathbb{R}^{H\times W\times C}$ 分成四个不同的头，生成 $(\mathbf{a}_i)_{i=1}^4\in\mathbb{R}^{H\times W\times\frac C4}$ 。然后，每个头部以不同的扩张率分别进行深度可分离的扩张卷积，得到 $(\mathbf{a^{\prime}}_i)_{i=1}^4\in\mathbb{R}^{H\times W\times\frac C4}$ 。将卷积扩张率分别命名为 d1、d2、d3 和 d4。

$\mathbf{a}_i^{\prime}=DDWConv(\mathbf{a}_i),$
其中， $a^′_i$ 表示对第 i 个头部进行深度可分离扩张卷积后获得的特征。操作 DDW Conv() 表示深度可分离扩张卷积，i 取值为 1、2、3、4。

MDCR 通过通道分割和重组来增强特征表示。具体来说，我们将 a′ i 分割成单个通道，从而得到每个头部的 $(\mathbf{a}^{j}_{i})_{j=1}^{\frac C4}\in\mathbb{R}^{H\times W\times1}$ 。然后，我们将这些通道交错排列，形成 $(\mathbf{h}_j)_{j=1}^{\frac C4}\in\mathbb{R}^{H\times W\times4}$ ，从而增强多尺度特征的多样性。随后，我们使用点式卷积法进行组间和跨组信息融合，得到输出 $\mathbf{F}_{o}\in\mathbb{R}^{H\times W\times C}$ ，实现轻量高效的聚合效果。

$\begin{gathered}\mathbf{h}_j=\mathbf{W}_{inner}([\mathbf{a}_1^j,\mathbf{a}_2^j,\mathbf{a}_3^j,\mathbf{a}_4^j]),\\\mathbf{F_o}=\delta(\mathcal{B}(\mathbf{W}_{outer}([\mathbf{h}_1,\mathbf{h}_2,...,\mathbf{h}_j]))),\end{gathered}$
其中， $W_{inner}$ 和 $W_{outer}$ 是用于点卷积的权重矩阵。这里， $\mathbf a^j_i$ 表示第 i 个头的第 j 个通道，而 $h_j$ 表示第 j 组特征。 $i \in 1, 2, 3, 4$ ， $\frac C 4$ 。函数 δ() 和 $\mathcal B()$ 分别对应于整流线性单元（ReLU）和批量归一化（BN）。

3.4 损失函数设计

如图 1 所示，我们采用了深度监督策略，以进一步解决在下采样过程中丢失小物体的问题。每个尺度上的损失包括二元交叉熵损失和联合交集损失，定义如下：

$l_i=Bce(y,\hat{y})+Iou(y,\hat{y}),\quad\mathcal{L}=\sum_{i=0}^5\lambda_i\cdot l_i,$
其中， $(l_i)^5_i=0$ 表示多个尺度上的损耗， $\hat{y}$ 是地面实况掩膜， $y$ 是预测掩膜。每个尺度的损失权重被定义为[λ0, λ1, λ2, λ3, λ4] = [1, 0.5, 0.25, 0.125, 0.0625]。

4 实验

4.1 数据集与评估指标

方法采用 SIRST数据集 [21] 的两个标准指标进行评估：联合交集 (IoU) 和归一化联合交集 (nIoU) [21]。在实验过程中，SIRST 按 8:2 的比例分为训练集和测试集。

4.2 实现细节

在 NVIDIA GeForce GTX 3090 GPU 上进行了 HCF-Net 实验。对于大小为 512×512 像素、具有三个彩色通道的输入图像，HCF-Net 的计算成本为 93.16 GMac（千兆乘法累加运算），包含 1529 万个参数。使用 Adam 优化器进行网络优化，批量大小为 4，模型训练次数为 300 次。

4.3 消融和对比

在这里插入图片描述

本节将介绍在 SIRST 数据集上进行的消融实验和对比实验。首先，如表 I 所示，以 U-Net 为基准，系统地引入了不同的模块，以证明其有效性。其次，如表 II 所示，提出的方法在 SIRST 数据集上取得了出色的性能，IoU 和 nIoU 分数分别为 80.09% 和 78.31%，大大超过了其他方法。最后，图 5 展示了各种方法的直观结果。从第一行可以看出，提出的方法准确地检测到了更多的物体，而假阳性率却很低。第二行表明，提出的方法仍能在复杂背景中精确定位物体。最后一行表明提出的方法能更详细地描述形状和纹理特征。

在这里插入图片描述