(论文速读)DEnet:零参考联合去噪与增强

📅 2026/7/4 5:01:13 👁️ 阅读次数 📝 编程学习
(论文速读)DEnet:零参考联合去噪与增强

论文题目:INTERPRETABLE UNSUPERVISED JOINT DENOISING AND ENHANCEMENT FOR REAL-WORLD LOW-LIGHT SCENARIOS(用于实际微光场景的可解释无监督联合去噪和增强)

会议:ICLR2025

摘要:现实世界中的弱光图像经常会出现复杂的退化,如局部过度曝光、低亮度、噪声和照明不均匀。有监督的方法往往过度适应特定的场景,而无监督的方法虽然在泛化方面做得更好,但由于缺乏参考图像,难以对这些退化进行建模。为了解决这一问题,我们提出了一种可解释的、零参考联合去噪和微光增强框架,该框架适用于真实场景。我们的方法基于物理成像原理和视网膜理论,推导出一种基于具有不同光照和噪声水平的对子图像的训练策略。此外,我们利用离散余弦变换(DCT)在sRGB空间进行频域分解,并引入了一种隐式引导的混合表示策略,有效地分离了复杂的复合退化。在主干网络设计中,我们开发了隐式退化表征机制指导下的视网膜分解网络。大量实验证明了该方法的优越性。

代码将在https://github.com/huaqlili/UnSupervised-Light-Enhance-ICLR2025中找到。


零参考联合去噪与增强:面向真实低光照场景的可解释无监督方法

一、背景与动机:低光照增强为什么难?

低光照图像增强是计算机视觉领域的重要研究方向,其成果直接影响夜间摄影、天文观测、自动驾驶和人脸识别等下游任务的性能。然而,真实场景中的低光照图像并非只是"亮度不够"那么简单,它往往同时遭受以下多种复合退化:

  • 整体亮度不足(low brightness)
  • 局部过曝(local overexposure)
  • 噪声污染(noise,尤其是泊松噪声)
  • 不均匀光照(uneven illumination)

这些退化相互耦合,使得现有方法在真实场景中表现欠佳。

现有方法的局限

监督方法(如 Retinexformer、LLFormer、URetinexNet)虽然在基准测试上表现强劲,但依赖大量配对训练数据(正常光照图与低光照图一一对应),采集成本高昂,且容易过拟合特定场景,跨域泛化能力弱。

无监督/非配对方法(如 EnlightenGAN、NeRCo、PairLIE)绕开了配对数据的需求,但依赖同场景不同光照图像,受限于参考图像质量不一致以及光照分布归一化困难。

零参考方法(如 Zero-DCE、SCI、RUAS)不需要任何参考图像,是泛化性最强的一类方法。然而:

  • Zero-DCE 完全忽视噪声退化;
  • SCI 和 RUAS 虽集成了去噪模块,但使用特定损失函数,对不同噪声模式的泛化能力有限;
  • 这些方法的根本问题在于无法区分多种退化模式对应的特征层,导致增强与去噪的特征在网络中相互混淆,带来模糊和伪影;
  • 多阶段处理还会造成误差积累——低光照增强后噪声会被进一步放大。

📌论文 Figure 1(Input / Clip-LIT / SCI / Ours 在 SIDD 数据集上的对比图)


二、本文方法总览:DEnet

针对上述挑战,本文提出了DEnet(Joint Denoising and Enhancement Network),一个零参考、可解释的联合去噪与低光照增强框架。其核心思路是:

  1. 无需外部参考图像,通过对原始低光照图像进行物理驱动的预处理,自动生成具有不同光照和噪声水平的"配对子图";
  2. 利用 DCT 频域分解,在 sRGB 空间中建模多维度退化先验;
  3. 设计隐式退化表示引导的 Retinex 分解网络,在频域中并行分离复杂退化,而非逐阶段串行处理。

整体架构由四大模块组成:FIcoder → LUMnet → REFnet → LCnet

📌论文 Figure 2(完整流程图,含 PartA/B/C 三部分)


三、理论基础

3.1 Retinex 理论的扩展

经典 Retinex 理论将图像 I 分解为反射分量 R(物体固有属性)和光照分量 L(光照强度)的逐元素乘积:

但经典 Retinex 无法处理真实低光照中的复杂噪声。本文在此基础上引入噪声扰动项 N(建模为零均值泊松噪声):

这一扩展是后续自监督训练策略的理论基石。

3.2 Noise2Noise 的理论支撑

本文的自监督去噪思路来源于 Noise2Noise(N2N)框架:当训练一个去噪网络时,如果替代目标(clean image)的噪声图像具有零均值噪声,则使用 L2 损失的优化结果与使用干净图像训练等价。这一点保证了在没有干净参考图像的情况下,去噪任务仍可自监督求解。


四、核心创新一:邻域像素掩码生成配对子图

自监督配对生成策略

在无法获取正常光照参考图的情况下,如何构造训练对?本文提出邻域像素掩码(Neighboring Pixel Masking)策略:

将原始低光照图像 I 按 2×2 像素块划分,从每个块中随机选取两个相邻像素,分别分配到两张 1/4 分辨率子图

两张子图来自同一场景,因此,而是独立的零均值噪声——这正好满足 Noise2Noise 框架的条件。

随机 Gamma 校正引入光照差异

为构造光照差异(从而让网络学会分离光照与反射),对施加随机 Gamma 校正,得到。对增强后的子图做 Taylor 展开近似(当接近 1 时):

其中。最终两张子图可写为:

两者共享同一反射真值,但光照和噪声强度不同。只需约束两张图的反射图相等,即可构建联合去噪与增强的自监督网络,无需任何外部标注数据。

为什么不直接对原图做 Gamma 校正?因为直接对 I 做 Gamma 会使噪声 N 几乎保持不变,导致网络退化为学习恒等映射。通过先降采样再做 Gamma,有效破坏了这一平凡解。


五、核心创新二:频率-光照先验编码器(FIcoder)

FIcoder 的目标是从图像中提取隐式退化表示P,为后续反射图提取提供退化引导。它融合了两类先验:

光照先验

即图像在通道维度上的均值,代表图像的整体亮度水平。

频率先验(DCT 分解)

使用逐通道二维 DCT 将空间域图像 I 转换为频域表示 F。随后定义四个频带掩码:

  • (极低频,色度/语义信息)
  • (低频,整体语义)
  • (中高频,边缘轮廓)
  • (高频,噪声强度)

对频域表示 F 应用掩码后做逆 DCT(IDCT),得到对应空间域特征图

最终将光照先验与四个频率先验通过卷积网络编码为隐式退化表示

📌论文 Figure 4(五种先验图的可视化:


六、核心创新三:Retinex 分解网络设计

REFnet(反射图提取)

REFnet 使用 Transformer 架构,以退化表示 P 作为 Key/Value,图像特征作为 Query,通过多头交叉注意力机制将隐式退化先验注入特征提取过程。这使得网络能够依据不同的退化程度自适应地分离反射分量,而非固定地处理所有输入。

📌论文 Figure 3(混合先验退化表示引导的多头交叉注意力示意图)

LUMnet(光照图提取)

LUMnet 同样基于 Transformer,每个 Transformer 块包含自注意力计算模块门控模块,专注于提取光照分量。

LCnet(光照校正网络)

LCnet 是本文的一个重要设计。它通过 Transformer 处理特征后做全局平均池化,再经两层线性层,输出一维增强因子,用于校正光照图:

这一自适应模块解决了不同低光照程度图像增强结果不一致的问题——例如同一场景三张不同程度的低光照图,使用相同 LCnet 能分别输出合适的增强强度,避免局部过曝。

📌论文 Figure 8 左侧(LCnet 自适应性实验可视化,SICE 三张图的增强结果对比)


七、损失函数设计

总损失函数由四项组成:

Retinex 分解损失

反射图一致性损失:约束两张子图提取的反射图(加上跨尺度正则化项):

光照图平滑损失:约束光照图平滑性、分解重建保真度,以及光照图的梯度。

跨尺度正则化项通过对比原始分辨率图与子图的反射图,保证跨尺度一致性,提升训练稳定性和泛化能力。

自监督增强损失

局部一致性损失:约束增强前后相邻 patch 间的对比关系保持一致,防止局部过增强。

亮度与色彩增强损失:约束增强图像的平均亮度向自然感知标准 E 靠近,并限制 R/G/B 三通道间的色彩偏差。


八、实验结果

8.1 定量对比

LOLv1 / LOLv2-Real 数据集

📌论文 Table 1(LOLv1 与 LOLv2-Real 上的 PSNR↑/SSIM↑/LPIPS↓ 对比,含监督/非配对/零参考方法)

本文方法在 LOLv1 上取得PSNR 19.80 / SSIM 0.750 / LPIPS 0.253,在所有无参考(zero-reference)方法中排名第一,并超过了部分非配对方法(PairLIE: 19.51,NeRCo: 19.70)。在 LOLv2-Real 上,PSNR 达到20.22 / SSIM 0.793,同样居无参考方法之首。

值得注意的是,本文方法参数量仅0.36M,远少于 SNR-aware(50.95M)、LLFormer(72.29M)等监督方法。

SICE / SIDD 数据集

📌论文 Table 2(SICE 上的 PSNR↑/SSIM↑/LPIPS↓ 和 SIDD 上的 BRISQUE↓/CLIPIQA↓ 对比,含模型参数量)

在 SICE 数据集(包含低/中/高三个退化等级)上,本文 PSNR 达到22.55超过所有对比方法,包括监督方法中的 URetinexNet(22.12)。

在极具挑战性的 SIDD 数据集(真实手机拍摄高噪声图像)上,本文在无参考统计指标上取得最优成绩:BRISQUE 2.555(第二名 PairLIE 为 3.168),CLIPIQA 0.292(排名第一)。这表明本文增强结果最接近自然图像的视觉特性。

8.2 定性对比

📌论文 Figure 5(LOL 数据集视觉对比,包含 Input/RUAS/EnlightenGAN/Zero-DCE/SCI/PairLIE/NeRCo/Clip-LIT/Ours/Reference)

📌论文 Figure 6(SICE 数据集视觉对比)

📌论文 Figure 7(SIDD 数据集真实高噪声场景视觉对比)

从定性结果来看:

  • RUAS 和 EnlightenGAN:存在局部过曝和强烈对比度失真,根本原因是网络结构中缺乏可解释的光照反馈设计;
  • NeRCo:在部分区域产生伪影,暴露了生成模型在图像增强任务中的不可控性;
  • EnlightenGAN、Zero-DCE、Clip-LIT:能够增亮暗区,但缺乏去噪机制,增亮的同时放大噪声;
  • 本文方法:在对比度、色度保真、噪声控制和细节保留上均表现最佳。

九、消融实验

9.1 去噪设计的消融

📌论文 Table 4(去噪设计消融,三种设置在 LOLv1/LOLv2 上的对比)

📌论文 Figure 8 右侧(三种设置在 LOLv1 上的视觉对比)

  • 去掉邻域掩码(Set 1):PSNR 大幅下降至 18.52,视觉上噪声极为明显(网络学习了恒等映射);
  • 去掉正则化项(Set 2):欠曝区域丢失细节(降采样引入的局部语义损失);
  • 两者缺一不可。

9.2 混合先验的消融

📌论文 Table 3(三类物理先验的消融实验)

📌论文 Figure 9 右侧(不同先验组合的视觉对比)

仅加入光照先验即可带来约0.6 dB的 PSNR 提升;在此基础上加入低频或高频先验均进一步提升性能;三者联合使用效果最优。

9.3 Gamma 增强因子的影响

📌论文 Figure 9 左侧(不同值下的 PSNR 曲线,LOLv1)

实验表明,增强因子时性能最佳:

  • 过小接近 1):两张子图光照差异不足,网络无法有效学习光照分离;
  • 过大:违背的假设,非线性噪声变化加剧,性能下降。

训练时在 (1.3, 1.7) 范围内随机采样,为模型提供更丰富的特征处理范围。


十、总结与思考

本文提出了一套完整的零参考低光照联合去噪与增强框架,核心亮点可归纳为:

  1. 物理驱动的自监督训练:邻域像素掩码 + 随机 Gamma 校正,无需任何外部参考,即可构造有效的自监督训练对;
  2. 频域隐式退化表示:DCT 多频带分解 + 隐式编码器,将亮度、色度、边缘、噪声等不同退化信息显式建模;
  3. 交叉注意力引导的分解:退化先验通过交叉注意力注入反射图提取,实现退化解耦;
  4. 自适应光照校正:LCnet 输出一维因子,解决不同低光照程度图像的一致性增强问题。

该方法以0.36M的轻量参数量,在多个真实数据集上超越了众多参数量更大的监督和非配对方法,展现出极强的泛化能力和实用价值。

对于未来工作,一个值得关注的方向是将该框架扩展到视频低光照增强(时序一致性约束),以及与扩散模型结合以进一步提升高频细节恢复质量。