MEFLUT: Unsupervised 1D Lookup Tables for Multi-exposure Image Fusion

Abstract

在本文中,我们介绍了一种高质量多重曝光图像融合(MEF)的新方法。我们表明,曝光的融合权重可以编码到一维查找表(LUT)中,该表将像素强度值作为输入并产生融合权重作为输出。我们为每次曝光学习一个 1D LUT,然后来自不同曝光的所有像素都可以独立查询该曝光的 1D LUT,以实现高质量和高效的融合。具体来说,为了学习这些 1D LUT,我们将帧、通道和空间等各个维度的注意力机制引入到 MEF 任务中,从而使我们的质量比最先进的 (SOTA) 有了显着的提高。此外,我们收集了一个新的 MEF 数据集,其中包含 960 个样本,其中 155 个样本由专业人员手动调整,作为评估的基本事实。我们的网络以无监督的方式由该数据集进行训练。进行了大量的实验来证明所有新提出的组件的有效性,结果表明,我们的方法在我们和另一个代表性数据集 SICE 中无论是定性还是定量都优于 SOTA。此外,我们的 1D LUT 方法在 PCGPU 上运行 4K 图像只需不到 4 毫秒。鉴于其高质量、高效性和稳健性,我们的方法已被应用于全球多个品牌的数百万部 Android 手机中。代码位于:https://github.com/Hedlen/MEFLUT。

1. Introduction

自然场景的动态范围比商业成像产品捕获的动态范围要宽得多,导致大多数数码摄影传感器难以捕获它们。因此,高动态范围 (HDR) [1, 2] 成像技术由于能够克服这些限制而引起了人们的极大兴趣。在 HDR 解决方案中,多重曝光图像融合 (MEF) [3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15] 提供了一种经济高效的解决方案,可以生成可信的图像可以生成生动的细节。 MEF 引起了广泛的关注,并且有许多方法 [16、17、18、19、20、21、22、23、24] 可用于融合具有忠实细节和色彩再现的图像。然而,这些 MEF 方法使用手工设计的特征或转换,因此如果应用于修改的条件,它们通常会受到鲁棒性的影响。

受深度神经网络 (DNN) 在许多计算机视觉领域 [25, 26, 27, 28] 成功的启发,最近提出了一些基于深度学习的方法 [5, 7] 来改进 MEF。 DeepFuse [5] 首次使用 DNN 直接回归 YUV 图像的 Y 通道作为目标。由于核心权重图的学习被忽略,由于模型大小有限,尽管其效率可以接受,但其质量仍然受到限制。为了提高质量,MEFNet [7] 或者学习权重图来混合输入序列。然而,随着网络变得复杂,它的速度会降低,因此它仅适用于低分辨率输入,作为保持效率的解决方法。不幸的是,这些方法没有考虑实际部署,它们的速度和质量不能很好地平衡,导致它们难以广泛应用,例如移动平台。为了解决这些问题,我们提出了一种名为 MEFLUT 的方法,旨在利用深度学习技术同时实现更高的质量和效率。我们的方法对运行平台没有严格的要求,可以在PC和移动CPU和GPU上运行。如图所示。如图 1 和图 7 所示,我们的方法在图像细节保留和运行速度方面优于所有其他方法。

MEFLUT 由两部分组成。首先,我们设计了一个基于多维注意力机制的网络,通过无监督方法进行训练。注意力机制分别在帧、通道和空间维度上工作,融合帧间和帧内特征,这为我们带来了细节保留的质量增益。网络收敛后,我们将模型简化为多个 1D LUT,对特定曝光图像中给定输入像素值的融合权重进行编码。在测试阶段,直接从LUT中查询不同曝光对应的融合权重。为了进一步加速我们的方法,对输入进行下采样以获得融合掩模,然后通过上采样引导滤波(GFU)[7]将其上采样到原始分辨率以进行融合,以避免边界分层。我们验证了无论有没有 GFU,我们的方法总是比竞争对手运行得更快,揭示了学习的 LUT 的关键效果。

此外,考虑到现有的 MEF 数据集都不是完全通过移动设备收集的,因此我们构建了一个高质量的多重曝光图像序列数据集。具体来说,我们花了一个多月的时间,通过不同品牌的手机拍摄并筛选出960张涵盖多种场景的多重曝光图像。其中,155个用于定量评估的ground-truth(GT)样本是通过14种算法运行图像预测,经过20名志愿者投票,然后由图像质量(IQ)专家进行微调而产生的。如果不计算组织的工作量,制作这些 GT 样品总共至少需要 40 个工时。

总而言之,我们的主要贡献包括:

• 我们提出MEFLUT 为MEF 任务学习1D LUT。我们证明融合权重可以成功编码到 LUT 中。一旦学会,MEFLUT就可以轻松高效地部署,使得4K图像在PC GPU上的运行时间不到4毫秒。据我们所知,这是第一次展示 LUT 对 MEF 的好处。

• 我们提出了一种新的网络结构,在所有维度上都有两个注意模块,在质量尤其是细节保留方面优于最先进的技术。

• 我们还发布了一个新的数据集,其中包含由不同品牌和不同场景的手机收集的 960 个多重曝光图像序列。其中 155 个样本由专业人员手动生成详细图像作为地面实况目标。

2. Related Works

2.1. Existing MEF Algorithms

MEF 任务通常作为具有不同曝光的多个帧的加权求和来执行。因此,MEF的重点往往是寻找合适的方法来获得不同曝光的权重。默滕斯等人[17]使用每次曝光的对比度、饱和度和曝光度来获得融合权重。与这些传统的MEF方法[29,3,17,30,20,31,22]相比,这些方法侧重于提前获取权重,其他一些方法[5,32,24,8,9,13,14,15]更喜欢将MEF任务转化为优化问题。马等人[23]提出了一种基于梯度的方法来最小化 MEF-SSIM,以在图像空间中搜索更好的融合结果。然而,该方法需要在每个融合中进行搜索,导致其非常耗时。近年来,一些深度学习方法也尝试通过MEF-SSIM来优化模型。例如,DeepFuse[5]通过神经网络完成MEF任务,在保持融合质量的同时实现比传统方法更快的计算。最近,张等人[8]提出了一种通用图像融合框架IFCNN,它基于DNN,通过网络直接重建融合结果。曲等人[14]提出了TransMEF,它使用Transformer来进一步提高MEF的质量。然而,这些方法没有考虑速度,也不是为移动设备设计的。

2.2. Acceleration of MEF Algorithms

考虑到移动平台中的潜在部署,上述大多数方法都是耗时的,因为移动设备的计算能力相对有限。一种解决方案是基于云的解决方案,但对于高分辨率图像,图像传输也很耗时。另一种解决方案是在图像的下采样版本中进行计算,例如[33,34,35,36,37,7]。 MEFNet[7]使用引导滤波器[38]实现上采样,可以很好地保留高频和边缘信息。然而,即使对于小分辨率图像,这种方法也过于复杂且耗时。因此,我们提出了一种基于LUT的新MEF方法,以实现高效、高质量的融合。

移动设备上的MEF任务面临的另一个问题是缺乏因果相机捕获的数据集,尽管存在专业相机拍摄的公共数据集,例如SICE [39]和HDREYE [40],这意味着图像是高质量的。由于泛化问题,这些数据集训练的模型可能很难应用于移动设备。因此,我们提出了一个全面的数据集来扩大应用范围。

2.3. LUT

LUT已广泛应用于视觉任务,包括图像增强[41, 42]、超分辨率[43, 44]等。 [41, 42]提出了用于高效单图像增强的图像自适应3D LUT,它们都需要网络权重预测器来融合不同的3D LUT,这对于一些需要深度学习框架支持的平台来说将受到限制。 [43]训练具有受限感受野的深度超分辨率(SR)网络,然后将学习到的SR网络的输出值缓存到LUT。与[41, 42]相比,MEFLUT和SR-LUT[43]是离线LUT。此外,MEFLUT在生成LUT和训练策略的形式上也与SR-LUT[43]有本质的不同。

3. Algorithm

3.1. Network Structure

3.1.1 Convolution with frame and channel attention

3.1.2 Dilated inception with spatial attention

我们进行了一项消融研究,以证明两个注意力模块的有效性,其中启用任一模块后,所有指标都会变得更高。

3.1.3 Unsupervised learning of the MEFLUT

3.2. LUT Generation

4. Data Preparation

考虑到现有的来自手机的多重曝光图像序列数据集很少,并且[47,39,40]中提供的图像序列在数量和多样性上都非常有限,我们创建了一个包含更多数量的多重曝光图像的新数据集序列并涵盖手机拍摄的更多样场景。

Data collection.

我们主要在静态场景下使用6种不同的常用品牌手机收集数据。确保场景的多样性和代表性,涵盖广泛的场景、主题和照明条件。更重要的是,收集到的图像涵盖了我们日常生活中的大部分曝光水平。对于每个序列,我们使用三脚架来确保帧对齐良好。曝光级别是手动设置的,我们的样本序列设置的曝光值 (EV) 范围从 -4.0 到 +2.0,以 0.5 为步长。我们根据不同品牌手机的特点,为每个场景选择曝光数6(K=6)。收集源序列后,进一步进行筛选以选择用于GT生成的所需序列。结果,总共 960 个静态但不同的序列被过滤掉。

GT generation.

我们进一步使用混合方法来生成 GT。具体来说,首先使用 14 种现有算法 [17, 48, 49, 30, 20, 50, 21, 22, 24, 51, 52, 53, 54, 7] 来预测每个序列的结果。然后我们邀请了 20 名志愿者来比较 14 种算法的结果,并投票选出一张图像作为每个序列的 GT。我们还邀请了图像质量调优工程师进一步手动调整色调映射算子以获得公平投票的结果,以生成高质量的 GT。每张图像的平均调优时间为10分钟,每位志愿者整个投票过程花费了60多分钟。由于工作量巨大,我们在155个测试集样本上调优并获得高质量的GT,只是为了通过无监督学习来评估结果,总共花费了2450/60 = 40.8工时。

5. Experimental Results

Limitation.

虽然我们的方法可以在各种场景中实现稳定高效的 MEF,但它有 1D LUT 的两个限制。首先,我们的 1D LUT 目前仅在 Y 通道上运行,这对于色彩平衡来说可能不够好。一种可能的解决方案是在 UV 通道上也使用 1D LUT,但兼容性需要进一步研究。其次,我们逐像素查询一维表,导致重建的权重图可能缺乏平滑度,并且由于未考虑邻域信息,可能会出现点伪影。尽管GFU在权重图上具有平滑能力,但其参数无法自适应设置,导致其对各个场景的效果不均匀,有的过于点化,有的过于平滑,导致佛光伪影。两种可能的解决方案包括学习一个为 1D LUT 提供更多语义信息指导的小模型,以及学习具有自适应参数的 GFU。

Discussion.

网络的拟合能力越强,生成的LUT的表现力就越大。 Transformer 等高级模块和更大的模型可以增强网络的性能,从而产生卓越的 1D LUT。此外,我们的方法通过离线生成 1D LUT 来加速 MEF。它可以扩展到多焦点图像融合和图像增强等任务。 1D LUT 的相同离线生成方法也可用于生成 2D/3D LUT,从而能够适应更广泛的任务。例如,在两帧 MEF 任务中,我们使用 256×256 组恒定灰度图像(灰度值范围从 0 到 255)来训练网络。我们成功地构建了离线生成的 2D LUT,表现出了良好的性能。然而,值得注意的是,随着 LUT 维数的增加,存储空间需求呈指数级增长。我们计划在未来的研究中进一步探索这些可能性。

6. Conclusion

我们提出了一种新方法来有效地融合多重曝光图像序列以产生视觉上令人愉悦的结果。我们为每次曝光学习一个 1D LUT,然后来自不同曝光的所有像素都可以独立查询该曝光的 1D LUT,以实现高质量和高效的融合。具体来说,为了学习这些 1D LUT,我们将帧、通道和空间注意机制纳入 MEF 任务中,以实现卓越的性能。我们还发布了一个新的数据集,由从不同品牌的手机和不同场景中收集的 960 个多重曝光图像序列组成。我们进行了全面的实验来证明 MEFLUT 的有效性。致谢这项工作得到了四川省科技计划项目的支持,资助号为2023NSFSC0462。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mfbz.cn/a/195495.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

涵盖多种功能,龙讯旷腾Module第一期:物质结构

Module是什么 在PWmat的基础功能上,我们针对用户的使用需求开发了一些顶层模块(Module)。这些Module中的一部分是与已有的优秀工具的接口,一部分是以PWmat的计算结果为基础得到实际需要的物理量,一部分则是为特定的计…

预算削减与经济动荡:2024 年明智且经济地创新

如何在经济衰退周期中保持创新?这篇创新研究提供了实用建议。在经济下行压力下领导者往往会试图降低成本和维持生存。然而,这种二元对立的压力往往会导致领导者做出不够理想的决策,更多地关注生存而不是未来投资。本文提供了一系列实用的建议…

PC行内编辑

点击编辑,行内编辑输入框出现,给列表的每条数据定义编辑标记,最后一定记得 v-model双向绑定,使数据回显。 步骤: 1、给行数据定义编辑标记 2、点击行编辑标记(isedit) 3、插槽根据标记渲染表单 …

Redis大key与热Key

什么是 bigkey? 简单来说,如果一个 key 对应的 value 所占用的内存比较大,那这个 key 就可以看作是 bigkey。具体多大才算大呢?有一个不是特别精确的参考标准: bigkey 是怎么产生的?有什么危害?…

408—电子笔记分享

一、笔记下载 链接:https://pan.baidu.com/s/1bFz8IX6EkFMWTfY9ozvVpg?pwddeng 提取码:deng b站视频:408-计算机网络-笔记分享_哔哩哔哩_bilibili 包含了408四门科目(数据结构、操作系统、计算机组成原理、计算机网络&#xff09…

Python交互式解释器及用法

为了让开发者能快速学习、测试 Python 的各种功能,Python 提供的“python”命令不仅能用于运行 Python 程序,也可作为一个交互式解释器一一开发者逐行输入 Python 代码,它逐行解释执行。 当输入“python”命令时,可以看到如下输出…

如何生成唯一ID:探讨常用方法与技术应用

文章目录 1. UUID(Universally Unique Identifier)2. 数据库自增ID3. Twitter的Snowflake算法4. 数据库全局唯一ID(Global Unique Identifier,GUID)结语 🎉如何生成唯一ID:探讨常用方法与技术应…

steam搬砖如何选品?选品软件和教程靠谱吗?

说到steam搬砖项目,目前平台最火的就是CSGO游戏搬砖。在steam搬砖项目中,选品是一个至关重要的环节,直接影响到利润。而选品软件可以帮助我们更快地了解市场变化、计算成本利润等关键信息,提高选品的效率和准确性。可靠的选品软件…

MySQL学习day03

一、SQL图形化界面工具 常用比较常用的图形化界面有sqlyog、mavicat、datagrip datagrip工具使用相当方便,功能比前面两种都要强大。 DataGrip工具的安装和使用请查看这篇文档:DataGrip 安装教程 DML-介绍 DML全称是Data Manipulation Language(数据…

硬质金属件去毛刺技术,机械臂去毛刺主轴是核心

作为一种先进且高效的自动化去毛刺技术,机械臂去毛刺主轴在制造业中,特别是金属加工和汽车零部件加工中得到了广泛的应用,通过高速旋转的主轴和精确控制的机械臂实现高精度、高效率、高质量的自动化去毛刺作业。机械臂去毛刺技术是通过主轴的…

40.0/jdbc/Java数据连接/jar包运用增删改

目录 40.1. 回顾 40.2. 正文 40.1 为什么需要jdbc 40.2 如何连接mysql数据库 40 .3 jdbc容易出现的错误 40.4 完成删除 40.5 完成修改 40.1. 回顾 1. 自联查询: 自己连接自己的表。注意:一定要为表起别名。 2. 嵌套查询: 把一个查询的结果作为另一个查询的条件值。 3. 组…

基于C#实现十字链表

上一篇我们看了矩阵的顺序存储,这篇我们再看看一种链式存储方法“十字链表”,当然目的都是一样,压缩空间。 一、概念 既然要用链表节点来模拟矩阵中的非零元素,肯定需要如下 5 个元素(row,col,val,down,right),其中&…

Unity之NetCode多人网络游戏联机对战教程(10)--玩家动画同步

文章目录 前言NetworkAnimation服务端权威客户端权威 前言 这次的动画同步与位置同步,可以说实现思路是一样的,代码相似度也非常高 NetworkAnimation 如果直接挂载这个脚本只有Host(服务端)才可以同步,Client是没有…

视频封面:视频图片提取技巧,从指定时长中捕捉需求的图片

在当今的数字时代,视频已成为日常生活中不可或缺的一部分。无论是社交媒体、博客,视频都发挥着重要的作用。而一个吸引的视频封面往往能吸引更多的观众点击观看,选择清晰度高、色彩鲜艳且能吸引人的图片。同时,确保图片与视频内容…

MySQL的Linux安装

在MySQL官网下载压缩包MySQL :: Download MySQL Community Server (Archived Versions) 下载完成后将压缩包上传到Linux中。我这里是下的CentOS的压缩包。 并且用的是FinalShell连接工具,可以选择压缩包直接上传。 ​ 上传完毕后,新建mysql文件夹&…

计算机视觉面试题-03

1、简单介绍一下sigmoid,relu,softplus,tanh,RBF及其应用场景 这里简单介绍几个激活函数及其应用场景: Sigmoid 函数(Logistic 函数): 公式: s i g m a ( x ) 1 1 e …

【香橙派】实战记录2——烧录安卓镜像及基本功能

文章目录 一、安卓烧录二、安卓基本功能1、蓝牙2、相机功能3、投屏 一、安卓烧录 检查环境:检查PC系统,确保有Microsoft Visual C 2008 Redistrbutable - x86,否则在官网下载的官方工具 - 安卓镜像烧录工具里运行vcredist_x86.exe。 插入存储…

模板上新|2023年10月DataEase模板市场上新动态

DataEase开源数据可视化分析平台于2022年6月正式发布模板市场(https://dataease.io/templates/)。模板市场旨在为DataEase用户提供专业、美观、拿来即用的仪表板模板,方便用户根据自身的业务需求和使用场景选择对应的仪表板模板,并…

Authing CEO 谢扬来信 |我的原则

从忙碌的工作中短暂抽身,有很多感想,不吐不快,借此机会,倾我所有,诉我原则。 原则一:坚强信念,坚定意志 商人大多「无利不起早」,而创业者的反馈周期比商人长非常非常多。 相比「商品…

【转】C代码利用CPU L1 cache一秒内算出十亿以内质数的个数

我去年发表了一篇 Python 代码+Numpy 库 Sieve算法实现一秒内计算出一亿以内的质数的个数: https://blog.csdn.net/Scott0902/article/details/128193368 今天在 GitHub 上找到国外牛人在三年前已经用 C 语言编写出利用 CPU L1 cache 来进行超高速计算…