-
摘要:
由于低照度配对图像的制作成本昂贵且难于制作,而非配对低照度图像增强方法不依赖配对图像数据因而更有实用价值,但其缺乏详细的监督信号导致输出图像存在全局曝光不一致、色彩失真和大量噪声等视觉退化问题,在实际应用中存在挑战. 为了更好地满足实用需求,提出一种基于全局一致的非配对低照度增强方法(unpaired low-light enhancement method based on global consistency,GCLLE). 首先,该方法通过全局一致性保持模块(global consistency preserving module,GCPM)将编码器和解码器中相同尺度的特征重新建模并融合以矫正不同尺度的上下文信息,保证输出图像全局曝光调整一致性和全局结构一致性,使得图像亮度分布均匀并避免扭曲和失真;利用局部平滑和调制模块(local smoothing and modulation module,LSMM)学习一组局部的低阶曲线映射,为图像提供更宽的动态范围并进一步提高质量,实现真实和自然的增强效果;提出使用双路池化融合深层特征的深度特征强化模块(deep feature enhancement module,DFEM)压缩无关信息并突出更有区分度的编码特征,减少了不准确信息并使得解码器更容易捕获图像中的低强度信号,保留图像更多细节. 不同于关注配对图像像素间一对一映射关系的配对增强方法,GCLLE通过缩小低照度图像与非配对正常照度图像之间的风格差异实现增强. 在MIT和LSRW数据集上进行大量的实验,结果表明所提方法在多个客观指标上超过了现有典型低照度增强方法,具有更好的增强效果.
Abstract:Due to the expensive cost of production of paired images, unpaired low-light image enhancement methods are more practical as they do not rely on paired image data. However, their lack of detailed supervised signals leads to visual degradation problems such as global exposure inconsistencies, color distortions, and lots of noise in the output image, which makes them challenging for practical applications. We propose an unpaired low light enhancement method based on global consistency (GCLLE) to meet practical needs. Firstly, we remodel and fuse the same scale features of the encoder and decoder through the global consistency preserving module (GCPM) to correct the contextual information of different scales, to ensure the consistency of the global exposure adjustment and the global structural consistency of the output image, making the image light distribution uniform and avoiding the distortion; The local smoothing and modulation module (LSMM) is used to learn a set of local low-order curve mappings, which provides extended dynamic range and further improves the quality of the image to achieve realistic and natural enhancement; the proposed deep feature enhancement module (DFEM), which uses two-way pooling to fuse deep features, compresses irrelevant information and highlights more discriminative coded features, reducing inaccuracies and making it easier for the decoder to capture low-intensity signals in the image and retaining more details. Unlike pairwise enhancement, which focuses on the one-to-one mapping relationship between pixels in paired images, GCLLE enhances by reducing the stylistic differences between low-light and unpaired normal-light images. Through extensive experiments on MIT and LSRW datasets, the method proposed in this paper outperforms the classical low-light enhancement algorithms in several objective metrics, demonstrating the effectiveness and superiority of our method.
-
智能设备的普及为人们拍摄独具个性的图像提供了极大的便利性. 但当光照不足时拍摄的图像可能会存在很多问题,例如能见度低、对比度低和存在密集噪声等. 低照度图像中的视觉信息难以通过肉眼获取,也难以被计算机视觉模型进行处理. 低照度图像增强任务要求从观测到的低光照图像中恢复潜在的归一化光图像,同时提升图像的亮度、获得适当的对比度并抑制噪声. 人们借助低照度图像增强模型可以轻松地获取低光照场景下的信息,低照度增强模型也能够辅助图像分类、人脸识别、物体分割和异常检测等计算机视觉任务处理低照度图像. 因此,低照度图像增强任务具有重要的实际意义.
早先人们使用直方图均衡化(histogram equalization,HE)技术和Retinex理论[1]等传统方法针对低照度图像增强. 随着深度学习的发展,基于深度神经网络的自动图像增强方法在性能上取得了重大的进展[2-10]. 这些深度学习方法大多使用大规模的低照度-正常照度配对数据集进行训练,而配对数据的制作步骤繁琐且成本昂贵,此外,一些通过专家手工调整[2]或改变曝光收集的配对图像[7-8]不能完全反映真实世界的自然光照,因此使用这些配对数据的增强方法难以满足人类对视觉质量的个性化感知需求. 非配对增强方法在调整光照和对比度方面表现优异,即使使用相对较小的数据集进行训练也可以取得较好的增强效果且具有更好的泛化性能,但是由于缺乏详细信号的监督,增强的图像容易出现全局曝光不一致、大量噪声和不可预见的伪影,限制其实际的应用. 针对以上问题,一些工作[11-13]建议使用双向的生成对抗网络(generative adversarial networks,GANs)来实现低照度图像域和正常照度图像域之间的相互转换,每一张图像都将经过低照度退化生成器从源域映射到目标域,再经过增强生成器映射回自身的二次域变换,使得生成图像尽可能保持同域一致性. 这类经过二次域变换的方法忽略了图像单次变换的一致性问题从而丢失了部分信息. 另外一些基于单向生成对抗网络的增强方法[14-15]使用不同的注意力机制保证增强图像曝光的准确,却没有考虑图像全局结构对准确还原图像的重要性,导致其生成的图像边缘及细节模糊和扭曲.
在提高亮度和去噪声的同时,优秀的非配对低照度图像增强方法应该保证输入图像在增强过程的全局一致性,即全局曝光调整一致性和全局结构一致性. 具体来说,前者要求避免局部的欠曝光或过曝光,使增强的图像具有更加平衡和自然的亮度分布以提升视觉感受;后者要求增强图像与原始图像在整体组成和形状等方面保持一致,避免引入额外的噪声导致扭曲或失真,确保准确地传达原始图像中的信息和特征. 为此,本文提出一种基于全局一致的非配对低照度增强方法(unpaired low-light enhancement method based on global consistency,GCLLE). GCLLE由结合全局一致性保持模块(global consistency preserving module,GCPM)以及局部平滑和调制模块(local smoothing and modulation module,LSMM)的U-Net网络、深度特征强化模块(deep feature enhancement module,DFEM)以及多尺度全局和局部判别器(multi-scale global and local discriminators,MSGLD)组成,以低照度图像作为输入,使用曝光自然的非配对正常照度图像作为参考,学习从低照度图像到正常照度图像之间潜在的风格变换模式. 不同于CycleGAN[11],QAGAN[12],CIGAN[13]等同时生成低质量和高质量图像并使用循环一致性损失进行约束训练的方法,本文提出的GCLLE是一种单向的GANs,能够直接根据输入的低照度图像生成符合人眼视觉习惯的正常照度图像,提高训练速度的同时保证生成图像的质量.
本文的主要贡献有3点:
1) 提出一个结合GCPM和LSMM的U-Net网络. GCPM矫正不同尺度上下文信息保证图像增强的全局一致性,LSMM学习一组低阶曲线进一步提高生成图像质量.
2) 提出使用DFEM对编码器和解码器连接处的深层特征进行双路池化和融合,减少了不准确的编码信息,使得解码器更容易捕获低照度图像的低强度信号.
3) 结合光照感知损失、幂等性损失和对抗损失对本文提出的模型进行训练,保证生成图像质量的稳定性和准确性. 实验表明,本文方法的增强性能超过了现有典型低照度增强方法.
1. 相关工作
1.1 生成对抗网络
GANs首次被文献[16]提出,它是由一个生成器网络和一个判别器网络组成的2阶段网络. 其核心思想是通过对抗训练的方式,利用判别器能够有效区分生成样本和真实样本的能力,训练生成器生成越来越逼真的样本. GANs不需要显式地定义样本的概率分布,仅通过学习输入数据集中的低维空间到潜在高维空间的连接函数,就能够生成高质量的样本. GANs在图像生成[17]、风格迁移[18]等领域取得了很多重要的应用和突破. 然而,GANs的训练过程相对复杂,容易出现梯度消失和模式崩溃等导致性能不稳定的问题. 针对这些问题,文献[19–20]通过改进对抗损失的优化目标,有效提升了GANs训练的稳定性及其性能.
1.2 低照度图像增强方法
传统的低照度图像增强方法主要包括直方图均衡化和基于Retinex理论[1]的方法. 直方图均衡化将低照度图像的亮度直方图变换到给定的分布以拉伸图像的对比度,是一种常见有效的图像增强方法. 局部直方图均衡化[21]和全局直方图均衡化[22]工作分别通过局部的和全局的统计信息推导出自适应的变化函数. 基于Retinex理论的方法将低照度图像分解为照明度估计层和反射层,将增强任务转化为照明估计任务,能够较好地调整低光照图像的亮度.
近年来深度学习的迅猛发展使得基于深度神经网络的模型在各个领域取得了长足的进步. Lore等人[23]最早开始探索神经网络和深度学习方法在配对的低照度图像增强领域上的应用,以期获得具有更好对比度和较少噪声的低照度图像增强结果. 配对的低照度增强方法通过建模正常光照图像与低照度图像之间的配对映射关系,设计复杂的网络结构和优化目标来提升模型的性能. 例如,RetinexNet[7]提出利用分解网络和增强网络来调整图像的光照,构建了基于Retinex理论的深度增强模型. MDARNet[9]引入Retinex理论,改进了注意力机制和密集卷积,取得了良好的增强效果. DeepUPE[24]通过引入中间照明的约束,提出了一种更强的光照估计网络.
配对增强方法需要配对数据进行训练且泛化性较差,最近一些工作开始研究使用非配对数据实现低照度增强. Yang等人[25]提出了一种2阶段的增强方法以解决曝光不足引起的视觉退化问题. 该方法在第1阶段使用频带学习网络(band learning networks)学习配对数据中的频带信号,在第2阶段利用非配对的图像数据进行训练,一定程度上弥补了生成的增强图像与人类感知的差距,但仍未完全摆脱对配对数据的依赖. EnlightenGAN[14]是第1个基于GANs的非配对低照度增强方法,其采用像素级别的光照强度注意力图引导低照度图像的增强,并结合局部和全局判别器以获得更优的增强性能. UEGAN[15]使用全局注意力模块和调制模块来获得更高质量的图像. QAGAN[12]和CIGAN[13]使用循环GANs并利用循环一致性损失进行图像增强. 此外还有一些创新型的无参考非配对低照度图像增强方法,如ZeroDCE[26]和SCI[27]. ZeroDCE受到PS软件的启发,采用一种参数自适应高阶曲线来调整低照度图像的光照. SCI则提出一种用于现实低照度场景的轻量级自校准照明学习框架,令人印象深刻. 这些非配对增强方法摆脱了对配对数据的依赖,能够灵活地调整光照和对比度并获得不错的增强效果.
2. GCLLE网络结构
配对增强方法可以直接学习低照度图像到正常照度图像像素级别的一对一映射关系实现增强,而非配对低照度图像增强方法解除了对配对图像的依赖,使用非配对的正常照度图像作为参考,学习正常照度的风格信息并应用到输入的低照度图像上,从而去除对配对图像数据的依赖,实现非配对低照度图像增强. 为此,本文提出一个名为GCLLE的低照度增强方法,该方法使用GANs进行构建,如图1所示. 本文设计思想是采用一个能够保持全局一致性的U-Net[28]网络作为生成器,并使用结合全局特征和局部特征的多尺度判别器MSGLD引导低照度图像到正常照度风格的转换;采用对抗学习的方式训练GCLLE,使得判别器的鉴别能力不断增强,进而使得生成器生成更为逼真的增强图像. 但低照度图像一般存在对比度低、噪声过多等问题,因此提升生成器的表达能力是提高生成图像质量的关键. 具体来说,针对非配对增强方法输出图像存在的全局曝光不一致、结构不一致以及质量较差的缺陷,本方法首先在生成器引入GCPM矫正不同尺度上下文信息以保证图像亮度分布均匀并避免失真,然后使用LSMM复用跳跃连接实现更自然的增强效果;针对低照度图像中存在不准确的噪声信息,GCLLE使用DFEM双路池化融合深层特征,减少了不准确信息并保留更多图像细节. 更多关于GCLLE的设计细节将在下面的章节中进行详细讨论.
2.1 全局一致性保持模块
U-Net能够提取深层次多尺度特征,较好地保存图像纹理细节并利用上下文信息合成高质量图像[24],故而大多数优秀的图像生成模型都使用U-Net网络或者其衍生网络结构作为生成器[12-13,24-25]. 一些基于U-Net的非配对增强方法尝试改进跳跃连接,以解决编码器下采样时丢失上下文信息和边缘特征的全局不一致问题. 例如,EnGAN引入图像灰度强度值作为注意力图,保证上下文信息的连续并保留部分边缘特征,但是一定程度上丢失了输入图像的色彩信息所导致局部的曝光错误;UEGAN使用通道级的全局平均池化引导局部特征的重建,以确保重建图像全局曝光的一致性,但在增强极低照度图像时,生成的图像存在对比度较差、边缘模糊等问题.
为了解决以上问题,本文提出全局一致性保持模块(GCPM),如图2(a)所示. GCPM以跳跃连接的形式,在相同尺度上对编码器中的低照度特征重新建模并与解码器中的增强特征融合,以矫正不同尺度的上下文信息并保持增强图像的全局曝光和全局结构一致性. 首先GCPM针对U-Net网络上下文信息丢失问题,在上侧分支bGCPM1中提取通道级的均值和方差信息进行拼接,经过映射后与原输入特征进行点乘激活. 均值和方差作为图像的风格信息被引入,使得模型捕捉到更多的全局亮度和对比度信息,保证模型在处理包含大量噪声的低照度图像时保持全局曝光调整一致和稳定. 其中,图2(a)中映射S为全连接层、ReLU和全连接层按顺序执行的组合. 针对边缘特征丢失问题,下侧分支bGCPM2通过全连接层(FC)和深度卷积DConv的组合提取高频信息[29],最后与中间分支以及解码器上采样特征按通道维度拼接后输出. 边缘信息通常包含图像中物体之间的界限和纹理变换等关键信息,这些信息能够引导模型在全局尺度上更为准确地还原图像细节,进而保证全局结构一致性. GCPM保证了全局一致性,并有效提高增强图像的边缘细节.
2.2 局部平滑和调制模块
复杂的低质量图像可以由一组局部平滑曲线近似进行增强并获得更好的动态范围[26,30],由此本文提出局部平滑和调制模块(LSMM),在平滑解码器上采样特征并进一步重用编码器的跳跃连接特征,如图2(b)所示. 不同于ZeroDCE的使用可能导致局部过度增强而使图像失真的高阶曲线,本文采用更容易优化且更灵活的低阶曲线对局部区域进行平滑和调制. 具体来说,LSMM重用编码器的跳跃连接Fskip并使用调制H学习一组自适应调制权重,对解码器的中间特征FGCPM进行调制. 调制H使用深度卷积对局部区域特征进行平滑,再经过实例归一化和激活函数得到调制权重. 本文提出的LSMM可以表示为
FLSMM=TLSMM(Fskip,FGCPM)=σ2(H(Fskip)⊗FGCPM⊕FGCPM), (1) H(Fskip)=σ1(IN(DConv(Fskip))), (2) FGCPM=TGCPM(Fskip,Fup), (3) 其中σ1,σ2分别为tanh激活函数和LeakyReLU激活函数. Fskip是编码器的跳跃连接,Fup是解码器上采样特征,FLSMM和FGCPM分别为经过变换TLSMM和变换TGCPM之后得到的输出特征. 提出的LSMM平滑了局部的噪声,使得增强的效果更加真实和自然.
2.3 深度特征强化模块
低照度图像信噪比通常较低,尽管经过编码器的多次下采样获得的更大的感受野能去除部分高频噪声,但仍有大量不可预知的噪声和不准确的信息可能会误导解码器的优化方向. 为了压缩不相关的信息并突出更具有区分度的编码特征,本文提出深度特征强化模块(DFEM),使得解码器更容易识别低照度图像的低强度信号. 如图2(c)所示,DFEM在编码器输出的特征上使用双路池化融合深层特征,按通道维度经过全局平均池化和最大池化得到上下2个分支,上侧分支bdeep1与下侧分支bdeep2分别以通道维度拼接和对应像素相加2种方式融合通道信息和空间信息,最后再经过一次拼接并融合后输出.
2.4 多尺度全局和局部判别器
一些基于GANs的低照度图像增强方法[13-15]发现,对于低照度输入图像存在较小的区域亮度较亮(较暗)的情况,不具备自适应能力的全局判别器,通常无法判别局部区域是否已经被合理地增强,导致最终生成的图像会存在局部过曝(欠曝)问题. 为了能够自适应地增强局部区域并且改善全局光照获得更高质量的图像,受到上述相关工作的启发,本文提出一种多尺度全局和局部判别器(MSGLD). 如图2(d)所示,MSGLD一共进行5次下采样以获取不同尺度的特征,每一个下采样层由一个卷积和最大池化2部分组成,基于卷积的浅层网络捕获局部特征,随着网络层数的增加,感受野逐渐变大,深层网络可以提取更多的全局特征. 每一层经过3×3的最大池化后与该层的特征进行通道拼接,最后使用一个5×5的卷积将通道数压缩为1再进行判别. MSGLD在不同层级的多尺度特征上进行判别,有效地提升了图像质量.
3. 损失函数
3.1 对抗损失
本文使用RaHingeGAN(Relativistic average HingeGAN)损失[15,31]引导生成器合成高质量的图像. RaHingeGAN损失可以由如下公式定义:
LadvG=Exref∼N[max(0,1+(D(xref)−Eyfake∼FD(yfake)))]+Exfake∼F[max(0,1−(D(yfake)−Exref∼ND(xref)))], (4) LadvD=Ex∼L[max(0,1+(D(x)−Exref∼ND(xref)))]+Exref∼N[max(0,1−(D(xref)−Ex∼LD(x)))]+Exref∼N[max(0,1−(D(xref)−Eyfake∼FD(yfake)))]+Eyfake∼F[max(0,1+(D(yfake)−Exref∼ND(xref)))], (5) 其中LadvG和LadvD分别是基于RaHingeGAN生成器的对抗损失和判别器的对抗损失. xref,yfake,x分别是输入的正常照度的参考图像、生成器输出的增强图像、输入的低照度图像. 其中,L和N分别为低照度图像空间和正常照度图像空间,F为低照度图像空间经过生成器G映射的增强图像空间.
3.2 幂等性损失
以一个正常照度图像作为增强模型的输入,幂等性要求输出图像与输入图像应尽可能的一致. 本文在多尺度特征图上计算幂等性损失,鼓励模型输出的图像保留输入图像的语义信息并避免过度增强. LidemG可以表示为
LidemG=T∑t=1ωtCt×Ht×Wt‖ (6) 其中 {y}_{\mathrm{r}\mathrm{e}\mathrm{f}}=G\left({x}_{\mathrm{r}\mathrm{e}\mathrm{f}}\right) ,而 {C}_{t},{H}_{t},{W}_{t} 表示第 t 次下采样后图像的尺寸, T 表示下采样的次数. 由于下采样后的图像会变得模糊和失真,本文方法使用参数 {\omega }_{{t}} 控制不同尺寸图像的幂等性损失在总损失中的比例,使得生成器优先关注视觉效果更好、语义信息更完整的大尺寸输入图像和输出图像之间的差异. 具体来说, {\omega }_{t} 依次取1,1/2,1/4. 本文方法中使用核大小为2的平均池化进行1/2的下采样,下采样次数 T 设置为3.
3.3 光照感知损失
为了确保低照度图像和增强后的图像在结构上不存在明显差别,配对的增强模型通常直接使用像素级别的L1损失或者L2损失进行约束. 由于低照度图像和正常光照图像在对比度和颜色渲染等方面存在较大的差异[24-25],这种方法并不适用于基于GANs的非配对增强模型,如本文所提方法GCLLE. 因此在设计和实现非配对增强模型时,需要考虑其他约束机制来保证生成图像质量的稳定性和准确性. 考虑到VGG[32]模型的分类性能对图像的灰度值并不敏感[33],本文采用在ImageNet[34]上预训练好的VGG-19模型,对输入的低照度图像 x 和生成器生成的图像 {y}_{\mathrm{f}\mathrm{a}\mathrm{k}\mathrm{e}} 分别提取特征,并计算相应的感知损失:
{L}_{G}^{\mathrm{p}\mathrm{e}\mathrm{r}\mathrm{c}}=\sum _{k=1}^{K}\frac{1}{{C}_{k}\times {H}_{k}\times {W}_{k}}{\|{\varphi }_{k}\left(x\right)-{\varphi }_{k}\left({y}_{\mathrm{f}\mathrm{a}\mathrm{k}\mathrm{e}}\right)\|}_{2\text{}} , (7) 其中 {\varphi }_{k} 由VGG-19中的第 k 层ReLU以及实例归一化组成. {C}_{k},{H}_{k},{W}_{k} 表示第 k 层ReLU输出的通道、高度、宽度特征尺寸. 本文采用VGG-19中的ReLU_1_1,ReLU_2_1,ReLU_3_1,ReLU_4_1,ReLU_5_1层,因此 K =5.
3.4 优化目标
结合对抗损失、幂等性损失和光照感知损失,GCLLE中生成器的优化目标 {L_G} 定义为
{L}_{G}=\alpha {L}_{G}^{\mathrm{a}\mathrm{d}\mathrm{v}}+\beta {L}_{G}^{\mathrm{i}\mathrm{d}\mathrm{e}\mathrm{m}}+\gamma {L}_{G}^{\mathrm{p}\mathrm{e}\mathrm{r}\mathrm{c}}. (8) 调整超参数 \alpha , \beta , \gamma 可以分别控制这3种损失对GCLLE生成器约束的权重.
4. 实验结果
4.1 数据集
本节旨在验证GCLLE在低照度图像增强方面的有效性,同时与其他先进的低照度增强方法进行性能比较. 为此,本文采用MIT数据集[4]和更具有挑战性的LSRW数据集[10]. MIT数据集包含不同的摄影师拍摄的真实场景低照度原始图像,并由5个经验丰富的专家对这些图像进行修饰. 本文在MIT数据集中分别随机选取500张和100张低照度图像作为训练集和测试集,以及选用500张与训练集、测试集不重叠的经由专家C修饰的照片作为正常曝光的参考图像. LSRW数据集是一个大规模的真实世界低照度与正常照度配对的图像数据集,本文以同样的方法选取500张低照度图像和500张非配对的正常照度图像进行训练,并在随机选取的100张图像上进行测试. 所有训练图像和测试图像都被中心裁剪为512×512大小,需要注意的是,在训练本文方法时,训练图像被进一步随机裁剪为256×256像素进行数据增强以获得更好的性能.
4.2 评估指标和实现细节
为了公平、全面地评估提出的GCLLE模型,本文选择7种典型的低照度图像增强方法进行实验,包括RetinexNet[7],KinD[35],EnlightenGAN[14],UEGAN[15],ZeroDCE[26],RUAS[36],SCI[27]. 其中RetinexNet和KinD是经典的配对低照度图像增强方法,EnlightenGAN,UEGAN,ZeroDCE,RUAS,SCI是先进的非配对增强方法.
为了评估增强后图像的质量,本文采用峰值信噪比(peak signal-to-noise ratio,PSNR)、结构相似度(structural similarity,SSIM)、均方误差(mean square error,MSE)和平均绝对误差(mean absolute error,MAE)一共4种被广泛采用的基于全参考的图像质量评估指标. 这些指标重点关注重建图像的保真度,但并不完全适用于个性化审美的需求. 人们对高质量图像的感知存在差异,因此对审美质量进行评价具有一定的挑战性. 为此本文额外使用专门为人类感知设计的度量指标LPIPS[37]以及可以量化审美质量的评估指标NIMA[38],这些指标的使用可以更加全面和准确地评估和比较各种方法的性能表现.
在MIT数据集和LSRW数据集上,GCLLE各进行了100次训练,并在对应的测试集上进行测试. 本方法使用Adam[39]作为优化器对网络进行优化并将GCLLE训练的批大小设置为4,生成器和判别器的学习率分别被设置为0.000 1和0.000 4,在前50次训练时保持不变,在后50次训练中线性减少到0. 式(8)中将各部分损失的权重统一设置为 \alpha =0.15,\beta =0.15, \gamma =1.0 . 所有的实验都在单块NVIDIA Tesla P40显卡上完成,以确保实验平台的一致性和可比性.
4.3 与多种低照度图像增强方法的对比
如表1所示,本文方法GCLLE与2种配对的经典增强方法以及5种先进的非配对方法进行客观指标对比. 为了保证对比的公平性,本文下载了上述方法提供的开源代码,在相同的实验环境和实验设置下,使用MIT和LSRW数据集进行训练和测试. 由于ZeroDCE训练的结果较差,本文直接使用其提供的预训练权重进行测试. 从表1可以看出,GCLLE在MIT数据集上的多个评估指标均显著超越了典型的低照度增强方法. 在更有挑战性的超低照度数据集LSRW上,GCLLE也取得最高的PSNR和SSIM. 这表明,GCLLE能够很好地抑制伪影,恢复色彩信息,同时保留了更多的高频特征,保证了全局一致性.
表 1 在MIT和LSRW数据集上的对比结果Table 1. Comparison Results on MIT and LSRW Datasets数据集 评估指标 配对方法 非配对方法 RetinexNet KinD EnlightenGAN UEGAN ZeroDCE RUAS SCI GCLLE(本文方法) MIT PSNR/dB↑ 20.260 18.540 19.850 21.780 15.220 16.980 20.340 22.860 SSIM↑ 0.840 0.831 0.852 0.890 0.762 0.806 0.880 0.909 NIMA↑ 4.386 4.541 4.608 4.677 4.101 4.259 4.524 4.689 LPIPS↓ 0.178 0.127 0.111 0.082 0.186 0.185 0.141 0.074 MAE*↓ 0.226 0.289 0.223 0.188 0.405 0.370 0.232 0.163 MSE*↓ 8.300 14.515 9.153 5.952 22.062 21.953 9.098 4.691 LSRW PSNR/dB↑ 16.650 16.390 17.130 16.980 15.140 14.710 14.910 17.650 SSIM↑ 0.553 0.540 0.523 0.550 0.496 0.508 0.471 0.559 NIMA↑ 4.037 4.088 4.146 3.940 3.850 4.083 4.175 4.209 LPIPS↓ 0.457 0.504 0.360 0.430 0.384 0.485 0.430 0.381 MAE*↓ 0.317 0.326 0.293 0.313 0.388 0.395 0.400 0.284 MSE*↓ 16.320 17.970 16.110 16.070 24.310 26.140 25.780 14.240 注:黑体数值表示最优值. “↑”表示PSNR,SSIM,NIMA的值均为越大越好,“↓”表示LPIPS,MAE*,MSE*的值均越小越好. MSE*和MAE*的值分别为MES和MAE的值的1%. 使用配对图像进行训练的RetinexNet和KinD在2个数据集上实现了有竞争力的性能;ZeroDCE和SCI等无参考的非配对的增强方法使用人为设计的先验结构来约束低照度图像的增强,虽然其增强的图像能够保留较好的细节并恢复一定程度的光照,但与自然世界的正常光照图像有较大差距;相比之下,UEGAN、EnlightenGAN和GCLLE均为有参考的非配对增强方法,能够有效地学习参考图像中的亮度以及色彩信息,对输入的低照度图像进行合理增强,并取得了更好的性能.
图3和图4展示了GCLLE与多种低照度增强方法的主观视觉比较结果. 从图3中可以观察到,SCI和RUAS都存在一定的色彩偏差;KinD和EnlightenGAN则在局部有欠曝光的现象;而UEGAN增强的效果较好,但是丢失了部分细节. GCLLE保证了全局曝光的一致性,很好地还原了色彩并保留了最多的面部细节,视觉上最为接近正常照度图像. 从图4中可以观察到,与正常照度的图像相比,RetinexNet存在较大的色彩偏差;KinD增强的图像较为模糊;而RUAS存在过曝的情况;EnlightenGAN和UEGAN增强的效果较好,但是仍然存在部分明显的噪声和伪影. 相比之下,GCLLE抑制噪声的同时消除了较为明显的伪影,增强的结果在视觉上更为出色,最接近正常照度的图像. 综合图3、图4和表1可以看出,GCLLE结合了GCPM,LSMM和DFEM的增强方法,在主观视觉上以及几乎所有的客观指标上都取得了最佳效果.
4.4 消融实验
为了验证GCLLE及其各模块的有效性及其性能表现,本文进行了一系列的消融实验,详细探究GCPM,DFEM,LSMM对GCLLE增强效果的贡献. 具体而言,分别比较了5个版本:1) 使用普通的跳跃连接代替GCPM的GCLLE. 2)将去掉DFEM的GCLLE,U-Net网络中的编码器输出的特征直接作为解码器的输入. 3) 去掉LSMM的GCLLE. 4) 只包含跳跃连接的U-Net网络. 5) 包含GCPM,DFEM,LSMM的完整GCLLE. 上述各版本的GCLLE的客观指标性能如表2所示,可以看到去掉GCPM对SSIM值的影响最大,证明该模块能够有效保持图像结构一致性,而分别去掉了LSMM,DFEM,GCPM对GCLLE在PSNR上的性能的影响依次增加,结合了3个模块的完整版GCLLE能够取得最高的PSNR值.
表 2 在MIT数据集上对各模块有效性消融的结果Table 2. Results of Effectiveness Ablation of Each Module on MIT Dataset消融 PSNR/dB↑ SSIM↑ NIMA↑ MAE*↓ MSE*↓ LPIPS↓ 无GCPM 21.94 0.897 4.786 0.174 5.240 0.080 无DFEM 22.12 0.916 4.701 0.173 5.427 0.077 无LSMM 22.56 0.904 4.675 0.170 4.994 0.077 U-Net 20.03 0.891 4.775 0.219 8.959 0.101 GCLLE
(本文方法)22.86 0.909 4.689 0.163 4.691 0.074 注:黑体数值表示最优值. “↑”表示PSNR,SSIM,NIMA的值均为越大越好,“↓”表示LPIPS,MAE*,MSE*的值均越小越好. MSE*和MAE*的值分别为MES和MAE的值的1%. 为了更直观地理解和展示不同组件对增强结果的影响,本文进行了主观视觉消融实验对比,各版本GCLLE的增强效果差异如图5所示. 图5的第1行和第2行的低照度输入图像本身均存在局部过亮的区域,当对这类图像进行增强时,此区域更容易出现局部曝光错误,如第1行图像中天空中的太阳以及海面上的光影,第2行图像中胸口处和肩膀处的亮斑. 当去掉GCPM时能看到这些位置出现了明显的曝光错误,而其他包含了GCPM的版本均能够较好地在全局范围上平衡亮度分布. 去除了DFEM之后,在第2行图中的胸口处出现了黑色的暗块. 在更困难的几乎全黑图像上,DFEM具有更大的影响,例如在第3行的图像的椅子背部完全丢失了镂空的黑色条纹,地板也出现了大面积不准确的颜色. 去掉LSMM之后的图像整体上可以看到较为明显的灰色模糊和颜色暗淡,在放大的黑色地砖处也有明显的白色噪点. 经过LSMM的平滑和调制,其他版本的消融模型去掉了黑地砖明显的白噪点并获得了更准确的黑色,增强图像在整体上更为清晰和自然. 综合而言,LSMM、DFEM和GCPM这3个模块的协同作用可以使得GCLLE在低照度增强任务上的取得更好的性能.
此外,本文还对式(8)中调节各损失比例的超参数进行了消融实验. 本文将 \gamma 固定设置为1,调节 \alpha 和 \beta 进行实验. 如表3所示,在 \alpha 和 \beta 均为0.15的情况下,GCLLE取得了最佳的性能.
表 3 在LSRW数据集上对超参数的消融实验Table 3. Ablation Experiments on LSRW Dataset for Hyperparameters\alpha \beta PSNR/dB SSIM 0.25 0.20 17.22 0.550 0.25 0.15 16.84 0.546 0.25 0.10 16.65 0.543 0.20 0.15 17.07 0.552 0.20 0.10 17.60 0.558 0.15 0.15 17.65 0.559 0.15 0.10 17.53 0.559 0.10 0.10 无效 无效 注:黑体数值表示最优值. 4.5 适用性分析
本文还在低照度场景下的目标检测任务上进行实验,以进一步验证GCLLE对于下游任务的适用性. 具体来说,本文在针对低照度场景下目标检测的数据集ExDark[40]上使用先增强后检测的策略,将在LSRW数据集上训练好的增强模型应用到ExDark数据集上进行增强,以验证图像增强模型对于GFL-Res50检测器[41]检测性能的影响. 实验结果如表4所示. 从表4可知,相比于其他增强模型,GCLLE在ExDark数据集进行增强能够使得检测器在多种类别目标的检测准确度上获得较好的提升,且在全类别平均准确度(mAP)上也取得了最好的结果. 图6展示了不同的低照度图像增强方法在ExDark数据集上的增强效果,综合来看,GCLLE提升了亮度并保证了曝光一致性,获得了更清晰的边缘和更自然的增强效果.
表 4 在ExDark数据集上的适用性实验Table 4. Applicability Experiments on ExDark Dataset方法 AP/% 单车 鞋子 瓶子 公交 汽车 猫 椅子 杯子 狗 摩托 人 桌子 平均 基线 72.5 68.0 66.0 87.4 75.5 72.6 55.8 58.9 81.4 59.2 68.0 46.9 67.65 KinD 72.9 67.8 65.2 86.8 74.6 73.8 54.9 60.3 79.9 57.9 66.5 48.7 67.47 ZeroDCE 72.5 68.8 66.3 87.7 74.6 69.8 59.3 56.7 80.1 61.1 68.1 46.4 67.62 UEGAN 72.8 67.4 66.9 86.0 75.8 71.7 55.9 59.5 80.2 60.6 68.1 48.6 67.78 本文方法 72.9 68.3 67.1 88.7 75.9 70.5 56.3 57.4 82.0 60.4 68.4 48.5 68.04 注:黑体数值表示最优值. 5. 结 论
针对现有的非配对低照度图像增强方法存在的全局曝光失衡、色彩失真等问题,本文提出一种基于GCLLE的低照度增强方法. 本方法联合全局一致性保持模块GCPM、深度特征增强模块DFEM以及局部平滑和调制模块LSMM,在几乎所有的指标上优于目前典型的低照度图像增强方法. 但对于LSRW数据集的部分复杂场景图像,为了抑制噪声,GCLLE出现图像局部过平滑问题,需要进一步完善. 因此,在后续的工作中,将研究超低照度复杂场景下的图像增强与局部噪声平滑的权衡问题,并进一步研究GCLLE的轻量化,使其更适合于实际应用.
作者贡献声明:江泽涛提出研究思路、设计研究方案和实验,并撰写论文;黄钦阳负责模型代码编写、设计和完成对比实验;张惠鹃负责论文公式检查、修订论文;金鑫、黄景帆负责论文的润色;廖培期负责修订论文并对论文进行最终审查.
-
表 1 在MIT和LSRW数据集上的对比结果
Table 1 Comparison Results on MIT and LSRW Datasets
数据集 评估指标 配对方法 非配对方法 RetinexNet KinD EnlightenGAN UEGAN ZeroDCE RUAS SCI GCLLE(本文方法) MIT PSNR/dB↑ 20.260 18.540 19.850 21.780 15.220 16.980 20.340 22.860 SSIM↑ 0.840 0.831 0.852 0.890 0.762 0.806 0.880 0.909 NIMA↑ 4.386 4.541 4.608 4.677 4.101 4.259 4.524 4.689 LPIPS↓ 0.178 0.127 0.111 0.082 0.186 0.185 0.141 0.074 MAE*↓ 0.226 0.289 0.223 0.188 0.405 0.370 0.232 0.163 MSE*↓ 8.300 14.515 9.153 5.952 22.062 21.953 9.098 4.691 LSRW PSNR/dB↑ 16.650 16.390 17.130 16.980 15.140 14.710 14.910 17.650 SSIM↑ 0.553 0.540 0.523 0.550 0.496 0.508 0.471 0.559 NIMA↑ 4.037 4.088 4.146 3.940 3.850 4.083 4.175 4.209 LPIPS↓ 0.457 0.504 0.360 0.430 0.384 0.485 0.430 0.381 MAE*↓ 0.317 0.326 0.293 0.313 0.388 0.395 0.400 0.284 MSE*↓ 16.320 17.970 16.110 16.070 24.310 26.140 25.780 14.240 注:黑体数值表示最优值. “↑”表示PSNR,SSIM,NIMA的值均为越大越好,“↓”表示LPIPS,MAE*,MSE*的值均越小越好. MSE*和MAE*的值分别为MES和MAE的值的1%. 表 2 在MIT数据集上对各模块有效性消融的结果
Table 2 Results of Effectiveness Ablation of Each Module on MIT Dataset
消融 PSNR/dB↑ SSIM↑ NIMA↑ MAE*↓ MSE*↓ LPIPS↓ 无GCPM 21.94 0.897 4.786 0.174 5.240 0.080 无DFEM 22.12 0.916 4.701 0.173 5.427 0.077 无LSMM 22.56 0.904 4.675 0.170 4.994 0.077 U-Net 20.03 0.891 4.775 0.219 8.959 0.101 GCLLE
(本文方法)22.86 0.909 4.689 0.163 4.691 0.074 注:黑体数值表示最优值. “↑”表示PSNR,SSIM,NIMA的值均为越大越好,“↓”表示LPIPS,MAE*,MSE*的值均越小越好. MSE*和MAE*的值分别为MES和MAE的值的1%. 表 3 在LSRW数据集上对超参数的消融实验
Table 3 Ablation Experiments on LSRW Dataset for Hyperparameters
\alpha \beta PSNR/dB SSIM 0.25 0.20 17.22 0.550 0.25 0.15 16.84 0.546 0.25 0.10 16.65 0.543 0.20 0.15 17.07 0.552 0.20 0.10 17.60 0.558 0.15 0.15 17.65 0.559 0.15 0.10 17.53 0.559 0.10 0.10 无效 无效 注:黑体数值表示最优值. 表 4 在ExDark数据集上的适用性实验
Table 4 Applicability Experiments on ExDark Dataset
方法 AP/% 单车 鞋子 瓶子 公交 汽车 猫 椅子 杯子 狗 摩托 人 桌子 平均 基线 72.5 68.0 66.0 87.4 75.5 72.6 55.8 58.9 81.4 59.2 68.0 46.9 67.65 KinD 72.9 67.8 65.2 86.8 74.6 73.8 54.9 60.3 79.9 57.9 66.5 48.7 67.47 ZeroDCE 72.5 68.8 66.3 87.7 74.6 69.8 59.3 56.7 80.1 61.1 68.1 46.4 67.62 UEGAN 72.8 67.4 66.9 86.0 75.8 71.7 55.9 59.5 80.2 60.6 68.1 48.6 67.78 本文方法 72.9 68.3 67.1 88.7 75.9 70.5 56.3 57.4 82.0 60.4 68.4 48.5 68.04 注:黑体数值表示最优值. -
[1] Land E H. The Retinex theory of color vision[J]. Scientific American, 1977, 237(6): 108−129 doi: 10.1038/scientificamerican1277-108
[2] Bychkovsky V, Paris S, Chan E, et al. Learning photographic global tonal adjustment with a database of input/output image pairs[C]//Proc of the 24th IEEE/CVF Conf on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2011: 97−104
[3] Gharbi M, Chen Jiawen, Barron J T, et al. Deep bilateral learning for real-time image enhancement[J]. ACM Transactions on Graphics, 2017, 36(4): 1−12
[4] Ignatov A, Kobyshev N, Timofte R, et al. DSLR-quality photos on mobile devices with deep convolutional networks[C]//Proc of the 16th IEEE/CVF Int Conf on Computer Vision. Piscataway, NJ: IEEE, 2017: 3277−3285
[5] Ren Wenqi, Liu Sifei, Ma Lin, et al. Low-light image enhancement via a deep hybrid network[J]. IEEE Transactions on Image Processing, 2019, 28(9): 4364−4375 doi: 10.1109/TIP.2019.2910412
[6] Yan Zhicheng, Zhang Hao, Wang Baoyuan, et al. Automatic photo adjustment using deep neural networks[J]. ACM Transactions on Graphics, 2016, 35(2): 1−15
[7] Wei Chen, Wang Wenjing, Yang Wenhan, et al. Deep Retinex decomposition for low-light enhancement[J]. arXiv preprint, arXiv: 1808.04560, 2018
[8] Jiang Hai, Zhu Xuan, Ren Yang, et al. R2RNet: Low-light image enhancement via real-low to real-normal network[J]. Journal of Visual Communication and Image Representation, 2023, 90: 103712
[9] 江泽涛,覃露露,秦嘉奇,等. 一种基于MDARNet的低照度图像增强方法[J]. 软件学报,2021,32(12):3977−3991 Jiang Zetao, Qin Lulu, Qin Jiaqi, et al. Low-light image enhancement method based on MDARNet[J]. Journal of Software, 2021, 32(12): 3977−3991(in Chinese)
[10] Sun Xiaopeng, Li Muxingzi, He Tianyu, et al. Enhance images as you like with unpaired learning[J]. arXiv preprint, arXiv: 2110.01161, 2021
[11] Zhu Junyan, Park T, Isola P, et al. Unpaired image-to-image translation using cycle-consistent adversarial networks[C]//Proc of the 16th IEEE/CVF Int Conf on Computer Vision. Piscataway, NJ: IEEE, 2017: 2223−2232
[12] Ni Zhangkai, Yang Wenhan, Wang Shiqi, et al. Unpaired image enhancement with quality-attention generative adversarial network[C]//Proc of the 28th ACM Int Conf on Multimedia. New York: ACM, 2020: 1697−1705
[13] Ni Zhangkai Yang Wenhan, Wang Hanli, et al. Cycle-interactive generative adversarial network for robust unsupervised low-light enhancement[C]//Proc of the 30th ACM Int Conf on Multimedia. New York: ACM, 2022: 1484−1492
[14] Jiang Yifan, Gong Xinyu, Liu Ding, et al. EnlightenGAN: Deep light enhancement without paired supervision[J]. IEEE Transactions on Image Processing, 2021, 30: 2340−2349 doi: 10.1109/TIP.2021.3051462
[15] Ni Zhangkai, Yang Wenhan, Wang Shiqi, et al. Towards unsupervised deep image enhancement with generative adversarial network[J]. IEEE Transactions on Image Processing, 2020, 29: 9140−9151 doi: 10.1109/TIP.2020.3023615
[16] Goodfellow I, Pouget-Abadie J, Mirza M, et al. Generative adversarial nets[C]//Proc of the 27th Int Conf on Neural Information Processing Systems. Cambridge, MA: MIT, 2014: 2672−2680
[17] Huang Yongsong, Jiang Zetao, Lan Rushi, et al. Infrared image super-resolution via transfer learning and PSRGAN[J]. IEEE Signal Processing Letters, 2021, 28: 982−986 doi: 10.1109/LSP.2021.3077801
[18] Liu Mingyu, Breuel T, Kautz J. Unsupervised image-to-image translation networks[C]//Proc of the 31st Int Conf on Neural Information Processing Systems. Cambridge, MA: MIT, 2017: 700−708
[19] Mao Xudong, Li Qing, Xie Haoran, et al. Least squares generative adversarial networks[C]//Proc of the 16th IEEE/CVF Int Conf on Computer Vision. Piscataway, NJ: IEEE, 2017: 2794−2802
[20] Gulrajani I, Ahmed F, Arjovsky M, et al. Improved training of wasserstein GANs[C]//Proc of the 31st Int Conf on Neural Information Processing Systems. Cambridge, MA: MIT, 2017: 5769−5779
[21] Lee C, Lee C, Kim C S. Contrast enhancement based on layered difference representation of 2D histograms[J]. IEEE Transactions on Image Processing, 2013, 22(12): 5372−5384 doi: 10.1109/TIP.2013.2284059
[22] Thomas G, Flores-Tapia D, Pistorius S. Histogram specification: A fast and flexible method to process digital images[J]. IEEE Transactions on Instrumentation and Measurement, 2011, 60(5): 1565−1578 doi: 10.1109/TIM.2010.2089110
[23] Lore K G, Akintayo A, Sarkar S. LLNet: A deep autoencoder approach to natural low-light image enhancement[J]. Pattern Recognition, 2017, 61: 650−662 doi: 10.1016/j.patcog.2016.06.008
[24] Wang Ruixing, Zhang Qing, Fu C W, et al. Underexposed photo enhancement using deep illumination estimation[C]//Proc of the 32nd IEEE/CVF Conf on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2019: 6849−6857
[25] Yang Wenhan, Wang Shiqi, Fang Yuming, et al. From fidelity to perceptual quality: A semi-supervised approach for low-light image enhancement[C]//Proc of the 33rd IEEE/CVF Conf on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2020: 3063−3072
[26] Guo Chunle, Li Chongyi, Guo Jichang, et al. Zero-reference deep curve estimation for low-light image enhancement[C]//Proc of the 33rd IEEE/CVF Conf on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2020: 1780−1789
[27] Ma Long, Ma Tengyu, Liu Risheng, et al. Toward fast, flexible, and robust low-light image enhancement[C]//Proc of the 35th IEEE/CVF Conf on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2022: 5637−5646
[28] Ronneberger O, Fischer P, Brox T. U-Net: Convolutional networks for biomedical image segmentation[C]//Proc of the 18th Int Conf on Medical Image Computing and Computer-Assisted Intervention. Berlin: Springer, 2015: 234−241
[29] Si Chenyang, Yu Weihao, Zhou Pan, et al. Inception transformer[C]//Proc of the 36th Int Conf on Neural Information Processing Systems. Cambridge, MA: MIT, 2022: 23495−23509
[30] Chen Jiawen, Adams A, Wadhwa N, et al. Bilateral guided upsampling[J]. ACM Transactions on Graphics, 2016, 35(6): 1−8
[31] Jolicoeur-Martineau A. The relativistic discriminator: A key element missing from standard GAN[J]. arXiv preprint, arXiv: 1807.00734, 2018
[32] Simonyan K, Zisserman A. Very deep convolutional networks for large-scale image recognition[J]. arXiv preprint, arXiv: 1409.1556, 2014
[33] RichardWebster B, Anthony S E, Scheirer W J. Psyphy: A psychophysics driven evaluation framework for visual recognition[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2018, 41(9): 2280−2286
[34] Deng Jia, Dong Wei, Socher R, et al. ImageNet: A large-scale hierarchical image database[C]//Proc of the 14th IEEE/CVF Int Conf on Computer Vision. Piscataway, NJ: IEEE, 2009: 248−255
[35] Zhang Yonghua, Zhang Jiawan, Guo Xiaojie. Kindling the darkness: A practical low-light image enhancer[C]//Proc of the 27th ACM Int Conf on Multimedia. New York: ACM, 2019: 1632−1640
[36] Liu Risheng, Ma Long, Zhang Jiaao, et al. Retinex-inspired unrolling with cooperative prior architecture search for low-light image enhancement[C]//Proc of the 34th IEEE/CVF Conf on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2021: 10561−10570
[37] Zhang R, Isola P, Efros A A, et al. The unreasonable effectiveness of deep features as a perceptual metric[C]//Proc of the 31st IEEE/CVF Conf on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2018: 586−595
[38] Talebi H, Milanfar P. NIMA: Neural image assessment[J]. IEEE Transactions on Image Processing, 2018, 27(8): 3998−4011 doi: 10.1109/TIP.2018.2831899
[39] Kingma D P, Ba J. Adam: A method for stochastic optimization[J]. arXiv preprint, arXiv: 1412.6980, 2014
[40] Loh Y P, Chan C S. Getting to know low-light images with the exclusively dark dataset[J]. Computer Vision and Image Understanding, 2019, 178: 30−42 doi: 10.1016/j.cviu.2018.10.010
[41] Li Xiang, Wang Wenhai, Wu Lijun, et al. Generalized focal loss: Learning qualified and distributed bounding boxes for dense object detection[C]//Proc of the 34th Int Conf on Neural Information Processing Systems. Cambridge, MA: MIT, 2020: 21002−21012