An Adversarial Detection Method Based on Tracking Performance Difference of Frequency Bands
-
摘要:
针对跟踪模型存在被对抗攻击的风险且当前缺少相关的对抗检测方法,利用频域手段解决这一问题. 结合扰动噪声视觉不可见的特点,首先理论证明了扰动噪声主要存在于图像的中高频段. 然后定量地分析出视频序列的低频分量对跟踪性能的贡献最大且受对抗攻击的影响最小. 最后根据上述理论证明和定量分析,提出了基于频段跟踪性能差异的检测框架,其中的频域分解模块用于提取视频序列的低频段分量;目标跟踪器及其同构同参的镜像跟踪器分别以视频序列的全频段和低频段分量为输入;判别模块通过对比2个跟踪器的输出差异,判定当前视频序列是否为对抗输入. 该检测框架以跟踪器为载体,无需对抗训练仅通过对比不同频段跟踪性能的差异性,即可实现对抗检测. 大量的实验结果表明提出的检测框架不仅能够有效地检测当前主流的对抗攻击,如CSA,TTP,Spark,检测精度高达97.55%,而且对跟踪器的原始跟踪性能影响较小. 此外,检测框架具有泛化性,能够灵活地集成到多个跟踪器,如SiamRPNpp,SiamMask,SiamCAR,SiamBAN.
Abstract:Given the risk of adversarial attacks on tracking models and the lack of relevant adversarial detection methods, this paper addresses the problem from the perspective of frequency domain. Combined with the visual invisible property of perturbation noise, this paper first theoretically proves that perturbation noise mainly exists in the mid-to-high frequency bands of images. Then we quantitatively analyze that the low-frequency components of the video sequence contribute the most to tracking performance and are least affected by adversarial attacks. Finally, based on the above theoretical proof and qualitative analysis, this paper proposes a detection framework based on the tracking performance difference of frequency bands, in which the frequency domain decomposition module for extracting the low-frequency components of the video sequence. The target tracker and its mirror tracker with the same structure and parameters respectively take the full-frequency and low-frequency components of the video sequence as input. The discriminator module determines whether the input video sequence is an adversarial input by comparing the output differences of the two trackers. This detection framework uses a tracker as a carrier and does not require adversarial training. It can achieve adversarial detection only by comparing the tracking performance difference across different frequency bands. Extensive experimental results show that the detection framework can not only effectively detect current mainstream adversarial attacks, such as CSA, TTP, and Spark with a detection precision of 97.55%, but also has little negative impact on the original tracking performance of the tracker. In addition, this framework is generalizable and can be flexibly integrated into multiple trackers, such as SiamRPNpp, SiamMask, SiamCAR, and SiamBAN.
-
智能设备的普及为人们拍摄独具个性的图像提供了极大的便利性. 但当光照不足时拍摄的图像可能会存在很多问题,例如能见度低、对比度低和存在密集噪声等. 低照度图像中的视觉信息难以通过肉眼获取,也难以被计算机视觉模型进行处理. 低照度图像增强任务要求从观测到的低光照图像中恢复潜在的归一化光图像,同时提升图像的亮度、获得适当的对比度并抑制噪声. 人们借助低照度图像增强模型可以轻松地获取低光照场景下的信息,低照度增强模型也能够辅助图像分类、人脸识别、物体分割和异常检测等计算机视觉任务处理低照度图像. 因此,低照度图像增强任务具有重要的实际意义.
早先人们使用直方图均衡化(histogram equalization,HE)技术和Retinex理论[1]等传统方法针对低照度图像增强. 随着深度学习的发展,基于深度神经网络的自动图像增强方法在性能上取得了重大的进展[2-10]. 这些深度学习方法大多使用大规模的低照度-正常照度配对数据集进行训练,而配对数据的制作步骤繁琐且成本昂贵,此外,一些通过专家手工调整[2]或改变曝光收集的配对图像[7-8]不能完全反映真实世界的自然光照,因此使用这些配对数据的增强方法难以满足人类对视觉质量的个性化感知需求. 非配对增强方法在调整光照和对比度方面表现优异,即使使用相对较小的数据集进行训练也可以取得较好的增强效果且具有更好的泛化性能,但是由于缺乏详细信号的监督,增强的图像容易出现全局曝光不一致、大量噪声和不可预见的伪影,限制其实际的应用. 针对以上问题,一些工作[11-13]建议使用双向的生成对抗网络(generative adversarial networks,GANs)来实现低照度图像域和正常照度图像域之间的相互转换,每一张图像都将经过低照度退化生成器从源域映射到目标域,再经过增强生成器映射回自身的二次域变换,使得生成图像尽可能保持同域一致性. 这类经过二次域变换的方法忽略了图像单次变换的一致性问题从而丢失了部分信息. 另外一些基于单向生成对抗网络的增强方法[14-15]使用不同的注意力机制保证增强图像曝光的准确,却没有考虑图像全局结构对准确还原图像的重要性,导致其生成的图像边缘及细节模糊和扭曲.
在提高亮度和去噪声的同时,优秀的非配对低照度图像增强方法应该保证输入图像在增强过程的全局一致性,即全局曝光调整一致性和全局结构一致性. 具体来说,前者要求避免局部的欠曝光或过曝光,使增强的图像具有更加平衡和自然的亮度分布以提升视觉感受;后者要求增强图像与原始图像在整体组成和形状等方面保持一致,避免引入额外的噪声导致扭曲或失真,确保准确地传达原始图像中的信息和特征. 为此,本文提出一种基于全局一致的非配对低照度增强方法(unpaired low-light enhancement method based on global consistency,GCLLE). GCLLE由结合全局一致性保持模块(global consistency preserving module,GCPM)以及局部平滑和调制模块(local smoothing and modulation module,LSMM)的U-Net网络、深度特征强化模块(deep feature enhancement module,DFEM)以及多尺度全局和局部判别器(multi-scale global and local discriminators,MSGLD)组成,以低照度图像作为输入,使用曝光自然的非配对正常照度图像作为参考,学习从低照度图像到正常照度图像之间潜在的风格变换模式. 不同于CycleGAN[11],QAGAN[12],CIGAN[13]等同时生成低质量和高质量图像并使用循环一致性损失进行约束训练的方法,本文提出的GCLLE是一种单向的GANs,能够直接根据输入的低照度图像生成符合人眼视觉习惯的正常照度图像,提高训练速度的同时保证生成图像的质量.
本文的主要贡献有3点:
1) 提出一个结合GCPM和LSMM的U-Net网络. GCPM矫正不同尺度上下文信息保证图像增强的全局一致性,LSMM学习一组低阶曲线进一步提高生成图像质量.
2) 提出使用DFEM对编码器和解码器连接处的深层特征进行双路池化和融合,减少了不准确的编码信息,使得解码器更容易捕获低照度图像的低强度信号.
3) 结合光照感知损失、幂等性损失和对抗损失对本文提出的模型进行训练,保证生成图像质量的稳定性和准确性. 实验表明,本文方法的增强性能超过了现有典型低照度增强方法.
1. 相关工作
1.1 生成对抗网络
GANs首次被文献[16]提出,它是由一个生成器网络和一个判别器网络组成的2阶段网络. 其核心思想是通过对抗训练的方式,利用判别器能够有效区分生成样本和真实样本的能力,训练生成器生成越来越逼真的样本. GANs不需要显式地定义样本的概率分布,仅通过学习输入数据集中的低维空间到潜在高维空间的连接函数,就能够生成高质量的样本. GANs在图像生成[17]、风格迁移[18]等领域取得了很多重要的应用和突破. 然而,GANs的训练过程相对复杂,容易出现梯度消失和模式崩溃等导致性能不稳定的问题. 针对这些问题,文献[19–20]通过改进对抗损失的优化目标,有效提升了GANs训练的稳定性及其性能.
1.2 低照度图像增强方法
传统的低照度图像增强方法主要包括直方图均衡化和基于Retinex理论[1]的方法. 直方图均衡化将低照度图像的亮度直方图变换到给定的分布以拉伸图像的对比度,是一种常见有效的图像增强方法. 局部直方图均衡化[21]和全局直方图均衡化[22]工作分别通过局部的和全局的统计信息推导出自适应的变化函数. 基于Retinex理论的方法将低照度图像分解为照明度估计层和反射层,将增强任务转化为照明估计任务,能够较好地调整低光照图像的亮度.
近年来深度学习的迅猛发展使得基于深度神经网络的模型在各个领域取得了长足的进步. Lore等人[23]最早开始探索神经网络和深度学习方法在配对的低照度图像增强领域上的应用,以期获得具有更好对比度和较少噪声的低照度图像增强结果. 配对的低照度增强方法通过建模正常光照图像与低照度图像之间的配对映射关系,设计复杂的网络结构和优化目标来提升模型的性能. 例如,RetinexNet[7]提出利用分解网络和增强网络来调整图像的光照,构建了基于Retinex理论的深度增强模型. MDARNet[9]引入Retinex理论,改进了注意力机制和密集卷积,取得了良好的增强效果. DeepUPE[24]通过引入中间照明的约束,提出了一种更强的光照估计网络.
配对增强方法需要配对数据进行训练且泛化性较差,最近一些工作开始研究使用非配对数据实现低照度增强. Yang等人[25]提出了一种2阶段的增强方法以解决曝光不足引起的视觉退化问题. 该方法在第1阶段使用频带学习网络(band learning networks)学习配对数据中的频带信号,在第2阶段利用非配对的图像数据进行训练,一定程度上弥补了生成的增强图像与人类感知的差距,但仍未完全摆脱对配对数据的依赖. EnlightenGAN[14]是第1个基于GANs的非配对低照度增强方法,其采用像素级别的光照强度注意力图引导低照度图像的增强,并结合局部和全局判别器以获得更优的增强性能. UEGAN[15]使用全局注意力模块和调制模块来获得更高质量的图像. QAGAN[12]和CIGAN[13]使用循环GANs并利用循环一致性损失进行图像增强. 此外还有一些创新型的无参考非配对低照度图像增强方法,如ZeroDCE[26]和SCI[27]. ZeroDCE受到PS软件的启发,采用一种参数自适应高阶曲线来调整低照度图像的光照. SCI则提出一种用于现实低照度场景的轻量级自校准照明学习框架,令人印象深刻. 这些非配对增强方法摆脱了对配对数据的依赖,能够灵活地调整光照和对比度并获得不错的增强效果.
2. GCLLE网络结构
配对增强方法可以直接学习低照度图像到正常照度图像像素级别的一对一映射关系实现增强,而非配对低照度图像增强方法解除了对配对图像的依赖,使用非配对的正常照度图像作为参考,学习正常照度的风格信息并应用到输入的低照度图像上,从而去除对配对图像数据的依赖,实现非配对低照度图像增强. 为此,本文提出一个名为GCLLE的低照度增强方法,该方法使用GANs进行构建,如图1所示. 本文设计思想是采用一个能够保持全局一致性的U-Net[28]网络作为生成器,并使用结合全局特征和局部特征的多尺度判别器MSGLD引导低照度图像到正常照度风格的转换;采用对抗学习的方式训练GCLLE,使得判别器的鉴别能力不断增强,进而使得生成器生成更为逼真的增强图像. 但低照度图像一般存在对比度低、噪声过多等问题,因此提升生成器的表达能力是提高生成图像质量的关键. 具体来说,针对非配对增强方法输出图像存在的全局曝光不一致、结构不一致以及质量较差的缺陷,本方法首先在生成器引入GCPM矫正不同尺度上下文信息以保证图像亮度分布均匀并避免失真,然后使用LSMM复用跳跃连接实现更自然的增强效果;针对低照度图像中存在不准确的噪声信息,GCLLE使用DFEM双路池化融合深层特征,减少了不准确信息并保留更多图像细节. 更多关于GCLLE的设计细节将在下面的章节中进行详细讨论.
2.1 全局一致性保持模块
U-Net能够提取深层次多尺度特征,较好地保存图像纹理细节并利用上下文信息合成高质量图像[24],故而大多数优秀的图像生成模型都使用U-Net网络或者其衍生网络结构作为生成器[12-13,24-25]. 一些基于U-Net的非配对增强方法尝试改进跳跃连接,以解决编码器下采样时丢失上下文信息和边缘特征的全局不一致问题. 例如,EnGAN引入图像灰度强度值作为注意力图,保证上下文信息的连续并保留部分边缘特征,但是一定程度上丢失了输入图像的色彩信息所导致局部的曝光错误;UEGAN使用通道级的全局平均池化引导局部特征的重建,以确保重建图像全局曝光的一致性,但在增强极低照度图像时,生成的图像存在对比度较差、边缘模糊等问题.
为了解决以上问题,本文提出全局一致性保持模块(GCPM),如图2(a)所示. GCPM以跳跃连接的形式,在相同尺度上对编码器中的低照度特征重新建模并与解码器中的增强特征融合,以矫正不同尺度的上下文信息并保持增强图像的全局曝光和全局结构一致性. 首先GCPM针对U-Net网络上下文信息丢失问题,在上侧分支bGCPM1中提取通道级的均值和方差信息进行拼接,经过映射后与原输入特征进行点乘激活. 均值和方差作为图像的风格信息被引入,使得模型捕捉到更多的全局亮度和对比度信息,保证模型在处理包含大量噪声的低照度图像时保持全局曝光调整一致和稳定. 其中,图2(a)中映射S为全连接层、ReLU和全连接层按顺序执行的组合. 针对边缘特征丢失问题,下侧分支bGCPM2通过全连接层(FC)和深度卷积DConv的组合提取高频信息[29],最后与中间分支以及解码器上采样特征按通道维度拼接后输出. 边缘信息通常包含图像中物体之间的界限和纹理变换等关键信息,这些信息能够引导模型在全局尺度上更为准确地还原图像细节,进而保证全局结构一致性. GCPM保证了全局一致性,并有效提高增强图像的边缘细节.
2.2 局部平滑和调制模块
复杂的低质量图像可以由一组局部平滑曲线近似进行增强并获得更好的动态范围[26,30],由此本文提出局部平滑和调制模块(LSMM),在平滑解码器上采样特征并进一步重用编码器的跳跃连接特征,如图2(b)所示. 不同于ZeroDCE的使用可能导致局部过度增强而使图像失真的高阶曲线,本文采用更容易优化且更灵活的低阶曲线对局部区域进行平滑和调制. 具体来说,LSMM重用编码器的跳跃连接Fskip并使用调制H学习一组自适应调制权重,对解码器的中间特征FGCPM进行调制. 调制H使用深度卷积对局部区域特征进行平滑,再经过实例归一化和激活函数得到调制权重. 本文提出的LSMM可以表示为
FLSMM=TLSMM(Fskip,FGCPM)=σ2(H(Fskip)⊗FGCPM⊕FGCPM), (1) H(Fskip)=σ1(IN(DConv(Fskip))), (2) FGCPM=TGCPM(Fskip,Fup), (3) 其中σ1,σ2分别为tanh激活函数和LeakyReLU激活函数. Fskip是编码器的跳跃连接,Fup是解码器上采样特征,FLSMM和FGCPM分别为经过变换TLSMM和变换TGCPM之后得到的输出特征. 提出的LSMM平滑了局部的噪声,使得增强的效果更加真实和自然.
2.3 深度特征强化模块
低照度图像信噪比通常较低,尽管经过编码器的多次下采样获得的更大的感受野能去除部分高频噪声,但仍有大量不可预知的噪声和不准确的信息可能会误导解码器的优化方向. 为了压缩不相关的信息并突出更具有区分度的编码特征,本文提出深度特征强化模块(DFEM),使得解码器更容易识别低照度图像的低强度信号. 如图2(c)所示,DFEM在编码器输出的特征上使用双路池化融合深层特征,按通道维度经过全局平均池化和最大池化得到上下2个分支,上侧分支bdeep1与下侧分支bdeep2分别以通道维度拼接和对应像素相加2种方式融合通道信息和空间信息,最后再经过一次拼接并融合后输出.
2.4 多尺度全局和局部判别器
一些基于GANs的低照度图像增强方法[13-15]发现,对于低照度输入图像存在较小的区域亮度较亮(较暗)的情况,不具备自适应能力的全局判别器,通常无法判别局部区域是否已经被合理地增强,导致最终生成的图像会存在局部过曝(欠曝)问题. 为了能够自适应地增强局部区域并且改善全局光照获得更高质量的图像,受到上述相关工作的启发,本文提出一种多尺度全局和局部判别器(MSGLD). 如图2(d)所示,MSGLD一共进行5次下采样以获取不同尺度的特征,每一个下采样层由一个卷积和最大池化2部分组成,基于卷积的浅层网络捕获局部特征,随着网络层数的增加,感受野逐渐变大,深层网络可以提取更多的全局特征. 每一层经过3×3的最大池化后与该层的特征进行通道拼接,最后使用一个5×5的卷积将通道数压缩为1再进行判别. MSGLD在不同层级的多尺度特征上进行判别,有效地提升了图像质量.
3. 损失函数
3.1 对抗损失
本文使用RaHingeGAN(Relativistic average HingeGAN)损失[15,31]引导生成器合成高质量的图像. RaHingeGAN损失可以由如下公式定义:
LadvG=Exref∼N[max(0,1+(D(xref)−Eyfake∼FD(yfake)))]+Exfake∼F[max(0,1−(D(yfake)−Exref∼ND(xref)))], (4) LadvD=Ex∼L[max(0,1+(D(x)−Exref∼ND(xref)))]+Exref∼N[max(0,1−(D(xref)−Ex∼LD(x)))]+Exref∼N[max(0,1−(D(xref)−Eyfake∼FD(yfake)))]+Eyfake∼F[max(0,1+(D(yfake)−Exref∼ND(xref)))], (5) 其中LadvG和LadvD分别是基于RaHingeGAN生成器的对抗损失和判别器的对抗损失. xref,yfake,x分别是输入的正常照度的参考图像、生成器输出的增强图像、输入的低照度图像. 其中,L和N分别为低照度图像空间和正常照度图像空间,F为低照度图像空间经过生成器G映射的增强图像空间.
3.2 幂等性损失
以一个正常照度图像作为增强模型的输入,幂等性要求输出图像与输入图像应尽可能的一致. 本文在多尺度特征图上计算幂等性损失,鼓励模型输出的图像保留输入图像的语义信息并避免过度增强. LidemG可以表示为
LidemG=T∑t=1ωtCt×Ht×Wt‖ (6) 其中 {y}_{\mathrm{r}\mathrm{e}\mathrm{f}}=G\left({x}_{\mathrm{r}\mathrm{e}\mathrm{f}}\right) ,而 {C}_{t},{H}_{t},{W}_{t} 表示第 t 次下采样后图像的尺寸, T 表示下采样的次数. 由于下采样后的图像会变得模糊和失真,本文方法使用参数 {\omega }_{{t}} 控制不同尺寸图像的幂等性损失在总损失中的比例,使得生成器优先关注视觉效果更好、语义信息更完整的大尺寸输入图像和输出图像之间的差异. 具体来说, {\omega }_{t} 依次取1,1/2,1/4. 本文方法中使用核大小为2的平均池化进行1/2的下采样,下采样次数 T 设置为3.
3.3 光照感知损失
为了确保低照度图像和增强后的图像在结构上不存在明显差别,配对的增强模型通常直接使用像素级别的L1损失或者L2损失进行约束. 由于低照度图像和正常光照图像在对比度和颜色渲染等方面存在较大的差异[24-25],这种方法并不适用于基于GANs的非配对增强模型,如本文所提方法GCLLE. 因此在设计和实现非配对增强模型时,需要考虑其他约束机制来保证生成图像质量的稳定性和准确性. 考虑到VGG[32]模型的分类性能对图像的灰度值并不敏感[33],本文采用在ImageNet[34]上预训练好的VGG-19模型,对输入的低照度图像 x 和生成器生成的图像 {y}_{\mathrm{f}\mathrm{a}\mathrm{k}\mathrm{e}} 分别提取特征,并计算相应的感知损失:
{L}_{G}^{\mathrm{p}\mathrm{e}\mathrm{r}\mathrm{c}}=\sum _{k=1}^{K}\frac{1}{{C}_{k}\times {H}_{k}\times {W}_{k}}{\|{\varphi }_{k}\left(x\right)-{\varphi }_{k}\left({y}_{\mathrm{f}\mathrm{a}\mathrm{k}\mathrm{e}}\right)\|}_{2\text{}} , (7) 其中 {\varphi }_{k} 由VGG-19中的第 k 层ReLU以及实例归一化组成. {C}_{k},{H}_{k},{W}_{k} 表示第 k 层ReLU输出的通道、高度、宽度特征尺寸. 本文采用VGG-19中的ReLU_1_1,ReLU_2_1,ReLU_3_1,ReLU_4_1,ReLU_5_1层,因此 K =5.
3.4 优化目标
结合对抗损失、幂等性损失和光照感知损失,GCLLE中生成器的优化目标 {L_G} 定义为
{L}_{G}=\alpha {L}_{G}^{\mathrm{a}\mathrm{d}\mathrm{v}}+\beta {L}_{G}^{\mathrm{i}\mathrm{d}\mathrm{e}\mathrm{m}}+\gamma {L}_{G}^{\mathrm{p}\mathrm{e}\mathrm{r}\mathrm{c}}. (8) 调整超参数 \alpha , \beta , \gamma 可以分别控制这3种损失对GCLLE生成器约束的权重.
4. 实验结果
4.1 数据集
本节旨在验证GCLLE在低照度图像增强方面的有效性,同时与其他先进的低照度增强方法进行性能比较. 为此,本文采用MIT数据集[4]和更具有挑战性的LSRW数据集[10]. MIT数据集包含不同的摄影师拍摄的真实场景低照度原始图像,并由5个经验丰富的专家对这些图像进行修饰. 本文在MIT数据集中分别随机选取500张和100张低照度图像作为训练集和测试集,以及选用500张与训练集、测试集不重叠的经由专家C修饰的照片作为正常曝光的参考图像. LSRW数据集是一个大规模的真实世界低照度与正常照度配对的图像数据集,本文以同样的方法选取500张低照度图像和500张非配对的正常照度图像进行训练,并在随机选取的100张图像上进行测试. 所有训练图像和测试图像都被中心裁剪为512×512大小,需要注意的是,在训练本文方法时,训练图像被进一步随机裁剪为256×256像素进行数据增强以获得更好的性能.
4.2 评估指标和实现细节
为了公平、全面地评估提出的GCLLE模型,本文选择7种典型的低照度图像增强方法进行实验,包括RetinexNet[7],KinD[35],EnlightenGAN[14],UEGAN[15],ZeroDCE[26],RUAS[36],SCI[27]. 其中RetinexNet和KinD是经典的配对低照度图像增强方法,EnlightenGAN,UEGAN,ZeroDCE,RUAS,SCI是先进的非配对增强方法.
为了评估增强后图像的质量,本文采用峰值信噪比(peak signal-to-noise ratio,PSNR)、结构相似度(structural similarity,SSIM)、均方误差(mean square error,MSE)和平均绝对误差(mean absolute error,MAE)一共4种被广泛采用的基于全参考的图像质量评估指标. 这些指标重点关注重建图像的保真度,但并不完全适用于个性化审美的需求. 人们对高质量图像的感知存在差异,因此对审美质量进行评价具有一定的挑战性. 为此本文额外使用专门为人类感知设计的度量指标LPIPS[37]以及可以量化审美质量的评估指标NIMA[38],这些指标的使用可以更加全面和准确地评估和比较各种方法的性能表现.
在MIT数据集和LSRW数据集上,GCLLE各进行了100次训练,并在对应的测试集上进行测试. 本方法使用Adam[39]作为优化器对网络进行优化并将GCLLE训练的批大小设置为4,生成器和判别器的学习率分别被设置为0.000 1和0.000 4,在前50次训练时保持不变,在后50次训练中线性减少到0. 式(8)中将各部分损失的权重统一设置为 \alpha =0.15,\beta =0.15, \gamma =1.0 . 所有的实验都在单块NVIDIA Tesla P40显卡上完成,以确保实验平台的一致性和可比性.
4.3 与多种低照度图像增强方法的对比
如表1所示,本文方法GCLLE与2种配对的经典增强方法以及5种先进的非配对方法进行客观指标对比. 为了保证对比的公平性,本文下载了上述方法提供的开源代码,在相同的实验环境和实验设置下,使用MIT和LSRW数据集进行训练和测试. 由于ZeroDCE训练的结果较差,本文直接使用其提供的预训练权重进行测试. 从表1可以看出,GCLLE在MIT数据集上的多个评估指标均显著超越了典型的低照度增强方法. 在更有挑战性的超低照度数据集LSRW上,GCLLE也取得最高的PSNR和SSIM. 这表明,GCLLE能够很好地抑制伪影,恢复色彩信息,同时保留了更多的高频特征,保证了全局一致性.
表 1 在MIT和LSRW数据集上的对比结果Table 1. Comparison Results on MIT and LSRW Datasets数据集 评估指标 配对方法 非配对方法 RetinexNet KinD EnlightenGAN UEGAN ZeroDCE RUAS SCI GCLLE(本文方法) MIT PSNR/dB↑ 20.260 18.540 19.850 21.780 15.220 16.980 20.340 22.860 SSIM↑ 0.840 0.831 0.852 0.890 0.762 0.806 0.880 0.909 NIMA↑ 4.386 4.541 4.608 4.677 4.101 4.259 4.524 4.689 LPIPS↓ 0.178 0.127 0.111 0.082 0.186 0.185 0.141 0.074 MAE*↓ 0.226 0.289 0.223 0.188 0.405 0.370 0.232 0.163 MSE*↓ 8.300 14.515 9.153 5.952 22.062 21.953 9.098 4.691 LSRW PSNR/dB↑ 16.650 16.390 17.130 16.980 15.140 14.710 14.910 17.650 SSIM↑ 0.553 0.540 0.523 0.550 0.496 0.508 0.471 0.559 NIMA↑ 4.037 4.088 4.146 3.940 3.850 4.083 4.175 4.209 LPIPS↓ 0.457 0.504 0.360 0.430 0.384 0.485 0.430 0.381 MAE*↓ 0.317 0.326 0.293 0.313 0.388 0.395 0.400 0.284 MSE*↓ 16.320 17.970 16.110 16.070 24.310 26.140 25.780 14.240 注:黑体数值表示最优值. “↑”表示PSNR,SSIM,NIMA的值均为越大越好,“↓”表示LPIPS,MAE*,MSE*的值均越小越好. MSE*和MAE*的值分别为MES和MAE的值的1%. 使用配对图像进行训练的RetinexNet和KinD在2个数据集上实现了有竞争力的性能;ZeroDCE和SCI等无参考的非配对的增强方法使用人为设计的先验结构来约束低照度图像的增强,虽然其增强的图像能够保留较好的细节并恢复一定程度的光照,但与自然世界的正常光照图像有较大差距;相比之下,UEGAN、EnlightenGAN和GCLLE均为有参考的非配对增强方法,能够有效地学习参考图像中的亮度以及色彩信息,对输入的低照度图像进行合理增强,并取得了更好的性能.
图3和图4展示了GCLLE与多种低照度增强方法的主观视觉比较结果. 从图3中可以观察到,SCI和RUAS都存在一定的色彩偏差;KinD和EnlightenGAN则在局部有欠曝光的现象;而UEGAN增强的效果较好,但是丢失了部分细节. GCLLE保证了全局曝光的一致性,很好地还原了色彩并保留了最多的面部细节,视觉上最为接近正常照度图像. 从图4中可以观察到,与正常照度的图像相比,RetinexNet存在较大的色彩偏差;KinD增强的图像较为模糊;而RUAS存在过曝的情况;EnlightenGAN和UEGAN增强的效果较好,但是仍然存在部分明显的噪声和伪影. 相比之下,GCLLE抑制噪声的同时消除了较为明显的伪影,增强的结果在视觉上更为出色,最接近正常照度的图像. 综合图3、图4和表1可以看出,GCLLE结合了GCPM,LSMM和DFEM的增强方法,在主观视觉上以及几乎所有的客观指标上都取得了最佳效果.
4.4 消融实验
为了验证GCLLE及其各模块的有效性及其性能表现,本文进行了一系列的消融实验,详细探究GCPM,DFEM,LSMM对GCLLE增强效果的贡献. 具体而言,分别比较了5个版本:1) 使用普通的跳跃连接代替GCPM的GCLLE. 2)将去掉DFEM的GCLLE,U-Net网络中的编码器输出的特征直接作为解码器的输入. 3) 去掉LSMM的GCLLE. 4) 只包含跳跃连接的U-Net网络. 5) 包含GCPM,DFEM,LSMM的完整GCLLE. 上述各版本的GCLLE的客观指标性能如表2所示,可以看到去掉GCPM对SSIM值的影响最大,证明该模块能够有效保持图像结构一致性,而分别去掉了LSMM,DFEM,GCPM对GCLLE在PSNR上的性能的影响依次增加,结合了3个模块的完整版GCLLE能够取得最高的PSNR值.
表 2 在MIT数据集上对各模块有效性消融的结果Table 2. Results of Effectiveness Ablation of Each Module on MIT Dataset消融 PSNR/dB↑ SSIM↑ NIMA↑ MAE*↓ MSE*↓ LPIPS↓ 无GCPM 21.94 0.897 4.786 0.174 5.240 0.080 无DFEM 22.12 0.916 4.701 0.173 5.427 0.077 无LSMM 22.56 0.904 4.675 0.170 4.994 0.077 U-Net 20.03 0.891 4.775 0.219 8.959 0.101 GCLLE
(本文方法)22.86 0.909 4.689 0.163 4.691 0.074 注:黑体数值表示最优值. “↑”表示PSNR,SSIM,NIMA的值均为越大越好,“↓”表示LPIPS,MAE*,MSE*的值均越小越好. MSE*和MAE*的值分别为MES和MAE的值的1%. 为了更直观地理解和展示不同组件对增强结果的影响,本文进行了主观视觉消融实验对比,各版本GCLLE的增强效果差异如图5所示. 图5的第1行和第2行的低照度输入图像本身均存在局部过亮的区域,当对这类图像进行增强时,此区域更容易出现局部曝光错误,如第1行图像中天空中的太阳以及海面上的光影,第2行图像中胸口处和肩膀处的亮斑. 当去掉GCPM时能看到这些位置出现了明显的曝光错误,而其他包含了GCPM的版本均能够较好地在全局范围上平衡亮度分布. 去除了DFEM之后,在第2行图中的胸口处出现了黑色的暗块. 在更困难的几乎全黑图像上,DFEM具有更大的影响,例如在第3行的图像的椅子背部完全丢失了镂空的黑色条纹,地板也出现了大面积不准确的颜色. 去掉LSMM之后的图像整体上可以看到较为明显的灰色模糊和颜色暗淡,在放大的黑色地砖处也有明显的白色噪点. 经过LSMM的平滑和调制,其他版本的消融模型去掉了黑地砖明显的白噪点并获得了更准确的黑色,增强图像在整体上更为清晰和自然. 综合而言,LSMM、DFEM和GCPM这3个模块的协同作用可以使得GCLLE在低照度增强任务上的取得更好的性能.
此外,本文还对式(8)中调节各损失比例的超参数进行了消融实验. 本文将 \gamma 固定设置为1,调节 \alpha 和 \beta 进行实验. 如表3所示,在 \alpha 和 \beta 均为0.15的情况下,GCLLE取得了最佳的性能.
表 3 在LSRW数据集上对超参数的消融实验Table 3. Ablation Experiments on LSRW Dataset for Hyperparameters\alpha \beta PSNR/dB SSIM 0.25 0.20 17.22 0.550 0.25 0.15 16.84 0.546 0.25 0.10 16.65 0.543 0.20 0.15 17.07 0.552 0.20 0.10 17.60 0.558 0.15 0.15 17.65 0.559 0.15 0.10 17.53 0.559 0.10 0.10 无效 无效 注:黑体数值表示最优值. 4.5 适用性分析
本文还在低照度场景下的目标检测任务上进行实验,以进一步验证GCLLE对于下游任务的适用性. 具体来说,本文在针对低照度场景下目标检测的数据集ExDark[40]上使用先增强后检测的策略,将在LSRW数据集上训练好的增强模型应用到ExDark数据集上进行增强,以验证图像增强模型对于GFL-Res50检测器[41]检测性能的影响. 实验结果如表4所示. 从表4可知,相比于其他增强模型,GCLLE在ExDark数据集进行增强能够使得检测器在多种类别目标的检测准确度上获得较好的提升,且在全类别平均准确度(mAP)上也取得了最好的结果. 图6展示了不同的低照度图像增强方法在ExDark数据集上的增强效果,综合来看,GCLLE提升了亮度并保证了曝光一致性,获得了更清晰的边缘和更自然的增强效果.
表 4 在ExDark数据集上的适用性实验Table 4. Applicability Experiments on ExDark Dataset方法 AP/% 单车 鞋子 瓶子 公交 汽车 猫 椅子 杯子 狗 摩托 人 桌子 平均 基线 72.5 68.0 66.0 87.4 75.5 72.6 55.8 58.9 81.4 59.2 68.0 46.9 67.65 KinD 72.9 67.8 65.2 86.8 74.6 73.8 54.9 60.3 79.9 57.9 66.5 48.7 67.47 ZeroDCE 72.5 68.8 66.3 87.7 74.6 69.8 59.3 56.7 80.1 61.1 68.1 46.4 67.62 UEGAN 72.8 67.4 66.9 86.0 75.8 71.7 55.9 59.5 80.2 60.6 68.1 48.6 67.78 本文方法 72.9 68.3 67.1 88.7 75.9 70.5 56.3 57.4 82.0 60.4 68.4 48.5 68.04 注:黑体数值表示最优值. 5. 结 论
针对现有的非配对低照度图像增强方法存在的全局曝光失衡、色彩失真等问题,本文提出一种基于GCLLE的低照度增强方法. 本方法联合全局一致性保持模块GCPM、深度特征增强模块DFEM以及局部平滑和调制模块LSMM,在几乎所有的指标上优于目前典型的低照度图像增强方法. 但对于LSRW数据集的部分复杂场景图像,为了抑制噪声,GCLLE出现图像局部过平滑问题,需要进一步完善. 因此,在后续的工作中,将研究超低照度复杂场景下的图像增强与局部噪声平滑的权衡问题,并进一步研究GCLLE的轻量化,使其更适合于实际应用.
作者贡献声明:江泽涛提出研究思路、设计研究方案和实验,并撰写论文;黄钦阳负责模型代码编写、设计和完成对比实验;张惠鹃负责论文公式检查、修订论文;金鑫、黄景帆负责论文的润色;廖培期负责修订论文并对论文进行最终审查.
-
表 1 数据集及评估指标
Table 1 Datasets and Evaluation Metrics
原始数据集 视频序列 跟踪性能评估指标 OTB2015 100 AUC,Pre,Npre UAV123 123 LaSOT 280 混合数据集 视频序列 检测性能评估指标 OTB2015* 200 P,R,F1,∆AUC, ∆Pre,∆Npre UAV123* 246 LaSOT* 560 表 2 CSA攻击下的检测性能
Table 2 Detection Performance Under CSA Attacks
混合数据集 P/% R/% F1/% ∆AUC ∆Pre ∆Npre OTB2015* 97.55 98.68 98.11 0.028 0.018 0.025 UAV123* 95.24 96.99 96.10 0.018 0.006 0.008 LaSOT* 94.91 99.64 97.21 0.009 0.016 0.004 表 3 TTP攻击下的检测性能
Table 3 Detection Performance Under TTP Attacks
混合数据集 P/% R/% F1/% ∆AUC ∆Pre ∆Npre OTB2015* 97.73 93.48 95.56 0.021 0.030 0.025 UAV123* 95.12 91.61 93.32 0.025 0.015 0.036 LaSOT* 93.38 94.96 94.16 0.008 0.004 0.016 表 4 Spark攻击下的检测性能
Table 4 Detection Performance Under Spark Attacks
混合数据集 P/% R/% F1/% ∆AUC ∆Pre ∆Npre OTB2015* 96.37 98.57 97.46 0.064 0.019 0.029 UAV123* 92.48 95.68 94.05 0.055 0.014 0.017 LaSOT* 96.86 98.74 97.79 0.067 0.074 0.081 表 5 检测框架在其他跟踪器上的检测性能 %
Table 5 Detection Performance of Detection Framework Integrated into Other Trackers
评估指标 SiamRPN SiamMask SiamCAR SiamBAN P 93.33 92.68 100 100 R 97.67 90.48 87.50 93.62 F1 95.45 91.57 93.33 96.70 表 6 判别条件对检测性能的影响
Table 6 Impact of Discrimination Conditions on Detection Performance
% 评估指标 C1 C2 C1+C2 C1+C2+C3 本文条件 P 92.50 94.08 92.66 93.73 95.24 R 47.13 90.24 91.88 94.79 96.99 F1 62.30 92.12 92.27 94.25 96.10 -
[1] Kurakin A, Goodfellow I J, Bengio S. Adversarial examples in the physical world [J]. arXiv preprint, arXiv: 1607.02533, 2016
[2] Szegedy C, Zaremba W, Sutskever I, et al. Intriguing properties of neural networks [J]. arXiv preprint, arXiv: 1312.6199, 2014
[3] 张万里,陈越,杨奎武,等. 一种局部遮挡人脸识别的对抗样本生成方法[J],计算机研究与发展,2023,60(9):2067−2079 Zhang Wanli, Chen Yue, Yang Kuiwu, et al. An adversarial example generation method for locally occluded face recognition [J]. Journal of Computer Research and Development, 2023, 60(9): 2067−2079(in Chinese)
[4] Yan Bin, Wang Dong, Lu Huchuan, et al. Cooling-shrinking attack: Blinding the tracker with imperceptible noises [C] //Proc of the 33rd IEEE/CVF Conf on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2020: 990−999
[5] Nakka K K, Salzmann M. Universal, transferable adversarial perturbations for visual object trackers [C] //Proc of the 17th European Conf on Computer Vision Workshops. Berlin: Springer, 2022: 413−429
[6] Hou Ruitao, Ai Shan, Chen Qi, et al. Similarity-based integrity protection for deep learning systems[J]. Information Sciences, 2022, 601: 255−267 doi: 10.1016/j.ins.2022.04.003
[7] Goel A, Moulin P. Fast locally optimal detection of targeted universal adversarial perturbations[J]. IEEE Transactions on Information Forensics and Security, 2022, 17: 1757−1770 doi: 10.1109/TIFS.2022.3169922
[8] Lust J, Condurache A P. Efficient detection of adversarial, out-of-distribution and other misclassified samples[J]. Neurocomputing, 2022, 470: 335−343 doi: 10.1016/j.neucom.2021.05.102
[9] Moitra A, Panda P. Detectx-adversarial input detection using current signatures in memristive xbar arrays[J]. IEEE Transactions on Circuits and Systems I: Regular Papers, 2021, 68(11): 4482−4494 doi: 10.1109/TCSI.2021.3110487
[10] Luo Wenjia, Wu Chenwang, Ni Li, et al. Detecting adversarial examples by positive and negative representations[J]. Applied Soft Computing, 2022, 117: 108383 doi: 10.1016/j.asoc.2021.108383
[11] Jiang Wei, He Zhiyuan, Zhan Jinyu, et al. Attack-aware detection and defense to resist adversarial examples[J]. IEEE Transactions on Computer- Aided Design of Integrated Circuits and Systems, 2020, 40(10): 2194−2198
[12] Qin Chuan, Chen Yuefeng, Chen Kejiang, et al. Feature fusion based adversarial example detection against second-round adversarial attacks[J]. IEEE Transactions on Artificial Intelligence, 2023, 4(5): 1029−1040 doi: 10.1109/TAI.2022.3190816
[13] Qing Yuanyuan, Bai Tao, Liu Zhuotao, et al. Detection of adversarial attacks via disentangling natural images and perturbations[J]. IEEE Transactions on Information Forensics and Security, 2024, 19: 2814−2825 doi: 10.1109/TIFS.2024.3352837
[14] Wiyatno R, Xu Anqi. Physical adversarial textures that fool visual object tracking [C] //Proc of the 16th IEEE/CVF Int Conf on Computer Vision. Piscataway, NJ: IEEE, 2019: 4821−4830
[15] Guo Qing, Xie Xiaofei, Ma Lei, et al. Spark: Spatial-aware online incremental attack against visual tracking [C] //Proc of the 15th European Conf on Computer Vision. Berlin: Springer, 2020: 202−219
[16] Chen Xuesong, Yan Xiyu, Zheng Feng, et al. One-shot adversarial attacks on visual tracking with dual attention [C] //Proc of the 33rd IEEE/CVF Conf on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2020: 10176−10185
[17] Zhou Ze, Sun Yinghui, Sun Quansen, et al. Only once attack: Fooling the tracker with adversarial template[J]. IEEE Transactions on Circuits and Systems for Video Technology, 2023, 33(7): 3171−3184
[18] Li Zhenbang, Shi Yaya, Gao Jin, et al. A simple and strong baseline for universal targeted attacks on Siamese visual tracking[J]. IEEE Transactions on Circuits and Systems for Video Technology, 2021, 32(6): 3880−3894
[19] Zhou Ze, Sun Yinghui, Sun Quansen, et al. Attacking the tracker with a universal and attractive patch as fake target[J]. Information Sciences, 2023, 650: 119677 doi: 10.1016/j.ins.2023.119677
[20] Chen Xuesong, Fu Canmiao, Zheng Feng, et al. A unified multi-scenario attacking network for visual object tracking [C] //Proc of the 35th AAAI Conf on Artificial Intelligence. Palo Alto, CA: AAAI, 2021: 1097−1104
[21] Jia Shuai, Song Yibing, Ma Chao, et al. Iou attack: Towards temporally coherent black-box adversarial attack for visual object tracking [C] //Proc of the 34th IEEE/CVF Conf on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2021: 6709−6718
[22] Liang Siyuan, Wei Xingxing, Yao Siyuan, et al. Efficient adversarial attacks for visual object tracking [C] //Proc of the 16th European Conf on Computer Vision. Berlin: Springer, 2020: 34−50
[23] Guo Qing, Cheng Ziyi, Xu Juefei, et al. Learning to adversarially blur visual object tracking [C] //Proc of the 17th IEEE/CVF Int Conf on Computer Vision. Piscataway, NJ: IEEE, 2021: 10839−10848
[24] Zhao Shaochuan, Xu Tianyang, Wu Xiaojun, et al. Pluggable attack for visual object tracking[J]. IEEE Transactions on Information Forensics and Security, 2024, 19: 1227−1240 doi: 10.1109/TIFS.2023.3331899
[25] Li Bo, Wu Wei, Wang Qiang, et al. Siamrpn++: Evolution of siamese visual tracking with very deep networks [C] //Proc of the 17th IEEE/CVF Conf on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2019: 4282−4291
[26] Ren Shaoqing, He Kaiming, Girshick R, et al. Faster r-cnn: Towards real-time object detection with region proposal networks[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017, 39(6): 1137−1149 doi: 10.1109/TPAMI.2016.2577031
[27] Wu Yi, Lim J, Yang M. Object tracking benchmark[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2015, 37(9): 1834−1848 doi: 10.1109/TPAMI.2014.2388226
[28] Mueller M, Smith N, Ghanem B. A benchmark and simulator for uav tracking [C] //Proc of the 14th European Conf on Computer Vision. Berlin: Springer, 2016: 445−461
[29] Fan Heng, Lin Liting, Yang Fan, et al. Lasot: A high-quality benchmark for large-scale single object tracking [C] //Proc of the 32nd IEEE/CVF Conf on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2019: 5374−5383
[30] Wang Qiang, Zhang Li, Bertinetto L, et al. Fast online object tracking and segmentation: A unifying approach [C] //Proc of the 32nd IEEE/CVF Conf on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2019: 1328−1338
[31] Li Bo, Yan Junjie, Wu Wei, et al. High performance visual tracking with Siamese region proposal network [C] //Proc of the 31st IEEE/CVF Conf on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2018: 8971−8980
[32] Guo Dongyan, Wang Jun, Cui Ying, et al. SiamCAR: Siamese fully convolutional classification and regression for visual tracking [C] //Proc of the 33rd IEEE/CVF Conf on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2020: 6268−6276
[33] Chen Zedu, Zhong Bineng, Li Guorong, et al. Siamese box adaptive network for visual tracking [C] //Proc of the 33rd IEEE/CVF Conf on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2020: 6667−6676