Processing math: 6%
  • 中国精品科技期刊
  • CCF推荐A类中文期刊
  • 计算领域高质量科技期刊T1类
高级检索

一种wandering B+ tree问题解决方法

杨勇鹏, 蒋德钧

杨勇鹏, 蒋德钧. 一种wandering B+ tree问题解决方法[J]. 计算机研究与发展, 2023, 60(3): 539-554. DOI: 10.7544/issn1000-1239.202220555
引用本文: 杨勇鹏, 蒋德钧. 一种wandering B+ tree问题解决方法[J]. 计算机研究与发展, 2023, 60(3): 539-554. DOI: 10.7544/issn1000-1239.202220555
Yang Yongpeng, Jiang Dejun. A Method for Solving the wandering B+ tree Problem[J]. Journal of Computer Research and Development, 2023, 60(3): 539-554. DOI: 10.7544/issn1000-1239.202220555
Citation: Yang Yongpeng, Jiang Dejun. A Method for Solving the wandering B+ tree Problem[J]. Journal of Computer Research and Development, 2023, 60(3): 539-554. DOI: 10.7544/issn1000-1239.202220555
杨勇鹏, 蒋德钧. 一种wandering B+ tree问题解决方法[J]. 计算机研究与发展, 2023, 60(3): 539-554. CSTR: 32373.14.issn1000-1239.202220555
引用本文: 杨勇鹏, 蒋德钧. 一种wandering B+ tree问题解决方法[J]. 计算机研究与发展, 2023, 60(3): 539-554. CSTR: 32373.14.issn1000-1239.202220555
Yang Yongpeng, Jiang Dejun. A Method for Solving the wandering B+ tree Problem[J]. Journal of Computer Research and Development, 2023, 60(3): 539-554. CSTR: 32373.14.issn1000-1239.202220555
Citation: Yang Yongpeng, Jiang Dejun. A Method for Solving the wandering B+ tree Problem[J]. Journal of Computer Research and Development, 2023, 60(3): 539-554. CSTR: 32373.14.issn1000-1239.202220555

一种wandering B+ tree问题解决方法

详细信息
    作者简介:

    杨勇鹏: 1993年生. 博士研究生. 主要研究方向为块存储系统和文件系统

    蒋德钧: 1982年生. 博士,副研究员,博士生导师. CCF,ACM,IEEE会员. 主要研究方向为存储体系结构、存储系统、分布式系统

    通讯作者:

    蒋德钧(jiangdejun@ict.ac.cn

  • 中图分类号: TP391

A Method for Solving the wandering B+ tree Problem

  • 摘要:

    为了应对磁盘和固态硬盘随机写和顺序写性能差异较大的问题,文件系统和块存储系统通常采用日志结构(log-structured)技术将随机写转换为顺序写. 因此,对于日志结构存储系统数据和元数据的修改都以异地写的方式执行. 在日志结构存储系统中,B+ tree常被用于管理元数据,这就会导致wandering B+ tree问题,即树结点异地更新会导致树结构递归更新. 目前,现有工作主要通过分离树结点的逻辑索引和物理地址,并使用额外的数据结构和物理设备空间存放树结点逻辑索引和物理地址的映射,从而避免递归更新树结构. 但现有方法既引入额外空间开销,又存在额外物理设备空间非顺序写的问题. 提出IBT B+ tree,将树结点逻辑索引和物理地址均存放在树结构中. 同时,基于IBT B+ tree结构引入dirty链表设计,并提出了非递归更新的IBT B+ tree下刷算法. IBT B+ tree既解决了wandering B+ tree问题,又不引入额外的数据结构和物理设备空间,消除了固定物理设备空间的非顺序写. 分别实现IBT B+ tree和基于F2FS中NAT设计的B+ tree,在此基础上设计实现Monty-Dev块存储系统以评价2棵B+ tree. 实验表明,在HDD和SSD介质上,IBT B+ tree在写放大和下刷效率方面均优于NAT B+ tree.

    Abstract:

    In order to narrow the gap between the random write and sequential write performance of HDDs and SSDs, file systems and block storage systems usually use the log-structured technique to convert random write to sequential write. Therefore, modifications on log-structured storage system data and metadata are performed as out-of-place writes. In log-structured storage systems, B+ trees are often used to manage metadata. The tree node adopts the out-of-place update method, which will cause the tree node to be updated recursively, so it faces the wandering B+ tree problem. Currently, the main ideas of the existing methods are: The logical index and physical address of the tree node are separated, and a separate data structure and physical device space are used to store the mapping of the logical index and physical address of the tree node, thereby avoiding recursive updating of the tree node. However, the existing schemes not only introduce additional space overhead but also have the problem of non-sequential writing in the additional physical device space. We propose an IBT B+ tree, internal node based translation B+ tree, which embeds the logical index and physical addresses into the tree node. Based on the dirty linked list design, a non-recursive update algorithm for flushing the IBT B+ tree is proposed. The IBT B+ tree not only solves the problem of wandering B+ tree but also does not introduce additional data structure and space overhead. In this paper, the IBT B+ tree and the B+ tree designed by NAT, proposed in F2FS, are implemented respectively. On this basis, the Monty-Dev block storage system is designed and implemented to evaluate the two B+ trees. Experiments show that on HDD and SSD, the IBT B+ tree is better than the NAT B+ tree in both write amplification and flushing efficiency.

  • 图像融合旨在从不同传感器或不同拍摄设置捕获的图像中提取最有意义的信息,并将这些信息融合生成单幅信息更完备、对后续应用更有利的图像[1-3]. 红外与可见光图像融合是应用最为广泛的图像融合任务之一. 具体来说,红外传感器对成像环境较鲁棒,所捕获的红外图像具有显著的对比度,能有效地将热目标与背景区分开. 然而,红外图像往往缺乏纹理细节,不符合人类的视觉感知习惯. 相反,可见光图像往往包含丰富的纹理细节,但容易受天气、光照等因素影响,且无法有效突出目标. 红外与可见光图像融合致力于同时保留这2种模态的优异特性,以生成既具有显著对比度又包含丰富纹理细节的图像. 由于融合图像的优良特性,红外与可见光图像融合已被广泛应用于军事探测、目标监控以及车辆夜间辅助驾驶等领域[4-5].

    现存的红外与可见光图像融合方法根据其原理可分为传统方法和基于深度学习的方法. 传统方法通常利用相关的数学变换在空间域或变换域进行活动水平测量,并设计相应的融合规则来实现图像融合[6]. 代表性方法有:基于多尺度变换的方法[7-8]、基于稀疏表示的方法[9]、基于子空间的方法[10]、基于显著性的方法[11]以及混合方法[12]. 一般来说,这些传统方法手工设计的活动水平测量及融合规则具有较大的局限性:一方面,源图像的多样性势必会使这些手工设计越来越复杂;另一方面,这也限制了融合性能的进一步提升,因为不可能以手工设计的方式考虑所有因素.

    近年来,深度学习的快速发展推动了图像融合领域的巨大进步. 基于深度学习的融合方法凭借神经网络强大的特征提取和图像重建能力,不断提升融合性能[13]. 根据图像融合的实现过程,现存的基于深度学习的图像融合方法可以分为端到端融合方法和非端到端融合方法. 端到端融合方法[14-17]通常在损失函数的引导下隐式地实现特征提取、特征融合及图像重建,其损失函数被定义为图像空间中融合图像与源图像绝对分布(如像素强度、梯度等原始图像属性)之间的距离,如图1所示. 在这一类方法中,图像融合网络的优化实际上是寻求红外与可见光图像绝对分布的中和比例,这势必会造成有益信息被削弱,如纹理结构和热目标被中和.

    图  1  端到端融合方法示意图
    Figure  1.  Schematic of the end-to-end fusion method

    非端到端融合方法一般基于自编码网络,其先用编码器实现特征提取,然后使用融合策略聚合提取到的特征,最后使用译码器对融合特征进行译码实现图像重建. 然而,在现存非端到端图像融合方法中,所采用的中间特征融合策略仍然是传统的[18],如Mean策略、Max策略以及Addition策略等,如图2所示. 这些融合策略是全局的,不能根据输入图像来自适应地调整,融合性能十分有限. 比如,Mean策略对输入特征直接取平均,会造成显著目标的亮度被中和;Addition策略直接将输入特征相加,会造成部分区域亮度中和或饱和.

    图  2  非端到端融合方法示意图
    Figure  2.  Schematic of the non-end-to-end fusion method

    为了解决上述挑战,本文提出一个基于特征空间多类别对抗机制的红外与可见光图像融合网络,显著提升了融合性能. 首先,该方法基于自编码网络,利用编码器网络和译码器网络显式地实现特征提取和图像重建. 其中,编码器网络引入了空间注意力机制来关注更重要的区域,如显著目标区和丰富纹理区;译码器网络引入通道注意力机制来筛选对重建图像本身更有利的通道特征,如高频特征通道和包含了显著性目标的低频特征通道. 此外,译码器网络还采用了多尺度卷积,其可以从不同尺度处理特征,从而在重建过程中更好地保留细微纹理. 然后,采用生成式对抗网络(generative adversarial network, GAN)实现中间特征融合策略的可学习化. 具体来说,本文设计了一个特征融合网络作为生成器来融合由训练好的编码器提取的特征,其致力于生成同时符合红外和可见光2种模态概率分布的融合特征. 提出一个多分类器鉴别器,其致力于区分红外特征、可见光特征以及融合特征. 特征融合网络和多分类器鉴别器持续地进行多分类对抗学习,直到多分类器鉴别器认为融合特征既是可见光特征,又是红外特征. 此时,特征融合网络便能保留红外图像和可见光图像中最显著的特性,从而生成高质量的融合特征. 最终的融合图像由训练好的译码器网络对融合特征译码得到. 值得注意的是,所提方法采用的多分类对抗机制区别于传统GAN[19]的二分类对抗,其更符合图像融合任务的多源信息拟合需求. 与当前基于GAN的图像域对抗融合方法[16]也不同,所提方法首次将生成对抗机制引入特征空间,对技术路线中的“特征融合”环节更具针对性. 更重要的是所提方法摆脱了当前几乎所有的基于GAN的融合方法都需要的距离(内容)损失,仅在GAN分类决策所捕获的模态概率分布(如对比度、纹理等模态属性)之间构建损失,有效地避免了有益信息的削弱,从而实现显著热目标和丰富纹理结构的自适应保留.

    所提方法有两大优势:1)相较于现存端到端的融合方法,本文方法没有使用融合图像与源图像绝对分布之间的距离作为损失函数,而是在分类决策捕获的模态概率分布之间建立对抗损失,从而避免有益信息被削弱. 2)相较于现存非端到端的融合方法,所提方法将中间特征融合策略可学习化,能够根据输入图像自适应地调整融合规则,较好地保留了源图像中的显著对比度和丰富纹理细节. 这种智能融合策略可以避免传统融合策略造成的亮度中和或饱和以及信息丢失等问题. 为了直观展示所提方法的优势,选取了代表性的端到端融合方法U2Fusion[15]和非端到端融合方法DenseFuse[18]来对比显示,其中DenseFuse按照原始论文建议选取了性能相对较好的Addition策略,融合结果的差异如图3所示. 可以看出,U2Fusion的融合结果中出现了典型的亮度中和现象,目标建筑物的亮度没有被保持,纹理结构也很不自然. DenseFuse使用Addition融合策略,虽然能较好地维持纹理结构的显著性,但目标建筑物的亮度依旧被削弱. 相比之下,本文方法能显著地改善这些问题,融合结果不但准确地保持了目标建筑物的亮度,而且包含丰富的纹理细节. 这得益于所提方法中特征融合网络的优异性能,其能自适应地保留红外与可见光的模态特性.

    图  3  融合性能对比
    Figure  3.  Comparison of fusion performance

    本文的主要贡献有3个方面:1)提出了一个新的红外与可见光图像融合网络,其利用多分类对抗机制将传统融合策略扩展为可学习,具有更好的融合性能. 2)所提模型将现存方法中融合图像与源图像绝对分布之间的距离损失扩展为模态概率分布之间的对抗损失,有效避免了现存融合方法中有益信息被削弱的问题. 3)本文方法具有良好的泛化性,可以推广到任意红外与可见光图像融合数据集.

    本节回顾和所提方法最相关的技术和工作,包括基于深度学习的融合方法及GAN.

    近几十年,基于深度学习的融合方法凭借神经网络强大的特征提取和图像重建能力,获得了远超传统方法的性能[20]. 现存的基于深度学习的图像融合方法可以分为端到端融合方法以及非端到端融合方法.

    端到端融合方法通常直接使用一个整体网络将输入的红外和可见光图像进行融合. 换句话说,融合的各个阶段如特征提取、特征融合以及图像重建都是隐式的. 端到端融合方法可根据所采取的架构分为基于卷积神经网络的融合方法[21-22]和基于GAN的融合方法[23-25]. 这些方法的共性在于依赖融合图像与源图像绝对分布之间的距离损失. 例如,PMGI[14]在融合图像和2幅源图像间建立强度和梯度距离损失,并通过调节损失项的权重系数来调整信息融合过程中的保留比例,从而控制融合结果绝对分布的倾向性. U2Fusion[15]则在融合图像和2幅源图像间建立强度和结构相似度损失[26],并通过度量特征图的信息质量来自适应地调整损失项系数,从而引导融合图像保留有效信息. 不幸的是,这种融合图像与2幅源图像绝对分布之间的距离损失会建立一个博弈,导致最终融合图像是2幅源图像原始属性(如像素强度、梯度)的折中,不可避免地造成有益信息被削弱. 除此以外,武汉大学的Ma等人[16]将GAN架构引入到图像融合领域并提出了引起广泛关注的FusionGAN,其中网络的优化不仅依赖图像绝对分布之间的距离损失,还依赖模态概率分布之间的对抗损失. 随后,文献[16]的作者引入双鉴别器来平衡红外与可见光信息以进一步提升融合性能[17],但是网络优化仍离不开图像绝对分布之间的内容损失,这意味有益信息的丢失问题仍然存在.

    非端到端融合方法主要是基于自编码架构[27],其特征提取、特征融合以及图像重建3个阶段都是非常明确的,由不同的网络或模块来实现. 现存非端到端图像融合方法的融合质量一直受融合策略的性能制约. 具体来说,现存的基于自编码结构的融合方法采用的融合规则都是手工制作的,且不可学习. 例如,DenseFuse[18]采用Addition策略和l1-norm策略;SEDRFuse[28]采用最大值策略. 这些策略不能根据输入图像自适应地调整,可能会造成亮度中和或过饱和、信息丢失等问题,因此,研究可学习的融合规则非常有意义.

    原始GAN由Goodfellow等人[19]于2014年提出,其由一个生成器和一个鉴别器组成. 生成器是目标网络,致力于生成符合目标分布的伪数据;鉴别器是一个分类器,其负责准确分辨出真实数据和生成器伪造的假数据. 因此,生成器和鉴别器之间是敌对关系. 也就是说,生成器希望生成鉴别器无法区分的伪数据,而鉴别器则希望能准确鉴别出伪数据. 生成器和鉴别器不断迭代地优化,直到鉴别器无法区分是真实数据还是由生成器产生的伪数据. 此时,生成器便具备生成符合目标分布数据的能力. 下面,我们形式化上述对抗学习过程.

    假设生成器被表示为G,鉴别器被表示为D,输入到生成器的随机数据为Z={z1,z2,,zn}Pz,目标数据为X={x1,x2,,,xn}PX. 那么,生成器致力于估计目标数据X的分布PX,并尽可能生成符合该分布的数据G(Z),而鉴别器D需要对真实数据X和生成的伪数据G(Z)进行准确区分. 总而言之,GAN的目的就是在不断地对抗训练中使得伪数据的分布PG不断逼近目标数据分布PX. 因此,GAN的目标函数被定义为

    min (1)

    随着研究的深入,研究者发现使用交叉熵损失的原始GAN在训练过程中非常不稳定,且生成结果质量不高. 最小二乘GAN[29]的提出改善了这一现象,其使用最小二乘损失作为损失函数,引入标签来引导生成器和鉴别器的优化. 最小二乘GAN的目标函数被定义为

    \begin{split} &\min\limits _{D} {V}_{\mathrm{L}\mathrm{S}\mathrm{G}\mathrm{A}\mathrm{N}}\left(D\right)=\frac{1}{2}{E}_{{x}_{i}\sim{P}_{X}}\left[D\left({x}_{i}\right)-{r}^{2}\right] +\\ &\frac{1}{2}{E}_{{z}_{i}\sim{P}_{Z}}\left[D\left(G\left({z}_{i}\right)\right)-{s}^{2}\right], \end{split} (2)
    \begin{aligned}\min\limits _{G} {V}_{\mathrm{L}\mathrm{S}\mathrm{G}\mathrm{A}\mathrm{N}}\left(G\right)=\frac{1}{2}{E}_{{z}_{i}\sim{P}_{Z}}\left[D\left(G\left({z}_{i}\right)\right)-{t}^{2}\right],\end{aligned} (3)

    其中r, s, t是对应的概率标签. 具体来说,r是鉴别器判定目标数据集合X中数据 {x}_{i} 对应的标签,设定r = 1;s是鉴别器判定由生成器构造的伪数据G {z}_{i} )对应的标签,设定s = 0;t是生成器希望鉴别器判定伪数据G {z}_{i} )对应的标签,设定t = 1.

    本节详细描述提出的基于特征空间多分类对抗机制的红外与可见光图像融合网络. 首先,我们给出问题建模,然后介绍网络详细结构,最后提供损失函数的具体设计.

    从定义上来说,图像融合是从源图像中提取最有意义的特征,将它们融合并重建包含更丰富信息的单幅图像. 因此,图像融合的整个过程可以分为3个阶段:特征提取、特征融合以及图像重建. 基于上述思想,本文提出一个基于特征空间多分类对抗机制的红外与可见光图像融合网络,其总体框架如图4所示.

    图  4  本文方法的总体框架图
    Figure  4.  Overall framework of the proposed method

    首先,鉴于自编码器网络的“低维—高维—低维”映射理念非常契合特征提取和图像重建这2个环节,所提方法提出一个引入注意力机制的自编码器网络来实现特征提取和图像重建. 其中,编码器网络 {E}_{\mathrm{I}} 中的空间注意力机制能使得低维向高维映射时更关注那些包含重要信息的区域,如包含丰富纹理或显著热目标的区域;而译码器网络 {D}_{\mathrm{I}} 中的通道注意力机制则使得高维向低维映射时更关注对重建图像更有利的通道特征,如高频特征通道和包含显著目标的低频特征通道. 除此以外,译码器网络 {D}_{\mathrm{I}} 还引入了多尺度卷积来加强对细微空间纹理的保留.

    其次,使用训练好的编码器网络 {E}_{\mathrm{I}} 从红外和可见光图像中提取特征,并设计一个特征融合网络F来融合这些特征,这种可学习的特征融合策略比现存方法所使用的传统融合策略具有更强的性能. 具体来说,所提的特征融合网络F被当作生成器,然后结合使用1个多分类鉴别器MD,二者构成特征空间上的生成式对抗网络. 特征融合网络F致力于同时估计红外与可见光2种模态特征概率分布,以生成同时符合这2种模态概率分布的融合特征;而多分类鉴别器MD则致力于准确区分可见光特征、红外特征以及特征融合网络生成的融合特征. 经过持续的对抗学习,直到多分类鉴别器认为融合特征既是红外特征又是可见光特征,此时该融合特征便具备了红外和可见光2种模态中最显著的特性. 值得注意的是,所提模型中生成式对抗网络的优化仅依赖于模态概率分布之间的对抗损失,不依赖绝对分布之间的距离损失,这极大地避免了现存方法中存在的有益信息被削弱问题. 最终,将特征融合网络F生成的融合特征经训练好的译码器网络 {D}_{\mathrm{I}} 译码得到高质量的融合图像 {\boldsymbol{I}}_{\mathrm{f}\mathrm{u}\mathrm{s}\mathrm{e}\mathrm{d}} . 整个融合过程可以被形式化为

    \begin{array}{c}{\boldsymbol{I}}_{\mathrm{f}\mathrm{u}\mathrm{s}\mathrm{e}\mathrm{d}}={D}_{\mathrm{I}}\left(F\left({E}_{\mathrm{I}}\left({\boldsymbol{I}}_{\mathrm{i}\mathrm{r}}\right),{E}_{\mathrm{I}}\left({\boldsymbol{I}}_{\mathrm{v}\mathrm{i}\mathrm{s}}\right)\right)\right),\end{array} (4)

    其中{\boldsymbol{I}}_{{\rm{ir}} }{\boldsymbol{I}}_{{\rm{vis}}}分别表示红外图像和可见光图像; {E}_{\mathrm{I}} (·)表示编码器网络对应的功能函数,F(·) 表示特征融合网络对应的功能函数, {D}_{\mathrm{I}}(·) 表示译码器网络对应的功能函数.

    本文所提红外与可见光图像融合网络包括2部分:负责特征提取和图像重建的自编码器网络;负责融合规则学习的GAN.

    自编码器网络是一种经典的自监督网络,其以重建输入数据为导向,先利用编码器网络将图像映射到高维特征空间,再利用译码器网络将高维特征重新映射为图像. 因为译码器网络重建图像的质量依赖于中间高维特征的质量,所以编码器网络必须能提取具有高表达能力的特征,而译码器网络必须具备从中间特征准确重建出源图像的能力. 本文提出了一种新的自编码器网络来实现融合过程中的特征提取和图像重建,如图5(a)所示.

    图  5  用于特征提取和图像重建的自编码器网络结构图
    Figure  5.  Structures of the autoencoder network for feature extraction and image reconstruction

    编码器网络 {E}_{\mathrm{I}} 使用10个卷积层从源图像中提取特征,其中卷积核尺寸均为 \text{3×3} ,激活函数均为lrelu (leaky relu). 在第5和第9层后,使用空间注意力模块对所提特征沿空间位置加权,以增强特征中重要的空间区域(如显著目标、结构纹理). 空间注意力模块[30]的网络结构如图5(b)所示,可以看到,空间注意力模块先使用最大池化和平均池化对固定空间位置不同通道的信息进行聚合,然后使用1个卷积层处理串接的聚合特征,以生成与原始特征空间尺寸相同的注意力谱. 该注意力谱本质上是一系列学习到的权重,对输入特征沿着空间维度进行选择性加权,从而实现感兴趣区域特征的增强. 在编码器中使用空间注意力模块可以有效满足对感兴趣特征的提取偏好,提升编码特征的表达能力. 此外,编码器还将密集连接[31]和残差连接[32]相结合,其一方面把浅层特征不断跳跃连接到深层网络以增强后续特征表达能力和增加特征利用率,另一方面残差连接也避免了特征提取过程出现的梯度消失和爆炸问题.

    在译码器网络 {D}_{\mathrm{I}} 中,先使用2个结合通道注意力模块的多尺度卷积层处理由编码器网络 {E}_{\mathrm{I}} 提取的中间特征. 在每个多尺度卷积层,3个具有不同尺寸卷积核的卷积层并行处理输入特征,其卷积核尺寸分别为 \text{7×7} , \text{5×5} , \text{3×3} ,激活函数均为lrelu. 通道注意力模块[30]的网络结构如图5(c)所示,其先使用最大池化和平均池化对固定通道不同空间位置的特征进行聚合,然后在2个分支中分别使用2个卷积层对聚合特征进行处理,最后将2个分支的处理结果求和得到最终的注意力谱. 该注意力谱是一个长度与输入特征通道数相同的向量,表示将为输入特征每个通道分发的权重. 在自监督重建的优化导向下,译码器将自适应地关注对重建更重要的特征通道,从而提升重建精度. 最后,使用3个卷积核尺寸为 \text{3×3} 的卷积层来重建源图像. 其中,除了最后一层,其他卷积层均使用lrelu作为激活函数,最后一层使用tanh作为激活函数. 在上述特定设计下,所提自编码网络具有强大的特征提取和图像重建能力.

    本文设计了一种新颖的特征融合规则构建方式,其利用GAN将融合策略可学习化,从而获得更好的融合性能,如图6所示.

    图  6  用于融合规则学习的生成式对抗网络结构图
    Figure  6.  Structures of generative adversarial network for fusion rule learning

    首先,特征融合网络F在对抗架构中扮演生成器的角色,其将训练好的编码器网络 {E}_{\mathrm{I}} 提取的红外特征 {\boldsymbol{F}\boldsymbol{e}\boldsymbol{a}}_{\mathrm{i}\mathrm{r}} 和可见光特征 {\boldsymbol{F}\boldsymbol{e}\boldsymbol{a}}_{\mathrm{v}\mathrm{i}\mathrm{s}} 进行融合,生成融合特征 {\boldsymbol{F}\boldsymbol{e}\boldsymbol{a}}_{\mathrm{f}\mathrm{u}\mathrm{s}\mathrm{e}\mathrm{d}} . 在特征融合网络F中,先使用3个卷积核尺寸为3×3、激活函数为lrelu的卷积层来处理输入的红外特征与可见光特征. 然后,采用3个分支来分别预测融合权重 {\omega }_{\mathrm{i}\mathrm{r}} , {\omega }_{\mathrm{v}\mathrm{i}\mathrm{s}} 以及偏差项 \varepsilon . 每个分支包含2个卷积层,其卷积尺寸均为3×3. 在融合权重预测分支,2个卷积层分别使用lrelusigmoid作为激活函数;在偏差预测分支,2个卷积层的激活函数均为lrelu. 融合特征可以被表示为

    \begin{split} &{\boldsymbol{F}\boldsymbol{e}\boldsymbol{a}}_{\mathrm{f}\mathrm{u}\mathrm{s}\mathrm{e}\mathrm{d}}=F\left({\boldsymbol{F}\boldsymbol{e}\boldsymbol{a}}_{\mathrm{i}\mathrm{r}},{\boldsymbol{F}\boldsymbol{e}\boldsymbol{a}}_{\mathrm{v}\mathrm{i}\mathrm{s}}\right)=\\ &{\omega }_{\mathrm{i}\mathrm{r}}·{\boldsymbol{F}\boldsymbol{e}\boldsymbol{a}}_{\mathrm{i}\mathrm{r}}+{\omega }_{\mathrm{v}\mathrm{i}\mathrm{s}}·{\boldsymbol{F}\boldsymbol{e}\boldsymbol{a}}_{\mathrm{v}\mathrm{i}\mathrm{s}}+\varepsilon . \end{split} (5)

    其次,使用1个多分类鉴别器MD来区分红外特征 {\boldsymbol{F}\boldsymbol{e}\boldsymbol{a}}_{\mathrm{i}\mathrm{r}} 、可见光特征 {\boldsymbol{F}\boldsymbol{e}\boldsymbol{a}}_{\mathrm{v}\mathrm{i}\mathrm{s}} 以及特征融合网络 F 合成的融合特征 {\boldsymbol{F}\boldsymbol{e}\boldsymbol{a}}_{\mathrm{f}\mathrm{u}\mathrm{s}\mathrm{e}\mathrm{d}} . 在多分类鉴别器MD中,先使用4个卷积层来处理输入特征,它们的卷积核尺寸均为3×3,激活函数均为lrelu. 然后,处理后的特征被重塑为1个1维向量,并使用1个线性层来输出1个1×2的预测向量,分别表示输入特征为红外特征的概率Pir,以及输入特征为可见光特征的概率Pvis. 特征融合网络 F 和多分类鉴别器MD连续地对抗学习,直到多分类鉴别器MD认为生成器产生的融合特征既是红外特征又是可见光特征,此时特征融合网络 F 便学会合理的融合规则.

    本文的损失函数包括2部分:自编码器网络损失函数和生成式对抗网络损失函数.

    自编码器网络先利用编码器网络 {E}_{\mathrm{I}} 将低维图像映射为高维特征,再利用译码器网络 {D}_{\mathrm{I}} 重新将高维特征映射为低维图像. 也就是说,自编码器网络致力于重建输入图像. 所提方法在强度域和梯度域构建重建图像与输入图像的一致性损失:

    \begin{array}{c}{\mathcal{L}}_{\mathrm{A}\mathrm{E}}={\mathcal{L}}_{\mathrm{i}\mathrm{n}\mathrm{t}}+\beta {\mathcal{L}}_{\mathrm{g}\mathrm{r}\mathrm{a}\mathrm{d}},\end{array} (6)

    其中 {\mathcal{L}}_{\mathrm{A}\mathrm{E}} 是自编码器网络的总损失, {\mathcal{L}}_{\mathrm{i}\mathrm{n}\mathrm{t}} 是强度损失, {\mathcal{L}}_{\mathrm{g}\mathrm{r}\mathrm{a}\mathrm{d}} 是梯度损失, \beta 是平衡强度损失项和梯度损失项的参数. 值得注意的是,自编码器网络的训练同时在红外图像与可见光图像上进行,即红外图像和可见光图像共享编码器网络 {E}_{\mathrm{I}} 和译码器网络 {D}_{\mathrm{I}} 的权重,因此对应的强度损失和梯度损失被定义为:

    \begin{array}{c}{\mathcal{L}}_{\mathrm{i}\mathrm{n}\mathrm{t}}=\left|{\boldsymbol{I}}_{\mathrm{i}\mathrm{r}}^{\mathrm{r}\mathrm{e}}-{\boldsymbol{I}}_{\mathrm{i}\mathrm{r}}\right|+\left|{\boldsymbol{I}}_{\mathrm{v}\mathrm{i}\mathrm{s}}^{\mathrm{r}\mathrm{e}}-{\boldsymbol{I}}_{\mathrm{v}\mathrm{i}\mathrm{s}}\right|,\end{array} (7)
    \begin{array}{c}{\mathcal{L}}_{\mathrm{g}\mathrm{r}\mathrm{a}\mathrm{d}}=\left|{\nabla \boldsymbol{I}}_{\mathrm{i}\mathrm{r}}^{\mathrm{r}\mathrm{e}}-{\nabla \boldsymbol{I}}_{\mathrm{i}\mathrm{r}}\right|+\left|{\nabla \boldsymbol{I}}_{\mathrm{v}\mathrm{i}\mathrm{s}}^{\mathrm{r}\mathrm{e}}-\nabla {\boldsymbol{I}}_{\mathrm{v}\mathrm{i}\mathrm{s}}\right|,\end{array} (8)

    其中IirIvis是输入源红外和可见光图像, {\boldsymbol{I}}_{\mathrm{i}\mathrm{r}}^{\mathrm{r}\mathrm{e}} {\boldsymbol{I}}_{\mathrm{v}\mathrm{i}\mathrm{s}}^{\mathrm{r}\mathrm{e}} 是自编码网络重建的红外和可见光图像,其可以表示为 {\boldsymbol{I}}_{(·)}^{\mathrm{r}\mathrm{e}}={D}_{\mathrm{I}}\left({E}_{\mathrm{I}}\right({\boldsymbol{I}}_{\left(·\right)}\left)\right) . 此外,|·| \ell_1范数,\nabla是Sobel梯度算子,其从水平和竖直2个方向来计算图像的梯度. 在上述损失的约束下,编码器网络 {E}_{\mathrm{I}} 能较好地从源图像中提取特征,译码器网络 {D}_{\mathrm{I}} 则能从编码特征中准确地重建源图像.

    生成式对抗网络通过连续地对抗学习构建高性能融合规则,其网络优化仅依赖于模态概率分布之间的对抗损失,不依赖融合图像与源图像绝对分布之间的距离损失,极大地避免了有益信息被削弱.

    对于特征融合网络F,其目的是产生可以骗过多分类鉴别器MD的融合特征 {\boldsymbol{F}\boldsymbol{e}\boldsymbol{a}}_{\mathrm{f}\mathrm{u}\mathrm{s}\mathrm{e}\mathrm{d}} ,即让MD认为所生成的融合特征 {\boldsymbol{F}\boldsymbol{e}\boldsymbol{a}}_{\mathrm{f}\mathrm{u}\mathrm{s}\mathrm{e}\mathrm{d}} 既是红外特征 {\boldsymbol{F}\boldsymbol{e}\boldsymbol{a}}_{\mathrm{i}\mathrm{r}} 又是可见光特征 {\boldsymbol{F}\boldsymbol{e}\boldsymbol{a}}_{\mathrm{v}\mathrm{i}\mathrm{s}} . 因此,特征融合网络F的损失 {\mathcal{L}}_{{F}}

    \begin{array}{c}{\mathcal{L}}_{{F}}={\left(MD\left({\boldsymbol{F}\boldsymbol{e}\boldsymbol{a}}_{\mathrm{f}\mathrm{u}\mathrm{s}\mathrm{e}\mathrm{d}}\right)\left[1\right]-a\right)}^{2}+ {\left(MD\left({\boldsymbol{F}\boldsymbol{e}\boldsymbol{a}}_{\mathrm{f}\mathrm{u}\mathrm{s}\mathrm{e}\mathrm{d}}\right)\left[2\right]-a\right)}^{2},\end{array} (9)

    其中MD(·) 表示多分类鉴别器的函数,其输出是1个1×2的概率向量. MD\left({\boldsymbol{F}\boldsymbol{e}\boldsymbol{a}}_{\mathrm{f}\mathrm{u}\mathrm{s}\mathrm{e}\mathrm{d}}\right) [1]指的是该向量的第1项,表示多分类鉴别器判定输入特征是红外特征的概率Pir MD\left({\boldsymbol{F}\boldsymbol{e}\boldsymbol{a}}_{\mathrm{f}\mathrm{u}\mathrm{s}\mathrm{e}\mathrm{d}}\right) [2]指的是该向量的第2项,表示多分类鉴别器判定输入特征是可见光特征的概率Pvis. a 是概率标签,设定a = 0.5,即特征融合网络希望通过自身的优化使得多分类鉴别器无法区分融合特征是红外特征还是可见光特征.

    与特征融合网络F成敌对关系,多分类鉴别器MD希望能准确判断输入特征是红外特征、可见光特征还是由特征融合网络F产生的融合特征. 因此,多分类鉴别器损失 {\mathcal{L}}_{MD} 包括3部分:判定红外特征的损失 {\mathcal{L}}_{{MD}_{\mathrm{i}\mathrm{r}}} 、判定可见光特征的损失 {\mathcal{L}}_{{MD}_{\mathrm{v}\mathrm{i}\mathrm{s}}} 以及判定融合特征的损失 {\mathcal{L}}_{{MD}_{\mathrm{f}\mathrm{u}\mathrm{s}\mathrm{e}\mathrm{d}}} ,即

    \begin{array}{c}{\mathcal{L}}_{MD}={\alpha }_{1}{\mathcal{L}}_{{MD}_{\mathrm{i}\mathrm{r}}}+{\alpha }_{2}{\mathcal{L}}_{{MD}_{\mathrm{v}\mathrm{i}\mathrm{s}}}+{\alpha }_{3}{\mathcal{L}}_{{MD}_{\mathrm{f}\mathrm{u}\mathrm{s}\mathrm{e}\mathrm{d}}},\end{array} (10)

    其中, {\alpha }_{1} , {\alpha }_{2} , {\alpha }_{3} 是平衡这些损失项的参数.

    当输入特征为红外特征 {\boldsymbol{F}\boldsymbol{e}\boldsymbol{a}}_{\mathrm{i}\mathrm{r}} ,多分类鉴别器判定的Pir应趋于1,Pvis应趋于0. 对应的损失函数 {\mathcal{L}}_{{MD}_{\mathrm{i}\mathrm{r}}} 被定义为

    \begin{split} {\mathcal{L}}_{{MD}_{\mathrm{i}\mathrm{r}}}= &{\left(MD\left({\boldsymbol{F}\boldsymbol{e}\boldsymbol{a}}_{\mathrm{i}\mathrm{r}}\right)\left[1\right]-{b}_{1}\right)}^{2} +\\ &{\left(MD\left({\boldsymbol{F}\boldsymbol{e}\boldsymbol{a}}_{\mathrm{i}\mathrm{r}}\right)\left[2\right]-{b}_{2}\right)}^{2}, \end{split} (11)

    其中 {b}_{1} {b}_{2} 是红外特征对应的概率标签,设定 {b}_{1} = 1, {b}_{2} = 0,即多分类鉴别器应该准确识别出输入特征是红外特征而不是可见光特征.

    类似地,当输入特征为可见光特征 {\boldsymbol{F}\boldsymbol{e}\boldsymbol{a}}_{\mathrm{v}\mathrm{i}\mathrm{s}} ,对应的损失函数 {\mathcal{L}}_{{MD}_{\mathrm{v}\mathrm{i}\mathrm{s}}} 被定义为

    \begin{split} {\mathcal{L}}_{{MD}_{\mathrm{v}\mathrm{i}\mathrm{s}}}=&{\left(MD\left({\boldsymbol{F}\boldsymbol{e}\boldsymbol{a}}_{\mathrm{v}\mathrm{i}\mathrm{s}}\right)\left[1\right]-{c}_{1}\right)}^{2} +\\ &{\left(MD\left({\boldsymbol{F}\boldsymbol{e}\boldsymbol{a}}_{\mathrm{v}\mathrm{i}\mathrm{s}}\right)\left[2\right]-{c}_{2}\right)}^{2}, \end{split} (12)

    其中 {c}_{1} {c}_{2} 是可见光特征对应的概率标签,设定 {c}_{1} = 0, {c}_{2} = 1,即多分类鉴别器应该准确识别出输入特征是可见光特征而不是红外特征.

    当输入特征为融合特征 {\boldsymbol{F}\boldsymbol{e}\boldsymbol{a}}_{\mathrm{f}\mathrm{u}\mathrm{s}\mathrm{e}\mathrm{d}} ,多分类鉴别器输出的PirPvis都应趋于0. 对应的损失函数 {\mathcal{L}}_{{MD}_{\mathrm{f}\mathrm{u}\mathrm{s}\mathrm{e}\mathrm{d}}} 被定义为

    \begin{split} {\mathcal{L}}_{{MD}_{\mathrm{f}\mathrm{u}\mathrm{s}\mathrm{e}\mathrm{d}}}=&{\left(MD\left({\boldsymbol{F}\boldsymbol{e}\boldsymbol{a}}_{\mathrm{f}\mathrm{u}\mathrm{s}\mathrm{e}\mathrm{d}}\right)\left[1\right]-{d}_{1}\right)}^{2} +\\ &{\left(MD\left({\boldsymbol{F}\boldsymbol{e}\boldsymbol{a}}_{\mathrm{f}\mathrm{u}\mathrm{s}\mathrm{e}\mathrm{d}}\right)\left[2\right]-{d}_{2}\right)}^{2}, \end{split} (13)

    其中 {d}_{1} {d}_{2} 是融合特征对应的概率标签, {d}_{1} {d}_{2} 都被设为0,即MD应能准确识别出输入特征既不是红外特征也不是可见光特征.

    本节将在公开数据集上评估所提方法. 5个最先进的红外与可见光图像融合方法被挑选作为对比,包括GTF[12], MDLatLRR[33], DenseFuse[18], FusionGAN[16], U2Fusion[15]. 值得注意的是,在后续实验中,DenseFuse使用推荐的性能更好的Addition策略. 首先,提供实验配置,如实验数据、训练细节以及评估指标. 其次,从定性和定量2方面实施对比实验. 本节还提供泛化性实验、效率对比及消融实验来验证所提方法的有效性.

    本文选用TNO数据集[34]和MFNet数据集[35]作为对比实验的数据,TNO数据集和MFNet数据集用于测试的图像对数量分别为20和200, 用于训练的数据分别为裁剪得到的45910对和96200对80×80的图像块. 此外,选用RoadScene[36]数据集作为泛化性实验的数据,用于测试的图像对数量为20. 以上3个数据集中的图像对都已被严格配准[37].

    首先训练自编码器网络. 在自编码器网络的训练过程中,批大小被设置为s1,训练1期需要m1步,一共训练M1期. 在实验中,设置为s1 = 48,M1 = 100,m1是训练图像块总数量和批大小s1的比率. 自编码器网络训练好后冻结其参数,然后在训练好的编码器网络提取的特征空间中训练GAN. 在GAN的训练过程中,批大小被设置为s2,训练1期需要m2步,一共训练M2期. 在实验中,设置s2 = 48,M1 = 20,m2是训练图像块总数量和批大小s2的比率. 无论是自编码器网络还是GAN,都采用Adam优化器来更新参数. 在整个训练结束后,将编码器网络、特征融合网络以及译码器网络级联组成完整的图像融合网络. 值得注意的是,因为该图像融合网络是一个全卷积神经网络,输入可以是任意尺寸源图像对,即测试时不需要像训练那样对源图像进行裁剪. 此外,根据经验,设定式(6)中的参数β = 10,式(10)中的参数α1 = 0.25, α2 = 0.25, α3 = 0.5. 所有的实验均在GPU NVIDIA RTX 2080Ti及CPU Intel i7-8750H上实施.

    本文从定性和定量2个方面评估各方法的性能. 定性评估是一种主观评估方式,其依赖于人的视觉感受,好的融合结果应同时包含红外图像的显著对比度和可见光图像的丰富纹理. 定量评估则通过一些统计指标来客观评估融合性能,本文选用了7个在图像融合领域被广泛使用的定量指标,如视觉信息保真度[38](visual information fidelity, VIF)、信息熵[39](entropy, EN)、差异相关和[40](the sum of the correlations of differences, SCD)、互信息[41](mutual information, MI)、质量指标[42](quality index, {{Q}}^{\boldsymbol{A}\boldsymbol{B}/\boldsymbol{F}} )、标准差[43](standard deviation, SD)及空间频率[44](spatial frequency, SF). VIF测量融合图像保真度,大的VIF值表示融合图像保真度高;EN测量融合图像的信息量,EN值越大,融合图像包含的信息越多;SCD测量融合图像包含的信息与源图像的相关性,SCD越大意味着融合过程引入的伪信息越少;MI衡量融合图像中包含来自源图像的信息量,MI越大意味着融合图像包含来自源图像的信息越多; {{Q}}^{\boldsymbol{A}\boldsymbol{B}/\boldsymbol{F}} 衡量融合过程中边缘信息的保持情况, {{Q}}^{\boldsymbol{A}\boldsymbol{B}/\boldsymbol{F}} 越大,边缘被保持得越好;SD是对融合图像对比度的反映,大的SD值表示良好的对比度;SF测量融合图像整体细节丰富度,SF越大,融合图像包含的纹理越丰富.

    首先,在TNO数据集上进行定性对比. 5组典型的结果被挑选来定性地展示各方法的性能,如图7所示. 可以看出,本文所提方法有2方面的优势:一方面,本文方法能非常精确地保留红外图像中的显著目标,它们的热辐射强度几乎没有损失,且边缘锐利;另一方面,所提方法也能很好地保留可见光图像中的纹理细节.

    图  7  TNO数据集上对比实验的定性结果
    Figure  7.  Qualitative results of the comparative experiment on TNO dataset

    从融合结果的倾向性可以把对比方法分为2类:第1类是融合结果倾向于可见光图像的方法,如MDLatLRR, DenseFuse, U2Fusion. 从图7中可以看到,这一类方法的融合结果虽然包含丰富的纹理细节,但其对比度较差,热辐射目标被削弱. 例如,在第1组结果中,MDLatLRR, DenseFuse, U2Fusion对树木纹理保留得较好,但却削弱了目标建筑物的亮度. 类似的还有第2组中的水面、第3组和第4组中的人以及第4组中的坦克. 第2类是融合结果倾向于红外图像的方法,如GTF和FusionGAN. 这一类方法能较好地保留热目标,但纹理细节不够丰富,它们的结果看起来很像是锐化的红外图像. 如在图7中的第1组结果中,GTF和FusionGAN较好地保留了目标建筑物的显著性,但周边树木的纹理结构却不够丰富. 类似地还有第2组中的灌木、第3组中的路灯以及第4组中的树叶. 本文所提方法综合了这2类方法的优势. 具体来说,所提方法既能像第1类方法那样保持场景中的纹理细节,又能像第2类方法那样准确保持热辐射目标. 值得注意的是所提方法对热目标边缘保持得比第2类方法更锐利. 总的来说,本文方法在定性对比上优于这些最新方法.

    进一步,在20幅测试图像上的定量对比结果如表1所示. 可以看出,本文所提方法在EN, SCD, MI, {{Q}}^{\boldsymbol{A}\boldsymbol{B}/\boldsymbol{F}} , SD, SF这6个指标上都取得最高平均值;在VIF上,本文方法排行第2,仅次于方法U2Fusion. 这些结果说明:本文方法在融合过程中从源图像传输到融合图像的信息最多、引入的伪信息最少、能最好地保持边缘. 生成的融合结果包含的信息量最大、有最好的对比度、具有最丰富的整体纹理结构. 总的来说,本文方法相较于这些对比方法在定量指标上也是有优势的.

    表  1  TNO数据集上对比实验的定量结果
    Table  1.  Quantitative Results of the Comparative Experiment on TNO Dataset
    融合方法VIFENSCDMI{ \boldsymbol{Q} }^{\boldsymbol{A}\boldsymbol{B}/\boldsymbol{F} }SDSF
    GTF0.350±0.0526.753±0.3960.985±0.1651.200±0.4400.423±0.10035.157±11.40510.315±5.268
    MDLatLRR0.346±0.0516.438±0.4081.663±0.1351.037±0.2250.435±0.07726.148±6.2427.930±3.587
    DenseFuse0.386±0.0916.836±0.2731.835±0.1281.114±0.2690.440±0.10335.144±8.8919.296±3.806
    FusionGAN0.231±0.0466.450±0.3231.512±0.2281.099±0.2070.210±0.05527.683±6.0526.075±2.051
    U2Fusion0.423±0.1066.923±0.2511.808±0.0940.906±0.1970.430±0.06834.446±7.65911.928±4.681
    本文方法0.414±0.1037.183±0.2831.936±0.0601.240±0.2750.446±0.11048.605±8.67113.203±4.792
    注:↑表示值越高越好,加粗表示最优结果,加下划线表示次优结果.
    下载: 导出CSV 
    | 显示表格

    在MFNet数据集上实施定性对比实验,同样提供5组代表性的结果来展示各种方法的性能,如图8所示. 可以看到,只有GTF, FusionGAN以及本文方法能较好地维护红外图像中热辐射目标的显著度,但相较于这2种方法,本文方法能更好地保持热目标边缘的锐利性,呈现良好的视觉效果. 例如,在第3, 4, 5组结果中,本文方法能较好地保持热目标行人的姿态,而GTF, FusionGAN均由于边缘扩散导致轮廓模糊. 相反,MDLatLRR, DenseFuse, U2Fusion太过于偏重于保留结构纹理,而忽视了热辐射目标保留,这导致一些场景中目标削弱或丢失. 例如,在第2组结果中,汽车旁边的微小行人在这些方法的结果中被丢失. 相较而言,本文方法能在热目标和结构纹理的保留上取得较好的平衡. 例如,第1组结果中,所提方法既维持了窗户的显著性,又保留了墙壁的纹理细节. 总体而言,本文方法在MFNet数据集的定性对比上比这些最新方法有优势.

    图  8  MFNet数据集上对比实验的定性结果
    Figure  8.  Qualitative results of the comparative experiment on MFNet dataset

    在MFNet数据集中的200幅测试图像上定量地对比这些最新方法以及本文所提方法,结果如表2所示. 本文方法在EN, SCD, MI, SD这4个指标上排行第1,在指标SF上排行第2,仅次于U2Fusion. 这些客观结果表明本文方法所得结果包含的信息量最丰富、引入的伪信息最少,与源图像的相关性最大,以及具有最好的对比度,这些定量结果和图8展示的视觉结果相符合. 总的来说,本文方法在MFNet数据集上的定量对比上比其他方法性能更好.

    表  2  MFNet数据集上对比实验的定量结果
    Table  2.  Quantitative Results of the Comparative Experiment on MFNet Dataset
    融合方法VIFENSCDMI{\boldsymbol {Q} }^{\boldsymbol{A}\boldsymbol{B}/\boldsymbol{F} }SDSF
    GTF0.311±0.0227.458±0.1971.027±0.1861.575±0.2300.399±0.05955.343±8.67110.501±1.866
    MDLatLRR0.327±0.0256.896±0.2251.306±0.2391.325±0.2330.461±0.03439.477±7.1819.016±0.986
    DenseFuse0.326±0.0307.131±0.2291.653±0.1491.398±0.2410.475±0.03848.696±8.16310.200±1.265
    FusionGAN0.178±0.0226.882±0.3000.609±0.5941.424±0.1860.234±0.04435.397±5.7657.299±1.288
    U2Fusion0.350±0.0357.253±0.1981.657±0.1151.266±0.2320.496±0.02850.794±8.58214.072±1.546
    本文方法0.319±0.0277.562±0.2051.731±0.0851.609±0.2460.422±0.03665.392±8.49410.749±1.242
    注:↑表示值越高越好,加粗表示最优结果,加下划线表示次优结果.
    下载: 导出CSV 
    | 显示表格

    本文所提方法能较好地迁移到其他数据集,也可以处理彩色可见光和红外图像融合. 为了评估本文方法的泛化性,实施了泛化性实验. 具体来说,使用RoadScene数据集中的图像测试在TNO数据集上训练得到的模型. 由于RoadScene数据集中的可见光图像是彩色图像,先将可见光图像从RGB转换到YCbCr色彩空间,然后融合Y通道与红外图像. 最后,将融合结果与Cb和Cr通道拼接在一起,并重新转换到RGB色彩空间得到最终的融合结果. 上述5种对比方法在泛化性实验中仍然被采用,且评估仍然从定性和定量2个方面来进行.

    5组代表性的定性结果被挑选来展示各方法的泛化能力,如图9所示. 可以看出,本文所提方法在RoadScene数据集上仍具有良好性能,且相较于对比方法在纹理保持和显著目标保留2个方面的优势仍十分明显. 首先,在显著目标保持上,本文所提方法表现最好,如第1组图像中的车辆、第2组和第4组中的骑行者,以及第3组和第5组中的行人. 相反,在MDLatLRR, DenseFuse, U2Fusion的融合结果中,这些显著目标被削弱. 虽然GTF和FusionGAN相对这些方法能更好地保留显著目标,但其在目标边缘保护上却不如所提方法. 其次,本文方法也能保证可见光图像中的纹理细节被很好地传输到融合图像中,如第1组和第4组结果中的云朵、第2组和第3组结果中的树木,以及第5组结果中的广告牌,而GTF和FusionGAN做不到这些. 因此,这些定性结果可以说明本文方法具有良好的泛化性,其能被迁移到RoadScene数据集,并得到高质量的融合图像.

    图  9  泛化实验的定性结果
    Figure  9.  Qualitative results of the generalization experiment

    定量实验被实施来进一步验证所提方法的泛化性能,结果如表3所示. 本文方法在EN, SCD, MI, SD这4个指标上取得了最好的结果,在SF上取得了第2好的结果. 对于VIF {{Q}}^{\boldsymbol{A}\boldsymbol{B}/\boldsymbol{F}} ,所提方法分别排行第4和第3. 总的来说,本文所提方法在RoadScene数据集上的定量结果最好,这进一步说明了所提方法优良的泛化性.

    表  3  泛化实验的定量结果
    Table  3.  Quantitative Results of the Generalization Experiment
    融合方法VIFENSCDMI{\boldsymbol {Q} }^{\boldsymbol{A}\boldsymbol{B}/\boldsymbol{F} }SDSF
    GTF0.303±0.0317.486±0.1901.047±0.1011.563±0.2410.340±0.04548.911±6.4878.247±1.342
    MDLatLRR0.320±0.0366.933±0.2981.257±0.3241.445±0.2860.506±0.05532.647±6.3369.287±2.158
    DenseFuse0.329±0.0487.283±0.2451.669±0.2181.503±0.2800.534±0.04243.337±6.86911.228±2.197
    FusionGAN0.204±0.0227.111±0.1581.057±0.3931.377±0.1720.280±0.03839.024±4.3548.203±1.024
    U2Fusion0.344±0.0527.249±0.2631.546±0.2361.293±0.2590.535±0.03740.279±7.03214.406±2.668
    本文方法0.316±0.0397.575±0.1851.726±0.1351.641±0.3030.506±0.03654.533±6.57711.774±2.274
    注:↑表示值越高越好,加粗表示最优结果,加下划线表示次优结果.
    下载: 导出CSV 
    | 显示表格

    运行效率是评估方法性能的重要依据之一,为此,统计各方法在TNO, MFNet, RoadScene数据集上的平均运行时间来比较运行效率,结果如表4所示. 本文所提方法在3个数据集上都取得了最快的平均运行速度,比对比方法快5倍以上.

    表  4  各方法在3个数据集上的平均运行时间
    Table  4.  Mean of Running Time of Each Method on Three Datasets s
    融合方法TNOMFNetRoadScene
    GTF5.3023.2591.644
    MDLatLRR35.56928.05215.188
    DenseFuse0.3580.2990.562
    FusionGAN0.3600.1960.403
    U2Fusion0.6130.2640.643
    本文方法0.0660.0380.029
    注:加粗表示最优结果.
    下载: 导出CSV 
    | 显示表格

    在所提方法中,最终实现红外与可见光图像融合的框架包括编码器网络、特征融合网络以及译码器网络. 为了验证它们的有效性,相应的消融实验被实施.

    特征融合网络的作用是将中间特征的融合策略可学习化,从而使得融合特征同时符合红外与可见光2种模态特征的概率分布. 相较于现存方法使用的传统特征融合策略,所提的特征融合网络具有更强的性能. 为了验证这一点,将本文提出的用于特征提取和特征重建的编码器网络和译码器网络固定,中间特征融合规则分别用Mean策略、Max策略、Addition策略、l1-norm策略及所提特征融合网络,实验结果如图10所示.

    图  10  特征融合网络的消融实验结果
    Figure  10.  Ablation experiment results of feature fusion network

    首先,由Mean策略、Max策略以及l1-norm策略得到的结果的对比度都非常差,不仅显著目标被削弱,场景纹理结构也不够自然. Addition策略虽然比这些策略的性能更好,但其无法自适应地选择性保留有益信息,以至于某些区域出现过度饱和或亮度中和的现象. 比如,在第1组结果中,由Addition策略得到的结果没有充分保留水面的亮度;在第2组结果中,建筑物的亮度又是过度饱和的. 相反,采用本文所提的特征融合网络可以自适应地保留红外与可见光源图像中的显著特征,其不仅具有显著的对比度,而且包含丰富的纹理细节. 这些结果可以说明所提特征融合网络的有效性.

    自编码器网络的作用是实现特征提取和图像重建,其性能对融合结果的质量影响很大. 为了验证本文设计的自编码器网络的优势,将其与经典的DenseFuse[13]进行对比. 具体地,我们控制融合规则保持相同(Addition策略以及l1-norm策略),使用本文提出的自编码器网络或DenseFuse中的自编码器网络来提取特征和重建图像,实验结果如图11所示.

    图  11  自编码器的消融实验结果
    Figure  11.  Ablation experiment results of autoencoder

    对于Addition策略,DenseFuse结果中的显著目标被严重削弱,而本文方法却可以很好地保持它们. 对于l1-norm策略,DenseFuse丢失了一些纹理结构,如云朵和椅子,而所提方法很好地保持了这些细节. 总的来说,本文设计的自编码器网络的性能比DenseFuse中的更强,其可以较好地实现特征提取和图像重建.

    综上所述,本文提出的基于特征空间多分类对抗机制的红外与可见光图像融合网络主要包括2个部分:1) 引入空间注意力机制,同时使用密集连接和残差连接来构建高性能编码器网络实现特征提取;引入通道注意力机制,同时使用多尺度卷积来构建高性能译码器网络实现图像重建. 2) 将融合策略网络化,引入多分类生成对抗机制使融合特征同时符合红外与可见光2种模态的概率分布,从而构建高性能的深度融合策略. 最终的红外与可见光图像融合网络由训练好的编码器、特征融合网络以及译码器级联而成,生成高质量的融合结果. 相较于现存方法,所提方法可解释性好,能根据输入图像自适应生成更合理的融合策略,从而在源图像中同时保留丰富的纹理细节和显著的对比度,有效避免融合过程中有益信息的削弱问题. 广泛的实验表明,所提方法与最新的融合方法GTF, MDLatLRR, DenseFuse, FusionGAN, U2Fusion相比,融合性能更好. 同时,本文方法的融合速度很快,较对比方法快5倍以上.

    作者贡献声明:张浩提出方法思路,设计及实施实验,分析结果并撰写论文;马佳义构思和设计研究方向,对论文提出建设性的意见,并对手稿进行修改;樊凡协助实施实验,并分析实验结果;黄珺对论文提出建设性的意见,并对稿件进行了修改;马泳完善方法理论,并对稿件进行了修改.

  • 图  1   NILFS2的用户文件和DAT文件映射案例[19]

    Figure  1.   The case of NILFS2 user file and DAT file mapping [19]

    图  2   NAT块和version bitmap[11]

    Figure  2.   NAT block and version bitmap[11]

    图  3   ASD系统元数据结构[16-17]

    Figure  3.   ASD system metadata structure [16-17]

    图  4   wandering B+ tree问题案例

    Figure  4.   Example of wandering B+ tree problem

    图  5   IBT B+ tree中间结点和叶子结点

    Figure  5.   The internal node and leaf node of IBT B+ tree

    图  6   插入操作(插入〈10, 11〉)

    Figure  6.   Insert operation (insert〈10, 11〉)

    图  7   删除操作(删除〈10, 11〉)

    Figure  7.   Remove operation (remove 〈10, 11〉)

    图  8   下刷IBT B+ tree的dirty结点

    Figure  8.   Flush dirty node of IBT B+ tree

    图  9   Monty-Dev系统整体架构

    Figure  9.   Architecture of Monty-Dev system

    图  10   Meta tree结构图

    Figure  10.   Structure diagram of Meta tree

    图  11   基于SSD的吞吐率、元数据下刷量对比

    Figure  11.   Comparison of throughput and the total amount of flushed metadata based on SSD

    图  12   基于HDD的吞吐率、元数据下刷量对比

    Figure  12.   Comparison of throughput and the total amount of flushed metadata based on HDD

    图  13   基于SSD的Filebench测试对比

    Figure  13.   Comparison of Filebench test based on SSD

    图  14   基于HDD的Filebench测试对比

    Figure  14.   Comparison of Filebench test based on HDD

    表  1   图5各字段的含义

    Table  1   The Meaning of the Fields in Fig.5

    字段含义
    blkid块设备的逻辑地址
    state孩子结点状态,dirty/clean
    index树结点逻辑索引
    pbid物理地址
    Header树结点的汇总信息
    下载: 导出CSV

    表  2   测试服务器硬件配置

    Table  2   The Hardware Configuration of Testing Server

    类别参数
    CPUIntel(R) Xeon(R) E5645@2.40GHz,2路,24线程
    内存Ramaxel DDR3,32GB,1333MHz
    磁盘Seagate Constellation ES ST1000NM0011,1TB,SATA
    SSDIntel SSD DC P3700 Series,400 GB,NVMe
    下载: 导出CSV

    表  3   测试服务器软件配置

    Table  3   The Software Configuration of Testing Server

    类别版本
    操作系统CentOS Linux 7.8.2003,内核3.10.0-957.12.2
    Fio3.1
    Filebench1.4.9.1
    下载: 导出CSV

    表  4   Fio配置参数

    Table  4   Fio Configuration Parameters

    参数类别参数取值
    设备大小/TB4
    iodepth512
    粒度/KB4
    enginelibaio
    读写randwrite
    数据量/GB200
    下载: 导出CSV

    表  5   基于SSD的Fio测试中2个版本元数据下刷总量

    Table  5   Total Amount of 2 Versions Flushed Metadata Under Fio Test Based on SSD GB

    轮次NAT版本IBT版本
    首次写108.1107.2
    覆盖写153.3152.7
    下载: 导出CSV

    表  6   基于SSD的Fio测试中NAT块下刷统计

    Table  6   Statistics of Flushed NAT Block Under Fio Test Based on SSD

    轮次NAT块下刷量/GB比例/%
    首次写1.661.5
    覆盖写3.82.5
    下载: 导出CSV

    表  7   基于HDD的Fio测试中2个版本元数据下刷总量

    Table  7   Total Amount of 2 Versions Flushed Metadata Under Fio Test Based on HDD GB

    轮次NAT版本IBT版本
    首次写110.6109.1
    覆盖写155.0154.5
    下载: 导出CSV

    表  8   基于HDD的Fio测试中NAT块下刷统计

    Table  8   Statistics of Flushed NAT Block Under Fio Test Based on HDD

    轮次NAT块下刷量/GB比例/%
    首次写1.81.6
    覆盖写4.02.5
    下载: 导出CSV

    表  9   基于SSD的Filebench测试不同负载NAT块下刷统计

    Table  9   Statistics of Flushed NAT Block for Different Loads Under Filebench Test Based on SSD

    负载NAT块下刷量/GB比例/%
    varmail6.934.3
    fileserver8.236.0
    下载: 导出CSV

    表  10   基于HDD的Filebench测试不同负载NAT块下刷统计

    Table  10   Statistics of Flushed NAT Block for Different Loads Under Filebench Test Based on HDD

    负载NAT块下刷量/GB占比/%
    varmail0.417.3
    fileserver0.6320.7
    下载: 导出CSV
  • [1]

    Reinsel D, Gantz J, Rydning J. The digitization of the world – From edge to core [EB/OL]. 2018[2022-03-01].https://www.seagate.com/files/www-content/our-story/trends/files/idc-seagate-dataage-whitepaper.pdf

    [2]

    Western Digital. Ultrastar DC HC550 [EB/OL]. 2020[2022-03-01].https://www.westerndigital.com/products/internal-drives/data-center-drives/ultrastar-dc-hc550-hdd#0F38353

    [3]

    Western Digital. Ultrastar DC HC650 [EB/OL]. 2020[2022-03-01].https://documents.westerndigital.com/content/dam/doc-library/en_us/assets/public/western-digital/product/data-center-drives/ultrastar-dc-hc600-series/data-sheet-ultrastar-dc-hc650.pdf

    [4]

    Nimbus Data. ExaDrive DC series [EB/OL]. 2020[2022-03-01].https://nimbusdata.com/docs/ExaDrive-DC-Datasheet.pdf

    [5]

    Rosenblum M, Ousterhout J K. The design and implementation of a log-structured file system[J]. ACM Transactions on Computer Systems, 1992, 10(1): 26−52 doi: 10.1145/146941.146943

    [6]

    Konishi R, Amagai Y, Sato K, et al. The Linux implementation of a log-structured file system[J]. ACM SIGOPS Operating Systems Review, 2006, 40(3): 102−107 doi: 10.1145/1151374.1151375

    [7]

    Chen Feng, Koufaty D A, Zhang Xiaodong. Understanding intrinsic characteristics and system implications of flash memory based solid state drives[J]. ACM SIGMETRICS Performance Evaluation Review, 2009, 37(1): 181−92 doi: 10.1145/2492101.1555371

    [8]

    Bouganim L, Jónsson B, Bonnet P. uFLIP: Understanding flash IO patterns [J]. arXiv preprint, arXiv: 09091780, 2009

    [9]

    Min C, Kim K, Cho H, et al. SFS: Random write considered harmful in solid state drives [C/OL]//Proc of the 10th USENIX Conf on File and Storage Technologies (FAST’12). Berkeley, CA: USENIX Association, 2012: 139−154

    [10]

    Woodhouse D. JFFS: The journalling flash file system [C/OL]//Proc of the Ottawa Linux Symp. 2001[2022-02-22].https://www.kernel.org/doc/mirror/ols2001/jffs2.pdf

    [11]

    Lee C, Sim D, Hwang J, et al. F2FS: A new file system for flash storage [C]//Poc of the 13th USENIX Conf on File and Storage Technologies (FAST’15). Berkeley, CA: USENIX Association, 2015: 273−286

    [12]

    Davenport C. The Pixel 3 uses Samsung’s super-fast F2FS file system [EB/OL]. 2018[2022-03-25].https://www.androidpolice.com/2018/10/10/pixel-3-uses-samsungs-super-fast-f2fs-file-system/

    [13]

    Bjørling M, Aghayev A, Holmberg H, et al. ZNS: Avoiding the block interface tax for flash-based SSDs [C]//Proc of 2021 USENIX Annual Technical Conf (USENIX ATC’21). Berkeley, CA: USENIX Association, 2021: 689−703

    [14]

    Han K, Gwak H, Shin D, et al. ZNS+: Advanced zoned namespace interface for supporting in-storage zone compaction [C]//Proc of the 15th USENIX Symp on Operating Systems Design and Implementation (OSDI’21). Berkeley, CA: USENIX Association, 2021: 147−162

    [15]

    Na Wenwu, Meng Xiaoxuan, Si Chengxiang, et al. A novel network RAID architecture with out-of-band virtualization and redundant management [C] //Proc of the 14th Int Conf on Parallel and Distributed Systems (ICPADS 2008). Piscataway, NJ: IEEE, 2008: 105−112

    [16] 柯剑,朱旭东,那文武,等. 动态地址映射虚拟存储系统[J]. 计算机工程,2009,35(16):17−19,22 doi: 10.3969/j.issn.1000-3428.2009.16.006

    Ke Jian, Zhu Xudong, Na Wenwu, et al. Dynamic address mapping virtualization storage system[J]. Computer Engineering, 2009, 35(16): 17−19,22 (in Chinese) doi: 10.3969/j.issn.1000-3428.2009.16.006

    [17] 那文武,孟晓烜,柯剑,等. BW-VSDS:大容量、可扩展、高性能和高可靠性的网络虚拟存储系统[J]. 计算机研究与发展,2009,46(s2):88−95

    Na Wenwu, Meng Xiaoxuan, Ke Jian, et al. BW-VSDS: A network virtual storage system with large capacity, graceful scalability, high performance and high availability[J]. Journal of Computer Research and Development, 2009, 46(s2): 88−95 (in Chinese)

    [18]

    Bityutskiy A B. JFFS3 design issues [J/OL]. Memory Technology Device (MTD) Subsystem for Linux, 2005[2022-01-06]. http://linux-mtd.infradead.org/tech/JFFS3design.pdf

    [19]

    Linux Foundation. Linux kernel[EB/OL]. [2021-11-01].https://git.kernel.org/pub/scm/linux/kernel/git/torvalds/linux.git/

    [20]

    Rodeh O. B-trees, shadowing, and clones[J]. ACM Transactions on Storage, 2008, 3(4): 1−27

    [21]

    Rodeh O. B-trees, shadowing, and range-operations[R/OL]. IBM Research, 2006[2022-03-15].https://dominoweb.draco.res.ibm.com/reports/h-0248.pdf

    [22]

    Bayer R, Schkolnick M. Concurrency of operations on B-trees[J]. Acta Informatica, 1977, 9(1): 1−21

    [23]

    Kim J. f2fs-tools[EB/OL]. [2021-10-15].https://github.com/jaegeuk/f2fs-tools

    [24] 杨勇鹏. SSD 缓存系统的内元数据结构研究与实现[D]. 北京: 中国科学院大学, 2018

    Yang Yongpeng. Research and implementation of memory metadata structure of SSD cache system[D]. Beijing: University of Chinese Academy of Sciences, 2018(in Chinese)

    [25]

    Axboe J. Flexible I/O tester [EB/OL]. [2022-03-16].https://github.com/axboe/fio

    [26]

    github. Filebench [EB/OL]. [2022-03-16].https://github.com/filebench/filebench

  • 期刊类型引用(10)

    1. 秦涛,杜尚恒,常元元,王晨旭. ChatGPT的工作原理、关键技术及未来发展趋势. 西安交通大学学报. 2024(01): 1-12 . 百度学术
    2. 贺鑫,王晓燕,周启香,张文凯. 基于深度学习的眼底血管图像分割研究进展. 计算机系统应用. 2024(03): 12-23 . 百度学术
    3. 王海鹏,高自强,董佳俊,胡军,陈奕帆,丁卫平. 基于粗糙注意力融合机制与Group Transformer的视网膜血管分割网络. 南通大学学报(自然科学版). 2024(01): 28-37+48 . 百度学术
    4. 徐武,沈智方,范鑫豪,刘洋,徐天奇. 改进D-Linknet的眼底视网膜血管分割. 应用科技. 2024(02): 99-104+119 . 百度学术
    5. 张子旭,李嘉莹,栾鹏鹏,彭圆圆. 基于注意力机制的U-Net眼底图像分割算法. 计算机与现代化. 2024(05): 110-114 . 百度学术
    6. 符灵利,邱宇,张新晨. 基于改进U-Net多特征融合的血管分割. 计算机与现代化. 2024(06): 76-82 . 百度学术
    7. 窦全胜,李丙春,刘静,张家源. 基于多方向特征和连通性检测的眼底图像分割. 吉林大学学报(信息科学版). 2024(04): 690-699 . 百度学术
    8. 张文杰,宋艳涛,王克琪,张越. 基于自分块轻量化Transformer的医学图像分割网络. 计算机应用研究. 2024(11): 3502-3508 . 百度学术
    9. 徐光宪,冯春,马飞. 基于UNet的医学图像分割综述. 计算机科学与探索. 2023(08): 1776-1792 . 百度学术
    10. 梁礼明,阳渊,何安军,李仁杰. 跨级可变形Transformer编解码视网膜图像分割算法. 无线电工程. 2023(09): 1990-2001 . 百度学术

    其他类型引用(15)

图(14)  /  表(10)
计量
  • 文章访问数:  230
  • HTML全文浏览量:  26
  • PDF下载量:  125
  • 被引次数: 25
出版历程
  • 收稿日期:  2022-06-15
  • 修回日期:  2023-01-11
  • 网络出版日期:  2023-02-26
  • 刊出日期:  2023-02-28

目录

/

返回文章
返回